SVM Flashcards

1
Q

De forma geral como funciona a técnica SVM?

A

Essa implementa um mapeamento não-linear (produto interno kernel) dos dados de entrada para um espaço de características (feature space) de alta dimensão onde um hiperplano ótimo é construído para separar os dados linearmente em duas classes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

De onde se deriva a teoria de SVM?

A

Derivam de uma técnica de aprendizado de máquina fundamentada nos príncipios indutivos da Minimização do Risco Estrutural.

Estes são provenientes da Teoria do Apredizado Estátistico -> o erro de generalização é limitado pelo erro de treinamento mais um termo que depende da dimensão de VC.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que significa um hiperplano ótimo no contexto da SVM?

A

No espaço de características é aquele que apresenta a máxima margem de separação rho.
A margem de separação é a separação entre o hiperplano g(x) = (w^Tx) + b = 0 e o dado de entrada mais próximo. (metade da projeção na direção de w da diferença entre os vetores suportes)
Nesse ponto maximizar a margem de separação significa minimizar o ||w||

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que são os vetores suporte?

A

São os dados de entrada mais próximo do hiperplano (mais perto da superfície de decisão).
Dados de treinamento que se encontram a distância rho do hiperplano ótimo.

yi[(w^Tx) + b] - 1 = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é risco esperado?

A

Valor médio da função de perda tomado sobre todo o universo de instâncias de entrada z.

I(alpha) = int(Q(z,alpha)P(z)dz)

onde Q(z,alpha) é a função que define a perda de aproximação de y por F(x,alpha)

Como P(z) é desconhecido é impossivel minimizar diretamente o risco esperado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é o risco empírico?

A

é uma aproximação do risco esperado dado na forma

Iemp(alpha) = 1/N sum_{i=1}^{N}Q(z,alpha)

Não existe necessidade desses dois funcionais serem próximos para todo alpha.
mas deve se garantir que o mínimo do risco empírico se aproxime do risco esperado.

o alpha que miminiza o Iemp(alpha) deve estar próximo do alpha que minimiza I(alpha)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é o truque do kernel em uma SVM?

A

K(xi,xj) = phi(xi)^T*phi(xj)

Em lugar de realizar o produto interno phi(xi)^T*phi(xj) é possível aplicar diretamente K(xi,xj) (produto interno kernel)

Substitui-se o produto interno num espaço de elevada dimensão q (feature space) pela aplicação da função kernel K(xi,xj)

não é necessário conhecer a função phi(.): R^m -> R^q

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qual o teorema de Mercer? E sua importância na determinação função kernel K(xi,xj)?

A

Afirma que a função simétrica K(xi,xj) pode ser expressa como um produto interno
phi(xi)^T*phi(xj)

para alguma função função phi(.): R^m -> R^q

<=>

K = {k(xi,xj)}
i,j = 1 … N

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que é a dimensão de Vapnik-Chervonenkis (VC)?

A

Dado um espaço de hipóteses H

a dimensão VC é o número efetivo de parâmetros de modelos percetences a este espaço de hipóteses /h

h = d_VC(H)

Quando h é finita os modelos pertecentes a H podem generalizar (sendo N suficientemente elevado) assim o risco empirico tende ao risco esperado tanto quanto se queira.

h está associada ao maior número de pontos que um modelo pertecente a H pode classificar corretamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Em uma SVM caso não linearmente separável por que é interessante usar CV para melhorar suar generalização?

A

SVM no caso não linearmente separável apresenta os coeficientes de penalização C+ e C-
que se forem mal definidos levam a grande vício (overfitting).

Uma vez que SVM apresenta (para K(xi,xj) satisfazendo o teorema de Mercer) solução única que não presença de mínimos locais.

O uso de CV pode ser bastante útil pra encontrar C+ e C- obtendo assim um modelo mais regularizado e reduzindo o vício.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Explique o príncipio da minimização do risco estrutural.

A

Equivale a transformar a dimensão VC(Vapnik-Chervonenkis) numa variável controlável, buscando uma complexidade (flexibilidade) ótima do modelo para o tamanho da amostra.

ao minimizar o risco estrutural obtem-se um resultado mais próximo do risco esperado (true risk) maximizando a capacidade de generalização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

E uma aproximação dos funcionais Iemp(alpha) e I(alpha) qual a melhor métrica L_2 ou L_inf?

A

L_inf é mais restrito que L_2, pois duas funções proximas segundo L_inf são sempre próximas segundo L_2, mas a recíproca não vale.

quando L_inf tende a zero é garantido que minimo de f_1(x) coincide com mínimo e f_2(x)

já quando L_2 tende zero não é possivel garantir que minimo de f_1(x) coincide com mínimo e f_2(x) (hão há convergencia uniforme)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly