SVM Flashcards

Question 1

Q

De forma geral como funciona a técnica SVM?

Answer

A

Essa implementa um mapeamento não-linear (produto interno kernel) dos dados de entrada para um espaço de características (feature space) de alta dimensão onde um hiperplano ótimo é construído para separar os dados linearmente em duas classes.

Question 2

Q

De onde se deriva a teoria de SVM?

Answer

A

Derivam de uma técnica de aprendizado de máquina fundamentada nos príncipios indutivos da Minimização do Risco Estrutural.

Estes são provenientes da Teoria do Apredizado Estátistico -> o erro de generalização é limitado pelo erro de treinamento mais um termo que depende da dimensão de VC.

Question 3

Q

O que significa um hiperplano ótimo no contexto da SVM?

Answer

A

No espaço de características é aquele que apresenta a máxima margem de separação rho.
A margem de separação é a separação entre o hiperplano g(x) = (w^Tx) + b = 0 e o dado de entrada mais próximo. (metade da projeção na direção de w da diferença entre os vetores suportes)
Nesse ponto maximizar a margem de separação significa minimizar o ||w||

Question 4

Q

O que são os vetores suporte?

Answer

A

São os dados de entrada mais próximo do hiperplano (mais perto da superfície de decisão).
Dados de treinamento que se encontram a distância rho do hiperplano ótimo.

yi[(w^Tx) + b] - 1 = 0

Question 5

Q

O que é risco esperado?

Answer

A

Valor médio da função de perda tomado sobre todo o universo de instâncias de entrada z.

I(alpha) = int(Q(z,alpha)P(z)dz)

onde Q(z,alpha) é a função que define a perda de aproximação de y por F(x,alpha)

Como P(z) é desconhecido é impossivel minimizar diretamente o risco esperado.

Question 6

Q

O que é o risco empírico?

Answer

A

é uma aproximação do risco esperado dado na forma

Iemp(alpha) = 1/N sum_{i=1}^{N}Q(z,alpha)

Não existe necessidade desses dois funcionais serem próximos para todo alpha.
mas deve se garantir que o mínimo do risco empírico se aproxime do risco esperado.

o alpha que miminiza o Iemp(alpha) deve estar próximo do alpha que minimiza I(alpha)

Question 7

Q

O que é o truque do kernel em uma SVM?

Answer

A

K(xi,xj) = phi(xi)^T*phi(xj)

Em lugar de realizar o produto interno phi(xi)^T*phi(xj) é possível aplicar diretamente K(xi,xj) (produto interno kernel)

Substitui-se o produto interno num espaço de elevada dimensão q (feature space) pela aplicação da função kernel K(xi,xj)

não é necessário conhecer a função phi(.): R^m -> R^q

Question 8

Q

Qual o teorema de Mercer? E sua importância na determinação função kernel K(xi,xj)?

Answer

A

Afirma que a função simétrica K(xi,xj) pode ser expressa como um produto interno
phi(xi)^T*phi(xj)

para alguma função função phi(.): R^m -> R^q

<=>

K = {k(xi,xj)}
i,j = 1 … N

Question 9

Q

O que é a dimensão de Vapnik-Chervonenkis (VC)?

Answer

A

Dado um espaço de hipóteses H

a dimensão VC é o número efetivo de parâmetros de modelos percetences a este espaço de hipóteses /h

h = d_VC(H)

Quando h é finita os modelos pertecentes a H podem generalizar (sendo N suficientemente elevado) assim o risco empirico tende ao risco esperado tanto quanto se queira.

h está associada ao maior número de pontos que um modelo pertecente a H pode classificar corretamente.

Question 10

Q

Em uma SVM caso não linearmente separável por que é interessante usar CV para melhorar suar generalização?

Answer

A

SVM no caso não linearmente separável apresenta os coeficientes de penalização C+ e C-
que se forem mal definidos levam a grande vício (overfitting).

Uma vez que SVM apresenta (para K(xi,xj) satisfazendo o teorema de Mercer) solução única que não presença de mínimos locais.

O uso de CV pode ser bastante útil pra encontrar C+ e C- obtendo assim um modelo mais regularizado e reduzindo o vício.

Question 11

Q

Explique o príncipio da minimização do risco estrutural.

Answer

A

Equivale a transformar a dimensão VC(Vapnik-Chervonenkis) numa variável controlável, buscando uma complexidade (flexibilidade) ótima do modelo para o tamanho da amostra.

ao minimizar o risco estrutural obtem-se um resultado mais próximo do risco esperado (true risk) maximizando a capacidade de generalização.

Question 12

Q

E uma aproximação dos funcionais Iemp(alpha) e I(alpha) qual a melhor métrica L_2 ou L_inf?

Answer

A

L_inf é mais restrito que L_2, pois duas funções proximas segundo L_inf são sempre próximas segundo L_2, mas a recíproca não vale.

quando L_inf tende a zero é garantido que minimo de f_1(x) coincide com mínimo e f_2(x)

já quando L_2 tende zero não é possivel garantir que minimo de f_1(x) coincide com mínimo e f_2(x) (hão há convergencia uniforme)