SVM Flashcards
De forma geral como funciona a técnica SVM?
Essa implementa um mapeamento não-linear (produto interno kernel) dos dados de entrada para um espaço de características (feature space) de alta dimensão onde um hiperplano ótimo é construído para separar os dados linearmente em duas classes.
De onde se deriva a teoria de SVM?
Derivam de uma técnica de aprendizado de máquina fundamentada nos príncipios indutivos da Minimização do Risco Estrutural.
Estes são provenientes da Teoria do Apredizado Estátistico -> o erro de generalização é limitado pelo erro de treinamento mais um termo que depende da dimensão de VC.
O que significa um hiperplano ótimo no contexto da SVM?
No espaço de características é aquele que apresenta a máxima margem de separação rho.
A margem de separação é a separação entre o hiperplano g(x) = (w^Tx) + b = 0 e o dado de entrada mais próximo. (metade da projeção na direção de w da diferença entre os vetores suportes)
Nesse ponto maximizar a margem de separação significa minimizar o ||w||
O que são os vetores suporte?
São os dados de entrada mais próximo do hiperplano (mais perto da superfície de decisão).
Dados de treinamento que se encontram a distância rho do hiperplano ótimo.
yi[(w^Tx) + b] - 1 = 0
O que é risco esperado?
Valor médio da função de perda tomado sobre todo o universo de instâncias de entrada z.
I(alpha) = int(Q(z,alpha)P(z)dz)
onde Q(z,alpha) é a função que define a perda de aproximação de y por F(x,alpha)
Como P(z) é desconhecido é impossivel minimizar diretamente o risco esperado.
O que é o risco empírico?
é uma aproximação do risco esperado dado na forma
Iemp(alpha) = 1/N sum_{i=1}^{N}Q(z,alpha)
Não existe necessidade desses dois funcionais serem próximos para todo alpha.
mas deve se garantir que o mínimo do risco empírico se aproxime do risco esperado.
o alpha que miminiza o Iemp(alpha) deve estar próximo do alpha que minimiza I(alpha)
O que é o truque do kernel em uma SVM?
K(xi,xj) = phi(xi)^T*phi(xj)
Em lugar de realizar o produto interno phi(xi)^T*phi(xj) é possível aplicar diretamente K(xi,xj) (produto interno kernel)
Substitui-se o produto interno num espaço de elevada dimensão q (feature space) pela aplicação da função kernel K(xi,xj)
não é necessário conhecer a função phi(.): R^m -> R^q
Qual o teorema de Mercer? E sua importância na determinação função kernel K(xi,xj)?
Afirma que a função simétrica K(xi,xj) pode ser expressa como um produto interno
phi(xi)^T*phi(xj)
para alguma função função phi(.): R^m -> R^q
<=>
K = {k(xi,xj)}
i,j = 1 … N
O que é a dimensão de Vapnik-Chervonenkis (VC)?
Dado um espaço de hipóteses H
a dimensão VC é o número efetivo de parâmetros de modelos percetences a este espaço de hipóteses /h
h = d_VC(H)
Quando h é finita os modelos pertecentes a H podem generalizar (sendo N suficientemente elevado) assim o risco empirico tende ao risco esperado tanto quanto se queira.
h está associada ao maior número de pontos que um modelo pertecente a H pode classificar corretamente.
Em uma SVM caso não linearmente separável por que é interessante usar CV para melhorar suar generalização?
SVM no caso não linearmente separável apresenta os coeficientes de penalização C+ e C-
que se forem mal definidos levam a grande vício (overfitting).
Uma vez que SVM apresenta (para K(xi,xj) satisfazendo o teorema de Mercer) solução única que não presença de mínimos locais.
O uso de CV pode ser bastante útil pra encontrar C+ e C- obtendo assim um modelo mais regularizado e reduzindo o vício.
Explique o príncipio da minimização do risco estrutural.
Equivale a transformar a dimensão VC(Vapnik-Chervonenkis) numa variável controlável, buscando uma complexidade (flexibilidade) ótima do modelo para o tamanho da amostra.
ao minimizar o risco estrutural obtem-se um resultado mais próximo do risco esperado (true risk) maximizando a capacidade de generalização.
E uma aproximação dos funcionais Iemp(alpha) e I(alpha) qual a melhor métrica L_2 ou L_inf?
L_inf é mais restrito que L_2, pois duas funções proximas segundo L_inf são sempre próximas segundo L_2, mas a recíproca não vale.
quando L_inf tende a zero é garantido que minimo de f_1(x) coincide com mínimo e f_2(x)
já quando L_2 tende zero não é possivel garantir que minimo de f_1(x) coincide com mínimo e f_2(x) (hão há convergencia uniforme)