Prova Flashcards
O que é uma IA baseada em lógica?
Utiliza uma base de conhecimento e regras lógicas para fazer deduções
Qaul é a ideia da aprendizagem de máquina?
Construir um modelo matemático que dependa de parâmetros a firm de otimizar a aprendizagem
Qual é a ideia do modelo de apreindizagem supervisionada?
Um conjunto de dados é usado para ajustar os parâmetros de um modelo adaptativo
Qual o resultado do algoritmo de aprendizagem de máquina?
uma função f_w(x) que recebe um grupo de valores de entrada e gera uma saida y indicando a classe prevista de x
O que é aprendizagem?
Usar os dados para ajustar os parâmetros para que a função calculada resolva o problema
Quais são as classes de modelo com base nos tipos de dados?
1) Aprendizagem Supervisionada
2) Aprendizagem não supervisionada
3) Aprendizagem semi-supervisionada
4) Aprendizagem por reforço
Qual é a diferença entre aprendizagem supervisionada e não supervisionada?
Na supervisionada temos informação sobre o target
Quais as classes de modelo com base nas funções aprendidas?
1) Aprendizagem baseada em instância
2) Aprendizagem baseada em modelo
Quais as classes de modelo com base nos dados processados?
1) Aprendizagem em batch: dados existentes
2) Aprendizagem online: fluxo contínuo de dados
Qual a função de erro na aproximação polinomial?
SSE
Como escolher o melhor grau do polinômio:
Treinar o modelo com um grupo de dados e aplicar no grupo de teste para medir o erro
O que é o problema de overfitting?
Polinomios se ttonam mais sintonizados com o ruído aleatório
Como corrigir o problema de overfitting?
Mais dados
O que é regularização?
Adicionamos uma penalidade à função erro para que os coeficientes não atinjam valores grandes:
SSE + lambda/2 ||w||^2
Quais as hipóteses da aproximação polinomial?
1) Existe relação entre features e valores a serem preditos
2) Os dados precisam ser semelhantes à aqueles que vou fazer previsão no futuro
Quais são possíveis problemas da aproximação polinomial?
1) Quantidade insuficiente de daods
2) Dados de treinamento não representativos
3) Dados de baixa qualidade
4) Características irrelevantes
Como usar o conjuntos de treino, validação e teste?
1) Escolha a forma do modelo
2) Treine o modelo
3) Teste o desempenho no grupo de validação
4) Repita etapas 1-3 para todos conuntos de parâmetros
5)Selecione o melhor conjunto de parâmerotros com o melhor grupo de validação
6) Junte os grupos de validação e treino para treinar os parâmetros que você escolheu em 5
7) Meça o desemepnho no grupo de teste
Como fazer cross-validation?
1) Particionar os dados em S grupos
2) Use (S-1) grupos para o treinamento e um para teste
3) Repita o passo 2. S vezes
4) Faça a média das pontuações dos S conjuntos de teste
O que é o erro tipo 1?
Falso positivo
Oque é o erro tipo 2?
Falso negativo
Oque é acurácia?
Porcentagem de previsões certas
O que é Precisão
Acurácia das previsões positivas
O que é Recall?
Porcentagem de positivos que são previstos corretamente
O que é speficity?
Porcentagem de negativos que são previstos corretamente
Como calcular a Curva ROC?
Calcular o True Positive Ratio e Negative Positive Ratio para diferentes valores do limiar t. Assim obtemos a matriz de confusão
Enuncie o teorema de bayes
p(C | x) = p(x|C)p(C)/p(x)
O que são modelos generativos?
Inferir p(x|C) e p(C) para cada classe. Use os para encontrar p(x). Usar o teorema de Bayes para encontrar p(C|x)
O que são modelos discriminativos?
Inferir p(C|x) diretamente
O que é uma função discriminante?
Aprenda uma função f(x), que mapeia a cada entrada x diretamente em um rótulo de classe -> Não há probabilidade
Qual a ideia do algoritmo de K-Nearest Neighbor?
Determina a identidade de um ponto usando pontos próximos do conjunto de treinamento
Qual o algoritmo do K-nearest-neighbor
1) Ecolha k>0
2) Indentifique K pontos vizinhos
3) Para cada classe j calcular a fração de pontos com rótulo j
4) Classifique como aquele com maior fração
O que é o problema de detecção de outliers?
Construa p(x) usando dados do do comportamento “normal” do sistema. Quando uma nova entrada calcula sua probabilidade sob o modelo, se for muito baixa é uma anomalia
O que é um método paramétrico?
- Definimos a forma da dstribuição
- Aprendemos os parâmetros
O que é um método não paramétrico?
- Evita definir distribuições específicas
- Existem parâmetros, mas eles apenas controlam a complexidade do modelo
O que é o modelo gaussiano único?
Por hipótese assumimos que seguem uma normal independente. Econtramos como parâmetros da nossa distribuição a média amostral de x e a variância viesada de x
O que é uma mistura de Gaussianas?
Cada densidade Gaussiana pe um componente da mistura e tem sua prórpira média e covariância
Oque é o algoritmo EM para misturas gaussianas?
1) E-Step: Calcule as probabilidades posteriores dado o nosso modelo atual
2) Passo M: Altere os parâmetros de cada gaussiana para maximizar a probabilidade de que ele gere os dados plos quai é responsável
Qual a ideia do HIstograma?
1) particionar x em compartimentos distintos
2) Calculcar o numero de observações em cada bin
3) Divida pelo numero total de observações
4) A probabilidade é dada pelo número de pontos na região dividido pelo volume e número totald e observações
O que acontece se fixarmos o número de pontos na região de um histograma?
Obtemos um estimador de K-nearest-eighbor
O que acontece se fixarmos o volume de um histograma?
Kernel
Qual a ideia do modelo Naive Bayes?
Supões que os valores atribidos são condicionalmente independentes dados os valores de destino.
Logo, p(x|c_i) = \prod p(x_j |c_i)
p(x_j |c_i) -> pode ser modelado com uma distribuição paramétrica
Defina o problema de regressão
Dados N observações {x_n} onde n = 1,…N juntamente com os valores de destino correspondentes, o objetivo é prever o valor t para um novo valor de x
Qual o estimador dos parâmetros no problema de regressão?
(Φ’Φ)^(-1) Φ’t
O que é um algoritmo sequencial?
OS datapoints são considerados um de cada vez e os parâmetros do modelo são atualizados após cada apresentação
Apresente o agoritmo de agradiente estocástico
w_(t+1) = w_(t) - η∇E_n
Qual é a ideia do minínimos quadrados regularizados
Adicionar um termo de regularização a uma função de erro para controlar o ajuste excessivo
Como podemos facilitat o modelo de classificação?
Aplicar uma trasnformação
Oque são modelos discriminativos probabilísticos?
USar a forma funcional do modelo linear generalizadao e determinar seus parâmetros diretamente usando a máxima verossimilhança.
Qual o problema para resolver a maximização da função de máxima verossimilihnaça da regressão logística?
Não há formula fehcada desta vez. Para aprender w pode-se usar um procedimento sequencial onde os datapoints são apresentados um de cada vez
Oque é a função de cross entropy da regressão logística
- Σ|t_n ln y_n +(1-t_n) ln(1-y_n))
Qual a ideia das redes neurais
Fazer com que as funções de base ϕ*x) dependam de parâmetros sejam ajustadas durante o treinamento
Apresente o algoritmo forward de uma rede neural
1) Construa M combinnações lineares das variáveis x: a = Σw_1x + w_0
2) Cada combinação é transformada usando uma função de ativação: z = h(a)
3) Esses valores são combinados lienarmente de novo
4) E assim por diante, até a última função de ativação
Se O que acontece se todas as funções de ativação forem lineares?
Sempre podemos encontrar uma rede equivalente sem unidades ocultas
O que significa que as redes neurais são aproximadores universais?
Uma rede de duas camadas com saídas lineares pode aproximar uniformemente qualquer função contínua em um domínio de entrada compacto com precisão arbitrária, desde que a rede tenha um número suficiente grande de unidades ocultas
Como fazer o treinamento de ume rede neural?
1) Calcular as derivadas da função error em relação aos pesos (backpropagation)
2) Usar as derivadas para calcular os ajustes dos pesos
Como fazer o algoritmo de retropropagação para unidade final?
(y_i-t_i)z_i
Como fazer o algoritmo de retropropagação para unidade oculta?
δ_j= h’(a_j)Σw_k δ_k
A derivada é dada por δ_j z_j
Como é o algoritmo para retropropagação do erro:
1) Aplique um vetor de entrada x_n à rede e avance a propagação através da rede
2) Avalie δ_k para todas as unidades de saída
3) Use a formula de retropropagação para retropropagar os δ e obter δ_j para cada unidade oculta
4) As derivadas são dadas por δ_jz_j
Qual é a ideia de Arvores de Decisão
1) Segmente o espaçõ de entrada em regiões
2) Para prever um novo datapoint: use a média ou o rótulo majoritário
Qual é o algoritmo para construir as regiões na árvore de decisão?
1) A cada passo seleiconamos a feature X_j e o ponto de corte s
2) Definimos o par de semiplanos: R1 = {X | Xj <s} R2 = {X | Xj >s}
3) Escolhemos j e s que minimizam Σ(y_i-hat{y_i}_R1)^2 + Σ(y_i-hat{y_i}_R2)^2
4) Continuamos o processos até atingir o critério de parada
Porque é necessário “podar” a arvore?
Uma arvore grande irá sobreajustar os dados
Oque é a poda de complexidade de custo
Consideramos uma sequência de árvores indexadas por um parâmetro de ajuste não negativo
Calculamos
ΣΣ(y_i-hat{y_i}_Rm)^2 + α|T|
Oque é a pureza de um nó na arvore de classifcação
Como, para uma região, pretendemos prever a classe mais comum naquela região, precisamos “quantificar” com que frequência os pontos não pertencem a essa classe
Oque fazemos na prática na poda de uma árvore?
1) Todos os pares de nós folha vizinhos (ligados a um nó antecedennte comum) são considerados para eliminação
2) Qualquer cuja eliminação produz um aumento satisfatório no desempenho no conjunto de validação cruzada é eliminado e o nó antecedente considerado uma folha
Oque é o método de Bagging?
1) Usar o bootstrap para obter mais conjuntos de treinamento
2) Construir um modelo de previsão separado para cada conjunto de treinamento
3) Tirar a média das previsões
Qual é o grupo de teste no Bagging?
Ou-of-bag: Aqueles que não são usados para o aprendizado do modelo
Qual é o problema de bagged trees?
Se uma feature é um preditor forte, a maioria das árvores será semelhante. Isso leva a previsões semelhantes e o bagging não é eficaz
O que é o modelo de random forest?
1) Construímos uma série de árvores de decisão em amostras de treinamento bootstrap
2) Em cada divisão, uma amostra aleatória de me features é escolhida como candidata a divisão de conjunto completo de p features
Quais as semelhanças entre o Bagging e o Boosting?
1) Criamos vários conjuntos de dados
2) Combinamos as saídas
Qual a diferença entre Baggin e Boosting?
Bagging: Cada modelo é construído em um conjunto de dados bootstrap, independente dos outros modelos
Boosting: Cada aprendiz é construído sobre um conjunto de dados cuja composição depende do desemplenho dosmodelos que foram construídos anteriormente
Qual é a ideia do boostng?
Usar o subconjunto de dados de treinamento que são “mais informativos” a cada passo