Prova Flashcards

1
Q

O que é uma IA baseada em lógica?

A

Utiliza uma base de conhecimento e regras lógicas para fazer deduções

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qaul é a ideia da aprendizagem de máquina?

A

Construir um modelo matemático que dependa de parâmetros a firm de otimizar a aprendizagem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual é a ideia do modelo de apreindizagem supervisionada?

A

Um conjunto de dados é usado para ajustar os parâmetros de um modelo adaptativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qual o resultado do algoritmo de aprendizagem de máquina?

A

uma função f_w(x) que recebe um grupo de valores de entrada e gera uma saida y indicando a classe prevista de x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O que é aprendizagem?

A

Usar os dados para ajustar os parâmetros para que a função calculada resolva o problema

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quais são as classes de modelo com base nos tipos de dados?

A

1) Aprendizagem Supervisionada
2) Aprendizagem não supervisionada
3) Aprendizagem semi-supervisionada
4) Aprendizagem por reforço

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qual é a diferença entre aprendizagem supervisionada e não supervisionada?

A

Na supervisionada temos informação sobre o target

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quais as classes de modelo com base nas funções aprendidas?

A

1) Aprendizagem baseada em instância
2) Aprendizagem baseada em modelo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais as classes de modelo com base nos dados processados?

A

1) Aprendizagem em batch: dados existentes
2) Aprendizagem online: fluxo contínuo de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qual a função de erro na aproximação polinomial?

A

SSE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Como escolher o melhor grau do polinômio:

A

Treinar o modelo com um grupo de dados e aplicar no grupo de teste para medir o erro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é o problema de overfitting?

A

Polinomios se ttonam mais sintonizados com o ruído aleatório

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Como corrigir o problema de overfitting?

A

Mais dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

O que é regularização?

A

Adicionamos uma penalidade à função erro para que os coeficientes não atinjam valores grandes:
SSE + lambda/2 ||w||^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quais as hipóteses da aproximação polinomial?

A

1) Existe relação entre features e valores a serem preditos
2) Os dados precisam ser semelhantes à aqueles que vou fazer previsão no futuro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quais são possíveis problemas da aproximação polinomial?

A

1) Quantidade insuficiente de daods
2) Dados de treinamento não representativos
3) Dados de baixa qualidade
4) Características irrelevantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Como usar o conjuntos de treino, validação e teste?

A

1) Escolha a forma do modelo
2) Treine o modelo
3) Teste o desempenho no grupo de validação
4) Repita etapas 1-3 para todos conuntos de parâmetros
5)Selecione o melhor conjunto de parâmerotros com o melhor grupo de validação
6) Junte os grupos de validação e treino para treinar os parâmetros que você escolheu em 5
7) Meça o desemepnho no grupo de teste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Como fazer cross-validation?

A

1) Particionar os dados em S grupos
2) Use (S-1) grupos para o treinamento e um para teste
3) Repita o passo 2. S vezes
4) Faça a média das pontuações dos S conjuntos de teste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que é o erro tipo 1?

A

Falso positivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Oque é o erro tipo 2?

A

Falso negativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Oque é acurácia?

A

Porcentagem de previsões certas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

O que é Precisão

A

Acurácia das previsões positivas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

O que é Recall?

A

Porcentagem de positivos que são previstos corretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

O que é speficity?

A

Porcentagem de negativos que são previstos corretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Como calcular a Curva ROC?

A

Calcular o True Positive Ratio e Negative Positive Ratio para diferentes valores do limiar t. Assim obtemos a matriz de confusão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Enuncie o teorema de bayes

A

p(C | x) = p(x|C)p(C)/p(x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

O que são modelos generativos?

A

Inferir p(x|C) e p(C) para cada classe. Use os para encontrar p(x). Usar o teorema de Bayes para encontrar p(C|x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

O que são modelos discriminativos?

A

Inferir p(C|x) diretamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

O que é uma função discriminante?

A

Aprenda uma função f(x), que mapeia a cada entrada x diretamente em um rótulo de classe -> Não há probabilidade

30
Q

Qual a ideia do algoritmo de K-Nearest Neighbor?

A

Determina a identidade de um ponto usando pontos próximos do conjunto de treinamento

31
Q

Qual o algoritmo do K-nearest-neighbor

A

1) Ecolha k>0
2) Indentifique K pontos vizinhos
3) Para cada classe j calcular a fração de pontos com rótulo j
4) Classifique como aquele com maior fração

32
Q

O que é o problema de detecção de outliers?

A

Construa p(x) usando dados do do comportamento “normal” do sistema. Quando uma nova entrada calcula sua probabilidade sob o modelo, se for muito baixa é uma anomalia

33
Q

O que é um método paramétrico?

A
  • Definimos a forma da dstribuição
  • Aprendemos os parâmetros
34
Q

O que é um método não paramétrico?

A
  • Evita definir distribuições específicas
  • Existem parâmetros, mas eles apenas controlam a complexidade do modelo
35
Q

O que é o modelo gaussiano único?

A

Por hipótese assumimos que seguem uma normal independente. Econtramos como parâmetros da nossa distribuição a média amostral de x e a variância viesada de x

36
Q

O que é uma mistura de Gaussianas?

A

Cada densidade Gaussiana pe um componente da mistura e tem sua prórpira média e covariância

37
Q

Oque é o algoritmo EM para misturas gaussianas?

A

1) E-Step: Calcule as probabilidades posteriores dado o nosso modelo atual
2) Passo M: Altere os parâmetros de cada gaussiana para maximizar a probabilidade de que ele gere os dados plos quai é responsável

38
Q

Qual a ideia do HIstograma?

A

1) particionar x em compartimentos distintos
2) Calculcar o numero de observações em cada bin
3) Divida pelo numero total de observações
4) A probabilidade é dada pelo número de pontos na região dividido pelo volume e número totald e observações

39
Q

O que acontece se fixarmos o número de pontos na região de um histograma?

A

Obtemos um estimador de K-nearest-eighbor

40
Q

O que acontece se fixarmos o volume de um histograma?

A

Kernel

41
Q

Qual a ideia do modelo Naive Bayes?

A

Supões que os valores atribidos são condicionalmente independentes dados os valores de destino.
Logo, p(x|c_i) = \prod p(x_j |c_i)
p(x_j |c_i) -> pode ser modelado com uma distribuição paramétrica

42
Q

Defina o problema de regressão

A

Dados N observações {x_n} onde n = 1,…N juntamente com os valores de destino correspondentes, o objetivo é prever o valor t para um novo valor de x

43
Q

Qual o estimador dos parâmetros no problema de regressão?

A

(Φ’Φ)^(-1) Φ’t

44
Q

O que é um algoritmo sequencial?

A

OS datapoints são considerados um de cada vez e os parâmetros do modelo são atualizados após cada apresentação

45
Q

Apresente o agoritmo de agradiente estocástico

A

w_(t+1) = w_(t) - η∇E_n

46
Q

Qual é a ideia do minínimos quadrados regularizados

A

Adicionar um termo de regularização a uma função de erro para controlar o ajuste excessivo

47
Q

Como podemos facilitat o modelo de classificação?

A

Aplicar uma trasnformação

48
Q

Oque são modelos discriminativos probabilísticos?

A

USar a forma funcional do modelo linear generalizadao e determinar seus parâmetros diretamente usando a máxima verossimilhança.

49
Q

Qual o problema para resolver a maximização da função de máxima verossimilihnaça da regressão logística?

A

Não há formula fehcada desta vez. Para aprender w pode-se usar um procedimento sequencial onde os datapoints são apresentados um de cada vez

50
Q

Oque é a função de cross entropy da regressão logística

A
  • Σ|t_n ln y_n +(1-t_n) ln(1-y_n))
51
Q

Qual a ideia das redes neurais

A

Fazer com que as funções de base ϕ*x) dependam de parâmetros sejam ajustadas durante o treinamento

52
Q

Apresente o algoritmo forward de uma rede neural

A

1) Construa M combinnações lineares das variáveis x: a = Σw_1x + w_0
2) Cada combinação é transformada usando uma função de ativação: z = h(a)
3) Esses valores são combinados lienarmente de novo
4) E assim por diante, até a última função de ativação

53
Q

Se O que acontece se todas as funções de ativação forem lineares?

A

Sempre podemos encontrar uma rede equivalente sem unidades ocultas

54
Q

O que significa que as redes neurais são aproximadores universais?

A

Uma rede de duas camadas com saídas lineares pode aproximar uniformemente qualquer função contínua em um domínio de entrada compacto com precisão arbitrária, desde que a rede tenha um número suficiente grande de unidades ocultas

55
Q

Como fazer o treinamento de ume rede neural?

A

1) Calcular as derivadas da função error em relação aos pesos (backpropagation)
2) Usar as derivadas para calcular os ajustes dos pesos

56
Q

Como fazer o algoritmo de retropropagação para unidade final?

A

(y_i-t_i)z_i

57
Q

Como fazer o algoritmo de retropropagação para unidade oculta?

A

δ_j= h’(a_j)Σw_k δ_k
A derivada é dada por δ_j z_j

58
Q

Como é o algoritmo para retropropagação do erro:

A

1) Aplique um vetor de entrada x_n à rede e avance a propagação através da rede
2) Avalie δ_k para todas as unidades de saída
3) Use a formula de retropropagação para retropropagar os δ e obter δ_j para cada unidade oculta
4) As derivadas são dadas por δ_jz_j

59
Q

Qual é a ideia de Arvores de Decisão

A

1) Segmente o espaçõ de entrada em regiões
2) Para prever um novo datapoint: use a média ou o rótulo majoritário

60
Q

Qual é o algoritmo para construir as regiões na árvore de decisão?

A

1) A cada passo seleiconamos a feature X_j e o ponto de corte s
2) Definimos o par de semiplanos: R1 = {X | Xj <s} R2 = {X | Xj >s}
3) Escolhemos j e s que minimizam Σ(y_i-hat{y_i}_R1)^2 + Σ(y_i-hat{y_i}_R2)^2
4) Continuamos o processos até atingir o critério de parada

61
Q

Porque é necessário “podar” a arvore?

A

Uma arvore grande irá sobreajustar os dados

62
Q

Oque é a poda de complexidade de custo

A

Consideramos uma sequência de árvores indexadas por um parâmetro de ajuste não negativo
Calculamos
ΣΣ(y_i-hat{y_i}_Rm)^2 + α|T|

63
Q

Oque é a pureza de um nó na arvore de classifcação

A

Como, para uma região, pretendemos prever a classe mais comum naquela região, precisamos “quantificar” com que frequência os pontos não pertencem a essa classe

63
Q

Oque fazemos na prática na poda de uma árvore?

A

1) Todos os pares de nós folha vizinhos (ligados a um nó antecedennte comum) são considerados para eliminação
2) Qualquer cuja eliminação produz um aumento satisfatório no desempenho no conjunto de validação cruzada é eliminado e o nó antecedente considerado uma folha

64
Q

Oque é o método de Bagging?

A

1) Usar o bootstrap para obter mais conjuntos de treinamento
2) Construir um modelo de previsão separado para cada conjunto de treinamento
3) Tirar a média das previsões

65
Q

Qual é o grupo de teste no Bagging?

A

Ou-of-bag: Aqueles que não são usados para o aprendizado do modelo

66
Q

Qual é o problema de bagged trees?

A

Se uma feature é um preditor forte, a maioria das árvores será semelhante. Isso leva a previsões semelhantes e o bagging não é eficaz

67
Q

O que é o modelo de random forest?

A

1) Construímos uma série de árvores de decisão em amostras de treinamento bootstrap
2) Em cada divisão, uma amostra aleatória de me features é escolhida como candidata a divisão de conjunto completo de p features

68
Q

Quais as semelhanças entre o Bagging e o Boosting?

A

1) Criamos vários conjuntos de dados
2) Combinamos as saídas

69
Q

Qual a diferença entre Baggin e Boosting?

A

Bagging: Cada modelo é construído em um conjunto de dados bootstrap, independente dos outros modelos
Boosting: Cada aprendiz é construído sobre um conjunto de dados cuja composição depende do desemplenho dosmodelos que foram construídos anteriormente

70
Q

Qual é a ideia do boostng?

A

Usar o subconjunto de dados de treinamento que são “mais informativos” a cada passo

71
Q
A