Machine Learning Flashcards

Question

Qual a relação entre árvores de decisão e Random Forest?

Answer 1

O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir o overfitting.

Answer 2

Um modelo de aprendizado de máquina baseado em múltiplas árvores de decisão, combinando suas previsões para obter maior precisão e reduzir o overfitting.

Answer 3

Ele treina várias árvores em subconjuntos aleatórios dos dados e faz a média (regressão) ou votação majoritária (classificação) para previsões mais robustas e que mais independentes dos dados de entrada.

Answer 4

Ele seleciona um subconjunto aleatório de atributos para evitar que todas as árvores sejam iguais, essa escolha aleatória se chama random feature selection.

Answer 5

Para classificação: A regra comum é usar √N, onde N é o número total de atributos. Para regressão: A recomendação é usar N/3, onde N é o número total de atributos.

Answer 6

Random Forest combina várias árvores para maior estabilidade e precisão, enquanto uma única árvore pode sofrer overfitting.

Answer 7

Ele pode estimar valores ausentes usando proximidade entre amostras ou ignorá-los ao construir as árvores.

Answer 8

É a técnica de amostragem com reposição aliada a agregação dos resultados das árvores (Bootstrap + Aggregating), onde cada árvore é treinada em um subconjunto aleatório dos dados que é obtido com reposição (bootstrap) e o resultado final será obtido a partir do resultado de todas as árvores (aggregating).

Answer 9

Sim! Para classificação, usa votação majoritária; para regressão, calcula a média das previsões das árvores.

Answer 10

O número ideal depende do problema, mas geralmente quanto mais árvores, melhor a precisão, até certo ponto.

Answer 11

É um algoritmo baseado em instâncias que classifica ou faz previsões comparando um ponto com seus K vizinhos mais próximos.

Answer 12

Ele verifica os K vizinhos mais próximos e atribui a classe mais comum entre eles ao novo ponto.

Answer 13

Ele calcula a média dos valores dos K vizinhos mais próximos para prever o valor da nova instância.

Answer 14

Um K pequeno pode causar overfitting, enquanto um K grande pode suavizar demais o modelo e causar underfitting.

Answer 15

As métricas mais usadas são: Distância Euclidiana (mais comum), Distância de Manhattan, Distância de Minkowski

Answer 16

Não exatamente! Ele não aprende um modelo explícito, apenas armazena os dados e faz cálculos na hora da previsão (lazy learning).

Answer 17

Não! Como ele compara todos os pontos do conjunto de dados, pode ser lento quando há muitas amostras e dimensões.

Answer 18

Normalizar os dados para evitar que variáveis com escalas diferentes afetem a distância. Usar estruturas como KD-Trees ou Ball Trees para acelerar buscas. Escolher K com validação cruzada.

Answer 19

Um algoritmo de aprendizado de máquina que encontra um hiperplano ótimo para separar classes, maximizando a margem entre os pontos de diferentes categorias.

Answer 20

Ele encontra o hiperplano que maximiza a margem entre as classes. Os pontos mais próximos deste hiperplano são chamados de vetores de suporte.

Answer 21

São os pontos mais próximos do hiperplano de separação, que definem a posição e orientação da fronteira de decisão.

Answer 22

Ele usa o truque do kernel, transformando os dados para um espaço de maior dimensão onde possam ser separados linearmente.

Answer 23

Linear: usado quando os dados são linearmente separáveis. Polinomial: para padrões mais complexos. RBF (Radial Basis Function): o mais usado para dados não lineares. Sigmoide: usado em alguns casos específicos.

Answer 24

SVM de classificação (SVC) separa classes maximizando a margem. SVM de regressão (SVR) tenta ajustar um hiperplano que mantém a maioria dos pontos dentro de uma faixa de tolerância.

Answer 25

Define o trade-off entre margem larga e erro de classificação. C pequeno: margem maior, mais tolerância a erros (generalização melhor). C grande: margem menor, menos erros no treino, mas pode causar overfitting.

Answer 26

Escolher um kernel adequado. Ajustar os hiperparâmetros C e gamma (para RBF). Normalizar os dados para evitar que atributos com escalas diferentes influenciem. Usar técnicas como validação cruzada para escolher os melhores parâmetros.

Answer 27

C controla a regularização. Kernel define a transformação dos dados. Gamma ajusta a influência dos pontos nos kernels não lineares (RBF e Polinomial). Degree e coef0 afetam kernels polinomiais e sigmoides. Tol e epsilon influenciam precisão e tolerância a erros.

Answer 28

Um algoritmo de aprendizado não supervisionado usado para agrupar dados em K clusters baseados em similaridade.

Answer 29

Escolhe K centróides aleatórios. Atribui cada ponto ao centróide mais próximo. Recalcula os centróides como a média dos pontos do cluster. Repete os passos até a convergência.

Answer 30

O ponto médio de um cluster, calculado como a média das coordenadas de todos os pontos atribuídos a ele.

Answer 31

Método do Cotovelo (Elbow Method): analisa a variação intra-cluster. Silhouette Score: mede a qualidade da separação dos clusters. Métodos estatísticos como Gap Statistic.

Answer 32

Não! Ele pode convergir para mínimos locais. Por isso, rodar o algoritmo várias vezes com diferentes inicializações pode ajudar.

Answer 33

Uma versão melhorada do K-Means que escolhe os centróides iniciais de forma estratégica, reduzindo a chance de convergir para soluções ruins.

Answer 34

Sensível à escolha inicial dos centróides. Clusters esféricos funcionam melhor, pois o algoritmo usa distâncias euclidianas. Não lida bem com dados de diferentes densidades ou formatos não convexos.

Answer 35

Padronizar os dados para evitar vieses causados por escalas diferentes. Usar K-Means++ para melhor inicialização. Testar diferentes valores de K para encontrar o melhor número de clusters. Aplicar PCA para reduzir a dimensionalidade antes de rodar o K-Means.

Answer 36

É um algoritmo de agrupamento hierárquico que cria uma árvore de clusters, chamada dendrograma, sem precisar definir o número de clusters antecipadamente.

Answer 37

Aglomerativo (Bottom-Up): começa com cada ponto como um cluster e os combina progressivamente. Divisivo (Top-Down): começa com todos os pontos em um único cluster e os divide recursivamente.

Answer 38

Um gráfico em forma de árvore que mostra como os pontos foram agrupados em diferentes níveis de similaridade.

Answer 39

Cortar o dendrograma em um ponto onde a distância entre clusters for significativa.

Answer 40

Distância Euclidiana (mais comum) Distância de Manhattan

Answer 41

Single Linkage: usa a menor distância entre pontos de clusters diferentes. Complete Linkage: usa a maior distância entre pontos de clusters diferentes. Average Linkage: usa a média das distâncias entre todos os pontos dos clusters. Centroid Linkage: usa a distância entre os centróides dos clusters.

Answer 42

Não exige definir o número de clusters antes. Produz um dendrograma interpretável. Funciona bem com conjuntos pequenos e médios de dados.

Answer 43

Alto custo computacional para grandes conjuntos de dados. Difícil de ajustar depois de processado (não pode ser refinado como K-Means). Sensível a outliers, que podem distorcer os agrupamentos.

Answer 44

K-Means é mais eficiente e útil para grandes conjuntos de dados, mas precisa definir K antes. Hierarchical Clustering permite visualizar relações entre clusters, mas é mais computacionalmente pesado.

Answer 45

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de clustering baseado na densidade, que identifica clusters como regiões densas de pontos separadas por regiões de baixa densidade.

Answer 46

Epsilon (ε): O raio de vizinhança ao redor de um ponto. MinPts: O número mínimo de pontos necessários em uma vizinhança (definida por ε) para que um ponto seja considerado parte de um cluster.

Answer 47

Core points: Pontos que possuem pelo menos MinPts vizinhos dentro da distância ε. Border points: Pontos que estão dentro da vizinhança de um ponto core, mas possuem menos que MinPts vizinhos. Noise points (outliers): Pontos que não pertencem a nenhum cluster.

Answer 48

Ele agrupa pontos conectados densamente, começando de um core point e expandindo o cluster para seus vizinhos dentro da distância ε.

Answer 49

O DBSCAN não exige que o número de clusters seja definido previamente e pode identificar clusters de formas arbitrárias.

Answer 50

Eles não são atribuídos a nenhum cluster e são tratados como outliers.

Answer 51

Quando os clusters possuem densidades muito diferentes. Quando o valor de ε não é ajustado corretamente. Em dados de alta dimensionalidade, devido à dificuldade em calcular distâncias de forma eficiente.

Answer 52

Sim, a escolha inadequada desses parâmetros pode levar a resultados ruins, como clusters errados ou classificação excessiva de pontos como outliers.

Answer 53

PCA (Principal Component Analysis) é uma técnica de redução de dimensionalidade que transforma variáveis correlacionadas em um conjunto menor de variáveis não correlacionadas, chamadas componentes principais.

Answer 54

O objetivo do PCA é reduzir a dimensionalidade dos dados, mantendo o máximo de variância possível.

Answer 55

Componentes principais são combinações lineares das variáveis originais que capturam a maior variância dos dados.

Answer 56

Os componentes principais são ordenados de acordo com a variância que explicam, do maior para o menor.

Answer 57

O primeiro componente principal (PC1) é a direção que explica a maior parte da variância dos dados.

Answer 58

A matriz de covariância é usada no PCA para medir a relação entre diferentes variáveis e identificar direções de maior variância.

Answer 59

O PCA utiliza a decomposição em valores próprios (eigenvalues) e vetores próprios (eigenvectors) para calcular os componentes principais.

Answer 60

Eigenvalues (valores próprios): Indicam a quantidade de variância explicada por cada componente principal. Eigenvectors (vetores próprios): Definem as direções dos componentes principais.

Answer 61

Sim, o PCA é sensível ao escalonamento. As variáveis devem ser normalizadas se tiverem escalas diferentes.

Answer 62

Compressão de dados. Redução de dimensionalidade para visualização (ex.: redução para 2D ou 3D). Remoção de ruído. Prevenção de overfitting em algoritmos de machine learning.

Answer 63

A variância explicada acumulada mostra a proporção total de variância dos dados que é explicada pelos primeiros componentes principais.

Answer 64

Perda de interpretabilidade das variáveis transformadas. Pode não capturar relações não lineares. Sensível à presença de outliers.

Answer 65

t-SNE (t-Distributed Stochastic Neighbor Embedding) é uma técnica de redução de dimensionalidade usada para projetar dados de alta dimensão em um espaço de 2D ou 3D, mantendo as relações de proximidade entre os pontos.

Answer 66

O objetivo do t-SNE é preservar as relações locais entre pontos próximos, de modo que pontos semelhantes fiquem próximos na projeção de baixa dimensionalidade.

Answer 67

t-SNE é uma técnica não linear, adequada para capturar padrões complexos em dados de alta dimensionalidade.

Answer 68

O PCA preserva a variância global dos dados, enquanto o t-SNE preserva as relações locais entre pontos vizinhos.

Answer 69

No t-SNE, a similaridade entre pontos é modelada como probabilidades usando distribuições gaussianas (em alta dimensão) e distribuições t de Student (em baixa dimensão).

Answer 70

Perplexidade: Controla o número de vizinhos próximos considerados. Taxa de aprendizado (learning rate): Afeta a convergência da otimização.

Answer 71

A perplexidade é um parâmetro que regula o equilíbrio entre considerar vizinhos locais e globais. Um valor típico varia entre 5 e 50.

Answer 72

Não, o t-SNE é estocástico. A projeção pode mudar entre execuções, a menos que a semente aleatória seja fixada.

Answer 73

O t-SNE minimiza a divergência de Kullback-Leibler (KL) entre as distribuições de similaridade em alta e baixa dimensões.

Answer 74

Não. O t-SNE é uma técnica de visualização e não supervisionada, e não deve ser usada diretamente para tarefas de classificação.

Answer 75

O t-SNE pode ser lento para datasets grandes. Há variações mais rápidas, como Barnes-Hut t-SNE, que tornam o processo mais eficiente.

Answer 76

Isso ocorre porque, ao reduzir dados de alta dimensão para baixa dimensão, muitos pontos podem ser projetados em uma área menor do espaço, resultando em sobreposição excessiva.

Answer 77

Visualização de dados de alta dimensão. Análise exploratória em dados complexos (imagens, texto, genômica). Redução dimensional antes de aplicar outras técnicas de clustering.

Answer 78

Q-Learning é um algoritmo de aprendizado por reforço off-policy que busca encontrar a política ótima para um agente, aprendendo uma função Q que mapeia estados e ações para o valor esperado de recompensa.

Answer 79

O objetivo do Q-Learning é maximizar a recompensa total que um agente pode obter ao longo do tempo, aprendendo a melhor ação a ser tomada em cada estado.

Answer 80

A função Q, ou função de valor Q, representa o valor esperado de uma ação em um estado específico, considerando o retorno acumulado futuro (recompensas).

Answer 81

Robótica (navegação e controle de movimentos). Jogos (como agentes que aprendem a jogar Atari). Otimização de tráfego e alocação de recursos. Sistemas de recomendação dinâmicos.

Answer 82

SARSA (State-Action-Reward-State-Action) é um algoritmo de aprendizado por reforço on-policy, que aprende a política ótima atualizando a função de valor Q com base na interação do agente com o ambiente, usando a sequência (𝑠,𝑎,𝑟,𝑠′,𝑎′).

Answer 83

SARSA é um algoritmo on-policy, ou seja, ele atualiza a função Q com base na política que o agente está seguindo. Q-Learning é off-policy e atualiza a função Q considerando a política ótima (independente das ações que o agente está realizando).

Answer 84

O SARSA pode ser mais seguro em ambientes onde seguir a política atual é crucial, já que ele considera as ações que o agente de fato executa, o que pode reduzir o risco de exploração excessiva em situações perigosas.

Answer 85

O DQN (Deep Q-Network) é uma variação do Q-Learning que utiliza redes neurais profundas para aproximar a função Q em ambientes de alta dimensionalidade, como jogos e controle contínuo.

Answer 86

O DQN foi criado para lidar com problemas em que o espaço de estados e ações é muito grande para ser representado por uma tabela Q tradicional, usando redes neurais para aproximar a função Q.

Answer 87

A rede neural no DQN recebe o estado do ambiente como entrada e estima o valor Q para cada ação possível como saída.

Answer 88

Esse artigo apresentou o DQN e mostrou que ele poderia aprender a jogar diversos jogos de Atari a partir de pixels brutos, superando o desempenho humano em vários jogos.

Answer 89

O Naive Bayes é uma técnica de classificação baseada no Teorema de Bayes, que assume que todas as variáveis (features) são independentes entre si, dado a classe.

Answer 90

O Naive Bayes assume que todas as variáveis (features) são independentemente condicionais em relação à classe, ou seja, a presença ou ausência de uma feature não afeta as outras.

Answer 91

Gaussian Naive Bayes: Usado para dados contínuos que seguem uma distribuição normal. Multinomial Naive Bayes: Usado para contagem de ocorrências, como classificação de texto. Bernoulli Naive Bayes: Usado para dados binários (presença ou ausência de uma feature).

Answer 92

A probabilidade a priori P(C) é a probabilidade inicial de uma classe C antes de observar qualquer dado.

Answer 93

Porque o algoritmo faz a suposição ingênua de que todas as features são independentemente condicionais, o que pode não ser verdade em muitos casos.

Answer 94

Simples e eficiente para grandes datasets. Requer menos dados de treinamento. Bom desempenho em problemas de classificação de texto e filtragem de spam. Rápido na fase de treinamento e predição.

Answer 95

A suposição de independência condicional pode não se aplicar a muitos problemas do mundo real. Pode ser sensível a features irrelevantes ou mal escaladas. Não captura interações entre features.

Answer 96

Classificação de texto (filtragem de spam, análise de sentimentos). Diagnósticos médicos. Sistemas de recomendação. Detecção de fraudes.

Answer 97

Boosting é uma técnica de ensemble que combina vários modelos fracos (weak learners), geralmente árvores de decisão simples, para criar um modelo forte com melhor performance.

Answer 98

O objetivo do Boosting é corrigir os erros dos modelos anteriores, concentrando-se nas observações que foram classificadas incorretamente em rodadas anteriores.

Answer 99

No Boosting, os modelos são treinados sequencialmente. Cada modelo subsequente tenta corrigir os erros dos modelos anteriores, ajustando os pesos das amostras mal classificadas.

Answer 100

AdaBoost (Adaptive Boosting) Gradient Boosting XGBoost (Extreme Gradient Boosting) LightGBM (Light Gradient Boosting Machine) CatBoost (Categorical Boosting)

Answer 101

Learning rate (taxa de aprendizado): Controla o impacto de cada weak learner. Número de estimadores: Quantidade de weak learners usados. Profundidade das árvores: Limita o crescimento das árvores de decisão. Subsample: Fração de amostras usadas em cada iteração (para evitar overfitting). L2 Regularization: Penaliza pesos altos no modelo.

Answer 102

Classificação de texto e filtragem de spam. Competição de Machine Learning (ex.: Kaggle). Detecção de fraudes. Previsão de séries temporais. Sistemas de recomendação.

Answer 103

O Boosting melhora a precisão combinando vários weak learners em um modelo forte, reduzindo erros de viés e variância.

Answer 104

MLP significa Multilayer Perceptron e é uma rede neural feedforward composta por camadas de neurônios que processam e aprendem padrões a partir de dados.

Answer 105

Camada de entrada – recebe os dados de entrada. Camadas ocultas – realizam processamento e aprendizado. Camada de saída – gera a predição ou classificação final. Pesos e vieses – ajustados durante o treinamento.

Answer 106

As funções de ativação introduzem não-linearidade nas redes neurais, permitindo que a MLP aprenda padrões complexos. Exemplos incluem ReLU, Sigmoid e Tanh.

Answer 107

A MLP geralmente é treinada com o algoritmo de retropropagação (backpropagation) e otimizada com métodos como o Gradiente Descendente.

Answer 108

Overfitting ocorre quando a MLP memoriza os dados de treinamento em vez de generalizar. Pode ser evitado com técnicas como regularização L2, dropout e early stopping.

Answer 109

A MLP é usada em tarefas como classificação de imagens, reconhecimento de fala, previsão de séries temporais e análise de sentimentos.

Answer 110

O Perceptron é o modelo mais básico de uma rede neural artificial, desenvolvido por Frank Rosenblatt em 1958. Ele é usado para problemas de classificação binária.

Answer 111

O perceptron não consegue resolver problemas não linearmente separáveis, como o problema do XOR. Essa limitação foi superada com o desenvolvimento do Perceptron Multicamadas (MLP).

Answer 112

Os algoritmos genéticos são métodos de otimização inspirados na teoria da evolução de Charles Darwin. Eles utilizam mecanismos como seleção, cruzamento e mutação para encontrar soluções próximas do ótimo em problemas complexos.

Answer 113

A população é um conjunto de indivíduos (ou soluções candidatas) que evolui ao longo das gerações. Cada indivíduo é representado por um cromossomo, que pode ser codificado em forma de uma sequência binária ou outras estruturas.

Answer 114

Um cromossomo representa uma solução para o problema, enquanto os genes são os componentes que formam o cromossomo, representando variáveis da solução.

Answer 115

Seleção: Escolhe os melhores indivíduos com base em sua aptidão. Cruzamento (crossover): Combina genes de dois pais para gerar novos filhos. Mutação: Introduz alterações aleatórias nos genes para aumentar a diversidade.

Answer 116

A função de aptidão mede a qualidade de cada indivíduo (ou solução) na população, indicando o quão bem ele resolve o problema proposto.

Answer 117

Inicialização da População: Geração de uma população inicial aleatória. Avaliação: Calcular a aptidão de cada indivíduo. Seleção: Escolher indivíduos para reprodução. Cruzamento: Gerar descendentes combinando genes dos pais. Mutação: Introduzir pequenas alterações aleatórias. Nova Geração: Substituir a população antiga pela nova e repetir o processo.

Answer 118

Os AG são usados em otimização de rotas (ex.: problema do caixeiro-viajante), design de redes neurais, ajuste de parâmetros, engenharia genética, e problemas de busca em grandes espaços de solução.

Answer 119

É a porcentagem de acerto do modelo

Answer 120

É a porcentagem de amostras rotuladas corretamente como positivas pelo modelo em comparação com todas as amostras rotuladas como positivas.

Answer 121

É a porcentagem de amostras rotuladas corretamente como positivas pelo modelo em comparação com todas as amostras positivas.

Answer 122

Pode-se calcular as métricas para todas as classes e tirar a média.

Answer 123

É uma combinação das métricas Precision e Recall. F1 score = 2/((1/Precision)+(1/Recall))

Answer 124

A métrica Area Under the Curve (AUC) é usada para calcular a área abaixo da curva ROC que mostra o quão bom o modelo é em distinguir entre as coisas. O valor do AUC varia entre 0.0 e 1.0.

Answer 125

É uma medida da diferença entre duas distribuições de probabilidade. Serve para dizer o quão preciso está o modelo.

Answer 126

São métricas utilizadas para avaliar modelos de regressão.

Answer 127

Mean Absolute Error é a média dos erros, obtido a partir da média dos valores absolutos dos erros do modelo.

Answer 128

Mean Squared Error é a média do quadrado dos erros, obtido a partir da média do quadrado dos erros do modelo. (Serve para dar mais peso aos erros maiores)

Answer 129

Root Mean Squared Error é a raiz da MSE. Serve para dar mais peso aos erros maiores mas ter uma métrica na escala da MAE.

Answer 130

O coeficiente de determinação (R^2) é uma métrica que varia de 0 a 1 e descreve o quão correto a curva do modelo descreve os dados.

Answer 131

Cosine Similarity é uma métrica que serve para dizer quão parecidos dois vetores são entre si.

Answer 132

É o processo de escolher os melhores valores de hyperparâmetros para o modelo.

Answer 133

É um método de Hyperparameter Tuning que consiste em tentar todas as combinações possiveis de hyperparâmetros.

Answer 134

É um método de Hyperparameter Tuning que consiste em tentar aleatoriamente uma certa quantidade de combinações de hiperparâmetros.

Answer 135

É um método de Hyperparameter Tuning que consiste em utilizar RandomSearch aliado ao custo das combinações de hiperparâmetros para fazer uma busca dos melhores hiperparâmetros em áreas específicas.

Answer 136

Um dataset desbalanceado é o que tem muitos exemplos de uma classe e poucos de outra, algumas maneiras de lidar com ele é realizando o oversampling (gerar amostras sintéticas), o undersampling (retirar amostras da classe majoritária), Utilizar pesos para as classes (dando mais importância para a classe minoritária), utilizar modelos que lidam melhor com dados desbalanceados (como XGBoost ou Random Forests).

Answer 137

Pode-se retirar os dados faltantes ou gerar os dados que faltam utilizando técnicas para isso.

Answer 138

É um campo da inteligência artificial que permite que computadores compreendam, interpretem, manipulem e gerem linguagem humana.

Answer 139

Ambiguidade, ironia, variação linguística, contexto, polissemia, entre outros.

Answer 140

É o processo de dividir um texto em unidades menores, como palavras, sentenças ou subpalavras chamadas tokens.

Answer 141

Técnica que reduz palavras à sua raiz, removendo sufixos, por exemplo, "amando" → "am".

Answer 142

Stemming corta palavras sem se preocupar com o contexto. Lematização leva em conta o contexto gramatical e retorna a forma correta da palavra (o lema).

Answer 143

É um modelo treinado para prever a próxima palavra ou avaliar a probabilidade de uma sequência de palavras em uma língua.

Answer 144

Classificação de texto, análise de sentimentos, tradução automática, geração de texto, sumarização, resposta a perguntas.

Answer 145

É a tarefa de identificar se um texto expressa uma opinião positiva, negativa ou neutra.

Answer 146

Palavras muito comuns (como "o", "a", "de", "e") que geralmente são removidas para reduzir ruído no texto.

Answer 147

É um modelo de linguagem baseado em transformers, criado pela Google, que entende o contexto bidirecional das palavras em uma frase.