Machine Learning Flashcards

1
Q

O que é aprendizado supervisionado e não supervisionado?

A

Aprendizado supervisionado é quando o modelo recebe dados com rotulos e deve aprender a rotular um dado novo, já o aprendizado não supervisionado é o que o modelo não recebe rótulos e deve realizar algum tipo de operação sobre aqueles dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Como podem ser divididos os modelos de aprendizado supervisionado?

A

Podem ser divididos em classificação e regressão, onde na classificação os rótulos consistem em valores categóricos e na regressão os rótulos consiste de valores contínuos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais são as principais operações realizadas pelos modelos não supervisionados?

A

Clustering, Dimensionality Reduction e Anomaly Detection

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Como são divididos e quais são os principais modelos de aprendizado supervisionado?

A

Regressão: regressão linear
Classificação: logistic regression, decision tree, random forest, SVM, KNN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais são os principais modelos de aprendizagem não supervisionado?

A

K-means e DBSCAN para clustering
PCA e t-SNE para redução de dimensionalidade

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é clustering?

A

Clustering consiste em agrupar os dados de acordo com as suas similaridades.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

O que é redução de dimensionalidade?

A

Redução de dimensionalidade consiste em diminuir a quantidade de dimensões dos dados sem descaracterizá-los, ou seja, mantendo suas particularidades.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é aprendizagem por reforço?

A

Aprendizagem por reforço consiste em um modelo de aprendizagem que aprende a partir de sua experiência, ele vai recebendo feedback a partir do seu comportamento e vai se aprimorando.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que é detecção de anomalias?

A

Detecção de anomalias é o processo de detectar dados que destoam muito do conjunto de dados e pode ser ignorado em alguns casos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Como funciona o modelo de ML de regressão linear?

A

O modelo de regressão linear tem o objetivo de encontrar uma reta que se ajuste aos dados, minimizando o erro (diferença entre valores previstos pela reta e valores reais).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais parâmetros do modelo de ML de regressão linear?

A

Os parâmetros a serem encontrados são os coeficientes linear e angular da reta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são as características de modelos de regressão linear?

A

É um modelo supervisionado de regressão, simples, interpretativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é usado para calcular a reta na regressão linear?

A

É usado o ‘least squares’ que consiste no quadrado do erro residual dos dados com relação a linha.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Como funciona o modelo de regressão polinomial?

A

O modelo de regressão polinomial tem o objetivo de encontrar um polinômio que se adeque aos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Como é encontrada a ordem ideal do polinômio na regressão polinomial?

A

Usando a BIC (basic information criteria), obtendo o ponto mínimo da função BICxPolynomalModelOrder

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quais são as características da regressão polinomial?

A

É um modelo supervisionado de regressão, útil quando os dados não seguem uma relação linear.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Como funciona a regressão logística?

A

A regressão logística consiste em encontrar uma função logística (sigmoide) que se adequem aos dados (classificam os dados em categorias true ou false)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

O que é usado para calcular a regressão logística?

A

É usado a ‘maximum likelihood’ que consiste em calcular a probabilidade para todos os dados e multiplicá-los para várias configurações possíveis, a que tiver a maior probabilidade é escolhida.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que é uma árvore de decisão?

A

Um modelo preditivo que divide os dados em subconjuntos com base em perguntas sucessivas para tomada de decisão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Como a árvore de decisão escolhe os pontos de divisão?

A

Usa métricas como Gini, Entropia (para classificação) ou Variância Reduzida (para regressão) para encontrar o melhor ponto de separação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

O que é um nó raiz em uma árvore de decisão?

A

O nó inicial da árvore, que contém todos os dados e inicia as divisões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

O que são nós folhas numa árvore de decisão?

A

Nós finais da árvore que contém a decisão ou previsão final.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Como evitar o overfitting em uma árvore de decisão?

A

Usando poda, definindo profundidade máxima e exigindo um número mínimo de amostras por divisão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

O que é poda em árvores de decisão?

A

Técnica que remove ramos irrelevantes para reduzir a complexidade e evitar o overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Qual a relação entre árvores de decisão e Random Forest?
O Random Forest combina várias árvores de decisão para melhorar a precisão e reduzir o overfitting.
26
O que é Random Forest?
Um modelo de aprendizado de máquina baseado em múltiplas árvores de decisão, combinando suas previsões para obter maior precisão e reduzir o overfitting.
27
Como o Random Forest reduz o overfitting?
Ele treina várias árvores em subconjuntos aleatórios dos dados e faz a média (regressão) ou votação majoritária (classificação) para previsões mais robustas e que mais independentes dos dados de entrada.
28
Como o Random Forest escolhe os atributos para cada árvore?
Ele seleciona um subconjunto aleatório de atributos para evitar que todas as árvores sejam iguais, essa escolha aleatória se chama random feature selection.
29
Qual a quantidade ideal de atributos para as árvores de uma random forest?
Para classificação: A regra comum é usar √N, onde N é o número total de atributos. Para regressão: A recomendação é usar N/3, onde N é o número total de atributos.
30
Qual a principal diferença entre Random Forest e uma única árvore de decisão?
Random Forest combina várias árvores para maior estabilidade e precisão, enquanto uma única árvore pode sofrer overfitting.
31
Como o Random Forest lida com valores ausentes?
Ele pode estimar valores ausentes usando proximidade entre amostras ou ignorá-los ao construir as árvores.
32
O que é "Bagging" no Random Forest?
É a técnica de amostragem com reposição aliada a agregação dos resultados das árvores (Bootstrap + Aggregating), onde cada árvore é treinada em um subconjunto aleatório dos dados que é obtido com reposição (bootstrap) e o resultado final será obtido a partir do resultado de todas as árvores (aggregating).
33
Random Forest pode ser usado para classificação e regressão?
Sim! Para classificação, usa votação majoritária; para regressão, calcula a média das previsões das árvores.
34
Quantas árvores devem ser usadas em um Random Forest?
O número ideal depende do problema, mas geralmente quanto mais árvores, melhor a precisão, até certo ponto.
35
O que é o modelo KNN?
É um algoritmo baseado em instâncias que classifica ou faz previsões comparando um ponto com seus K vizinhos mais próximos.
36
Como o KNN faz classificações?
Ele verifica os K vizinhos mais próximos e atribui a classe mais comum entre eles ao novo ponto.
37
Como o KNN funciona para regressão?
Ele calcula a média dos valores dos K vizinhos mais próximos para prever o valor da nova instância.
38
Qual a importância do valor de K no KNN?
Um K pequeno pode causar overfitting, enquanto um K grande pode suavizar demais o modelo e causar underfitting.
39
Como a distância entre os pontos é calculada no KNN?
As métricas mais usadas são: Distância Euclidiana (mais comum), Distância de Manhattan, Distância de Minkowski
40
O KNN precisa de um processo de treinamento?
Não exatamente! Ele não aprende um modelo explícito, apenas armazena os dados e faz cálculos na hora da previsão (lazy learning).
41
O KNN é eficiente para grandes volumes de dados?
Não! Como ele compara todos os pontos do conjunto de dados, pode ser lento quando há muitas amostras e dimensões.
42
Como otimizar o desempenho do KNN?
Normalizar os dados para evitar que variáveis com escalas diferentes afetem a distância. Usar estruturas como KD-Trees ou Ball Trees para acelerar buscas. Escolher K com validação cruzada.
43
O que é o modelo SVM?
Um algoritmo de aprendizado de máquina que encontra um hiperplano ótimo para separar classes, maximizando a margem entre os pontos de diferentes categorias.
44
Como o SVM separa os dados?
Ele encontra o hiperplano que maximiza a margem entre as classes. Os pontos mais próximos deste hiperplano são chamados de vetores de suporte.
45
O que são vetores de suporte?
São os pontos mais próximos do hiperplano de separação, que definem a posição e orientação da fronteira de decisão.
46
Como o SVM lida com dados não linearmente separáveis?
Ele usa o truque do kernel, transformando os dados para um espaço de maior dimensão onde possam ser separados linearmente.
47
Quais são os tipos de kernels mais usados no SVM?
Linear: usado quando os dados são linearmente separáveis. Polinomial: para padrões mais complexos. RBF (Radial Basis Function): o mais usado para dados não lineares. Sigmoide: usado em alguns casos específicos.
48
Qual a diferença entre um SVM para classificação e regressão?
SVM de classificação (SVC) separa classes maximizando a margem. SVM de regressão (SVR) tenta ajustar um hiperplano que mantém a maioria dos pontos dentro de uma faixa de tolerância.
49
O que é o hiperparâmetro C no SVM?
Define o trade-off entre margem larga e erro de classificação. C pequeno: margem maior, mais tolerância a erros (generalização melhor). C grande: margem menor, menos erros no treino, mas pode causar overfitting.
50
Como otimizar um modelo SVM?
Escolher um kernel adequado. Ajustar os hiperparâmetros C e gamma (para RBF). Normalizar os dados para evitar que atributos com escalas diferentes influenciem. Usar técnicas como validação cruzada para escolher os melhores parâmetros.
51
Quais são os hiperparâmetros de uma SVM?
C controla a regularização. Kernel define a transformação dos dados. Gamma ajusta a influência dos pontos nos kernels não lineares (RBF e Polinomial). Degree e coef0 afetam kernels polinomiais e sigmoides. Tol e epsilon influenciam precisão e tolerância a erros.
52
O que é o K-Means?
Um algoritmo de aprendizado não supervisionado usado para agrupar dados em K clusters baseados em similaridade.
53
Como funciona o K-Means?
Escolhe K centróides aleatórios. Atribui cada ponto ao centróide mais próximo. Recalcula os centróides como a média dos pontos do cluster. Repete os passos até a convergência.
54
O que é um centróide no K-Means?
O ponto médio de um cluster, calculado como a média das coordenadas de todos os pontos atribuídos a ele.
55
Como escolher o número ideal de clusters (K)?
Método do Cotovelo (Elbow Method): analisa a variação intra-cluster. Silhouette Score: mede a qualidade da separação dos clusters. Métodos estatísticos como Gap Statistic.
56
O K-Means sempre encontra os melhores clusters?
Não! Ele pode convergir para mínimos locais. Por isso, rodar o algoritmo várias vezes com diferentes inicializações pode ajudar.
57
O que é K-Means++?
Uma versão melhorada do K-Means que escolhe os centróides iniciais de forma estratégica, reduzindo a chance de convergir para soluções ruins.
58
Quais são as limitações do K-Means?
Sensível à escolha inicial dos centróides. Clusters esféricos funcionam melhor, pois o algoritmo usa distâncias euclidianas. Não lida bem com dados de diferentes densidades ou formatos não convexos.
59
Como melhorar o desempenho do K-Means?
Padronizar os dados para evitar vieses causados por escalas diferentes. Usar K-Means++ para melhor inicialização. Testar diferentes valores de K para encontrar o melhor número de clusters. Aplicar PCA para reduzir a dimensionalidade antes de rodar o K-Means.
60
O que é Hierarchical Clustering?
É um algoritmo de agrupamento hierárquico que cria uma árvore de clusters, chamada dendrograma, sem precisar definir o número de clusters antecipadamente.
61
Quais são os dois tipos de Hierarchical Clustering?
Aglomerativo (Bottom-Up): começa com cada ponto como um cluster e os combina progressivamente. Divisivo (Top-Down): começa com todos os pontos em um único cluster e os divide recursivamente.
62
O que é um dendrograma?
Um gráfico em forma de árvore que mostra como os pontos foram agrupados em diferentes níveis de similaridade.
63
Como definir o número ideal de clusters no Hierarchical Clustering?
Cortar o dendrograma em um ponto onde a distância entre clusters for significativa.
64
Quais são as principais medidas de distância usadas no Hierarchical Clustering?
Distância Euclidiana (mais comum) Distância de Manhattan
65
Quais são os métodos de ligação para unir clusters?
Single Linkage: usa a menor distância entre pontos de clusters diferentes. Complete Linkage: usa a maior distância entre pontos de clusters diferentes. Average Linkage: usa a média das distâncias entre todos os pontos dos clusters. Centroid Linkage: usa a distância entre os centróides dos clusters.
66
Quais as vantagens do Hierarchical Clustering?
Não exige definir o número de clusters antes. Produz um dendrograma interpretável. Funciona bem com conjuntos pequenos e médios de dados.
67
Quais as desvantagens do Hierarchical Clustering?
Alto custo computacional para grandes conjuntos de dados. Difícil de ajustar depois de processado (não pode ser refinado como K-Means). Sensível a outliers, que podem distorcer os agrupamentos.
68
Qual a principal diferença entre kmeans e hierarchical clustering?
K-Means é mais eficiente e útil para grandes conjuntos de dados, mas precisa definir K antes. Hierarchical Clustering permite visualizar relações entre clusters, mas é mais computacionalmente pesado.
69
O que é o algoritmo DBSCAN?
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de clustering baseado na densidade, que identifica clusters como regiões densas de pontos separadas por regiões de baixa densidade.
70
Quais são os dois principais parâmetros do DBSCAN?
Epsilon (ε): O raio de vizinhança ao redor de um ponto. MinPts: O número mínimo de pontos necessários em uma vizinhança (definida por ε) para que um ponto seja considerado parte de um cluster.
71
Quais os três tipos de pontos no DBSCAN?
Core points: Pontos que possuem pelo menos MinPts vizinhos dentro da distância ε. Border points: Pontos que estão dentro da vizinhança de um ponto core, mas possuem menos que MinPts vizinhos. Noise points (outliers): Pontos que não pertencem a nenhum cluster.
72
Como o DBSCAN identifica clusters?
Ele agrupa pontos conectados densamente, começando de um core point e expandindo o cluster para seus vizinhos dentro da distância ε.
73
Qual é uma vantagem importante do DBSCAN em relação ao K-Means?
O DBSCAN não exige que o número de clusters seja definido previamente e pode identificar clusters de formas arbitrárias.
74
O que acontece com pontos classificados como "noise" no DBSCAN?
Eles não são atribuídos a nenhum cluster e são tratados como outliers.
75
Quais os casos em que o DBSCAN pode ter dificuldades?
Quando os clusters possuem densidades muito diferentes. Quando o valor de ε não é ajustado corretamente. Em dados de alta dimensionalidade, devido à dificuldade em calcular distâncias de forma eficiente.
76
O DBSCAN é sensível à escolha dos parâmetros ε e MinPts?
Sim, a escolha inadequada desses parâmetros pode levar a resultados ruins, como clusters errados ou classificação excessiva de pontos como outliers.
77
O que é PCA?
PCA (Principal Component Analysis) é uma técnica de redução de dimensionalidade que transforma variáveis correlacionadas em um conjunto menor de variáveis não correlacionadas, chamadas componentes principais.
78
Qual é o principal objetivo do PCA?
O objetivo do PCA é reduzir a dimensionalidade dos dados, mantendo o máximo de variância possível.
79
O que são componentes principais no PCA?
Componentes principais são combinações lineares das variáveis originais que capturam a maior variância dos dados.
80
Como o PCA ordena os componentes principais?
Os componentes principais são ordenados de acordo com a variância que explicam, do maior para o menor.
81
O que representa o primeiro componente principal (PC1)?
O primeiro componente principal (PC1) é a direção que explica a maior parte da variância dos dados.
82
O que é a matriz de covariância no contexto do PCA?
A matriz de covariância é usada no PCA para medir a relação entre diferentes variáveis e identificar direções de maior variância.
83
Qual técnica matemática é usada para calcular os componentes principais?
O PCA utiliza a decomposição em valores próprios (eigenvalues) e vetores próprios (eigenvectors) para calcular os componentes principais.
84
O que significam os eigenvalues e eigenvectors no PCA?
Eigenvalues (valores próprios): Indicam a quantidade de variância explicada por cada componente principal. Eigenvectors (vetores próprios): Definem as direções dos componentes principais.
85
O PCA é sensível ao escalonamento das variáveis?
Sim, o PCA é sensível ao escalonamento. As variáveis devem ser normalizadas se tiverem escalas diferentes.
86
Quais são algumas aplicações do PCA?
Compressão de dados. Redução de dimensionalidade para visualização (ex.: redução para 2D ou 3D). Remoção de ruído. Prevenção de overfitting em algoritmos de machine learning.
87
O que é a variância explicada acumulada no PCA?
A variância explicada acumulada mostra a proporção total de variância dos dados que é explicada pelos primeiros componentes principais.
88
Quais são os desafios do PCA?
Perda de interpretabilidade das variáveis transformadas. Pode não capturar relações não lineares. Sensível à presença de outliers.
89
O que é t-SNE?
t-SNE (t-Distributed Stochastic Neighbor Embedding) é uma técnica de redução de dimensionalidade usada para projetar dados de alta dimensão em um espaço de 2D ou 3D, mantendo as relações de proximidade entre os pontos.
90
Qual é o principal objetivo do t-SNE?
O objetivo do t-SNE é preservar as relações locais entre pontos próximos, de modo que pontos semelhantes fiquem próximos na projeção de baixa dimensionalidade.
91
t-SNE é uma técnica linear ou não linear?
t-SNE é uma técnica não linear, adequada para capturar padrões complexos em dados de alta dimensionalidade.
92
Qual é a principal diferença entre PCA e t-SNE?
O PCA preserva a variância global dos dados, enquanto o t-SNE preserva as relações locais entre pontos vizinhos.
93
O que são probabilidades de similaridade no t-SNE?
No t-SNE, a similaridade entre pontos é modelada como probabilidades usando distribuições gaussianas (em alta dimensão) e distribuições t de Student (em baixa dimensão).
94
Quais são os dois principais hiperparâmetros do t-SNE?
Perplexidade: Controla o número de vizinhos próximos considerados. Taxa de aprendizado (learning rate): Afeta a convergência da otimização.
95
O que é perplexidade no t-SNE?
A perplexidade é um parâmetro que regula o equilíbrio entre considerar vizinhos locais e globais. Um valor típico varia entre 5 e 50.
96
O t-SNE é determinístico?
Não, o t-SNE é estocástico. A projeção pode mudar entre execuções, a menos que a semente aleatória seja fixada.
97
Qual métrica o t-SNE minimiza durante o processo de redução dimensional?
O t-SNE minimiza a divergência de Kullback-Leibler (KL) entre as distribuições de similaridade em alta e baixa dimensões.
98
O t-SNE pode ser usado diretamente para classificação?
Não. O t-SNE é uma técnica de visualização e não supervisionada, e não deve ser usada diretamente para tarefas de classificação.
99
O t-SNE pode lidar com grandes volumes de dados?
O t-SNE pode ser lento para datasets grandes. Há variações mais rápidas, como Barnes-Hut t-SNE, que tornam o processo mais eficiente.
100
O que pode indicar uma "aglomeração excessiva" (crowding problem) no t-SNE?
Isso ocorre porque, ao reduzir dados de alta dimensão para baixa dimensão, muitos pontos podem ser projetados em uma área menor do espaço, resultando em sobreposição excessiva.
101
Em quais aplicações o t-SNE é mais útil?
Visualização de dados de alta dimensão. Análise exploratória em dados complexos (imagens, texto, genômica). Redução dimensional antes de aplicar outras técnicas de clustering.
102
O que é Q-Learning?
Q-Learning é um algoritmo de aprendizado por reforço off-policy que busca encontrar a política ótima para um agente, aprendendo uma função Q que mapeia estados e ações para o valor esperado de recompensa.
103
Qual é o objetivo do Q-Learning?
O objetivo do Q-Learning é maximizar a recompensa total que um agente pode obter ao longo do tempo, aprendendo a melhor ação a ser tomada em cada estado.
104
O que é a função Q?
A função Q, ou função de valor Q, representa o valor esperado de uma ação em um estado específico, considerando o retorno acumulado futuro (recompensas).
105
Quais são algumas aplicações do Q-Learning?
Robótica (navegação e controle de movimentos). Jogos (como agentes que aprendem a jogar Atari). Otimização de tráfego e alocação de recursos. Sistemas de recomendação dinâmicos.
106
O que é o algoritmo SARSA?
SARSA (State-Action-Reward-State-Action) é um algoritmo de aprendizado por reforço on-policy, que aprende a política ótima atualizando a função de valor Q com base na interação do agente com o ambiente, usando a sequência (𝑠,𝑎,𝑟,𝑠′,𝑎′).
107
Qual é a diferença entre SARSA e Q-Learning?
SARSA é um algoritmo on-policy, ou seja, ele atualiza a função Q com base na política que o agente está seguindo. Q-Learning é off-policy e atualiza a função Q considerando a política ótima (independente das ações que o agente está realizando).
108
Quais são as vantagens do SARSA em comparação ao Q-Learning?
O SARSA pode ser mais seguro em ambientes onde seguir a política atual é crucial, já que ele considera as ações que o agente de fato executa, o que pode reduzir o risco de exploração excessiva em situações perigosas.
109
O que é o algoritmo DQN?
O DQN (Deep Q-Network) é uma variação do Q-Learning que utiliza redes neurais profundas para aproximar a função Q em ambientes de alta dimensionalidade, como jogos e controle contínuo.
110
Por que o DQN foi desenvolvido?
O DQN foi criado para lidar com problemas em que o espaço de estados e ações é muito grande para ser representado por uma tabela Q tradicional, usando redes neurais para aproximar a função Q.
111
Qual é o papel da rede neural no DQN?
A rede neural no DQN recebe o estado do ambiente como entrada e estima o valor Q para cada ação possível como saída.
112
Qual é a principal contribuição do artigo "Playing Atari with Deep Reinforcement Learning" (2015)?
Esse artigo apresentou o DQN e mostrou que ele poderia aprender a jogar diversos jogos de Atari a partir de pixels brutos, superando o desempenho humano em vários jogos.
113
O que é o algoritmo Naive Bayes?
O Naive Bayes é uma técnica de classificação baseada no Teorema de Bayes, que assume que todas as variáveis (features) são independentes entre si, dado a classe.
114
Qual é a principal suposição do Naive Bayes?
O Naive Bayes assume que todas as variáveis (features) são independentemente condicionais em relação à classe, ou seja, a presença ou ausência de uma feature não afeta as outras.
115
Quais são os três tipos principais de Naive Bayes?
Gaussian Naive Bayes: Usado para dados contínuos que seguem uma distribuição normal. Multinomial Naive Bayes: Usado para contagem de ocorrências, como classificação de texto. Bernoulli Naive Bayes: Usado para dados binários (presença ou ausência de uma feature).
116
O que é a probabilidade a priori P(C) no Naive Bayes?
A probabilidade a priori P(C) é a probabilidade inicial de uma classe C antes de observar qualquer dado.
117
Por que o Naive Bayes é considerado "naive" (ingênuo)?
Porque o algoritmo faz a suposição ingênua de que todas as features são independentemente condicionais, o que pode não ser verdade em muitos casos.
118
Quais são as vantagens do Naive Bayes?
Simples e eficiente para grandes datasets. Requer menos dados de treinamento. Bom desempenho em problemas de classificação de texto e filtragem de spam. Rápido na fase de treinamento e predição.
119
Quais são as limitações do Naive Bayes?
A suposição de independência condicional pode não se aplicar a muitos problemas do mundo real. Pode ser sensível a features irrelevantes ou mal escaladas. Não captura interações entre features.
120
Em quais aplicações o Naive Bayes é amplamente utilizado?
Classificação de texto (filtragem de spam, análise de sentimentos). Diagnósticos médicos. Sistemas de recomendação. Detecção de fraudes.
121
O que é Boosting em Machine Learning?
Boosting é uma técnica de ensemble que combina vários modelos fracos (weak learners), geralmente árvores de decisão simples, para criar um modelo forte com melhor performance.
122
Qual é o objetivo principal do Boosting?
O objetivo do Boosting é corrigir os erros dos modelos anteriores, concentrando-se nas observações que foram classificadas incorretamente em rodadas anteriores.
123
Como funciona o Boosting?
No Boosting, os modelos são treinados sequencialmente. Cada modelo subsequente tenta corrigir os erros dos modelos anteriores, ajustando os pesos das amostras mal classificadas.
124
Quais são os algoritmos de Boosting mais populares?
AdaBoost (Adaptive Boosting) Gradient Boosting XGBoost (Extreme Gradient Boosting) LightGBM (Light Gradient Boosting Machine) CatBoost (Categorical Boosting)
125
Quais são os principais hiperparâmetros dos algoritmos de Boosting?
Learning rate (taxa de aprendizado): Controla o impacto de cada weak learner. Número de estimadores: Quantidade de weak learners usados. Profundidade das árvores: Limita o crescimento das árvores de decisão. Subsample: Fração de amostras usadas em cada iteração (para evitar overfitting). L2 Regularization: Penaliza pesos altos no modelo.
126
Em quais problemas o Boosting é amplamente utilizado?
Classificação de texto e filtragem de spam. Competição de Machine Learning (ex.: Kaggle). Detecção de fraudes. Previsão de séries temporais. Sistemas de recomendação.
127
Qual é a principal vantagem do Boosting sobre algoritmos individuais?
O Boosting melhora a precisão combinando vários weak learners em um modelo forte, reduzindo erros de viés e variância.
128
O que significa MLP e qual é sua função principal?
MLP significa Multilayer Perceptron e é uma rede neural feedforward composta por camadas de neurônios que processam e aprendem padrões a partir de dados.
129
Quais são os componentes principais de uma MLP?
Camada de entrada – recebe os dados de entrada. Camadas ocultas – realizam processamento e aprendizado. Camada de saída – gera a predição ou classificação final. Pesos e vieses – ajustados durante o treinamento.
130
Qual a função das funções de ativação no MLP?
As funções de ativação introduzem não-linearidade nas redes neurais, permitindo que a MLP aprenda padrões complexos. Exemplos incluem ReLU, Sigmoid e Tanh.
131
Qual é o algoritmo de aprendizado geralmente usado em uma MLP?
A MLP geralmente é treinada com o algoritmo de retropropagação (backpropagation) e otimizada com métodos como o Gradiente Descendente.
132
O que é overfitting em uma MLP e como pode ser evitado?
Overfitting ocorre quando a MLP memoriza os dados de treinamento em vez de generalizar. Pode ser evitado com técnicas como regularização L2, dropout e early stopping.
133
Onde a MLP é frequentemente utilizada?
A MLP é usada em tarefas como classificação de imagens, reconhecimento de fala, previsão de séries temporais e análise de sentimentos.
134
O que é um perceptron?
O Perceptron é o modelo mais básico de uma rede neural artificial, desenvolvido por Frank Rosenblatt em 1958. Ele é usado para problemas de classificação binária.
135
Qual é a principal limitação do perceptron?
O perceptron não consegue resolver problemas não linearmente separáveis, como o problema do XOR. Essa limitação foi superada com o desenvolvimento do Perceptron Multicamadas (MLP).
136
O que são algoritmos genéticos (AG)?
Os algoritmos genéticos são métodos de otimização inspirados na teoria da evolução de Charles Darwin. Eles utilizam mecanismos como seleção, cruzamento e mutação para encontrar soluções próximas do ótimo em problemas complexos.
137
O que é uma população em um algoritmo genético?
A população é um conjunto de indivíduos (ou soluções candidatas) que evolui ao longo das gerações. Cada indivíduo é representado por um cromossomo, que pode ser codificado em forma de uma sequência binária ou outras estruturas.
138
O que representam os cromossomos e genes em um algoritmo genético?
Um cromossomo representa uma solução para o problema, enquanto os genes são os componentes que formam o cromossomo, representando variáveis da solução.
139
Quais são os principais operadores genéticos?
Seleção: Escolhe os melhores indivíduos com base em sua aptidão. Cruzamento (crossover): Combina genes de dois pais para gerar novos filhos. Mutação: Introduz alterações aleatórias nos genes para aumentar a diversidade.
140
O que é a função de aptidão em algoritmos genéticos?
A função de aptidão mede a qualidade de cada indivíduo (ou solução) na população, indicando o quão bem ele resolve o problema proposto.
141
Quais são as etapas principais de um algoritmo genético?
Inicialização da População: Geração de uma população inicial aleatória. Avaliação: Calcular a aptidão de cada indivíduo. Seleção: Escolher indivíduos para reprodução. Cruzamento: Gerar descendentes combinando genes dos pais. Mutação: Introduzir pequenas alterações aleatórias. Nova Geração: Substituir a população antiga pela nova e repetir o processo.
142
Onde os algoritmos genéticos são aplicados?
Os AG são usados em otimização de rotas (ex.: problema do caixeiro-viajante), design de redes neurais, ajuste de parâmetros, engenharia genética, e problemas de busca em grandes espaços de solução.
143
O que é Accuracy?
É a porcentagem de acerto do modelo
144
O que é Precision?
É a porcentagem de amostras rotuladas corretamente como positivas pelo modelo em comparação com todas as amostras rotuladas como positivas.
145
O que é Recall?
É a porcentagem de amostras rotuladas corretamente como positivas pelo modelo em comparação com todas as amostras positivas.
146
Como calcular as métricas de Accuracy| Precision e Recall para modelos que têm várias classes?
Pode-se calcular as métricas para todas as classes e tirar a média.
147
O que é o F1 score?
É uma combinação das métricas Precision e Recall. F1 score = 2/((1/Precision)+(1/Recall))
148
O que é AUC?
A métrica Area Under the Curve (AUC) é usada para calcular a área abaixo da curva ROC que mostra o quão bom o modelo é em distinguir entre as coisas. O valor do AUC varia entre 0.0 e 1.0.
149
O que é crossentropy?
É uma medida da diferença entre duas distribuições de probabilidade. Serve para dizer o quão preciso está o modelo.
150
O que são métricas de avaliação de regressão?
São métricas utilizadas para avaliar modelos de regressão.
151
O que é MAE?
Mean Absolute Error é a média dos erros, obtido a partir da média dos valores absolutos dos erros do modelo.
152
O que é MSE?
Mean Squared Error é a média do quadrado dos erros, obtido a partir da média do quadrado dos erros do modelo. (Serve para dar mais peso aos erros maiores)
153
O que é RMSE?
Root Mean Squared Error é a raiz da MSE. Serve para dar mais peso aos erros maiores mas ter uma métrica na escala da MAE.
154
O que é R^2?
O coeficiente de determinação (R^2) é uma métrica que varia de 0 a 1 e descreve o quão correto a curva do modelo descreve os dados.
155
O que é Cosine Similarity?
Cosine Similarity é uma métrica que serve para dizer quão parecidos dois vetores são entre si.
156
O que é Hyperparameter Tuning?
É o processo de escolher os melhores valores de hyperparâmetros para o modelo.
157
O que é GridSearch?
É um método de Hyperparameter Tuning que consiste em tentar todas as combinações possiveis de hyperparâmetros.
158
O que é RandomSearch?
É um método de Hyperparameter Tuning que consiste em tentar aleatoriamente uma certa quantidade de combinações de hiperparâmetros.
159
O que é ZoomingIn?
É um método de Hyperparameter Tuning que consiste em utilizar RandomSearch aliado ao custo das combinações de hiperparâmetros para fazer uma busca dos melhores hiperparâmetros em áreas específicas.
160
O que é um dataset desbalanceado e quais são as maneiras de lidar com ele?
Um dataset desbalanceado é o que tem muitos exemplos de uma classe e poucos de outra, algumas maneiras de lidar com ele é realizando o oversampling (gerar amostras sintéticas), o undersampling (retirar amostras da classe majoritária), Utilizar pesos para as classes (dando mais importância para a classe minoritária), utilizar modelos que lidam melhor com dados desbalanceados (como XGBoost ou Random Forests).
161
Como lidar com dados faltantes em um dataset?
Pode-se retirar os dados faltantes ou gerar os dados que faltam utilizando técnicas para isso.
162
O que é Processamento de Linguagem Natural (PLN)?
É um campo da inteligência artificial que permite que computadores compreendam, interpretem, manipulem e gerem linguagem humana.
163
Quais são os principais desafios do PLN?
Ambiguidade, ironia, variação linguística, contexto, polissemia, entre outros.
164
O que é tokenização em PLN?
É o processo de dividir um texto em unidades menores, como palavras, sentenças ou subpalavras chamadas tokens.
165
O que é stemming?
Técnica que reduz palavras à sua raiz, removendo sufixos, por exemplo, "amando" → "am".
166
Qual a diferença entre stemming e lemmatização?
Stemming corta palavras sem se preocupar com o contexto. Lematização leva em conta o contexto gramatical e retorna a forma correta da palavra (o lema).
167
O que é um modelo de linguagem?
É um modelo treinado para prever a próxima palavra ou avaliar a probabilidade de uma sequência de palavras em uma língua.
168
Cite exemplos de tarefas de PLN.
Classificação de texto, análise de sentimentos, tradução automática, geração de texto, sumarização, resposta a perguntas.
169
O que é a análise de sentimentos?
É a tarefa de identificar se um texto expressa uma opinião positiva, negativa ou neutra.
170
O que são stop words?
Palavras muito comuns (como "o", "a", "de", "e") que geralmente são removidas para reduzir ruído no texto.
171
O que é o modelo BERT?
É um modelo de linguagem baseado em transformers, criado pela Google, que entende o contexto bidirecional das palavras em uma frase.