Machine Learning Flashcards
O que é aprendizado supervisionado e não supervisionado?
Aprendizado supervisionado é quando o modelo recebe dados com rotulos e deve aprender a rotular um dado novo, já o aprendizado não supervisionado é o que o modelo não recebe rótulos e deve realizar algum tipo de operação sobre aqueles dados.
Como podem ser divididos os modelos de aprendizado supervisionado?
Podem ser divididos em classificação e regressão, onde na classificação os rótulos consistem em valores categóricos e na regressão os rótulos consiste de valores contínuos.
Quais são as principais operações realizadas pelos modelos não supervisionados?
Clustering, Dimensionality Reduction e Anomaly Detection
Como são divididos e quais são os principais modelos de aprendizado supervisionado?
Regressão: regressão linear
Classificação: logistic regression, decision tree, random forest, SVM, KNN
Quais são os principais modelos de aprendizagem não supervisionado?
K-means e DBSCAN para clustering
PCA e t-SNE para redução de dimensionalidade
O que é clustering?
Clustering consiste em agrupar os dados de acordo com as suas similaridades.
O que é redução de dimensionalidade?
Redução de dimensionalidade consiste em diminuir a quantidade de dimensões dos dados sem descaracterizá-los, ou seja, mantendo suas particularidades.
O que é aprendizagem por reforço?
Aprendizagem por reforço consiste em um modelo de aprendizagem que aprende a partir de sua experiência, ele vai recebendo feedback a partir do seu comportamento e vai se aprimorando.
O que é detecção de anomalias?
Detecção de anomalias é o processo de detectar dados que destoam muito do conjunto de dados e pode ser ignorado em alguns casos.
Como funciona o modelo de ML de regressão linear?
O modelo de regressão linear tem o objetivo de encontrar uma reta que se ajuste aos dados, minimizando o erro (diferença entre valores previstos pela reta e valores reais).
Quais parâmetros do modelo de ML de regressão linear?
Os parâmetros a serem encontrados são os coeficientes linear e angular da reta.
Quais são as características de modelos de regressão linear?
É um modelo supervisionado de regressão, simples, interpretativo
O que é usado para calcular a reta na regressão linear?
É usado o ‘least squares’ que consiste no quadrado do erro residual dos dados com relação a linha.
Como funciona o modelo de regressão polinomial?
O modelo de regressão polinomial tem o objetivo de encontrar um polinômio que se adeque aos dados.
Como é encontrada a ordem ideal do polinômio na regressão polinomial?
Usando a BIC (basic information criteria), obtendo o ponto mínimo da função BICxPolynomalModelOrder
Quais são as características da regressão polinomial?
É um modelo supervisionado de regressão, útil quando os dados não seguem uma relação linear.
Como funciona a regressão logística?
A regressão logística consiste em encontrar uma função logística (sigmoide) que se adequem aos dados (classificam os dados em categorias true ou false)
O que é usado para calcular a regressão logística?
É usado a ‘maximum likelihood’ que consiste em calcular a probabilidade para todos os dados e multiplicá-los para várias configurações possíveis, a que tiver a maior probabilidade é escolhida.
O que é uma árvore de decisão?
Um modelo preditivo que divide os dados em subconjuntos com base em perguntas sucessivas para tomada de decisão.
Como a árvore de decisão escolhe os pontos de divisão?
Usa métricas como Gini, Entropia (para classificação) ou Variância Reduzida (para regressão) para encontrar o melhor ponto de separação.
O que é um nó raiz em uma árvore de decisão?
O nó inicial da árvore, que contém todos os dados e inicia as divisões.
O que são nós folhas numa árvore de decisão?
Nós finais da árvore que contém a decisão ou previsão final.
Como evitar o overfitting em uma árvore de decisão?
Usando poda, definindo profundidade máxima e exigindo um número mínimo de amostras por divisão.
O que é poda em árvores de decisão?
Técnica que remove ramos irrelevantes para reduzir a complexidade e evitar o overfitting.