Aprendizagem de máquina Flashcards
Classificação Naive Bayes
Esse algoritmo de aprendizagem supervisionada é baseado em um teorema que, aplicado na prática, influencia diretamente na marcação de e-mails como spam ou não; classificação de um conteúdo como artigo de política ou esportes, por exemplo; utilização de reconhecimento facial.
Naive Bayes é um algoritmo que gera uma tabela de probabilidades a partir de uma técnica de classificação de dados. É usado para o machine learning, mas a técnica é famosa no meio acadêmico da estatística.
Árvore de decisão
Entre os algoritmos de aprendizagem supervisionada, está o método da Árvore de Decisão. Trata-se de uma ferramenta que mapeia as decisões dentro de um sistema e suas possíveis consequências. Ele permite abordar o problema de forma estrutural para se chegar a uma conclusão lógica.
PCA (Análise de Componentes Principais)
Algumas da aplicações da Análise de Componentes Principais envolvem a compreensão e simplificação dos dados para facilitar o aprendizado e a visualização.
Análise de Componentes Principais (PCA) é um dos métodos estatísticos de múltiplas variáveis mais simples. A PCA é considerada a transformação linear ótima, dentre as transformadas de imagens, sendo muito utilizada pela comunidade de reconhecimento de padrões.
PCA é uma técnica usada para identificação de um número menor de variáveis não correlacionadas conhecidas como componentes principais de um conjunto maior de dados.
a técnica é amplamente usada para enfatizar a variação e capturar padrões fortes em um conjunto de dados. a análise de componentes principais é considerada um método estatístico útil e usado em campos como compreesão de imagens, reconhecimento facial, neurociência e computação gráfica.
ICA (Análise de Componentes Independentes)
A ICA define um modelo generativo para observar grandes bancos de dados de amostras. Trata-se de um método que tem uma maior eficácia se comparada ao PCA. Pode ser aplicado diante da análise de imagens digitais, banco de dados de documentos e indicadores econômicos, por exemplo.
A análise de componentes independentes (ICA) é uma maneira de obter certas informações ocultas de um sinal. Os especialistas definem como um “modelo de dados multivariado” que traz elementos não gaussianos e independentes entre si de um sinal combinado.
O que é “Clustering” ?
Clustering se trata de uma técnica muito utilizada em diferentes campos de análises estatísticas. Análise de imagens, mineração de dados, bioinformática e machine learning são apenas algumas áreas onde esta técnica pode ser aplicada. No campo de Machine Learning, ela faz parte da área de aprendizado não supervisionado.
Clustering, ou agrupamento, consiste na implementação de técnicas computacionais para separar um conjunto de dados em diferentes grupos com base em suas semelhanças. Diferentemente de algoritmos de classificação e regressão, o Agrupamento faz parte do universo da Aprendizagem Não Supervisionada, na qual os algoritmos devem entender as relações entre dados sem estarem rotulados a nenhuma categoria prévia.
K-Means
O modelo conhecido como K-Means é um dos mais famosos e importantes nas análises de clustering. O objetivo por trás dele é encontrar um número K de clusters em uma amostra. Ele faz isso definindo centróides, que são sempre atualizados utilizando o valor médio dos pontos próximos daquele cluster. O aprimoramento desses centróides nas iterações do algoritmo são chave para que estes virem referências confiáveis para classificação de novos dados posteriormente.
a sua métrica para avaliar o resultado do algoritmo é o coeficiente de silhueta.
DBSCAN
Finalmente, o modelo DBSCAN, sigla dada para “Density-Based Spatial Clustering of Applications with Noise”, possui uma abordagem de agrupamento baseado na densidade. A densidade de pontos em determinada região é responsável pela formação dos clusters. Caso um determinado ponto não obedeça critérios de densidade ou critérios dos limites de distância, este não pode ser classificado em um cluster.
usa o raio de vizinhança e o número mínimo de vizinhos
K-MEDOIDS
O algoritmo de K-MEDOIDS comporta-se de uma maneira muito semelhante ao K-MEANS, mas ao invés do centroid mover-se com base na média da distância dos indivíduos, o centroid passa a ser o indivíduo que está mais próximo do centro.