Ciência de dados Flashcards
(Áreas da IA) Defina Redes Neurais Artificiais
Modelos inspirados no funcionamento do cérebro
humano que são usados para processar informações e tomar decisões.
(Áreas da IA) Defina * Aprendizado de Máquina (Machine Learning)
Algoritmos que permitem que as
máquinas aprendam com os dados e melhorem seu desempenho ao longo do
tempo.
(Áreas da IA) Defina Processamento de Linguagem Natural (PLN)
O estudo da interação entre
máquinas e linguagem humana, incluindo tarefas como tradução automática,
reconhecimento de fala e análise de sentimento.
(Áreas da IA) Defina Visão Computacional
Desenvolvimento de algoritmos e de sistemas capazes de
entender e de interpretar imagens e vídeos.
(Áreas da IA) Defina Robótica Inteligente
Combinação de IA e robótica para criar robôs capazes de
interagir com o ambiente e realizar tarefas complexas.
(Áreas da IA) Defina Sistemas Especialistas
Sistemas de IA projetados para imitar a inteligência
e o conhecimento de especialistas humanos em um domínio específico.
(Áreas da IA) Defina Algoritmos Genéticos
Técnicas de otimização baseadas em princípios
genéticos e em evolução natural, usadas para resolver problemas
complexos.
(Áreas da IA) Defina Sistemas de Recomendação
Algoritmos que analisam dados e padrões de comportamento do usuário para fornecer sugestões personalizadas.
(Áreas da IA) Defina IA Conversacional
Tecnologias que permitem a interação entre humanos e
sistemas de IA por meio de diálogos naturais, como chatbots e assistentes
virtuais.
(Áreas da IA) Defina Mineração de Dados
Técnicas para descobrir padrões e conhecimentos
úteis a partir de conjuntos de dados grandes e complexos.
(Áreas da IA) Defina Reconhecimento de Padrões
Identificação de padrões em dados, como
reconhecimento facial, detecção de objetos e análise de imagem.
(Áreas da IA) Defina * IA Explicável
Desenvolvimento de métodos e de algoritmos que permitem
entender e explicar o processo de tomada de decisão de sistemas de IA.
(Áreas da IA) Defina Agentes Inteligentes
Programas de computador capazes de tomar decisões e agir de forma autônoma em um ambiente específico.
(Áreas da IA) Defina Aprendizado Profundo (Deep Learning)
Subcampo do machine learning, utiliza redes neurais
(unidades conectadas em rede para a análise de bancos de dados e informações)
para emular o cérebro humano.
(Áreas da IA) Defina Processamento de Sinais
Análise e interpretação de sinais, como áudio e vídeo,
utilizando técnicas de IA.
(Áreas da IA) Defina IA Responsável
Envolve garantir que a IA seja desenvolvida e implementada de
forma ética e legalmente responsável.
(Áreas da IA) Defina Raciocínio Automatizado (Automated Reasoning)
Desenvolvimento de
algoritmos e de técnicas para automatizar o processo de raciocínio lógico,
permitindo que os computadores cheguem a conclusões ou provem teoremas de
forma automatizada.
(Paradigmas de Aprendizado de máquina) Descreva o paradigma simbólico
Construção de uma representação simbólica de um conceito por meio de exemplos e contraexemplos.
Representação simbólica na forma de alguma expressão lógica, como árvores de decisão e regras.
(Paradigmas de Aprendizado de máquina) Descreva o paradigma Protótipo ou Memorização (Instance Based)
- Sistema que classifica um exemplo por meio de exemplos similares conhecidos.
- ‰ Sistemas lazy necessitam manter os exemplos na memória para classificar novos exemplos, em
oposição aos sistemas gulosos (eager), que utilizam os exemplos para induzir o modelo,
descartando-os logo após. - Exemplo: K-NN.
(Paradigmas de Aprendizado de máquina) Descreva o paradigma Conexionista.
Redes neurais, as quais envolvem unidades altamente interconectadas.
(Paradigmas de Aprendizado de máquina) Descreva o paradigma Genético
Um classificador genético consiste de uma população de elementos de classificação que competem
para fazer a predição.
* Elementos que possuem um desempenho ruim são descartados, enquanto os elementos mais
fortes proliferam, produzindo variações.
* Alguns operadores genéticos básicos que aplicados a população geram novos indivíduos são:
Reprodução, Cruzamento, Mutação e Inversão.
(Paradigmas de Aprendizado de máquina) Descreva o paradigma Estatístico
Utilização de modelos estatísticos para encontrar uma boa aproximação do conceito induzido.
* Vários desses métodos são paramétricos, assumindo alguma forma de modelo, e então
encontrando valores apropriados para os parâmetros do modelo a partir dos exemplos.
* Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que utilizam um modelo
probabilístico baseado no conhecimento prévio do problema, o qual é combinado com os exemplos
de treinamento para determinar a probabilidade final de uma hipótese.
Explique o trade off entre bias e variância.
Indutores instáveis apresentam alta variância (um pequena variação no conjunto de treinamento pode causar mudanças no classificador gerado) e baixo bias. Já indutores estáveis apresentam baixa variância e alto bias (viés, critério de preferência de uma hipótese sobre outras).
obs.: indutor é o programa que fera uma hipótese (classificador) a partir de um conjunto de exemplos.
Explique o overfitting ou overtrainning.
Acontece quando a hipótese extraída a partir dos exemplos é muito específica para o conjunto de treinamento, perdendo o poder de generalização.
Explique o underfitting.
A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento quanto no de teste. Pode acontecer por ter poucos exemplos representativos ou tamanho pré-definido do classificador muito pequeno.
O que é acurácia?
Percentual de acertos.
acurácia = (VP + VN)/(VP + VN + FP + FN)
O que é erro?
1 - acurácia.
O que é precisão?
Indica das classificações positivas do modelo, qual porcentagem foi acertada.
Precisão = VP/(VP + FP)
O que é revocação, sensibilidade ou recall?
De todos os postivos existentes nos exemplos, quantos o modelo conseguiu classificar corretamente.
revocação = VP/(VP+FN)
O que especificidade?
Avalia a capacidade de detectar resultados negativos.
especificidade = VN/(VN + FP)
O que é o F-score ou score F1?
Média harmônica entre precisão e sensibilidade.
f1 = 2.((precisao.sensibilidade)/precisao+sensibilidade))
O que é o erro do tipo 1?
Falso positivo.
O que é o erro do tipo 2?
Falso negativo.
Explique a maldição da dimensionalidade.
Quanto mais atributos, mais exemplos você irá precisar para ter todas as combinações possíveis destes atributos, o que torna o processo mais caro e mais lento.
O que pode ser feito caso ocorra overfitting?
Utilizar modelos menos complexos e fazer a validação cruzada para determinar quando cessar o treino.
Cite exemplos de classificadores (pelo menos 7)
- Árvore de Decisão.
- Random Forest.
- k-Nearest Neighbors.
- Naive Bayes.
- Regressão Logística.
- Análise Discriminante Linear.
- SVM (suport vector machine).
- RNA (redes neurais artificiais).
Explique o que são raíz, nós e folhas de uma árvore de decisão.
- Raiz: é a primeira decisão a ser tomada pelo usuário. A partir dela o algoritmo é
redirecionado a outras decisões. - Nós: são todas as decisões apresentadas na árvore.
- Folhas: são os resultados da árvore de decisões. É nela que a classificação é
realizada.
Como árvores de decisão podem ser reescritas?
Podem ser reescritas como um conjunto de regras, por exemplo, em forma
normal disjuntiva (DNF).
Quais tipos de atributos uma árvore de decisão aceita?
Atributos contínuos e discretos.
Árvores de classificação tem que tipo de valor nas folhas? E árvores de regressão?
Classificação: valores discretos.
Regressão: valores reais.
A árvore de decisão necessita de manipulação de dados, como normalização?
Não.
A maioria dos algoritmos de aprendizagem de árvores derivam de qual algoritmo? Qual sua estratégia.
ID3.
* C4.5 e C5.0 são mais recentes.
* O ID3 aprende a árvore usando uma estratégia top-down (escolhe os atributos mais relevantes primeiro).
O que pode ser feito para evitar ou corrigir overfitting em uma árvore de decisão?
Para evitar overfitting:
* Pré-poda: para de crescer a árvore quando não tem mais dados suficientes para fazer
previsões confiáveis.
* Pós-poda: constrói a árvore toda, depois são removidas sub-árvores com menos
relevância.
* Métodos para poda:
* Validação cruzada: Reservar alguns dados de treinamento (conjunto de validação) para avaliar
utilidade das sub-árvores.
* Testes estatísticos: Usa o teste para determinar se a regularidade observada foi devida ao acaso.
* Comprimento da descrição mínima (MDL): Determina se a complexidade adicional da hipótese é
mais complexa que lembrar explicitamente as exceções resultantes da poda.
O que é o Random Forest?
É um algoritmo de classificação baseado em árvores de decisão. A predição da floresta randômica é a média de todas as predições das diversas árvores de decisão construídas.
A Random Forest é capaz de resolver problemas de classificação e regressão?
Sim.
O que é o k-Nearest Neighbors?
KNN é um algoritmo que classifica
novos dados com base em uma medida
de similaridade entre seus “vizinhos”
mais próximos, ou seja, aqueles que
têm características semelhantes às
suas.
* Nesse método, utiliza-se a distância
(usualmente a Euclidiana) entre uma
nova observação e as demais
observações de um training set para
classificá-la de acordo com a
observação mais próxima.
* O “k” determina o número de vizinhos
que serão utilizados para a classificação.
KNN é um método paramétrico ou não paramétrico?
Não paramétrico.
No KNN, o número de vizinhos k influencia no resultado da classificação?
Sim.
KNN pode ser usado como método de imputação de dados?
Sim.
A escolha da função para calcular as distâncias no método KNN pode influenciar significativamente nos resultados?
Sim.
O que é o Naive Bayes?
Família de algoritmos de aprendizado supervisionado baseados em
probabilidade. Prevê uma tabela de probabilidades condicionais e depois calcula a saída com base
nessa tabela.
Teorema de Bayes:
P(A|B) = (P(B|A).P(A))/P(B)
Quais são exemplos típicos de aplicação de um algoritmo Naive Bayes?
Classificação de spam no email e análise de sentimento.
Quais suposições ingênuas são feitas no método Naive Bayes?
- Todas as características do conjunto de dados não dependem um do outro.
- Cada evento contribui igualmente para classificar o resultado.
Algoritmos Naive Bayes podem ser utilizados com uma quantidade reduzida de amostras?
Sim.
O que é a regressão logística?
A regressão logística é uma técnica estatística que tem como objetivo
produzir, a partir de um conjunto de observações, um modelo que permita a
predição de valores tomados por uma variável categórica, frequentemente
binária, a partir de uma série de variáveis explicativas contínuas e/ou
binárias.
Traduzindo: é aquele gráfico em S que vai tentar fazer classificação de valores categóricos, usando atributos contínuos ou binários.
A regressão logística é um modelo paramétrico ou não paramétrico?
Paramétrico.
Caracterize a Regressão Logística:
1- Binomial
2 - Ordinal
3 - Multinomial
- Regressão logística binominal
No modelo de regressão logística binominal, os objetos são classificados em dois grupos ou categorias. - Regressão logística ordinal
O modelo de regressão logística ordinal é diferente porque trabalha com o conceito
de categorias ordenadas.
Neste caso, os objetos são classificados em três ou mais classes que possuem uma
ordem já determinada. - Regressão logística multinomial
No modelo de regressão logística multinomial, os objetos são classificados em três ou mais categorias que não possuem ordem entre si.
A Regressão Logística precisa apenas de um pequeno número de suposições para realizar as predições. Certo ou errado?
Certo.
Qual método a regressão logística utiliza?
Método da máxima verossimilhança. (Em estatística, a estimativa por máxima verossimilhança é um método para estimar os parâmetros de um modelo).
Qual é o conceito por trás de Suport Vector Machine (SVM)?
O conceito por trás do SVM é a maximização da margem, ou seja, maximizar a distância da margem dos dados de treinamento, construindo um HIPERPLANO ÓTIMO, onde a distância entre uma classe e outra até o plano é a mesma.
Em SVM, o que são os vetores de suporte?
São os exemplos da base de treinamento mais próximos do hiperplano.
Como resolver problemas que não são linearmente separáveis com um classificador SVM?
- Projetando os dados em outra dimensão usando uma função de kernel (kernel trick).
Pra SVM, os dados necessitam ser padronizados?
Sim.
Cite alguns exemplos de uso de redes neurais artificiais.
- Avaliação de imagens captadas por satélite.
- Classificação de padrões de escrita e fala.
- Reconhecimento de faces com visão computacional.
- Sistemas de controle e previsão financeira.
- Identificação de anomalias e patologias na área médica com base em imagens.
- Controle automatizado de equipamentos eletrônicos.
Como funciona um perceptron? (neurônio de uma rede neural artificial)
- Sinais são apresentados à entrada.
- Cada sinal é multiplicado por um número, ou peso, que indica a sua
influência na saída da unidade. - É feita a soma ponderada dos sinais que produz um nível de atividade.
- Se este nível de atividade exceder um certo limite (threshold), a unidade
produz uma determinada resposta de saída.