CIÊNCIA DE DADOS Flashcards
O problema de underfitting ocorre quando o modelo não se ajusta aos dados de treinamento, enquanto o overfitting ocorre quando o modelo não se ajusta a novos dados.
CERTO
Overfitting:
Excesso de dados (ruidosos)
Desempenho Excelente no treinamento
Desempenho ruim no teste, pois não se ajusta a novos dados
Underfitting:
Poucos dados
Desempenho ruim já no treinamento
Não consegue encontrar relação entre as variáveis
O aprendizado supervisionado utiliza a regressão para entender a relação entre variáveis dependentes e independentes.
CERTO
Aprendizado de máquina pode ser definido como a criação e o uso de modelos que são aprendidos a partir dos dados.
CERTO
é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos computacionais que aprendem padrões e relações a partir de dados, sem uma programação explícita.
Um dos autores mais influentes em machine learning, Tom Mitchell, destaca três elementos-chave do Aprendizado de Máquina:
1. Experiência: ……………………………
2. Tarefa:……………………
3. Medida de desempenho: ……………………….
- Experiência: dados de entrada para treinar o algoritmo
- Tarefa: atividade de execução: como classificação, previsão, agrupamento, etc.
- Medida de desempenho: métrica de avaliação para quantificar o quão bem o algoritmo está realizando a tarefa
O aprendizado ……………………… é um dos tipos mais comuns de aprendizado de máquina, onde o algoritmo é treinado em um conjunto de dados rotulados, ou seja, cada exemplo de treinamento possui uma entrada e a saída desejada correspondente. Um exemplo prático é um modelo de classificação de e-mails, onde o algoritmo é treinado com exemplos rotulados de e-mails como spam ou não spam.
supervisionado
o algoritmo recebe feedback explícito sobre sua saída em relação às saídas esperadas. Essa supervisão permite que o algoritmo ajuste seus parâmetros iterativamente para minimizar a discrepância entre suas previsões e os rótulos verdadeiros dos dados.
…………………………..é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída.
Aprendizado de máquina é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída. Em relação ao aprendizado de máquina, julgue o item a seguir.
…………………………. é uma representação simplificada de um sistema complexo que é usado para facilitar a compreensão, análise ou previsão desse sistema. Em aprendizado de máquina, é uma função matemática que relaciona entradas de dados a saídas esperadas.
MODELO
O objetivo do treinamento do modelo é encontrar os parâmetros que melhor ajustam os dados de treinamento, de modo que o modelo possa fazer previsões precisas sobre novos dados.
……………………….: São os parâmetros de nível superior que você define manualmente antes de iniciar o treinamento, que se baseiam em propriedades como as características dos dados e a capacidade de aprendizado algoritmo.
HIPERPAR METROS
Um fluxo ou pipeline de um projeto de aprendizado de máquina pode ser exemplificado nas seguintes etapas:
1) Ingestão de dados
2)
3)
4)
5)
6)
1) Ingestão de dados
2) Exploração de dados
3) Processado dos dados
4) Treinamento do modelo
5) Validação e análise do modelo
6) Deployment do modelo
O objetivo dos modelos de Aprendizado de Máquina é estimar a função que melhor se ajusta aos dados de entrada para realizar previsões corretas de forma generalizada. Para avaliar e otimizar o desempenho do modelo, consideramos dois aspectos fundamentais: …………………….. e …………………
viés e variância.
Ambos têm impacto direto no desempenho do modelo e na sua capacidade de generalização para novos dados. Um modelo com alto viés e baixa variância tende a subestimar a complexidade dos dados, enquanto um modelo com baixo viés e alta variância pode estar superajustando aos dados de treinamento, não generalizando bem para novos dados.
Overfitting está relacionado a ……………….. viés e ………………… variância.
Baixo Viés e Alta Variância - O modelo está superestimando (overfitting) nos dados de treino e não generaliza bem com dados novos.
Underfiting está relacionado a ……………….. viés e ………………… variância.
Alto Viés e Baixa Variância - O modelo está subestimando (underfitting) nos dados de treino e não captura a relação verdadeira entre as variáveis preditoras e a variável resposta.
Para evitar o overfitting, existem algumas estratégias:
1)
2)
3)
- Simplificar o modelo
- Aumentar o tamanho do conjunto de treinamento
- Reduzir o ruído nos dados de treinamento: Corrigir erros nos dados e remover outliers podem ajudar a reduzir o ruído e melhorar a capacidade de generalização do modelo.
…………………………. - Uma tabela NxN que resume o sucesso das previsões de um modelo de classificação; ou seja, a correlação entre o rótulo e a classificação do modelo. Um eixo de uma matriz de confusão é o rótulo que o modelo previu e o outro eixo é o rótulo real. N representa o número de classes. Em um problema de classificação binária, N=2
Matriz de confusão
A Matriz de confusão é uma tabela NxN que resume o sucesso das previsões de um modelo de …………………….
classificação
A ………………………….. permite avaliar o desempenho de um modelo de classificação a partir da frequência de erros e acertos.
matriz de confusão
Dropout - Uma forma de regularização útil no treinamento de redes neurais. Funciona removendo uma seleção aleatória de um número fixo de unidades em uma camada de rede para uma única etapa de gradiente.
CERTO
A regressão ………………………. é usada para problemas de classificação binária, onde a saída é uma variável categórica com duas classes. Por exemplo, prever se um e-mail é spam ou não.
Regressão Logística
Utilizada para problemas de classificação binária, onde o objetivo é prever uma das duas classes possíveis.
…………………………………… é uma técnica estatística utilizada para modelar a relação entre uma variável dependente categórica binária (ou multinomial) e uma ou mais variáveis independentes. Ela é frequentemente empregada em situações em que estamos interessados em prever a probabilidade de ocorrência de um evento, como prever se um paciente tem uma determinada doença com base em suas características clínicas.
regressão logística
Os parâmetros do modelo de regressão logística são estimados usando técnicas de máxima verossimilhança ou métodos de mínimos quadrados. O objetivo é encontrar os valores dos coeficientes de regressão que maximizam a verossimilhança dos dados observados. Este processo é realizado iterativamente até que a convergência seja alcançada.
O aprendizado SUPERVISIONADO e NÃO SUPERVISIONADO dividem-se em quais técnicas?
SUPERVISIONADO:
1) Técnicas de Classificação
2) Técnicas de Regressão
NÃO SUPERVISIONADO:
1) Técnicas de Agrupamento
2) Técnicas de Redução de Dimensionalidade
3) Técnicas de Associação
Cite 7 tarefas/técnicas de CLASSIFICAÇÃO
1) Regressão Logística
2) Máquinas de Vetores de Suporte (SVM)
3) K-Vizinhos Mais Próximos (KNN)
4) Árvores de Decisão
5) Florestas Aleatórias
6) Redes Neurais
7) Naive Bayes
O modelo de regressão logística …………………… é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. Por exemplo, o desempenho do atleta é ruim, justo ou excelente. Outro exemplo: o grau de satisfação do paciente com o tratamento é insatisfeito, satisfeito ou muito satisfeito.
ORDINAL
REGRESSÃO LOGÍSTICA BINOMINAL - Duas classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA ORDINAL - Tres ou mais classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA MULTINOMIAL -Tres ou mais classes que NÃO possui Ordem.
Qual é a técnica que pode ser utilizada para sugerir que aqueles clientes que compraram o produto A também compraram o produto B, ou que aqueles clientes que compraram os produtos A, B e C são mais similares que os clientes que compraram o produto A?
Regras de associação: identificação de grupos de dados que apresentam co-ocorrência entre si, por exemplo, uma cesta de compras. A tarefa de descoberta de associações compreende a busca por itens que frequentemente ocorrem de forma simultânea em uma quantidade mínima de transações do conjunto de dados.
Qual técnica e tarefa?
A analista Carla implementou uma solução algorítmica que classifica os novos processos submetidos à PGM de Niterói em níveis de indício de fraude. Para atingir este objetivo, Carla se baseou no algoritmo de machine learning para classificação que atribui, necessariamente, um valor no intervalo numérico de 0 a 1 para cada entrada. Carla utilizou como base o algoritmo de machine learning: ……………………….
Técnicas de Classificação - Regressão Logística
REGRESSAO LOGISTICA é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.
Qual técnica e tarefa?
Utilizam hiperplanos para separar dados em diferentes classes. Podem ser usadas tanto para classificação binária quanto para múltiplas classes. É eficaz em problemas de classificação e pode lidar com conjuntos de dados complexos.
Técnicas de Classificação - Máquinas de Vetores de Suporte (SVM)
No SVM (Máquina de Vetor de Suporte), o …………………….. é uma reta que separa os dados com uma margem.
hiperplano
Os pontos mais próximos da fronteira são colocados numa linha pontilhada para a classificação, ou seja, depois da linha não há mais círculos e quadrados. As duas linhas no ponto de fronteira, são chamados de vetores de suporte.
Os modelos implementados a partir dos algoritmos de Máquina de Vetor de Suporte utilizam funções kernel, conferindo como vantagem capacidade de lidar com dados não …………………
Não Lineares
Kernel é basicamente o nome dado a função que o SVM vai usar para deduzir relações.
Kernel LINEAR ajuda a prevenir overfitting.
Em redes neurais, a ………………………….. simula o comportamento de um neurônio biológico ao decidir disparar ou inibir sinais, dependendo de sua lógica interna. O valor de saída é então despachado para todas as unidades receptoras conforme determinado pela topologia subjacente.
função de ativação
a função de ativação permite que uma alteração pequena nos pesos cause apenas uma pequena alteração no output… isso somado com a característica de poder decidir se um neurônio será ativado ou não, faz com que a rede possa aprender padrões complexos.
As redes neurais …………………….. são incríveis porque conseguem aprender automaticamente características importantes em diferentes partes de uma imagem, como bordas, texturas e formas. Isso as torna perfeitas para tarefas como identificação de objetos em fotos, reconhecimento facial e outras coisas legais.
Redes Neurais Convolucionais (CNN)
Em redes neurais completamente conectadas, também conhecidas como redes ……………………….., todos os neurônios de uma camada estão conectados aos neurônios da camada seguinte.
neurais densas ou fully connected
As redes neurais feedforward são essencialmente funções complexas que mapeiam uma
entrada para uma saída correspondente, aprendendo a distribuição subjacente dos dados
durante o treinamento. Durante o processo de treinamento, a ………………………. é usada
para atualizar os parâmetros do modelo, reduzindo a perda e aproximando melhor a
distribuição dos dados.
retropropagação
a camada final pode enviar informações para as anteriores a fim de melhorar o processo de aprendizado
O algoritmo de retropropagação padrão é uma otimização de primeira ordem. Sua convergência é altamente sensível ao tamanho da rede, ao nível de ruído nos dados e à escolha da taxa de aprendizagem
As redes neurais …………………….. são essencialmente funções complexas que mapeiam uma
entrada para uma saída correspondente, aprendendo a distribuição subjacente dos dados
durante o treinamento. Durante o processo de treinamento, a retropropagação é usada
para atualizar os parâmetros do modelo, reduzindo a perda e aproximando melhor a
distribuição dos dados.
feedforward
As conexões entre as camadas de uma rede neural do tipo o MLP (Multi Layer Percetron) são de natureza feedfoward.
No contexto de Redes Neurais, o ………………….. é simplesmente uma função matemática que recebe um conjunto de entradas, realiza alguns cálculos matemáticos e produz o resultado do cálculo.
Perceptron
um perceptron é representado por um conjunto de parâmetros que incluem pesos, w e um viés. É capaz de classificar padrões simples em duas classes, formando uma região de decisão de meio plano. Um único perceptron, entretanto, é incapaz de separar padrões de entrada que requerem limites de decisão mais complexos
Os mapas de Kohonen fazem parte das redes neurais auto-organizáveis, as quais se caracterizam por dividir o conjunto de padrões de entrada em grupos inerentes aos dados, formando-se agrupamentos denominados CLUSTERS.
CERTO
As redes de Kohonen são um tipo de rede neural que realiza armazenamento em cluster, também conhecido como knet ou mapa de auto-organização. Este tipo de rede pode ser utilizado para armazenar em cluster o conjunto de dados em grupos distintos quando você não souber quais desses grupos estão no início.
Em Redes Neurais, o backpropagation é uma técnica de busca de gradiente que minimiza uma função de custo entre as saídas desejadas e aquelas geradas pela rede (loss). O objetivo é estabelecer uma relação funcional para um determinado problema, ajustando os …………………. entre os neurônios.
PESOS
backpropagation pode ser considerado a pedra angular das redes neurais modernas e aprendizagem profunda. Fundamentalmente, backpropagation é uma técnica para calcular derivadas rapidamente
O Algoritmo KNN (K-Vizinhos mais próximos) é um classificador de aprendizado supervisionado e não paramétrico (as entradas e as saídas de dados não precisam de uma função matemática específica, isto é, para cada novo dado que se deseja classificar, utiliza-se o conjunto de dados de treinamento original para calcular.)
CERTO
Baseado em distância que pode ser utilizado tanto para classificação quanto para regressão.
As árvores de decisão possuem significativa dependência dos dados de treinamento, portanto, são instáveis, pois pequenas alterações nos dados de treino produzem novas árvores.
CERTO
algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E REGRESSÃO, devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa DEPENDÊNCIA dos dados
Algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E ………………….., devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa …………………… dos dados
Algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E REGRESSÃO, devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa DEPENDÊNCIA dos dados
A árvore de decisão é um algoritmo preditivo, ou seja, ela nem sempre acerta na previsão de uma classe para uma instância do modelo.
CERTO
A árvore de decisão é semelhante a um monte de instruções ………., um algoritmo simples, mas elegante, com uma visualização muito intuitiva. É realmente fácil entender o que está acontecendo, ao contrário das redes neurais. Além disso, pouco ou nenhum préprocessamento de dados é necessário.
if-else
Como o nome sugere, é uma árvore, portanto, começa com um nó raiz, que é um dos recursos.
Em um modelo para um aprendizado supervisionado dos dados no formato de uma árvore de decisão, um algoritmo de construção da árvore busca minimizar a informação necessária para classificar os dados nas partições da árvore.
CERTO
O algoritmo procura dividir os dados em partes (nós) de modo a reduzir a incerteza na classificação dos dados. Portanto, o objetivo é minimizar a informação necessária para classificar os dados com precisão, tornando a árvore de decisão eficaz na classificação de novos exemplos. Cada nó interno da árvore representa uma decisão com base em uma característica dos dados, enquanto as folhas representam resultados ou classificações.
Exemplos de Algoritmos utilizados na técnica de Árvores de Decisão:
1) ID3 (Iterative Dichotomiser 3): Usa ganho de informação para decidir os atributos que dividem os dados.
2) …………………….: Extensões do ID3 que lidam melhor com atributos contínuos e dados ausentes.
3) CART (Classification and Regression Trees): Utiliza o índice de Gini para classificação e redução de variância para regressão.
1) ID3 (Iterative Dichotomiser 3): Usa ganho de informação para decidir os atributos que dividem os dados.
2) C4.5 e C5.0: Extensões do ID3 que lidam melhor com atributos contínuos e dados ausentes.
………………………..: É um método utilizado para separar (ou estratificar) um conjunto de dados de modo a perceber que existe um padrão. Consiste na divisão de um grupo em diversos subgrupos com base em fatores apropriados os quais são conhecidos como fatores de estratificação.
Estratificação
estratificar = separar em níveis
Em sistemas de suporte à decisão, uma das abordagens da árvore de decisão é a ……………………., em que são criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.
predição
Preditivas: Ajuda a prever cenários futuros com base na análise de padrões da base de dados. É possível tomar decisões mais precisas. Os métodos usados: dados estatísticos e históricos, mineração de dados e inteligência artificial
A árvore de decisão é uma técnica utilizada em mineração de dados cuja abordagem para a criação de regras para utilização nos próximos eventos é a estratificação.
ERRADO
Predição.
São criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.
Existem várias medidas de distância comumente usadas em problemas de aprendizado de máquina, cada uma adequada para diferentes tipos de dados e contextos. Quais são as duas mais populares?
- Distância Euclidiana
- Distância de Manhattan
O algoritmo random forest atribui a mesma importância para todas as variáveis ao fazer as predições.
ERRADO
A ideia da arvore de decisão é justamente construir regras colocando no topo as informações que proporciam o maior ganho de informação pra aquele contexto…
O algoritmo random forest é um algoritmo de aprendizado de máquina supervisionado em que se agrupam os resultados de várias árvores de decisão de cada nó para se obter uma conclusão própria e aumentar a precisão do modelo, não sendo o referido algoritmo adequado para grandes conjuntos de dados.
ERRADO
é utilizado para grandes conjuntos de dados quando uma única árvore de decisão não consegue fazer a previsão correta.