Aprendizado Supervisionado Flashcards
Definição de um agente baseado em aprendizado supervisionado
Um agente que aprende uma função capaz de mapear entradas e saídas com base em uma grande quantidade de amostras rotuladas
O que é um dataset?
DataSet é um conjunto de informações por onde o agente irá aprender sua função
É como uma grande tabelona que tem
Amostra | Features/dados | Classificação -> problema de classificação
Dividido em treino e teste
Como o dataset é utilizado?
Ele é dividido uma parte para aprendizado e outra para teste
O que é a função em um agente supervisionado
A função f(x) é por onde acontece o mapeamento de entrada para saída no dataset. No entanto essa função é desconhecida.
O agente precisa aprender uma função que se aproxime da função verdadeira, h(x)
Essa função é escolhida entre um conjunto de hipoteses e precisa generalizar a entradas nunca antes vistas
Função de previsão
h(x) : A função matemática que um modelo de aprendizado de máquina supervisionado encontra durante o treinamento, mapeando entradas para saídas.
Precisa generalizar entradas nunca antes vistas
O que é generalização em um modelo de aprendizado de máquina supervisionado?
É a capacidade do modelo de fazer previsões precisas em novos dados que não foram vistos durante o treinamento.
Quais são alguns exemplos de problemas que podem ser abordados com um agente baseado em aprendizado supervisionado?
Um agente baseado em aprendizado supervisionado pode ser usado para resolver problemas de classificação, como classificar e-mails como spam ou não spam, ou problemas de regressão, como prever o preço de uma casa com base em suas características.
Com relação os problemas abordados por agentes baseados em aprendizado supervisionado, identifique as diferençasdiferencas dos problemas de regressão e classificação
- Regressão: traça uma linha que passe mais perto de todos os pontos, busca prever um valor numérico contínuo para uma variável de saída, e tem saída contínua. Ex.: [0,1]
- Classificação: traça uma linha onde se separa os ‘tipos, buscando atribuir uma entrada a uma das várias classes pré-definidas. Ex.: gato ou cachorro
Como um agente baseado em aprendizado supervisionado toma decisões?
Um agente baseado em aprendizado supervisionado toma decisões fazendo previsões com base nos dados de entrada e nas informações aprendidas durante o treinamento. Ele escolhe a saída que tem a maior probabilidade de estar correta com base nas informações disponíveis.
Quais são algumas limitações de um agente baseado em aprendizado supervisionado?
Algumas limitações de um agente baseado em aprendizado supervisionado incluem a necessidade de dados rotulados para treinamento, a falta de capacidade de lidar com dados ausentes ou ruidosos e a falta de capacidade de aprender novos conceitos que não estão presentes nos dados de treinamento.
Sobre busca de hipóteses, como encontrar a hipótese correta?
Para encontrar a hipótese correta se usa o processo indutivo, onde se tenta ajustar diversas hipóteses até encontrar uma consistente
O que é overlifting? Qual o tradeoff em relacao a isso?
Quando acontece um ajuste excessivo no modelo e ele acaba não generalizando quanto deveria.
O tradeoff se relaciona a ter um espaco de hipotese grande o suficiente (expressivo) para incluir a hipótese ótima, mas não tao grande ao ponto de levar ao overlifting (muita complexidade)
O que é espaço de hipóteses?
Contém todas as funções possíveis, é importante que seja expressivo (para conter a solução ótima) mas não ao ponto de ser complexo (e causar overlifting)
O que é um problema realizável? E qual o problema com isso?
O problema de aprendizado realizável é aquele onde o H (espaco de hípoteses) contém a função verdadeira;
O problema é que antecipar essa informação é praticamente impraticável.
Navalha de Ockham
Princípio filosófico que afirma que, entre duas explicações igualmente boas para um fenômeno, a mais simples é a melhor.
Consistência ( hipótese muito consistente pode não generalizar) vs simplicidade (é importante que a hipótese seja simples)
Qual o objetivo do aprendizado supervisionado?
Encontrar a hipótese ótima h*
Que mais se aproxime da função verdadeira
O que é o treinamento em aprendizado supervisionado?
O treinamento busca ajustar o modelo aos dados do dataset.
Ele busca moinimizar o erro entre as previsões do modelo e a real saída
Quais são as abordagens de treinamento?
- Árvore de decisão
- Redes Neurais
- …
O que seria uma árvore de decisão?
A árvore de decisão representa uma função (uma hipótese)
Cada nó é uma feature/um atributo e quanto mais próximo da raiz, mais importante
Qual o processo de inducão em árvores de decisão?
O processo de indução consiste em criar várias árvores e encontrar a árvore consistente e consisa para representar um conjunto de exemplos (dataset)
Problema é que para N atributos, serão 2^(2ⁿ)
O que é decision-tree-learning
Com relação as árvores de decisão
Algoritmo que constrói uma árvore de decisão a partir de um conjunto de dados de treinamento.
Escolhe atributos mais importantes para dividir o problema em subproblemas, que são então resolvidos recursivamente.
Casos de recursão do decision-tree-learning
- Temos só exemplos positivos/negativos: done
- Exemplos mistos: continua a busca
- Sem mais exemplos: retorna a classe predominante no nó pai
- Sem mais atributos/features: retorna a classe predominante
Verdadeiro ou falso: Decision-tree-learning sempre entrega a melhor solução
Falso - o método pode não entregar a melhor solução, ainda que gere boas soluções
Como escolher os atributos em Decision Tree Learning?
A ideia é escolhera atributos que façam a divisão dos exemplos da forma mais próxima a esperada possível.
Atributo perfeito: aquele que divide todos os exemplos em dois conjuntos (positivo e negativo, por exemplo)
Entropia é uma forma de escolher os atributos. É baseada na incerteza e usada no método importance no algoritmo, escolhe o atributo que diminui ao máximo a incerteza