Aprendizado Supervisionado Flashcards
Definição de um agente baseado em aprendizado supervisionado
Um agente que aprende uma função capaz de mapear entradas e saídas com base em uma grande quantidade de amostras rotuladas
O que é um dataset?
DataSet é um conjunto de informações por onde o agente irá aprender sua função
É como uma grande tabelona que tem
Amostra | Features/dados | Classificação -> problema de classificação
Dividido em treino e teste
Como o dataset é utilizado?
Ele é dividido uma parte para aprendizado e outra para teste
O que é a função em um agente supervisionado
A função f(x) é por onde acontece o mapeamento de entrada para saída no dataset. No entanto essa função é desconhecida.
O agente precisa aprender uma função que se aproxime da função verdadeira, h(x)
Essa função é escolhida entre um conjunto de hipoteses e precisa generalizar a entradas nunca antes vistas
Função de previsão
h(x) : A função matemática que um modelo de aprendizado de máquina supervisionado encontra durante o treinamento, mapeando entradas para saídas.
Precisa generalizar entradas nunca antes vistas
O que é generalização em um modelo de aprendizado de máquina supervisionado?
É a capacidade do modelo de fazer previsões precisas em novos dados que não foram vistos durante o treinamento.
Quais são alguns exemplos de problemas que podem ser abordados com um agente baseado em aprendizado supervisionado?
Um agente baseado em aprendizado supervisionado pode ser usado para resolver problemas de classificação, como classificar e-mails como spam ou não spam, ou problemas de regressão, como prever o preço de uma casa com base em suas características.
Com relação os problemas abordados por agentes baseados em aprendizado supervisionado, identifique as diferençasdiferencas dos problemas de regressão e classificação
- Regressão: traça uma linha que passe mais perto de todos os pontos, busca prever um valor numérico contínuo para uma variável de saída, e tem saída contínua. Ex.: [0,1]
- Classificação: traça uma linha onde se separa os ‘tipos, buscando atribuir uma entrada a uma das várias classes pré-definidas. Ex.: gato ou cachorro
Como um agente baseado em aprendizado supervisionado toma decisões?
Um agente baseado em aprendizado supervisionado toma decisões fazendo previsões com base nos dados de entrada e nas informações aprendidas durante o treinamento. Ele escolhe a saída que tem a maior probabilidade de estar correta com base nas informações disponíveis.
Quais são algumas limitações de um agente baseado em aprendizado supervisionado?
Algumas limitações de um agente baseado em aprendizado supervisionado incluem a necessidade de dados rotulados para treinamento, a falta de capacidade de lidar com dados ausentes ou ruidosos e a falta de capacidade de aprender novos conceitos que não estão presentes nos dados de treinamento.
Sobre busca de hipóteses, como encontrar a hipótese correta?
Para encontrar a hipótese correta se usa o processo indutivo, onde se tenta ajustar diversas hipóteses até encontrar uma consistente
O que é overlifting? Qual o tradeoff em relacao a isso?
Quando acontece um ajuste excessivo no modelo e ele acaba não generalizando quanto deveria.
O tradeoff se relaciona a ter um espaco de hipotese grande o suficiente (expressivo) para incluir a hipótese ótima, mas não tao grande ao ponto de levar ao overlifting (muita complexidade)
O que é espaço de hipóteses?
Contém todas as funções possíveis, é importante que seja expressivo (para conter a solução ótima) mas não ao ponto de ser complexo (e causar overlifting)
O que é um problema realizável? E qual o problema com isso?
O problema de aprendizado realizável é aquele onde o H (espaco de hípoteses) contém a função verdadeira;
O problema é que antecipar essa informação é praticamente impraticável.
Navalha de Ockham
Princípio filosófico que afirma que, entre duas explicações igualmente boas para um fenômeno, a mais simples é a melhor.
Consistência ( hipótese muito consistente pode não generalizar) vs simplicidade (é importante que a hipótese seja simples)
Qual o objetivo do aprendizado supervisionado?
Encontrar a hipótese ótima h*
Que mais se aproxime da função verdadeira
O que é o treinamento em aprendizado supervisionado?
O treinamento busca ajustar o modelo aos dados do dataset.
Ele busca moinimizar o erro entre as previsões do modelo e a real saída
Quais são as abordagens de treinamento?
- Árvore de decisão
- Redes Neurais
- …
O que seria uma árvore de decisão?
A árvore de decisão representa uma função (uma hipótese)
Cada nó é uma feature/um atributo e quanto mais próximo da raiz, mais importante
Qual o processo de inducão em árvores de decisão?
O processo de indução consiste em criar várias árvores e encontrar a árvore consistente e consisa para representar um conjunto de exemplos (dataset)
Problema é que para N atributos, serão 2^(2ⁿ)
O que é decision-tree-learning
Com relação as árvores de decisão
Algoritmo que constrói uma árvore de decisão a partir de um conjunto de dados de treinamento.
Escolhe atributos mais importantes para dividir o problema em subproblemas, que são então resolvidos recursivamente.
Casos de recursão do decision-tree-learning
- Temos só exemplos positivos/negativos: done
- Exemplos mistos: continua a busca
- Sem mais exemplos: retorna a classe predominante no nó pai
- Sem mais atributos/features: retorna a classe predominante
Verdadeiro ou falso: Decision-tree-learning sempre entrega a melhor solução
Falso - o método pode não entregar a melhor solução, ainda que gere boas soluções
Como escolher os atributos em Decision Tree Learning?
A ideia é escolhera atributos que façam a divisão dos exemplos da forma mais próxima a esperada possível.
Atributo perfeito: aquele que divide todos os exemplos em dois conjuntos (positivo e negativo, por exemplo)
Entropia é uma forma de escolher os atributos. É baseada na incerteza e usada no método importance no algoritmo, escolhe o atributo que diminui ao máximo a incerteza
Essemble Learning, o que é?
É uma forma de combinar hipóteses/modelos parar melhorar a precisão e o desempenho do modelo final.
Podemos fazer isso através do boosting e do baggie
Boosting - Essemble Learning
Novos modelos são treinados para corrigir a deficiencia de outros
Cria árvores recursivamente, a saída de uma é a entrada de outra
Boostrap Agreggation (baggie) -Essemble Learning
Cada modelo é treinado com um subconjunto aleatório de dados, treina modelos de forma independente.
Random Forest: método para criar diversas árvores diferentes e selecionar o melhor resultado através de consenso
Definição de Hipóteses
As hipóteses são modelos ou aproximações da função f(x) que são usados para fazer previsões em novos dados.
O que é Busca de Hipóteses
Processo de encontrar a hipótese ótima que melhor se ajusta aos dados de treinamento e é capaz de generalizar bem para novos dados.
O que é classificação no aprendizado supervisionado?
A classificação no aprendizado supervisionado é um tipo de aprendizado de máquina em que o objetivo é prever uma variável categórica ou discreta.
O que é regressão no aprendizado supervisionado?
A regressão no aprendizado supervisionado é um tipo de aprendizado de máquina em que o objetivo é prever uma variável contínua.
O que é o processo indutivo?
O processo indutivo é uma abordagem para criar hipóteses e teorias a partir de observações e exemplos específicos.
Como funciona o processo indutivo?
O processo indutivo envolve tentar construir ou ajustar várias hipóteses até encontrar uma que seja consistente com os exemplos observados.
O que é uma hipótese consistente?
Uma hipótese consistente é aquela que pode explicar os exemplos observados e prever novos exemplos com precisão.
Qual é a importância do processo indutivo na aprendizagem de máquina?
O processo indutivo é fundamental na aprendizagem de máquina, pois é usado para criar modelos e algoritmos de aprendizagem a partir de dados, permitindo que as máquinas possam aprender e tomar decisões com base nesses dados.
Por que é importante definir o espaço de hipóteses?
Definir o espaço de hipóteses é importante para limitar a complexidade do modelo e evitar overfitting, que ocorre quando o modelo é muito complexo e se ajusta demais aos dados de treinamento.
Como escolher o espaço de hipóteses adequado para um problema específico?
A escolha do espaço de hipóteses adequado depende do tipo de problema e da quantidade e qualidade dos dados disponíveis. É necessário encontrar um equilíbrio entre a capacidade do modelo e a complexidade para obter um bom desempenho.
Todas as máquinas de Turing podem ser usadas como espaço de hipóteses?
Sim, todas as máquinas de Turing podem ser usadas como espaço de hipóteses. No entanto, quanto maior a expressividade do espaço de hipóteses, maior será a complexidade do modelo e o risco de overfitting.
Qual é o tradeoff entre expressividade e complexidade no espaço de hipóteses?
O tradeoff entre expressividade e complexidade no espaço de hipóteses refere-se à relação entre a capacidade do modelo de representar funções complexas e a simplicidade do modelo. Quanto mais expressivo o espaço de hipóteses, mais complexo será o modelo e maior será o risco de overfitting.
Como a expressividade do espaço de hipóteses se relaciona com a linearidade, polinomialidade e máquina de Turing?
A expressividade do espaço de hipóteses aumenta na seguinte ordem: linear < polinomial < máquina de Turing. Ou seja, quanto mais complexas as funções que o modelo pode representar, maior é a expressividade do espaço de hipóteses.
Como a complexidade do espaço de hipóteses se relaciona com a linearidade, polinomialidade e máquina de Turing?
A complexidade do espaço de hipóteses aumenta na seguinte ordem: linear < polinomial < máquina de Turing. Ou seja, quanto mais complexas as funções que o modelo pode representar, maior é a complexidade do espaço de hipóteses.
Como funciona o treinamento supervisionado?
No treinamento supervisionado, o modelo é ajustado aos dados de treinamento, que incluem entradas e saídas conhecidas. O modelo faz previsões com base nas entradas e os resultados são comparados com as saídas conhecidas. O erro é calculado e usado para ajustar os parâmetros do modelo.
O que é a entropia em uma árvore de decisão?
R: A entropia em uma árvore de decisão é uma medida de incerteza ou desordem nos dados. A entropia é calculada para cada atributo e usada para determinar a ordem em que os atributos são selecionados para criar a árvore.