Teste Flashcards
Indica os paradigmas de representação do conhecimento da Inteligência Artificial.
- Simbólico :
- Base-se na lógica para representação do conhecimento.
- Construção de sistema de inferência
- Não simbólico:
- Baseia o funcionamento do sistema na capacidade de aprender generalizando.
- problem solving com conhecimento passado/dados de outros problemas
Indique os principais paradigmas de aprendizagem
- Aprendizagem automática (ML) = capacidade de aprender de modo autonomo e independente.
- Aprendizagem com supervisão = usa informação de resultados estabelecidos de forma a estabelecer uma relação entre valores pretendidos e valores produzidos pelo sistema.
- Aprendizagem sem supervisão = sem conhecimento dos resultados pretendidos, usa técnicas de aprendizagem que avaliam o estado interno do sistema.
- Aprendizagem por reforço = sem conhecimento dos resultados pretendidos, avalia se os resultados obtidos são bons ou maus.
Indique as principais vantagens/benificios do uso de metodologias de análise de dados.
- maior robustez
- compreensão, implementação e desenvolvimento melhorado
- replicação de processos
- planeamento e gestão do projeto
- maturidade
- adoção de melhores práticas
Indique as principais metodologias de análise de dados e as suas respectivas etapas.
CRISP-DM (Cross Industry Standard Process for Data Mining)
* Estudo do negócio
* Estudo dos dados
* Preparação dos dados
* Modelação
* Avaliação
* Desenvolvimento
SEMMA (Sample, Explore, Modify, Model, Assess)
PMML (Predictive Model Markup Language) = linguagem desenvolvida para descrever modelos em XML
Indique as tarefas na preparação de dados
- Discretização/Enumeração
- Limpeza
- Transformação
- Redução de dados
Descreva o principal método relativo à Discretização/Enumeração, uma das etapas na preparação dos dados.
A discretização/enumeração consiste na redução do número de valores de um atributo contínuo em intervalos.
Isto pode ser feito através de:
- Binning
- Equal-width Binning
- divide gama de valores em N intervalos de igual largura
- Largura = (limite superior - limite inferior) / N
- Pros & Cons
- Simples e fácil de implementar
- abstrações de dados razoáveis
- sem supervisão
- quem determina N?
- sensível a valores de fronteira
* Equal-height Binning * divide a gama de valores em N intevalos, cada um contendo, aproximadamente, a mesma quantidade de valores. * Pros & Cons * Igual largura normalmete preferida dada a possibilidade de "amontoar" dados * Na prática, é são usados intervalos de "quase" igual altura para garantir intervalos mais intuitivos. * Menos sensível a valores de fronteira * Criação de intervalos para valores especiais ("0")
- Equal-width Binning
Descreva os métodos alternativos a Binning relativos à Discretização/Enumeração de dados, uma das etapas da preparação de dados.
Métodos alternativos na discretização:
* 1R (baseado em Binning)
* Entropia
* Impurezas
Indique as principais decisões perante a ausência de dados, destacando os cenários mais viáveis para cada cenário.
Evitar adicionar distorção aos dados
- Ignorar os registos onde faltam dados - má prática se os registos em falta forem elevados/registos em falta contêm informação importante
- Preencher manualmente os registos (trabalho/dificil?)
- Preencher com mesmo valor (pode criar tendências artificiais nos dados)
- Valor médio do atributos (pouco impacto se desvio padrão for baixo)
- Valor mais frequente
Descreva os principais métodos relativo à Transformação, uma das etapas na preparação dos dados.
- Alisamento/Smoothing = remoção do lixo/ruído dos dados (binning, regressão, clustering)
- Agregação = pressupor que os resultados sumariam os dados iniciais (resumo de vendas trimestrais, …)
- Generalização = hierarquização de conceitos (distrito - cidade - rua)
- Formação de novos atributos (preço após impostos)
- Uniformização = evitar gama alargada de valores, resolver tendências dos algoritmos para com valores anormais)
- Normalization [0:1]
- Standarization/Z-score (Padronização)
- Deteção de valores atípicos = visualização por Box-Plot, Z-Score (desvio padrão)
Quais as principais diferenças entre Normalization e Standarization (Padronização), conceitos à preparação de dados mais precisamente na uniformização (transformação).
- Normalização
- valor Min & Max dos atributos são usados na escala
- usado quando existem escalas diferentes
- [0, 1] ou [-1,1]
- Distriubuição concreta?
- Afetada por valores atípicos
- Standarization
- valor médio e desvio padrão são usados na escala
- não é enquadrado num intervalo específico
- Distribuição Normal/Gaussiana
- Pouco afetada por valores atípicos
Descreva o objetivo da Redução de dados, uma das etapas na preparação dos dados e indique as principais estratégias.
A Redução de dados pretende obter uma representação reduzida do volume de dados em conjunto com a produção dos mesmos (quase) resultados analíticos.
As principais estratégias baseam-se em:
- Construção de cubos de dados (operações de agregação de forma a construir)
- Redução de dimensões (remoção de atributos irrelevantes, redundantes ou pouco interessantes a analisar)
- PCA (Principle Component Analysis)
- considera todos os atributos
- combiná-los de uma forma inteligente
- produz novos fatores que são correlacionados entre si e ordenados por ordem de importância.
- Normalmente usada em paradigma de aprendizagem não supervisionado
- PCA (Principle Component Analysis)
- Compressão de dados
- Discretização e generalização dos conceitos
Quais são os principais tópicos que a preparação de dados pretende abordar?
Conclusões
- Adequar os dados às técnicas de análise
- Adaptar os dados às ferramentas
- Selecionar os dados que representam conhecimento
- Sintetizar dados que tornem a realidade mais inteligível
- “Preparação do preparador”
Indique as técnicas de aprendizagem relativas ao paradigma de aprendizagem com supervisão.
- Classificação
- Regressão
Explique o processo de construção de uma árvore de decisão e consequente modelo de decisão baseado no paradigma de aprendizagem com supervisão.
Modelos de decisão e etapas
Existem 2 tipos de paradigmas de criação de modelos de decisão (Top-down e Bottom-up). As árvores de decisão seguem o paradigma Bottom-up:
- informação sobre cada item deve estar numa colexão fixa e finita de atributos
- níveis de decisão conhecidos a priori ? construção do modelo por aprendizagem supervisionado : não supervisionado
- Niveis de decisão
- Contínuo = folhas de decisão identificam intervalos/conjuntos de valores
- Discreto = folhas de decisão são categorias ou classes.
A construção de uma árvore de decisão baseia-se nas etapas:
- Observação
- Generalização por indução
- Criação do modelo
- Apresentação do problema
- Previsão
Indique o significado de entropia no contexto da análise de dados e explique a sua relação com um problema de árvores de decisão.
A entropia indentifica o grau de desorganização dos dados
Na construção de uma árvore de decisão, existe a questão de qual o melhor atributo para ser a raiz da árvore de decisão.
Através da entropia (Entropia(S) = -p(+)log2(p(+)) - p(-)log2(p(-)) com p(+) pertence a [0,1] e p(-) equivalente a (1-p(+)) pertence a [0,1])
determinar o atributo com maior ganho de informação.
O atributo com maior ganho será a raiz da árvore.