Teste Flashcards
Indica os paradigmas de representação do conhecimento da Inteligência Artificial.
- Simbólico :
- Base-se na lógica para representação do conhecimento.
- Construção de sistema de inferência
- Não simbólico:
- Baseia o funcionamento do sistema na capacidade de aprender generalizando.
- problem solving com conhecimento passado/dados de outros problemas
Indique os principais paradigmas de aprendizagem
- Aprendizagem automática (ML) = capacidade de aprender de modo autonomo e independente.
- Aprendizagem com supervisão = usa informação de resultados estabelecidos de forma a estabelecer uma relação entre valores pretendidos e valores produzidos pelo sistema.
- Aprendizagem sem supervisão = sem conhecimento dos resultados pretendidos, usa técnicas de aprendizagem que avaliam o estado interno do sistema.
- Aprendizagem por reforço = sem conhecimento dos resultados pretendidos, avalia se os resultados obtidos são bons ou maus.
Indique as principais vantagens/benificios do uso de metodologias de análise de dados.
- maior robustez
- compreensão, implementação e desenvolvimento melhorado
- replicação de processos
- planeamento e gestão do projeto
- maturidade
- adoção de melhores práticas
Indique as principais metodologias de análise de dados e as suas respectivas etapas.
CRISP-DM (Cross Industry Standard Process for Data Mining)
* Estudo do negócio
* Estudo dos dados
* Preparação dos dados
* Modelação
* Avaliação
* Desenvolvimento
SEMMA (Sample, Explore, Modify, Model, Assess)
PMML (Predictive Model Markup Language) = linguagem desenvolvida para descrever modelos em XML
Indique as tarefas na preparação de dados
- Discretização/Enumeração
- Limpeza
- Transformação
- Redução de dados
Descreva o principal método relativo à Discretização/Enumeração, uma das etapas na preparação dos dados.
A discretização/enumeração consiste na redução do número de valores de um atributo contínuo em intervalos.
Isto pode ser feito através de:
- Binning
- Equal-width Binning
- divide gama de valores em N intervalos de igual largura
- Largura = (limite superior - limite inferior) / N
- Pros & Cons
- Simples e fácil de implementar
- abstrações de dados razoáveis
- sem supervisão
- quem determina N?
- sensível a valores de fronteira
* Equal-height Binning * divide a gama de valores em N intevalos, cada um contendo, aproximadamente, a mesma quantidade de valores. * Pros & Cons * Igual largura normalmete preferida dada a possibilidade de "amontoar" dados * Na prática, é são usados intervalos de "quase" igual altura para garantir intervalos mais intuitivos. * Menos sensível a valores de fronteira * Criação de intervalos para valores especiais ("0")
- Equal-width Binning
Descreva os métodos alternativos a Binning relativos à Discretização/Enumeração de dados, uma das etapas da preparação de dados.
Métodos alternativos na discretização:
* 1R (baseado em Binning)
* Entropia
* Impurezas
Indique as principais decisões perante a ausência de dados, destacando os cenários mais viáveis para cada cenário.
Evitar adicionar distorção aos dados
- Ignorar os registos onde faltam dados - má prática se os registos em falta forem elevados/registos em falta contêm informação importante
- Preencher manualmente os registos (trabalho/dificil?)
- Preencher com mesmo valor (pode criar tendências artificiais nos dados)
- Valor médio do atributos (pouco impacto se desvio padrão for baixo)
- Valor mais frequente
Descreva os principais métodos relativo à Transformação, uma das etapas na preparação dos dados.
- Alisamento/Smoothing = remoção do lixo/ruído dos dados (binning, regressão, clustering)
- Agregação = pressupor que os resultados sumariam os dados iniciais (resumo de vendas trimestrais, …)
- Generalização = hierarquização de conceitos (distrito - cidade - rua)
- Formação de novos atributos (preço após impostos)
- Uniformização = evitar gama alargada de valores, resolver tendências dos algoritmos para com valores anormais)
- Normalization [0:1]
- Standarization/Z-score (Padronização)
- Deteção de valores atípicos = visualização por Box-Plot, Z-Score (desvio padrão)
Quais as principais diferenças entre Normalization e Standarization (Padronização), conceitos à preparação de dados mais precisamente na uniformização (transformação).
- Normalização
- valor Min & Max dos atributos são usados na escala
- usado quando existem escalas diferentes
- [0, 1] ou [-1,1]
- Distriubuição concreta?
- Afetada por valores atípicos
- Standarization
- valor médio e desvio padrão são usados na escala
- não é enquadrado num intervalo específico
- Distribuição Normal/Gaussiana
- Pouco afetada por valores atípicos
Descreva o objetivo da Redução de dados, uma das etapas na preparação dos dados e indique as principais estratégias.
A Redução de dados pretende obter uma representação reduzida do volume de dados em conjunto com a produção dos mesmos (quase) resultados analíticos.
As principais estratégias baseam-se em:
- Construção de cubos de dados (operações de agregação de forma a construir)
- Redução de dimensões (remoção de atributos irrelevantes, redundantes ou pouco interessantes a analisar)
- PCA (Principle Component Analysis)
- considera todos os atributos
- combiná-los de uma forma inteligente
- produz novos fatores que são correlacionados entre si e ordenados por ordem de importância.
- Normalmente usada em paradigma de aprendizagem não supervisionado
- PCA (Principle Component Analysis)
- Compressão de dados
- Discretização e generalização dos conceitos
Quais são os principais tópicos que a preparação de dados pretende abordar?
Conclusões
- Adequar os dados às técnicas de análise
- Adaptar os dados às ferramentas
- Selecionar os dados que representam conhecimento
- Sintetizar dados que tornem a realidade mais inteligível
- “Preparação do preparador”
Indique as técnicas de aprendizagem relativas ao paradigma de aprendizagem com supervisão.
- Classificação
- Regressão
Explique o processo de construção de uma árvore de decisão e consequente modelo de decisão baseado no paradigma de aprendizagem com supervisão.
Modelos de decisão e etapas
Existem 2 tipos de paradigmas de criação de modelos de decisão (Top-down e Bottom-up). As árvores de decisão seguem o paradigma Bottom-up:
- informação sobre cada item deve estar numa colexão fixa e finita de atributos
- níveis de decisão conhecidos a priori ? construção do modelo por aprendizagem supervisionado : não supervisionado
- Niveis de decisão
- Contínuo = folhas de decisão identificam intervalos/conjuntos de valores
- Discreto = folhas de decisão são categorias ou classes.
A construção de uma árvore de decisão baseia-se nas etapas:
- Observação
- Generalização por indução
- Criação do modelo
- Apresentação do problema
- Previsão
Indique o significado de entropia no contexto da análise de dados e explique a sua relação com um problema de árvores de decisão.
A entropia indentifica o grau de desorganização dos dados
Na construção de uma árvore de decisão, existe a questão de qual o melhor atributo para ser a raiz da árvore de decisão.
Através da entropia (Entropia(S) = -p(+)log2(p(+)) - p(-)log2(p(-)) com p(+) pertence a [0,1] e p(-) equivalente a (1-p(+)) pertence a [0,1])
determinar o atributo com maior ganho de informação.
O atributo com maior ganho será a raiz da árvore.
Refira o funcinamento interno da técnica de aprendizagem de Classificação e as métricas de qualidade usadas para este tipo de técnicas.
Classificação baseia-se num conjunto de registos. Cada registo é caracterizado por um tuplo (x,y) em que x representa o conjunto de atributos e y a classe/categoria atribuida.
O objectivo consiste em apresentar um modelo que mapeia cada conjunto de atributos x em uma das classes predefinidas y.
Métricas de avaliação:
- Matriz de confusão
- Accuracy = (TruePositive + TrueNegative) / Total
- Precision/Sensitivity (exatidão, proporção de itens relevantes em todos os itens) = TruePositivo/(TruePositive + FalsePositive)
- Recall/Specificity (completude, proporção de itens relevantes) = TruePositive / (TruePositive + FalseNegative)
- ROC curve (Receivet Operating Characteristics)
- desempenho do modelo em diferentes limites de classificação
- reduz o threshold
Refira o funcinamento interno da técnica de aprendizagem de Regressão e as métricas de qualidade usadas para este tipo de técnicas e o seu respetivo significado.
Regressão = como variable(s) independentes conseguem prever uma variavel dependente.
- Métricas de qualidade
- Erro Médio Absoluto (MAE)
- MAE = 1/n sum(n, j = 1) | yj - ^yj | com n a ser a quantidade de observações
- Erro Médio Quadrado (MSE)
- MSE = 1/n sum(n,j=1) (yj - ^yj)^2
- Raiz Quadrada do Erro Médio Quadrado (RMSE)
- RMSE = 1/n sqrt(MSE)
- Significado:
- todas as expressões expressam o erro médio de previsão do modelo (mais baixo = melhor)
- medir precisão de valores continuos
- [0, infinite[
- MAE e RMSE - expressam error de previsão na mesma unidade da variável de interesse
- MSE e RMSE ao quadrado = peso relativamente alto para erros grandes.
- MSE e RMSE = uteis quando grandes erros são indesejáveis.
- Erro Médio Absoluto (MAE)
Descreva os mecanismos de avaliação de modelos.
- Hold-out Validation = partição do dataset em secção de treino e teste (ex: 75%, 25%)
- Cross Validation = dividir o conjunto de dados em k folds
- número ideal de folds k?
- k depende do valor de N (tamanho do dataset)
- dataset pequeno? k ≈ N (all data) - maximizar a quantidade de dados para treino.
- dataset grande? k pode ser pequeno
- Reduz
- Overfitting = modelo demonstra bons resultados para dados de treino mas não para novos dados
- Underfitting = modelo não consegue estabelecer um significado na relação entre dados de input e de output.
- Modelos de underfit demonstram resultados inadequados para ambos dados de treino e teste. Modelos overfit demonstram grande variancia. Datasets com muitas variáveis independentes são propicios a overfitting.
- k depende do valor de N (tamanho do dataset)
- número ideal de folds k?
Descreva o processo de seleção de atributos (Feature Selection), uma das etapas de preparação de dados.
A seleção de atributos deve se basear em:
- Senso comum
- Cuidado ao adicionar novo conteúdo
- Restrição dos atributos (uso de métricas como AIC, BIC, R ao quadrado ajustado)
- Pros
- treino mais rápido
- reduz complexidade
- melhor accuracy
- reduz overfitting
- Métodos de seleção
- métodos de filtragem (Person’s correlation, Anova, …)
- métodos “wrapper”
- Foward Selection
- Backward Elimination
Descreva os processos de one hot enconding e label enconding.
one hot enconding redefine o dataset de forma a adicionar novas colunas respetivas a cada valor categorico. Após isso, usa números binários de forma a preencher as respetivas colunas (preenche com 0 em todas a coluna à excessão da linha correspondente à label (1)). label enconding uma nova coluna com um valor númerico associado a cada categoria.
Exemplo: coluna com cidades.
- Pros: torna compativel o dataset para o uso de alguns ML models
- Cons: aumenta a complexidade do dataset e a possibilidade de overfitting
Indique o que entende por aprendizagem não supervisionada e descreva a principal técnica.
Aprendizagem não supervisinada = dado que os resultados sobre os diferentes casos não são conhecidos, existe a necessiade da escolha de técnicas que avaliem o funcionamento técnico do sistema.
Técnicas:
- Segmentação/Clustering = processo no qual se particiona um conjunto de dados em segmentos/clusters de menor dimensão; estes conjuntos são agrupados por dados semelhantes.
- medidas de similaridade:
- distância Euclidiana (Manhattan (atributos contínuos)
- coeficiente de Jacquard (atributos discretos/binários)
- use cases
- suspeita de existência de agrupamentos “naturais”
- existência de muitos padrões diferentes nos dados, dificil de identificar um único padrão.
- criação de seg. semelhantes reduz a complexidade do sistema
- medidas de similaridade:
Indique como lidar com os diferentes tipos de dados para análise ao usar Segmentação.
* Atributos contínuos, binários, nominais, ordinarios, mistos
- Atríbutos contínuos
- normalizar os dados (evitar que os dados dependem das unidades de medida)
- por norma, usadas medidas de distância para calcular a proximidade (similaridade entre objetos):
- distância Euclidiana (distância geométrica no espaço)
- (formula da distância com 4 coordenadas)
- distância de Manhattan (distância pela difereça de pontos)
- (soma das do modulo da diferenças das coordenadas)
- distância Minkowski (peso progressivo em função da distância de pontos)
- distância Euclidiana (distância geométrica no espaço)
- Atríbutos binários
- classificados (simétricos e assimétricos)
- tabela de contingência
- Atríbutos nominais (generalização de atributos binários , dados podem assumir mais de 2 valores)
- métodos = one hot enconding, label enconding
- Atributos ordinais
- ordem é relevante
- podem ser tratados como atributos contínuos (ordenação de valores = classificação, similaridades)
- Atributos mistos
- dados com diversos tipos de atributos
- tipicamente, usar função “pesada” para medir efeitos de cada atributo
Indique os principais métodos de segmentação.
- Particionamento
- Algoritmos (converter dados ‘D’ de ‘n’ objetos em conjuntos de ‘k’ segmentos.
- Métodos heurísticos
- K-means
- K-medoids
- Hierarquização
- Outros algoritmos
- Balanced Iterative Reducing and Clustering using Herarchies (BIRCH)
- Clustering using representatives (CURe)
- Density Based Spatial Clustering of Application with Noise (DBSCAN)
- Métodos heurísticos
- Algoritmos (converter dados ‘D’ de ‘n’ objetos em conjuntos de ‘k’ segmentos.
Descreva o funcionamento e os pros & cons de utilização do método heurístico K-means, um dos algoritmos de particionamento relativos a segmentação.
Funcionamento do k-means:
- Dividir objetos em ‘k’ subconjuntos não vazios
- Calcular o centro de cada segmento (centroid)
- Atribuir cada objeto ao centroid mais próximo
- Sem mais possibilidades? colocar o centroid no centro do segmento anterior
Pros:
- Relativamente eficiente
- ótimos locais
Cons:
- aplicar só quando é possível calcular a média (centroid)
- identificar número de segmentos a priori
- ruído nos dados / não identifica segmentos côncavos
Descreva o funcionamento e os Pros & Cons de utilização do método heurístico K-medoids, um dos algoritmos de particionamento relativos a segmentação.
Funcionamento do k-medoids (medoids = objetos representativos do conjunto de dados):
- Inicia com conjunto de medoids
- Iterativamente, vão endo substítuidos por outros não-medoids desde que a distância do segmento resultante seja melhorada.
Pros & Cons
- mais robusto que o método k-means na presença de dados mais ruidosos (menos influenciados por valores extremos)
- bons resultados em datasets com pequenas dimensões
- menos bons resultados em datasets com maiores dimensões
Descreva sucintamente o método de segmentação denominado de Hierarquização
Hierarquização - decomposição hierarquica de um conjunto de dados
Procedimento:
- utiliza matriz de distâncias
- dados são agrupados em árvores de segmentos
- exige definição de condição de paragem
- quantidade de segmentos
- distância minima entre objetos
- …
- 2 tipos de algoritmos de hierarquização
- Aglomeração - ver papel
- Divisão (top-down piramide)
Pros & Cons:
- dificuldade com aumento de atributos
- “k”?
- melhor resultados que k-means em alguns cenários
Defina RNA e os seus principais componentes.
RNA = sistema computacional de base conexionista para a resolução de problemas (modelo simplicficado do sistema nervoso humano)
Componentes/Mecanismos:
- Neurónio = unidade computacional, identifcado pela posição na rede, caracterizado pelo valor do estado
- Axónio
- via de comunicação entre neurónios
- pode conectar qualquer neurónio, inclusive o próprio
- ligações variáveis com o tempo e de 1 sentido só
- Sinapses
- mecanismo de ligação entre axónio e neurónio
- valor da sinapse = peso (importância) do sinal a entrar no neurónio.
- variação no tempo = aprendizagem da RNA
ver esquema na folha
Descreva os principais mecanismo de ativação e transferência das RNA
- Função de ativação
- valor de ativação = 1 único valor
- valor de ativação varia com o tempo
- gama de valores varia com o modelo
- Função de transferência (normalmente Binária, Linear ou Sigmoid)
- valor de transferência = valor colocado na saída (transferido pelo axónio)
- calculado com uma função através do valor de ativação.
Indique as principais arquiteturas de organização dos neurónios.
- Feedfoward - “foward”
- 1 camada (Perceptron)
- multi-camda (Multi-Layer Perceptron)
- Recorrente (assume diferentes direções)
Indique as principais paradigmas de aprendizagem de RNA. É possivel relacionar com paradgimas de ML tradicionais?
- Sem supervisão (Exemplo - RNA - Algoritmo de aprendizagem - Exemplo - ….)
- Com supervisão (Exemplo - RNA - Algoritmo de aprendizagem - Treinador - Exemplo - …)
- Reforço - sem supervisão mas com avaliação dos resultados.
Estes paradigmas são completamente baseados nos paradigmas tradicionais ML.
Descreva em que consiste regras de aprendizagem de RNAs e descrevas as principais regras usadas.
Treino de RNA = aplicação de regras de aprendizagem para variar os valores das sinapses (pesos das ligações).
- Hebbian Learning Rule
- treino não supervisinado de RNA’s
- 2 neurónios adjacentes sofrem variações no mesmo sentido? peso da ligação aumenta
- 2 neurónios adjacentes sofrem variações no sentido oposto? peso da ligação diminui
- sem variações? peso mantem
- pesos iniciais = 0
- Perceptron Learning Rule
- aprendizagem supervisionada
- pesos iniciais aleatórios
- inputs processados pela rede e comparados com o output desejado
- Erro produzido pela RNA? sum i (sum j (Eij - OIj))^2
- Função de alteração de pesos usa o erro para calcular a atualização dos valores (ver esquema)
- Window-Holf Learning Rule
- semelhante à Perceptron LR, usa um sinal linear em vez de binário para calcular o error e consequente atualização dos pesos
- Competitive Learning Rule
- aprendizagem não supervisionada
- neurónios de output competem entre si para representar o padrão do input
- neurónio com maior output para um input é vencedor (único a alterar os pesos)
Indique os fatores a ter em conta na afinação dos parâmetros para o treino de RNA.
- Quantidade de neurónios
- camada de entrada
- camada de saída
- camada intermédias
- Níveis/camadas da RNA
- Ligações de neurónios
- Topologias de ligações
- Esquema de atribuição/atualização de pesos
- Funções (transferência, ativação, aprendizagem)
- Métodos de treino