Teste Flashcards by Jose Braz

Indica os paradigmas de representação do conhecimento da Inteligência Artificial.

Simbólico :
- Base-se na lógica para representação do conhecimento.
- Construção de sistema de inferência
Não simbólico:
- Baseia o funcionamento do sistema na capacidade de aprender generalizando.
- problem solving com conhecimento passado/dados de outros problemas

How well did you know this?

Not at all

Perfectly

Indique os principais paradigmas de aprendizagem

Aprendizagem automática (ML) = capacidade de aprender de modo autonomo e independente.
Aprendizagem com supervisão = usa informação de resultados estabelecidos de forma a estabelecer uma relação entre valores pretendidos e valores produzidos pelo sistema.
Aprendizagem sem supervisão = sem conhecimento dos resultados pretendidos, usa técnicas de aprendizagem que avaliam o estado interno do sistema.
Aprendizagem por reforço = sem conhecimento dos resultados pretendidos, avalia se os resultados obtidos são bons ou maus.

How well did you know this?

Not at all

Perfectly

Indique as principais vantagens/benificios do uso de metodologias de análise de dados.

maior robustez
compreensão, implementação e desenvolvimento melhorado
replicação de processos
planeamento e gestão do projeto
maturidade
adoção de melhores práticas

How well did you know this?

Not at all

Perfectly

Indique as principais metodologias de análise de dados e as suas respectivas etapas.

CRISP-DM (Cross Industry Standard Process for Data Mining)
* Estudo do negócio
* Estudo dos dados
* Preparação dos dados
* Modelação
* Avaliação
* Desenvolvimento

SEMMA (Sample, Explore, Modify, Model, Assess)

PMML (Predictive Model Markup Language) = linguagem desenvolvida para descrever modelos em XML

How well did you know this?

Not at all

Perfectly

Indique as tarefas na preparação de dados

Discretização/Enumeração
Limpeza
Transformação
Redução de dados

How well did you know this?

Not at all

Perfectly

Descreva o principal método relativo à Discretização/Enumeração, uma das etapas na preparação dos dados.

A discretização/enumeração consiste na redução do número de valores de um atributo contínuo em intervalos.
Isto pode ser feito através de:

Binning

Equal-width Binning
- divide gama de valores em N intervalos de igual largura
- Largura = (limite superior - limite inferior) / N
- Pros & Cons
  - Simples e fácil de implementar
  - abstrações de dados razoáveis
  - sem supervisão
  - quem determina N?
  - sensível a valores de fronteira

* Equal-height Binning
   * divide a gama de valores em N intevalos, cada um contendo, aproximadamente, a mesma quantidade de valores.
   * Pros & Cons
      * Igual largura normalmete preferida dada a possibilidade de "amontoar" dados
      * Na prática, é são usados intervalos de "quase" igual altura para garantir intervalos mais intuitivos.
      * Menos sensível a valores de fronteira
      * Criação de intervalos para valores especiais ("0")

How well did you know this?

Not at all

Perfectly

Descreva os métodos alternativos a Binning relativos à Discretização/Enumeração de dados, uma das etapas da preparação de dados.

Métodos alternativos na discretização:
* 1R (baseado em Binning)
* Entropia
* Impurezas

How well did you know this?

Not at all

Perfectly

Indique as principais decisões perante a ausência de dados, destacando os cenários mais viáveis para cada cenário.

Evitar adicionar distorção aos dados

Ignorar os registos onde faltam dados - má prática se os registos em falta forem elevados/registos em falta contêm informação importante
Preencher manualmente os registos (trabalho/dificil?)
Preencher com mesmo valor (pode criar tendências artificiais nos dados)
Valor médio do atributos (pouco impacto se desvio padrão for baixo)
Valor mais frequente

How well did you know this?

Not at all

Perfectly

Descreva os principais métodos relativo à Transformação, uma das etapas na preparação dos dados.

Alisamento/Smoothing = remoção do lixo/ruído dos dados (binning, regressão, clustering)
Agregação = pressupor que os resultados sumariam os dados iniciais (resumo de vendas trimestrais, …)
Generalização = hierarquização de conceitos (distrito - cidade - rua)
Formação de novos atributos (preço após impostos)
Uniformização = evitar gama alargada de valores, resolver tendências dos algoritmos para com valores anormais)
- Normalization [0:1]
- Standarization/Z-score (Padronização)
Deteção de valores atípicos = visualização por Box-Plot, Z-Score (desvio padrão)

How well did you know this?

Not at all

Perfectly

Quais as principais diferenças entre Normalization e Standarization (Padronização), conceitos à preparação de dados mais precisamente na uniformização (transformação).

Normalização
- valor Min & Max dos atributos são usados na escala
- usado quando existem escalas diferentes
- [0, 1] ou [-1,1]
- Distriubuição concreta?
- Afetada por valores atípicos
Standarization
- valor médio e desvio padrão são usados na escala
- não é enquadrado num intervalo específico
- Distribuição Normal/Gaussiana
- Pouco afetada por valores atípicos

How well did you know this?

Not at all

Perfectly

Descreva o objetivo da Redução de dados, uma das etapas na preparação dos dados e indique as principais estratégias.

A Redução de dados pretende obter uma representação reduzida do volume de dados em conjunto com a produção dos mesmos (quase) resultados analíticos.
As principais estratégias baseam-se em:

Construção de cubos de dados (operações de agregação de forma a construir)
Redução de dimensões (remoção de atributos irrelevantes, redundantes ou pouco interessantes a analisar)
- PCA (Principle Component Analysis)
  - considera todos os atributos
  - combiná-los de uma forma inteligente
  - produz novos fatores que são correlacionados entre si e ordenados por ordem de importância.
  - Normalmente usada em paradigma de aprendizagem não supervisionado
Compressão de dados
Discretização e generalização dos conceitos

How well did you know this?

Not at all

Perfectly

Quais são os principais tópicos que a preparação de dados pretende abordar?

Conclusões

Adequar os dados às técnicas de análise
Adaptar os dados às ferramentas
Selecionar os dados que representam conhecimento
Sintetizar dados que tornem a realidade mais inteligível
“Preparação do preparador”

How well did you know this?

Not at all

Perfectly

Indique as técnicas de aprendizagem relativas ao paradigma de aprendizagem com supervisão.

Classificação
Regressão

How well did you know this?

Not at all

Perfectly

Explique o processo de construção de uma árvore de decisão e consequente modelo de decisão baseado no paradigma de aprendizagem com supervisão.

Modelos de decisão e etapas

Existem 2 tipos de paradigmas de criação de modelos de decisão (Top-down e Bottom-up). As árvores de decisão seguem o paradigma Bottom-up:

informação sobre cada item deve estar numa colexão fixa e finita de atributos
níveis de decisão conhecidos a priori ? construção do modelo por aprendizagem supervisionado : não supervisionado
Niveis de decisão
- Contínuo = folhas de decisão identificam intervalos/conjuntos de valores
- Discreto = folhas de decisão são categorias ou classes.

A construção de uma árvore de decisão baseia-se nas etapas:

Observação
Generalização por indução
Criação do modelo
Apresentação do problema
Previsão

How well did you know this?

Not at all

Perfectly

Indique o significado de entropia no contexto da análise de dados e explique a sua relação com um problema de árvores de decisão.

A entropia indentifica o grau de desorganização dos dados
Na construção de uma árvore de decisão, existe a questão de qual o melhor atributo para ser a raiz da árvore de decisão.
Através da entropia
(Entropia(S) = -p(+)log2(p(+)) - p(-)log2(p(-)) com p(+) pertence a [0,1] e p(-) equivalente a (1-p(+)) pertence a [0,1])
determinar o atributo com maior ganho de informação.
O atributo com maior ganho será a raiz da árvore.

How well did you know this?

Not at all

Perfectly

Refira o funcinamento interno da técnica de aprendizagem de Classificação e as métricas de qualidade usadas para este tipo de técnicas.

Study These Flashcards

Classificação baseia-se num conjunto de registos. Cada registo é caracterizado por um tuplo (x,y) em que x representa o conjunto de atributos e y a classe/categoria atribuida.
O objectivo consiste em apresentar um modelo que mapeia cada conjunto de atributos x em uma das classes predefinidas y.
Métricas de avaliação:

Matriz de confusão
- Accuracy = (TruePositive + TrueNegative) / Total
- Precision/Sensitivity (exatidão, proporção de itens relevantes em todos os itens) = TruePositivo/(TruePositive + FalsePositive)
- Recall/Specificity (completude, proporção de itens relevantes) = TruePositive / (TruePositive + FalseNegative)
ROC curve (Receivet Operating Characteristics)
- desempenho do modelo em diferentes limites de classificação
- reduz o threshold

Refira o funcinamento interno da técnica de aprendizagem de Regressão e as métricas de qualidade usadas para este tipo de técnicas e o seu respetivo significado.

Study These Flashcards

Regressão = como variable(s) independentes conseguem prever uma variavel dependente.

Métricas de qualidade
- Erro Médio Absoluto (MAE)
  - MAE = 1/n sum(n, j = 1) | yj - ^yj | com n a ser a quantidade de observações
  - Erro Médio Quadrado (MSE)
    - MSE = 1/n sum(n,j=1) (yj - ^yj)^2
  - Raiz Quadrada do Erro Médio Quadrado (RMSE)
    - RMSE = 1/n sqrt(MSE)
- Significado:
  - todas as expressões expressam o erro médio de previsão do modelo (mais baixo = melhor)
  - medir precisão de valores continuos
  - [0, infinite[
  - MAE e RMSE - expressam error de previsão na mesma unidade da variável de interesse
  - MSE e RMSE ao quadrado = peso relativamente alto para erros grandes.
  - MSE e RMSE = uteis quando grandes erros são indesejáveis.

Descreva os mecanismos de avaliação de modelos.

Study These Flashcards

Hold-out Validation = partição do dataset em secção de treino e teste (ex: 75%, 25%)
Cross Validation = dividir o conjunto de dados em k folds
- número ideal de folds k?
  - k depende do valor de N (tamanho do dataset)
    - dataset pequeno? k ≈ N (all data) - maximizar a quantidade de dados para treino.
    - dataset grande? k pode ser pequeno
    - Reduz
      - Overfitting = modelo demonstra bons resultados para dados de treino mas não para novos dados
      - Underfitting = modelo não consegue estabelecer um significado na relação entre dados de input e de output.
      - Modelos de underfit demonstram resultados inadequados para ambos dados de treino e teste. Modelos overfit demonstram grande variancia. Datasets com muitas variáveis independentes são propicios a overfitting.

Descreva o processo de seleção de atributos (Feature Selection), uma das etapas de preparação de dados.

Study These Flashcards

A seleção de atributos deve se basear em:

Senso comum
Cuidado ao adicionar novo conteúdo
Restrição dos atributos (uso de métricas como AIC, BIC, R ao quadrado ajustado)
Pros
- treino mais rápido
- reduz complexidade
- melhor accuracy
- reduz overfitting
Métodos de seleção
- métodos de filtragem (Person’s correlation, Anova, …)
- métodos “wrapper”
  - Foward Selection
  - Backward Elimination

Descreva os processos de one hot enconding e label enconding.

Study These Flashcards

one hot enconding redefine o dataset de forma a adicionar novas colunas respetivas a cada valor categorico. Após isso, usa números binários de forma a preencher as respetivas colunas (preenche com 0 em todas a coluna à excessão da linha correspondente à label (1)). label enconding uma nova coluna com um valor númerico associado a cada categoria.
Exemplo: coluna com cidades.

Pros: torna compativel o dataset para o uso de alguns ML models
Cons: aumenta a complexidade do dataset e a possibilidade de overfitting

Indique o que entende por aprendizagem não supervisionada e descreva a principal técnica.

Study These Flashcards

Aprendizagem não supervisinada = dado que os resultados sobre os diferentes casos não são conhecidos, existe a necessiade da escolha de técnicas que avaliem o funcionamento técnico do sistema.
Técnicas:

Segmentação/Clustering = processo no qual se particiona um conjunto de dados em segmentos/clusters de menor dimensão; estes conjuntos são agrupados por dados semelhantes.
- medidas de similaridade:
  - distância Euclidiana (Manhattan (atributos contínuos)
  - coeficiente de Jacquard (atributos discretos/binários)
- use cases
  - suspeita de existência de agrupamentos “naturais”
  - existência de muitos padrões diferentes nos dados, dificil de identificar um único padrão.
  - criação de seg. semelhantes reduz a complexidade do sistema

Indique como lidar com os diferentes tipos de dados para análise ao usar Segmentação.

* Atributos contínuos, binários, nominais, ordinarios, mistos

Study These Flashcards

Atríbutos contínuos
- normalizar os dados (evitar que os dados dependem das unidades de medida)
- por norma, usadas medidas de distância para calcular a proximidade (similaridade entre objetos):
  - distância Euclidiana (distância geométrica no espaço)
    - (formula da distância com 4 coordenadas)
  - distância de Manhattan (distância pela difereça de pontos)
    - (soma das do modulo da diferenças das coordenadas)
  - distância Minkowski (peso progressivo em função da distância de pontos)
Atríbutos binários
- classificados (simétricos e assimétricos)
- tabela de contingência
Atríbutos nominais (generalização de atributos binários , dados podem assumir mais de 2 valores)
- métodos = one hot enconding, label enconding
Atributos ordinais
- ordem é relevante
- podem ser tratados como atributos contínuos (ordenação de valores = classificação, similaridades)
Atributos mistos
- dados com diversos tipos de atributos
- tipicamente, usar função “pesada” para medir efeitos de cada atributo

Indique os principais métodos de segmentação.

Study These Flashcards

Particionamento
- Algoritmos (converter dados ‘D’ de ‘n’ objetos em conjuntos de ‘k’ segmentos.
  - Métodos heurísticos
    - K-means
    - K-medoids
  - Hierarquização
  - Outros algoritmos
    - Balanced Iterative Reducing and Clustering using Herarchies (BIRCH)
    - Clustering using representatives (CURe)
    - Density Based Spatial Clustering of Application with Noise (DBSCAN)

Descreva o funcionamento e os pros & cons de utilização do método heurístico K-means, um dos algoritmos de particionamento relativos a segmentação.

Study These Flashcards

Funcionamento do k-means:

Dividir objetos em ‘k’ subconjuntos não vazios
Calcular o centro de cada segmento (centroid)
Atribuir cada objeto ao centroid mais próximo
Sem mais possibilidades? colocar o centroid no centro do segmento anterior

Pros:

Relativamente eficiente
ótimos locais

Cons:

aplicar só quando é possível calcular a média (centroid)
identificar número de segmentos a priori
ruído nos dados / não identifica segmentos côncavos

Descreva o funcionamento e os Pros & Cons de utilização do método heurístico K-medoids, um dos algoritmos de particionamento relativos a segmentação.

Funcionamento do k-medoids (medoids = objetos representativos do conjunto de dados): * Inicia com conjunto de medoids * Iterativamente, vão endo substítuidos por outros não-medoids desde que a distância do segmento resultante seja melhorada. Pros & Cons * mais robusto que o método k-means na presença de dados mais ruidosos (menos influenciados por valores extremos) * bons resultados em datasets com pequenas dimensões * menos bons resultados em datasets com maiores dimensões

Descreva sucintamente o método de segmentação denominado de Hierarquização

Hierarquização - decomposição hierarquica de um conjunto de dados Procedimento: * utiliza matriz de distâncias * dados são agrupados em árvores de segmentos * exige definição de condição de paragem * quantidade de segmentos * distância minima entre objetos * ... * 2 tipos de algoritmos de hierarquização * Aglomeração - ver papel * Divisão (top-down piramide) Pros & Cons: * dificuldade com aumento de atributos * "k"? * melhor resultados que k-means em alguns cenários

Defina RNA e os seus principais componentes.

RNA = sistema computacional de base conexionista para a resolução de problemas (modelo simplicficado do sistema nervoso humano) Componentes/Mecanismos: * Neurónio = unidade computacional, identifcado pela posição na rede, caracterizado pelo valor do estado * Axónio * via de comunicação entre neurónios * pode conectar qualquer neurónio, inclusive o próprio * ligações variáveis com o tempo e de 1 sentido só * Sinapses * mecanismo de ligação entre axónio e neurónio * valor da sinapse = peso (importância) do sinal a entrar no neurónio. * variação no tempo = aprendizagem da RNA ver esquema na folha

Descreva os principais mecanismo de ativação e transferência das RNA

* Função de ativação * valor de ativação = 1 único valor * valor de ativação varia com o tempo * gama de valores varia com o modelo * Função de transferência (normalmente Binária, Linear ou Sigmoid) * valor de transferência = valor colocado na saída (transferido pelo axónio) * calculado com uma função através do valor de ativação.

Indique as principais arquiteturas de organização dos neurónios.

* Feedfoward - "foward" * 1 camada (Perceptron) * multi-camda (Multi-Layer Perceptron) * Recorrente (assume diferentes direções)

Indique as principais paradigmas de aprendizagem de RNA. É possivel relacionar com paradgimas de ML tradicionais?

* Sem supervisão (Exemplo - RNA - Algoritmo de aprendizagem - Exemplo - ....) * Com supervisão (Exemplo - RNA - Algoritmo de aprendizagem - Treinador - Exemplo - ...) * Reforço - sem supervisão mas com avaliação dos resultados. Estes paradigmas são completamente baseados nos paradigmas tradicionais ML.

Descreva em que consiste regras de aprendizagem de RNAs e descrevas as principais regras usadas.

Treino de RNA = aplicação de regras de aprendizagem para variar os valores das sinapses (pesos das ligações). * Hebbian Learning Rule * treino não supervisinado de RNA's * 2 neurónios adjacentes sofrem variações no mesmo sentido? peso da ligação aumenta * 2 neurónios adjacentes sofrem variações no sentido oposto? peso da ligação diminui * sem variações? peso mantem * pesos iniciais = 0 * Perceptron Learning Rule * aprendizagem supervisionada * pesos iniciais aleatórios * inputs processados pela rede e comparados com o output desejado * Erro produzido pela RNA? sum i (sum j (Eij - OIj))^2 * Função de alteração de pesos usa o erro para calcular a atualização dos valores (ver esquema) * Window-Holf Learning Rule * semelhante à Perceptron LR, usa um sinal linear em vez de binário para calcular o error e consequente atualização dos pesos * Competitive Learning Rule * aprendizagem não supervisionada * neurónios de output competem entre si para representar o padrão do input * neurónio com maior output para um input é vencedor (único a alterar os pesos)

Indique os fatores a ter em conta na afinação dos parâmetros para o treino de RNA.

* Quantidade de neurónios * camada de entrada * camada de saída * camada intermédias * Níveis/camadas da RNA * Ligações de neurónios * Topologias de ligações * Esquema de atribuição/atualização de pesos * Funções (transferência, ativação, aprendizagem) * Métodos de treino

Teste Flashcards

(32 cards)