Ciência de dados Flashcards

1
Q

(Áreas da IA) Defina Redes Neurais Artificiais

A

Modelos inspirados no funcionamento do cérebro
humano que são usados para processar informações e tomar decisões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

(Áreas da IA) Defina * Aprendizado de Máquina (Machine Learning)

A

Algoritmos que permitem que as
máquinas aprendam com os dados e melhorem seu desempenho ao longo do
tempo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

(Áreas da IA) Defina Processamento de Linguagem Natural (PLN)

A

O estudo da interação entre
máquinas e linguagem humana, incluindo tarefas como tradução automática,
reconhecimento de fala e análise de sentimento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

(Áreas da IA) Defina Visão Computacional

A

Desenvolvimento de algoritmos e de sistemas capazes de
entender e de interpretar imagens e vídeos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

(Áreas da IA) Defina Robótica Inteligente

A

Combinação de IA e robótica para criar robôs capazes de
interagir com o ambiente e realizar tarefas complexas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

(Áreas da IA) Defina Sistemas Especialistas

A

Sistemas de IA projetados para imitar a inteligência
e o conhecimento de especialistas humanos em um domínio específico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

(Áreas da IA) Defina Algoritmos Genéticos

A

Técnicas de otimização baseadas em princípios
genéticos e em evolução natural, usadas para resolver problemas
complexos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

(Áreas da IA) Defina Sistemas de Recomendação

A

Algoritmos que analisam dados e padrões de comportamento do usuário para fornecer sugestões personalizadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

(Áreas da IA) Defina IA Conversacional

A

Tecnologias que permitem a interação entre humanos e
sistemas de IA por meio de diálogos naturais, como chatbots e assistentes
virtuais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

(Áreas da IA) Defina Mineração de Dados

A

Técnicas para descobrir padrões e conhecimentos
úteis a partir de conjuntos de dados grandes e complexos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

(Áreas da IA) Defina Reconhecimento de Padrões

A

Identificação de padrões em dados, como
reconhecimento facial, detecção de objetos e análise de imagem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

(Áreas da IA) Defina * IA Explicável

A

Desenvolvimento de métodos e de algoritmos que permitem
entender e explicar o processo de tomada de decisão de sistemas de IA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

(Áreas da IA) Defina Agentes Inteligentes

A

Programas de computador capazes de tomar decisões e agir de forma autônoma em um ambiente específico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

(Áreas da IA) Defina Aprendizado Profundo (Deep Learning)

A

Subcampo do machine learning, utiliza redes neurais
(unidades conectadas em rede para a análise de bancos de dados e informações)
para emular o cérebro humano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

(Áreas da IA) Defina Processamento de Sinais

A

Análise e interpretação de sinais, como áudio e vídeo,
utilizando técnicas de IA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

(Áreas da IA) Defina IA Responsável

A

Envolve garantir que a IA seja desenvolvida e implementada de
forma ética e legalmente responsável.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

(Áreas da IA) Defina Raciocínio Automatizado (Automated Reasoning)

A

Desenvolvimento de
algoritmos e de técnicas para automatizar o processo de raciocínio lógico,
permitindo que os computadores cheguem a conclusões ou provem teoremas de
forma automatizada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma simbólico

A

Construção de uma representação simbólica de um conceito por meio de exemplos e contraexemplos.
Representação simbólica na forma de alguma expressão lógica, como árvores de decisão e regras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Protótipo ou Memorização (Instance Based)

A
  • Sistema que classifica um exemplo por meio de exemplos similares conhecidos.
  • ‰ Sistemas lazy necessitam manter os exemplos na memória para classificar novos exemplos, em
    oposição aos sistemas gulosos (eager), que utilizam os exemplos para induzir o modelo,
    descartando-os logo após.
  • Exemplo: K-NN.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Conexionista.

A

Redes neurais, as quais envolvem unidades altamente interconectadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Genético

A

Um classificador genético consiste de uma população de elementos de classificação que competem
para fazer a predição.
* Elementos que possuem um desempenho ruim são descartados, enquanto os elementos mais
fortes proliferam, produzindo variações.
* Alguns operadores genéticos básicos que aplicados a população geram novos indivíduos são:
Reprodução, Cruzamento, Mutação e Inversão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Estatístico

A

Utilização de modelos estatísticos para encontrar uma boa aproximação do conceito induzido.
* Vários desses métodos são paramétricos, assumindo alguma forma de modelo, e então
encontrando valores apropriados para os parâmetros do modelo a partir dos exemplos.
* Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que utilizam um modelo
probabilístico baseado no conhecimento prévio do problema, o qual é combinado com os exemplos
de treinamento para determinar a probabilidade final de uma hipótese.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Explique o trade off entre bias e variância.

A

Indutores instáveis apresentam alta variância (um pequena variação no conjunto de treinamento pode causar mudanças no classificador gerado) e baixo bias. Já indutores estáveis apresentam baixa variância e alto bias (viés, critério de preferência de uma hipótese sobre outras).

obs.: indutor é o programa que fera uma hipótese (classificador) a partir de um conjunto de exemplos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Explique o overfitting ou overtrainning.

A

Acontece quando a hipótese extraída a partir dos exemplos é muito específica para o conjunto de treinamento, perdendo o poder de generalização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Explique o underfitting.

A

A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento quanto no de teste. Pode acontecer por ter poucos exemplos representativos ou tamanho pré-definido do classificador muito pequeno.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

O que é acurácia?

A

Percentual de acertos.
acurácia = (VP + VN)/(VP + VN + FP + FN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

O que é erro?

A

1 - acurácia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

O que é precisão?

A

Indica das classificações positivas do modelo, qual porcentagem foi acertada.

Precisão = VP/(VP + FP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

O que é revocação, sensibilidade ou recall?

A

De todos os postivos existentes nos exemplos, quantos o modelo conseguiu classificar corretamente.

revocação = VP/(VP+FN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

O que especificidade?

A

Avalia a capacidade de detectar resultados negativos.

especificidade = VN/(VN + FP)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

O que é o F-score ou score F1?

A

Média harmônica entre precisão e sensibilidade.

f1 = 2.((precisao.sensibilidade)/precisao+sensibilidade))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

O que é o erro do tipo 1?

A

Falso positivo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

O que é o erro do tipo 2?

A

Falso negativo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Explique a maldição da dimensionalidade.

A

Quanto mais atributos, mais exemplos você irá precisar para ter todas as combinações possíveis destes atributos, o que torna o processo mais caro e mais lento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

O que pode ser feito caso ocorra overfitting?

A

Utilizar modelos menos complexos e fazer a validação cruzada para determinar quando cessar o treino.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Cite exemplos de classificadores (pelo menos 7)

A
  • Árvore de Decisão.
  • Random Forest.
  • k-Nearest Neighbors.
  • Naive Bayes.
  • Regressão Logística.
  • Análise Discriminante Linear.
  • SVM (suport vector machine).
  • RNA (redes neurais artificiais).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Explique o que são raíz, nós e folhas de uma árvore de decisão.

A
  • Raiz: é a primeira decisão a ser tomada pelo usuário. A partir dela o algoritmo é
    redirecionado a outras decisões.
  • Nós: são todas as decisões apresentadas na árvore.
  • Folhas: são os resultados da árvore de decisões. É nela que a classificação é
    realizada.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Como árvores de decisão podem ser reescritas?

A

Podem ser reescritas como um conjunto de regras, por exemplo, em forma
normal disjuntiva (DNF).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Quais tipos de atributos uma árvore de decisão aceita?

A

Atributos contínuos e discretos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Árvores de classificação tem que tipo de valor nas folhas? E árvores de regressão?

A

Classificação: valores discretos.
Regressão: valores reais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

A árvore de decisão necessita de manipulação de dados, como normalização?

A

Não.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

A maioria dos algoritmos de aprendizagem de árvores derivam de qual algoritmo? Qual sua estratégia.

A

ID3.
* C4.5 e C5.0 são mais recentes.
* O ID3 aprende a árvore usando uma estratégia top-down (escolhe os atributos mais relevantes primeiro).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

O que pode ser feito para evitar ou corrigir overfitting em uma árvore de decisão?

A

Para evitar overfitting:
* Pré-poda: para de crescer a árvore quando não tem mais dados suficientes para fazer
previsões confiáveis.
* Pós-poda: constrói a árvore toda, depois são removidas sub-árvores com menos
relevância.
* Métodos para poda:
* Validação cruzada: Reservar alguns dados de treinamento (conjunto de validação) para avaliar
utilidade das sub-árvores.
* Testes estatísticos: Usa o teste para determinar se a regularidade observada foi devida ao acaso.
* Comprimento da descrição mínima (MDL): Determina se a complexidade adicional da hipótese é
mais complexa que lembrar explicitamente as exceções resultantes da poda.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

O que é o Random Forest?

A

É um algoritmo de classificação baseado em árvores de decisão. A predição da floresta randômica é a média de todas as predições das diversas árvores de decisão construídas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

A Random Forest é capaz de resolver problemas de classificação e regressão?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

O que é o k-Nearest Neighbors?

A

KNN é um algoritmo que classifica
novos dados com base em uma medida
de similaridade entre seus “vizinhos”
mais próximos, ou seja, aqueles que
têm características semelhantes às
suas.
* Nesse método, utiliza-se a distância
(usualmente a Euclidiana) entre uma
nova observação e as demais
observações de um training set para
classificá-la de acordo com a
observação mais próxima.
* O “k” determina o número de vizinhos
que serão utilizados para a classificação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

KNN é um método paramétrico ou não paramétrico?

A

Não paramétrico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

No KNN, o número de vizinhos k influencia no resultado da classificação?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

KNN pode ser usado como método de imputação de dados?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

A escolha da função para calcular as distâncias no método KNN pode influenciar significativamente nos resultados?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

O que é o Naive Bayes?

A

Família de algoritmos de aprendizado supervisionado baseados em
probabilidade. Prevê uma tabela de probabilidades condicionais e depois calcula a saída com base
nessa tabela.
Teorema de Bayes:
P(A|B) = (P(B|A).P(A))/P(B)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Quais são exemplos típicos de aplicação de um algoritmo Naive Bayes?

A

Classificação de spam no email e análise de sentimento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Quais suposições ingênuas são feitas no método Naive Bayes?

A
  • Todas as características do conjunto de dados não dependem um do outro.
  • Cada evento contribui igualmente para classificar o resultado.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

Algoritmos Naive Bayes podem ser utilizados com uma quantidade reduzida de amostras?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

O que é a regressão logística?

A

A regressão logística é uma técnica estatística que tem como objetivo
produzir, a partir de um conjunto de observações, um modelo que permita a
predição de valores tomados por uma variável categórica, frequentemente
binária, a partir de uma série de variáveis explicativas contínuas e/ou
binárias.

Traduzindo: é aquele gráfico em S que vai tentar fazer classificação de valores categóricos, usando atributos contínuos ou binários.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

A regressão logística é um modelo paramétrico ou não paramétrico?

A

Paramétrico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

Caracterize a Regressão Logística:

1- Binomial
2 - Ordinal
3 - Multinomial

A
  • Regressão logística binominal
    No modelo de regressão logística binominal, os objetos são classificados em dois grupos ou categorias.
  • Regressão logística ordinal
    O modelo de regressão logística ordinal é diferente porque trabalha com o conceito
    de categorias ordenadas.
    Neste caso, os objetos são classificados em três ou mais classes que possuem uma
    ordem já determinada.
  • Regressão logística multinomial
    No modelo de regressão logística multinomial, os objetos são classificados em três ou mais categorias que não possuem ordem entre si.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

A Regressão Logística precisa apenas de um pequeno número de suposições para realizar as predições. Certo ou errado?

A

Certo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Qual método a regressão logística utiliza?

A

Método da máxima verossimilhança. (Em estatística, a estimativa por máxima verossimilhança é um método para estimar os parâmetros de um modelo).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Qual é o conceito por trás de Suport Vector Machine (SVM)?

A

O conceito por trás do SVM é a maximização da margem, ou seja, maximizar a distância da margem dos dados de treinamento, construindo um HIPERPLANO ÓTIMO, onde a distância entre uma classe e outra até o plano é a mesma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

Em SVM, o que são os vetores de suporte?

A

São os exemplos da base de treinamento mais próximos do hiperplano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Como resolver problemas que não são linearmente separáveis com um classificador SVM?

A
  • Projetando os dados em outra dimensão usando uma função de kernel (kernel trick).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Pra SVM, os dados necessitam ser padronizados?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

Cite alguns exemplos de uso de redes neurais artificiais.

A
  • Avaliação de imagens captadas por satélite.
  • Classificação de padrões de escrita e fala.
  • Reconhecimento de faces com visão computacional.
  • Sistemas de controle e previsão financeira.
  • Identificação de anomalias e patologias na área médica com base em imagens.
  • Controle automatizado de equipamentos eletrônicos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Como funciona um perceptron? (neurônio de uma rede neural artificial)

A
  • Sinais são apresentados à entrada.
  • Cada sinal é multiplicado por um número, ou peso, que indica a sua
    influência na saída da unidade.
  • É feita a soma ponderada dos sinais que produz um nível de atividade.
  • Se este nível de atividade exceder um certo limite (threshold), a unidade
    produz uma determinada resposta de saída.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
65
Q

Por quais camadas são formadas Redes Multilayer perceptron (MLP)?

A
  • Uma camada de entrada, formada pelos
    neurônios que estão conectados às
    entradas da rede;
  • Uma camada de saída, contendo os
    neurônios que apresentam as saídas da
    rede neural ao ambiente externo;
  • Uma ou mais camadas intermediárias
    (ou escondidas), compostas de
    neurônios cujas entradas e saídas estão
    conectadas somente a outros neurônios.
66
Q

Quais são as fases de um algoritmo que trabalha com Backpropagation em RNA?

A

O algoritmo funciona em duas fases:
* O passo para frente (forward pass), onde nossas entradas são passadas através da rede e as
previsões de saída obtidas (essa etapa também é conhecida como fase de propagação).
* O passo para trás (backward pass), onde calculamos o gradiente da função de perda na camada
final (ou seja, camada de previsão) da rede e usamos esse gradiente para aplicar recursivamente a
regra da cadeia (chain rule) para atualizar os pesos em nossa rede (etapa também conhecida como
fase de atualização de pesos ou retro-propagação).

67
Q

(RNA) o que o método do gradiente descendente faz?

A

ajusta os parâmetros das redes para melhor adaptar um conjunto de treinamento de pares entrada – saída.

68
Q

(RNA) O que é a taxa de aprendizado ou learning rate?

A

Taxa de aprendizado (learning rate): indica a que ritmo os pesos são atualizados.
Isso pode ser fixado ou alterado de modo adaptativo. O método atual mais
popular é chamado Adam, o qual é um método que adapta a taxa de
aprendizado.

69
Q

(RNA) Diferencie um mínimo local de um mímimo absoluto em algoritmo de backpropagation. O que fazer ao ficar “preso” em um mínimo local?

A

Mínimo absoluto é o erro mínimo em um gradiente descentente, enquanto o mínimo local representa um vale desse gradiente, mas não é o mínimo absoluto. Se cair em um vale de mínimo local e não conseguir sair, mude (aumente) a taxa de aprendizado.

70
Q

(RNA) Como funcionam as Redes Recorrentes ou retroalimentadas?

A
  • Permitem a realimentação de uma camada
    com as informações geradas pela camada
    posterior.
  • Possibilidade de realimentação do
    neurônio com a sua própria saída (selffeedback).
  • Por terem essa característica, essas redes
    podem modelar problemas com
    característica temporal, como por exemplo
    a previsão do tempo dado o histórico
    climático em uma janela do passado.
71
Q

(RNA) Como funciona a Markov Chain?

A

A ideia da Cadeia de Markov é construir um sistema matemático que visa calcular probabilidades de transição de um estado para o outro de acordo com um conjunto de regras probabilísticas. São chamados processos “sem memória”, pois dependem somente da informação do presente. Cadeias de Markov são utilizadas, por exemplo, para representar a probabilidade de mutação de um aminoácido durante a sua evolução.

72
Q

(RNA) Como funciona a Rede Neural Convolucional?

A

Uma rede neural convolucional (ou CNN, do inglês Convolutional Neural Network) é um tipo de rede neural projetada para processar dados estruturados em forma de grade, como imagens, vídeos, áudio ou dados temporais. Elas são amplamente utilizadas em tarefas de visão computacional.
Uma CNN é composta por várias camadas, organizadas de forma hierárquica.

As principais camadas de uma CNN incluem:

1 - Camada Convolucional (Convolutional Layer)
2 - Camada de Ativação (Activation Layer)
3 - Camada de Pooling (Pooling Layer)
4 - Camada Fully Connected (Camada Densa)
*Camada de Normalização (opcional)

  1. Camada Convolucional
    A camada convolucional é o componente principal de uma CNN. Ela aplica operações de convolução nos dados de entrada para extrair características, como bordas, texturas e formas. A convolução envolve o uso de filtros (ou kernels) que “varrem” a entrada em pequenas janelas para detectar padrões locais.

Filtro (Kernel): Um pequeno conjunto de pesos (normalmente 3x3 ou 5x5), que é multiplicado pela entrada em janelas deslizantes para extrair características.

Convolução: O filtro percorre a entrada e, em cada posição, multiplica seus pesos pelos valores da janela correspondente na imagem (ou outro dado de entrada), gerando uma soma ponderada. O resultado dessas operações é um mapa de características (ou feature map).

Por exemplo, ao aplicar um filtro sobre uma imagem, as primeiras camadas convolucionais tendem a identificar características simples, como bordas horizontais e verticais. À medida que a rede se aprofunda, as camadas convolucionais sucessivas capturam padrões mais complexos, como formas e objetos inteiros.

  1. Camada de Ativação
    A camada de ativação aplica uma função não-linear aos valores do mapa de características resultante da camada convolucional. As funções de ativação introduzem não-linearidade no modelo, permitindo que a rede aprenda representações mais complexas.

A função de ativação mais comum nas CNNs é a ReLU (Rectified Linear Unit).
Essa função zera todos os valores negativos e mantém os positivos, acelerando o aprendizado e ajudando a resolver o problema do desvanecimento do gradiente.

  1. Camada de Pooling
    A camada de pooling é usada para reduzir a dimensionalidade do mapa de características, preservando as informações mais relevantes e descartando detalhes menores. Isso ajuda a reduzir a complexidade computacional e a evitar overfitting.

O tipo mais comum de pooling é o Max Pooling, que seleciona o valor máximo em pequenas regiões (normalmente de tamanho 2x2) do mapa de características.

Max Pooling: Selecione o valor máximo em uma região e descarte os outros valores. Isso preserva as características mais significativas e reduz a dimensionalidade.
Average Pooling: Tira a média dos valores em uma região (menos comum).

  1. Camada Fully Connected (Camada Densa)
    Depois de várias camadas convolucionais e de pooling, a CNN normalmente inclui uma ou mais camadas fully connected (totalmente conectadas), também conhecidas como camadas densas. Nessas camadas, cada neurônio está conectado a todos os neurônios da camada anterior.

As camadas fully connected são usadas para combinar as características extraídas pelas camadas convolucionais e pooling e produzir a saída final, como a classificação de uma imagem. Essas camadas funcionam de maneira semelhante às camadas de uma rede neural tradicional.

  1. Camada de Normalização (opcional)
    Em algumas CNNs, uma camada de normalização pode ser adicionada após a convolução, como a Batch Normalization, que normaliza os valores da saída da camada convolucional. Isso pode acelerar o treinamento e melhorar a convergência.
73
Q

(RNA) Como funcionam Mapas Auto Organizáveis (SOM)?

A

São redes com aprendizado não-supervisionado e baseada em Aprendizagem Competitiva. Os Mapas Auto-Organizáveis (ou SOM) são um tipo de rede neural que serve para organizar e visualizar dados complexos de maneira mais simples, em um mapa bidimensional (como uma grade).

Como Funciona um SOM
Imagine que você tem muitos dados (como uma coleção de fotos ou números). Um SOM pega esses dados complexos e os organiza em um mapa, onde dados que são parecidos acabam ficando próximos uns dos outros.

Aqui está uma explicação simplificada das etapas principais:

Criação de uma Grade: O SOM começa com uma grade de neurônios (pontos) em duas dimensões. Cada neurônio da grade tem um “peso” que inicialmente é aleatório.

Treinamento do SOM:

Um dado (um ponto, uma foto, etc.) é apresentado ao SOM.
O SOM verifica qual neurônio (ou ponto da grade) é mais parecido com esse dado. Esse neurônio é chamado de neurônio vencedor.
O neurônio vencedor e seus vizinhos têm seus pesos ajustados para ficarem ainda mais parecidos com o dado apresentado.
Esse processo se repete várias vezes, ajustando a grade gradualmente.
Resultado Final: No final, a grade fica organizada de tal forma que dados parecidos no conjunto original estão próximos uns dos outros no mapa. Isso ajuda a visualizar padrões nos dados.

74
Q

O que é uma função de ativação? onde ela é utilizada?

A

Função matemática que decide se um neurônio será ativado ou não. Usada em RNA. Incute não linearidade ao processo.

75
Q

(Função de ativação) o que é a função limiar?

A

A saída do neurônio é igual a zero, quando seu valor de entrada for negativo e 1, quando seu valor de entrada for positivo.

76
Q

(Função de ativação) o que é a função linear?

A

Aplica um fator de multiplicação ao valor que recebe. F(X) = aX.

77
Q

(Função de ativação) o que é a função logística (ou sigmoide)?

A

A função logística ou sigmoide produz valores no intervalo [0, 1].
f(x) = 1/(1+e^-x)

78
Q

(Função de ativação) o que é a função softmax?

A
  • Função softmax: Softmax é uma generalização da função sigmoide para casos não-binários.
  • A função softmax recebe como entrada um vetor z de K números reais e o
    normaliza em uma distribuição de probabilidade que consiste em K
    probabilidades proporcionais aos exponenciais dos números de entrada. v
79
Q

(Função de ativação) o que é a função maxout?

A

Função Maxout: A saída da função é o valor máximo entre as diversas
entradas.

80
Q

(Função de ativação) o que é a função gaussiana?

A

Função Gaussiana: Função radial típica usada majoritariamente em redes RBF
(função de base radial).

81
Q

(Função de ativação) o que é a função ReLu?

A

Se a entrada 𝑥 for maior que 0, a saída será 𝑥.
Se a entrada 𝑥 for menor ou igual a 0, a saída será 0.

82
Q

Em ML, o que é a Regressão?

A

Regressão refere-se a prever a saída de
uma variável numérica (dependente e contínua) a partir de um conjunto de uma ou mais variáveis independentes.
Uma equação de regressão é usada em
estatística para descobrir qual relação
existe , e se existe, entre conjuntos de
dados.

83
Q

Pra quê é utilizada a regressão linear?

A

Para descrever a relação entre uma variável dependente e uma ou mais variáveis independentes.

84
Q

Qual a diferença entre regressão linear simples e regressão linear múltipla?

A

Simples: apenas uma variável independente.
Múltipla: mais de uma variável independente.

85
Q

O que é preciso saber antes de fazer uma Regressão Linear? (pressupostos)

A

A Regressão Linear tem uma série de pressupostos:

  • Linearidade: a relação entre as variáveis deve ser linear.
  • Homoscedasticidade (ou Homogeneidade de Variância): os termos de erro variância constante, independente dos valores das variáveis preditoras. Quebramos esse pressuposto quando as variáveis preditoras tem mais ou menos erro dependendo de seus valores.
  • Independência de erros: Os erros nas variáveis preditoras não devem estar correlacionados.
  • Não multicolinearidade: as variáveis preditoras não podem ser próximas de uma correlação perfeita.
  • Baixa exogeneidade: os valores das variáveis preditoras não estão contaminados com erros de medida. Erros de medida podem levar estimativas inconsistentes e superestimação dos coeficientes de regressão.
86
Q

(Regressão Linear - f(x) = alfa + beta.X) Como interpretar beta?

A

O beta da regressão é o valor que determina o ângulo da linha da regressão. Dito de maneira mais direta, o valor do beta determina o quanto a variável preditora impacta na variável de resultado. Quanto maior o valor do módulo do beta (ignorando o sinal), mais influente ele é nos valores da variável de resultado.

Outra maneira de interpretar o beta é entendo que o aumento de uma unidade no valor da variável X1, gera o aumento do valor do beta1 na variável de resultado.

87
Q

(Regressão Linear - f(x) = alfa + beta.X) Quando usar o beta padronizado?

A

O beta da regressão sempre está na mesma unidade de medida da variável original (ex.: os escores de felicidade que vão de 1 a 5). Uma consequência é que pode ser difícil de identificar de maneira fácil o quão importante é aquela variável.

Para resolver este problema, podemos usar o beta padronizado. Ele é uma versão do beta que indica o quão forte é a associação entre a variável preditora e a de resultado. Quando o beta padronizado é 0, a relação entre as variáveis é fraca. Quando o beta é 1 ou -1, há uma relação forte entre as variáveis.

88
Q

Quando a regressão linear é usada adequadamente?

A

É utilizada adequadamente quando o dataset apresenta algum tipo de
tendência de crescimento/descrescimento constante.

89
Q

O que se usa para quantificar a relação entre duas variáveis quantitativas?

A

Para quantificar a relação entre duas variáveis quantitativas utiliza-se o
coeficiente de correlação linear de Pearson:

0.9 < |r| <= 1,0 ótima
0.8 < |r| <= 0.9 boa
0.7 < |r| <= 0.8 razoável
0.6 < |r| <= medíocre
0,5 < |r| <= 0.6 péssima
|r| <= 0,5 imprópria

90
Q

(Regressão linear) O que é a análise de resíduos?

A

A análise de resíduos verifica se os erros (diferenças entre os valores reais e previstos) seguem uma distribuição aleatória. Um bom modelo deve ter resíduos que:
* São distribuídos aleatoriamente (sem padrões);
* Têm média zero;
* Não exibem variância crescente (homocedasticidade).

91
Q

(Regressão linear) O que é o teste de sinificância?

A

Avaliar a significância estatística dos coeficientes das variáveis através do teste t (p-valores). Se os p-valores forem baixos (tipicamente menores que 0,05), isso indica que a variável é relevante para o modelo.v

92
Q

O que busca a clusterização em relação à distância dos clusters?

A

Minimizar a distância intracluster e maximizar a distância intercluster.

93
Q

Quais são os algoritmos não supervisionados?

A

Algoritmos de agrupamento (clusterização), SOM, regras de associação, redução da dimensionalidade

94
Q

É preciso normalizar variáveis em algoritmos de agrupamento?

A

Sim.

95
Q

Quais são os principais tipos de clustering?

A
  1. Clusterização Baseada em Centróides

Clusterização baseada em centróides (Centroid-Based Clustering), também conhecida como partitional clustering, agrupa os dados em clusters onde cada cluster é representado pelo centróide, que é o ponto médio do cluster.

➡️ Algoritmo Principal: K-means
O algoritmo começa com a seleção de K
centróides iniciais. Cada ponto de dados é então atribuído ao centróide mais próximo, formando K
clusters. Os centróides são recalculados como a média dos pontos em cada cluster e o processo de atribuição e recalculação continua até que os centróides não mudem mais significativamente.

✅ Entre as principais aplicações estão: segmentação de mercado, compressão de imagens, análise de comportamento do cliente.

Vantagens:

Simples de implementar.
Escalável para grandes conjuntos de dados.

Desvantagens:

Sensível a outliers.
Requer que o número de clusters (K
) seja definido previamente.

  1. Clusterização Baseada em Densidade

Clusterização baseada em densidade (Density-Based Clustering) forma clusters com base em regiões de alta densidade de pontos de dados, separadas por regiões de baixa densidade.

➡️ Algoritmo Principal DBSCAN:
O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de clustering que identifica grupos de dados com base na densidade de pontos. Ele utiliza dois parâmetros: ε (epsilon), que define o raio de vizinhança de um ponto, e MinPts, o número mínimo de pontos necessários para formar um cluster.

✅ Entre as principais aplicações estão: detecção de anomalias, análise de redes sociais, agrupamento de pontos geoespaciais.

Vantagens:

Detecta clusters de formas arbitrárias.
Robusto a outliers.
Desvantagens:

Requer a definição de parâmetros como o raio de busca (eps) e o número mínimo de pontos (minPts).
Pode ter desempenho ruim em conjuntos de dados com densidades variáveis.

  1. Clusterização Baseada em Distribuições

Clusterização baseada em distribuições (Distribution-Based Clustering) assume que os dados são gerados por uma mistura de distribuições probabilísticas, como a distribuição normal. Cada cluster é representado por uma distribuição.

➡️ Algoritmo Principal: Gaussian Mixture Models (GMM)
GMM assume que os dados são uma combinação de várias distribuições gaussianas. Ele utiliza o algoritmo de Expectation-Maximization (EM) para estimar os parâmetros das distribuições (médias, covariâncias) e as probabilidades de pertencimento dos pontos aos clusters.

✅ Entre as principais aplicações estão: análise de genomas, processamento de sinais, reconhecimento de padrões.

Vantagens:

Pode modelar clusters com formas elípticas.
Fornece uma medida de incerteza das atribuições dos clusters.

Desvantagens:

Requer a especificação do número de clusters.
Pode ser sensível a valores iniciais e convergir para mínimos locais.

  1. Clusterização Hierárquica

Clusterização hierárquica é uma técnica de agrupamento de dados que organiza os pontos em uma hierarquia de clusters, formando uma estrutura em forma de árvore chamada dendrograma. Existem dois métodos principais: o aglomerativo (bottom-up) e o divisivo (top-down).

No método aglomerativo, cada ponto começa como um cluster individual e, em cada etapa, os clusters mais próximos são mesclados até que todos os pontos estejam em um único cluster. No método divisivo, o processo começa com todos os pontos em um único cluster, que é iterativamente dividido em clusters menores. Essa abordagem permite explorar diferentes níveis de granularidade dos agrupamentos, oferecendo uma visualização detalhada das relações entre os dados.

➡️ Algoritmo Principal: Agglomerative Hierarchical Clustering (AHC)
AHC começa com cada ponto de dados como um cluster individual e, em cada etapa, os clusters mais próximos são combinados até que todos os pontos estejam em um único cluster. Existem várias formas de definir a proximidade entre clusters:

Single Linkage: menor distância entre pontos dos clusters.
Complete Linkage: maior distância entre pontos dos clusters.
Average Linkage: média das distâncias entre todos os pontos dos clusters.
Ward’s Method: minimiza o aumento da soma dos quadrados das distâncias dentro dos clusters.

✅ Entre as principais aplicações estão: análise de similaridade de documentos, bioinformática, reconhecimento de padrões.

Vantagens:

Não requer a especificação prévia do número de clusters.
Permite visualizar a hierarquia dos clusters.

Desvantagens:

É computacionalmente caro para grandes conjuntos de dados.
A escolha do método de ligação pode afetar significativamente os resultados.

96
Q

O que são redes neurais recorrentes e que tipo de processamento de dados elas fazem?

A

Redes com loops, que permitem persistência de informação. Processamento de dados sequenciais (áudio,
séries temporais, texto).

97
Q

O que é a Long Short-Term Memory (LSTM)?

A
  • Rede neural recorrente
    usada em processamento de
    linguagem natural.
  • Possuem quatro células
    (RNA) e três portões:
  • Forget Gate: remove as
    informações que não são mais
    necessárias.
  • Input Gate: Adiciona
    informações úteis.
  • Output Gate: extrai
    informações úteis.
98
Q

O que são Redes de Hopfield?

A
  • Utilizadas na reconstrução
    de padrões.
  • Rede base para outras
    arquiteturas.
  • Uma única camada com
    todos os neurônios
    conectados entre eles.
  • Como a saída dos neurônios está ligada à entrada de todos os outros,
    elas são aqui chamadas de estados.
  • Esses estados seguem a lógica booleana. A saída dos estados é dada
    por estados verdadeiros (true = 1) ou falsos (false = -1).
99
Q

O que são Máquinas de Boltzmann?

A
  • Rede neural recorrente estocástica
    baseada em grafos.
  • Aplicações:
  • Redução de dimensionalidade.
  • Pré-treinamento de redes neurais.
  • Detecção de fraudes.
  • Sistemas de recomendação colaborativo.
100
Q

O que é uma Deep Belief Network?

A
  • Uma pilha de Máquinas de
    Boltzmann Restritas (RBM
    – Restricted Boltzmann
    Machines), em que cada
    camada RBM se comunica
    com as camadas anterior
    e posterior.
  • Termina com uma
    camada Softmax gerando
    um classificador.
101
Q

O que é o Deep Auto-Encoders?

A

Composto por duas redes
simétricas Deep Belief.
* As camadas são
Máquinas de Boltzmann
Restritas.
* Aprendizado não
supervisionado.
* Usa y(i) = x(i).
* Utilidade: remoção de
ruido e redução de
dimensionalidade.
* encode -> compressed data -> decode

102
Q

O que é uma Generative Adversarial Network?

A
  • Arquiteturas de redes neurais
    profundas compostas por duas
    redes, colocando uma contra a
    outra.
  • Em vez de prever um rótulo com
    determinados recursos, elas geram
    conteúdo novo.
  • Uma rede neural, chamada de
    gerador, gera novas instâncias de
    dados, enquanto a outra, o
    discriminador, as avalia por
    autenticidade.
103
Q

O que são Deep Neural Network Capsules?

A
  • As redes são formadas por capsulas, que são pequenas redes neurais dentro de
    uma estrutura maior.
  • Treinada por roteamento dinâmico.
104
Q

Recall é o mesmo que sensibilidade?

A

Sim.

105
Q

O que é a regularização de dados?

A

A regularização de dados é uma técnica utilizada em machine learning e estatística para prevenir overfitting e melhorar a generalização de um modelo. Ela adiciona uma penalização aos parâmetros do modelo, de modo que ele não se ajuste excessivamente aos dados de treinamento.

Principais regularizações L1(Lasso Regression), L2 (Ridge Regression) e Elastic Net (combinação de L1 e L2).

obs: No caso de L1 (Lasso), ela pode reduzir alguns coeficientes a zero, promovendo um modelo mais interpretável, com menos variáveis.

106
Q

Qual a diferença entre os comandos DELETE FROM, TRUNCATE TABLE e DROP TABLE?

A

Delete e truncate deletam dados mantendo a estrutura da tabela. Delete permite uso do WHERE, enquanto truncate não permite. Drop exclui a tabela toda, inclusive sua estrutura.

107
Q

Caracterize o modelo Bag of words.

A

O modelo BoW consiste em contar a frequência de cada palavra no texto, criando assim um vetor de frequências que representa o documento em questão.

Esse modelo é amplamente utilizado em tarefas como classificação de texto e análise de sentimentos.

O modelo BoW não considera a ordem das palavras no texto, tratando-o como um conjunto não ordenado de palavras.

O modelo BoW não é capaz de lidar com a ambiguidade das palavras, pois não leva em conta o contexto em que as palavras aparecem.

108
Q

Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característica de palavras e frases poderem ter mais de um significado. Certo ou errado?

A

Certo.

109
Q

PLN consegue entender o significado subjetivo e implícito em um texto?

A

Sim.

110
Q

PNL - O que é o processo de tokenização?

A

O processo de tokenização envolve a divisão de um texto em palavras individuais ou unidades significativas, como frases ou símbolos. Cada uma dessas unidades é tratada como um token separado para análise posterior.

111
Q

PNL - Conceitue rastreamento de dados (crawling) e raspagem de dados (scraping).

A
  • Rastreamento de dados (crawling):
  • Utilizada por mecanismos de buscas e extratores de dados.
  • Fases:
  • Crawler obtém lista de URL a partir de uma URL base.
  • Extração dos dados existentes nessas URL. (extrai todos os dados)
  • Raspagem de dados (scraping):
  • Extração automática eficiente dos conjuntos de dados estruturados
    (principalmente HTML).
  • O Web Scraper acessa páginas web, encontra elementos de dados
    especificados na página e os extrai. (seleciona apenas as informações de interesse)
  • O Web Scraper imita a operação de um usuário em busca de informações em
    um navegador, automatizando e acelerando este acesso.
112
Q

PLN - O que é o processo de normalização?

A

Tokenização; transformação de letras maiúsculas para minúsculas; remoção
de caracteres especiais; remoção de tags HTML/Javascript/CSS.

113
Q

PLN - O que é a remoção de stop words?

A
  • Consiste em remover palavras muito frequentes, tais como “a”, “de”, “o”, “da”, “que”, “e” e “do”.
  • São removidas palavras não relevantes para o problema de PLN.
114
Q

PLN - O que é a Etiquetagem (part-of-speech tagger)?

A
  • Colocação de etiqueta em cada palavra para identificar a categoria gramatical
    ou elementos morfológicos ou semânticos
115
Q

PLN - O que é a Stemização ou Lematização?

A
  • Reduzir uma palavra ao seu radical.
116
Q

PLN - Quais são as etapas de pré-processamento de dados?

A
  • Normalização
  • Remoção de stop words
  • Análise estatítica (para selecionar palavras expressivas)
  • Correção ortográfica
  • Etiquetagem (part-of-speech tagger)
  • Remoção de numerais (números e
    palavras/símbolos como “R$”)
  • Stemização ou Lematização
117
Q

PLN - Defina as seguintes abordagens de processamento:

  • Simbólica
  • Estatística
  • Conexionista
  • Híbrida
A
  • Simbólica:
  • Se baseia nas regras linguísticas sem ambiguidades e bem estruturadas.
  • Estatística:
  • Utiliza modelos matemáticos e estatísticos.
  • Conexionista:
  • Utiliza o aprendizado e teorias de representação do conhecimento.
  • Híbrida:
  • Combina as demais abordagens.
118
Q

Como é o Processamento de Linguagem Natural utilizando ML? (etapas)

A

Pré-processamento -> vetorização (bag of words; TF-IDF…) -> algoritmos de ML (Naive Bayes; RNN; LSTM…)

119
Q

PLN - Como funcionam as seguintes Representações vetoriais de textos (word embedding):

  • Binário
  • Bag of words
  • TF-IDF
A
  • Binário:
  • Cada palavra é atribuído um valor 1 ou 0 de acordo com sua presença ou ausência na sentença.
  • Bag Of Words:
  • O texto é simplificado para um vetor de palavras distintas e a respectiva
    contagem de ocorrência de cada uma delas.
  • TF-IDF:
  • Term Frequency mede o quão frequente um termo ocorre em um documento.
  • Inverse Document Frequency mede a raridade do termo para o documento.
120
Q

Cite exemplos de assistentes virtuais mais conhecidas.

A

Alexa (Amazon Echo), Siri (iOS), Cortana (Microsoft a partir do Windows 10), Google Assitant (Android) ou Google Now

121
Q

PLN - O que é a modelagem de tópicos e qual é o algoritmo mais usado?

A

Técnica de mineração de dados, não supervisionado, que extrai tópicos latentes de uma base de documentos (corpus). Os tópicos não são pré-definidos, mas sim descobertos através de uma análise de grupos de palavras que aparecem frequentemente juntas. O algoritmo mais famoso é o LDA - Latent Dirichlet Allocation.

122
Q

PLN - Quais são as etapas de uma modelagem de tópicos?

A

1 - Representação do texto -> uso de matriz termo/documento
2 - Identificação de tópicos ->. técnicas de redução de dimensionalidade ou modelos probabilísticos
3 - Atribuição de tópicos aos documentos

123
Q

PLN - Qual a vantagem do algoritmo de modelagem de tópicos LDA (Latent Dirichlet Allocation) em relação aos demais?

A

Este algoritmo pode ser aplicado a documentos inéditos.

124
Q

PLN - Quais 3 hiper parâmetros devem ser definidos no algoritmo LDA (Latent Dirichlet Allocation)?

A
  • número de tópicos
  • alfa: controla a distribuição de tópicos por documento
  • beta: controla a distribuição de palavras por tópicos
125
Q

PLN - O que o algoritmo LDA (Latent Dirichlet Allocation) trás de resultado?

A

Distribuição de probabilidade para cada documento, que indica a pertinência do mesmo a algum dos tópicos e onde cada tópico é formado por uma distribuição de probabilidade das palavras presentes no documento.

126
Q

O que é o aprendizado por reforço?

A
  • Método de aprendizado de máquina onde um agente aprende a tomar
    decisões.
  • Aprendizado por meio de tentativa e erro, interagindo com um ambiente.
  • Recebe recompensas por ações corretas, visando maximizar a recompensa
    total.
127
Q

Quais são as etapas do aprendizado por reforço?

A
  • Observação do estado do ambiente.
  • Tomada de decisão baseada na política.
  • Execução da ação e observação da recompensa e do novo estado.
  • Atualização da política com base na recompensa recebida.
    obs.: a inicialização é aletória.
128
Q

Aprendizado por reforço - defina os seguintes conceitos-chave:

  • Agente
  • Ambiente
  • Estado
  • Ações
  • Recompensa
  • Política
  • Função de valor
  • Episódio
A
  • Agente: A entidade que toma decisões, como um robô ou software.
  • Ambiente: O mundo com o qual o agente interage e sobre o qual ele não
    tem controle total.
  • Estado: Uma representação da situação atual do agente dentro do
    ambiente.
  • Ações: As possíveis intervenções que o agente pode fazer no ambiente.
  • Recompensa: Um sinal do ambiente em resposta às ações do agente,
    indicando o sucesso dessas ações.
  • Política (Policy): Uma estratégia que define a escolha de ação do agente
    em determinados estados.
  • Função de Valor: Uma previsão da recompensa futura esperada, utilizada
    para avaliar quão bom é um estado ou uma ação.
  • Episódio: Uma sequência de ações, estados e recompensas que termina
    em um estado final.
129
Q

Dê exemplos de aplicação do aprendizado por reforço.

A
  • Jogos: Melhorar estratégias em jogos complexos, como Go e xadrez.
  • Robótica: Ensinar robôs a realizar tarefas como caminhar e pegar objetos.
  • Sistemas de Recomendação: Personalizar conteúdo para usuários em
    plataformas de streaming.
  • Otimização de Processos: Melhorar a logística e a cadeia de suprimentos
    em indústrias.
  • Automação de Veículos: Desenvolver sistemas de condução autônoma.
130
Q

Aprendizado por reforço: explique o dilema exploration x exploitation

A
  • O agente enfrenta o dilema de explorar novas ações (como tentar
    uma célula desconhecida - exploration) versus explorar ações conhecidas (como
    escolher uma célula que já sabe ser segura - exploitation).
  • Ele deve encontrar o equilíbrio certo para maximizar a recompensa
    cumulativa.
131
Q

Qual o algoritmo mais famoso de aprendizagem por reforço e como ele funciona?

A

Deep Q-Network (DQN):
* Visa aprender a política ótima, ensinando ao agente qual ação tomar sob
determinadas condições para maximizar a soma de recompensas futuras.
* Isso é feito através de uma função de valor Q, que estima a recompensa
total esperada de tomar uma ação em um dado estado.
No DQN, redes neurais profundas são usadas para aproximar a função de
valor Q.
* Isso permite que o agente lide com estados de entrada de alta dimensão
(como imagens de pixels dos jogos), algo que métodos tradicionais de Qlearning não conseguem fazer de forma eficiente devido à maldição da
dimensionalidade.

132
Q

O que é a IA generativa?

A

IA que gera textos, imagens, vídeos e outros formatos de arquivo inéditos, a partir de uma grande base de treinamento.

133
Q

Quais são os problemas relacionados a IA generativa?

A

Problemas:
* Viés algorítmico.
* Privacidade.
* Transparência.
* Alucinações.

134
Q

Dê exemplos de IAs generativas

A

ChatGPT (da OpenAI), Google Bard ou Gemini, Bing Chat, Copilot (Microsoft), MidJourney, Wolfran (cálculos e gráficos)

135
Q

Quais são os problemas éticos relacionados a IA generativa?

A

Deep Fake e manipulação de mídia
Violação de privacidade
Viés e discriminação (vinda da base de dados)
Direitos autorais e propriedade intelectual
Perda de emprego
Manipulação de eleições
Uso de identidade falsa
Manipulação emocional (para incentivar compras por exemplo)
Desigualdade digital (nem todos tem o mesmo acesso)
Ataques cibernéticos (vazamento de dados e conversas)

136
Q

Como funcionam as Redes Adversariais Generativas?

A

Uma rede neural, chamada de gerador, gera novas instâncias de dados, enquanto a outra, o discriminador, avalia sua autenticidade; ou seja, o discriminador decide se cada instância de dados que ele analisa pertence ou não ao conjunto de dados de treinamento real. O gerador vai então se aprimorando, tentando enganar o discriminador para se tornar o mais próximo possível do real.

137
Q

Como funcionam os Autoencoders generativos?

A

Os autoencoders funcionam codificando dados não rotulados em uma representação compactada e, em seguida, decodificando os dados de volta à sua forma original. Os autoencoders simples foram usados para diversas finalidades, incluindo a reconstrução de imagens corrompidas ou borradas. Os autoencoders variacionais acrescentaram a capacidade crítica não só de reconstruir dados, mas também de gerar variações nos dados originais.

138
Q

O que são Generative Pre-training Transformer?

A

Transformadores pré-treinados generativos, comumente conhecidos como GPT, são uma família de modelos de rede neural que usa a arquitetura de transformadores e são um avanço fundamental na inteligência artificial (IA) que impulsiona aplicações de IA generativa, como o ChatGPT. Os modelos GPT oferecem às aplicações a capacidade de criar texto e conteúdo semelhantes aos humanos (imagens, músicas e muito mais) e responder perguntas de forma conversacional.
- Palavras são transformadas em números e posicionadas em um espaço tridimensional, onde palavras relacionadas a um mesmo universo ficam mais próximas umas das outras.

139
Q

Que tipo de treinamento o ChatGPT usa?

A

Treinamento superviosionado seguido de treinamento por reforço.

140
Q

Quais são as principais limitações do ChatGPT?

A
  • Limitações:
  • Conhecimento Atualizado.
  • Perda de Compreensão Contextual em Textos Longos.
  • Vieses.
  • Precisão da Informação (Alucinações).
  • Interpretação Literal.
141
Q

Engenharia de prompt - quais as melhores práticas ao se pedir repostas de uma IA generativa?

A
  • Especificidade
  • Contexto
  • Estilo
  • Palavras chaves
  • Estruture a resposta desejada
  • Adequação ao domínio
  • Mitigação de viés
  • Analogias
  • Use exemplos (zero-shot, one-shot, few-shot)
  • Pedir o Passo-a-passo
142
Q

O que é MLOps e quais seus objetivos?

A
  • Machine Learning Operations
  • Disciplina emergente no campo da ciência de dados e
    engenharia de software
  • Combina ML, DevOps e Engenharia de Dados
  • Visa unificar o desenvolvimento de modelos de machine
    learning (ML) e as operações de TI.
  • Objetivo:
  • Criar um fluxo contínuo para projetar, desenvolver, testar,
    implantar e manter sistemas de ML em produção de forma
    escalável e sustentável
  • Garantir que os modelos de ML sejam usados de forma ética
    e responsável, e que os dados sejam protegido
143
Q

Quais são os principais componentes do MLOps?

A

-> Integração e Entrega Contínuas (CI/CD):
* Automação de testes para modelos de ML e sua integração em
ambientes de produção.
* Validação de modelos com novos dados
* Atualizações automáticas de modelos
* Entrega contínua de melhorias nos modelos sem prejudicar os sistemas
em operação.

-> Monitoramento:
* Monitoramento contínuo para verificar a eficácia e detectar qualquer
degradação no desempenho dos modelos(drift de modelo).
* Atualizações periódicas do modelo para ajustá-lo a novos padrões de
dados ou para melhorar sua precisão e eficiência.

-> Gerenciamento de Ciclo de Vida de Modelos:
* Gerenciamento do ciclo de vida completo dos modelos de ML, desde a
concepção até a retirada
* Versionamento de modelos
* Gestão de artefatos (como dados, códigos e parâmetros)
* Registro de experimentos para garantir reproducibilidade

-> Orquestração de Workflow:
* Automação de workflows de machine learning, incluindo préprocessamento de dados, treinamento de modelos, validação e
deployment
* Padronização e escalabilidade dos processos de ML

144
Q

MLOps - quais são as principais ferramentas de:

  • Plataformas de Dados e Modelagem
  • Ferramentas de CI/CD
  • Monitoramento de Modelos
  • Orquestração
A
  • Plataformas de Dados e Modelagem:
  • TensorFlow Extended (TFX), MLflow, Kubeflow.
  • Ferramentas de CI/CD:
  • Jenkins, GitLab, CircleCI.
  • Monitoramento de Modelos:
  • Prometheus, Grafana, ELK Stack.
  • Orquestração:
  • Apache Airflow, Prefect, Dagster.
145
Q

O que é o TensorFlow?

A

O TensorFlow é uma biblioteca de código aberto (framework) para computação numérica, machine learning em grande escala, deep learning e outras cargas de trabalho de análise estatística e preditiva. Essas tecnologias permitem que desenvolvedores implementem modelos de machine learning de maneira mais rápida e fácil. Isso ajuda no processo de aquisição de dados, fornecendo previsões em escala e refinando resultados de aprendizagem futuros.

146
Q

O que é o Prometheus?

A

O Prometheus é um sistema de monitoramento para serviços e aplicações. Ele coleta as métricas de seus alvos em determinados intervalos, avalia expressões de regras, exibe os resultados e também pode acionar alertas se alguma condição for observada como verdadeira.

147
Q

O que é o Apache Airflow?

A

O Apache Airflow é uma ferramenta de orquestração de fluxo de trabalho de código aberto (open-source) criada pela Airbnb que tem sido amplamente adotado na engenharia de dados para tarefas de gestão de fluxos ETL (Extração, Transformação e Carga de Dados).

A principal característica do Apache Airflow é a capacidade de definir, programar e monitorar fluxos de trabalho complexos, chamados de DAGs (Directed Acyclic Graphs). O Airflow foi construído para lidar com dependências entre tarefas e para gerenciar falhas, fornecendo mecanismos de retentativa e notificações de alerta.

As tarefas e suas dependências são definidas em Python, tornando-as mais flexíveis e acessíveis para Engenheiros e Arquitetos de Dados. Além disso, o Airflow oferece uma interface de usuário baseada na web para visualizar e gerenciar fluxos de trabalho, o que facilita o monitoramento e a depuração de problemas.

148
Q

Diferencie os níveis 0, 1 e 2 de MLOps.

A

Nível 0 -> fluxo de trabalho manuais; desconexão entre ML e operações; iterações não frequentes; falta de monintoramento; sem CI/CD.

Nível 1 -> automatização do pipeline de ML; treino contínuo do modelo; componentes de código modularizados e reutilizáveis; aramazenamento centralizado; gerenciamento de metadados; implementação do mesmo pipeline em ambientes de desenvolvimento, préprodução e produção

Nível 2 -> Automação do pipeline de CI/CD
Adequado para empresas orientadas por tecnologia que atualizam seus
modelos em minutos, os retreinam a cada hora ou diariamente e os
reimplantam simultaneamente em milhares de servidores.
Requer:
* Um orquestrador de pipeline de ML
* Um registro de modelos para rastrear vários modelos

149
Q

Quais são os principais problemas éticos relacionados ao uso de IA?

A
  • Viéis algoritmico: o modelo aprende preconceitos com a base de dados
  • Privacidade: uso indevido de dados pessoais
  • Explicabilidade: não sabemos o processo que levou a tal resultado (excessão: árvores de decisão)
  • Responsabilidade: necessidade de supervisão humana - não se pode responsabilizar uma máquina
  • Impacto no emprego: empregados sendo substituídos por IA
  • Ética na pesquisa: IA pode criar bases de dados fake e utilizá-la para criação de relatórios e pesquisas
150
Q

Quais são as possíveis soluções de uma IA responsável?

A
  • Transparência sobre:
  • dados de entrada
  • processos de desenvolvimento (quais modelos foram utilizados)
  • governança: explicar as medidas de supervisão e controle estabelecidas, bem como o responsável pelos resultados
  • conformidade: informação sobre como a IA atende a regulamentações nacionais e internacionais
  • Explicabilidade:
  • Racionalização de Decisões:
    Fornecer justificativas legíveis e compreensíveis para as decisões
    tomadas por um sistema de IA
  • Modelos Interpretáveis:
    Utilizar ou desenvolver modelos que naturalmente permitem
    explicação, como árvores de decisão, em contraste com modelos
    “caixa-preta”, como redes neurais profundas
  • Ferramentas de Explicação:
    Desenvolver interfaces e ferramentas que ajudam a explicar as
    decisões de IA para os usuários
  • Promoção da ética:
  • Regulamentação:
  • Diretrizes
  • Princípios éticos
  • Auditorias
  • Avaliação de impacto
  • Mitigação de riscos
  • Desenvolvimento inclusivo
  • Diversidade na construção das bases de treinamento
  • Educação
  • Desenvolvedores, usuários e legisladores
  • Diversificação dos dados de treinamento
  • Análise de equidade
151
Q

O que são regras de associação?

A

Se A, então B. Ex.: se comprou pão, compra leite.
Algoritmo não superviosionado que verifica valores co-ocorrentes.

A -> B
A: antecessor
B: conseguente
A e B disjuntos

152
Q

Quais são as métricas de avaliação das regras de associação?

A
  • Suporte: qual a porcentagem de vezes a regra aparece na base de dados.
    num de vezes que a regra aparece/total de exemplos
  • Confiança: para as vezes em que A aparece, quantas vezes B aparece.
    num de vezes que A e B aparecem/num de vezes que A aparece
  • Lift:
    confiança(A->B)/suporte(B)
    lift > 1: quanto mais vezes ocorre A, mais vezes ocorre B
    lift = 1: não há associação entre A e B
    lift < 1: quanto mais vezes ocorre A, menos vezes ocorre B
153
Q

Quais os principais algoritmos de regras de associação?

A

Apriori, Eclat, Partition, FP-Growth

154
Q

Como funciona o algoritmo Apriori? (regras de associação)

A
  • Passo 1: Geração de Itemsets frequentes:
  • Pesquisa em largura
  • Conta a frequência de cada item individualmente
  • Itens que atendem ao limite de suporte são considerados frequentes,
    formando a lista L
  • Forma pares de itens da lista L com suporte atendendo ao limite
  • Processo se repete para itemsets maiores
  • Passo 2: Geração das regras de associação:
  • Para cada itemset selecionado, todas as regras são geradas.
  • Calcula-se a confiança das regras.
  • Seleciona-se as regras de associação com confiança acima do limite.
155
Q

A utilização de valores aleatórios nos métodos modernos de inicialização dos pesos das camadas das redes neurais artificiais (RNA) permite evitar o problema do desaparecimento do gradiente (vanishing gradient problem). Certo ou errado?

A

Certo.

156
Q

Quais são as formas de tratar dados faltantes?

A
  • Recuperação do dado original.
  • Média, mediana ou moda.
  • Utilização de dado aleatório.
  • Utilização de valor padrão (constante).
  • Utilização do último ou do próximo valor válido.
  • Interpolação linear (séries temporais).
  • Hot Deck (Preenche valores faltantes com dados observados de registros semelhantes no mesmo conjunto de dados) / Cold Deck (Utiliza fontes externas ou dados históricos para preencher os valores faltantes).
  • Regressão linear.
  • Imputação do vizinho K-nearest.
  • Métodos avançados de ML.
  • Criação de um estado “ausente” em campos discretos.
  • Exclusão do atributo.
  • Método do caso completo ou exclusão das amostras/linhas com dados faltantes (listwise deletion) -> deleta toda a linha em que há algum dado faltante.
  • Método dos casos disponíveis ou exclusão das amostras/linhas com dados faltantes nas variáveis de interesse
    (pairwise deletion) -> só deleta a linha se o dado faltante for de um atributo de interesse.
157
Q

Cite algumas técnicas para identificar outliers.

A
  1. Gráfico Boxplot: valores abaixo do limite inferior ou acima do limite superior são outliers.
  2. Método de distância interquartil (IQR): Os outliers são definidos como valores que estão abaixo do limite inferior (Q1–1,5 * IQR) ou acima do limite superior (Q3 + 1,5 * IQR). IQR = Q3 - Q1.
  3. Método do Desvio Padrão: são outliers pontos que estão a mais de 2,5 dp da média
  4. Teste de Z-Score: são outliers pontos em que Z >= 3 (3 ou mais desvios padrões da média)
  5. DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
    É um método de clustering em que os pontos são agrupados com base em sua densidade, e pontos que ficam isolados em regiões com baixa densidade são rotulados como ruído ou outliers. O método é útil para conjuntos de dados com distribuições não lineares e não gaussianas.
158
Q

Cite algumas técnicas de tratamento de outliers.

A
  1. Identificar e remover outliers (Trimming):
    Esta é uma das maneiras mais simples de tratar outliers. Identifique os valores que se desviam significativamente do resto dos dados e remova-os do conjunto de dados. No entanto, isso pode levar à perda de informações valiosas e não é uma abordagem muito recomendada em pequenos datasets.
  2. Transformar os dados
    A transformação dos dados pode ser útil para tratar outliers, especialmente se os dados seguirem uma distribuição assimétrica. Algumas técnicas comuns de transformação incluem logaritmo, raiz quadrada, exponencial, entre outras.
  3. Agrupar os dados
    Se os outliers representam erros de medição ou erros de entrada de dados, pode ser útil agrupar os dados em intervalos mais amplos. Isso pode ajudar a reduzir a influência dos outliers nos resultados finais.
  4. Percentile based flooring and capping
    Essa técnica utiliza os percentis para definir limites inferiores (flooring) e superiores (capping) para os dados.
159
Q

Qual é a diferença entre as técnicas de avaliação hold out e k-fold?

A
  • Hold-out:

Hold-out é uma técnica de validação simples e direta usada para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira:

Divisão dos Dados:
O conjunto de dados é dividido em duas partes: um conjunto de treinamento e um conjunto de teste.
Normalmente, uma proporção comum é 80% para treinamento e 20% para teste, mas essa divisão pode variar dependendo do problema e da quantidade de dados disponíveis.

Treinamento:
O modelo é treinado usando apenas o conjunto de treinamento.

Avaliação:
O desempenho do modelo é avaliado usando o conjunto de teste. As métricas de avaliação (como acurácia, precisão, recall, F1-score, etc.) são calculadas para entender como o modelo generaliza para dados não vistos.

Vantagens:
Simplicidade e facilidade de implementação.
Rápido e computacionalmente eficiente, pois o modelo é treinado apenas uma vez.

Desvantagens:
Pode levar a uma estimativa instável do desempenho do modelo, especialmente se o conjunto de dados for pequeno ou não representativo.
A avaliação depende fortemente da divisão dos dados; diferentes divisões podem resultar em diferentes métricas de desempenho.

  • K-fold Cross-Validation

K-fold cross-validation é uma técnica mais robusta e confiável para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira:

Divisão dos Dados:
O conjunto de dados é dividido em k partes (ou folds) de tamanhos aproximadamente iguais.

Treinamento e Avaliação:
O processo é repetido k vezes. Em cada repetição, um fold diferente é usado como conjunto de teste, enquanto os k−1 folds restantes são usados como conjunto de treinamento.
Por exemplo, com k=10k = 10
k=10, o conjunto de dados é dividido em 10 partes. Em cada uma das 10 iterações, 9 partes são usadas para treinamento e 1 parte é usada para teste.

Agregação dos Resultados:
As métricas de desempenho (como acurácia, precisão, recall, F1-score, etc.) são calculadas para cada iteração e, em seguida, a média dessas métricas é usada para obter uma estimativa mais estável e confiável do desempenho do modelo.

Vantagens:
Fornece uma avaliação mais robusta e confiável do desempenho do modelo, pois todos os dados são usados tanto para treinamento quanto para teste em diferentes iterações.
Reduz a variabilidade nas estimativas de desempenho que pode ocorrer com uma única divisão dos dados.

Desvantagens:
Mais computacionalmente intensivo, pois o modelo precisa ser treinado k vezes.
Pode ser complexo de implementar em alguns casos.

-> Comparação:
Hold-out é rápido e simples, ideal para conjuntos de dados grandes onde uma única divisão é suficiente para obter uma estimativa razoável do desempenho do modelo.
K-fold cross-validation é mais robusto e confiável, especialmente útil para conjuntos de dados menores ou quando se deseja uma avaliação mais precisa e menos dependente de uma única divisão dos dados.

160
Q

O que é o método de avaliação leave-one-out?

A

Como o próprio nome diz: deixar um de fora. O método consiste em realizar o treinamento com n-1 dados e testar com o restante, esse processo é repetido n vezes, cada vez deixando um dado diferente de fora para teste.

A estimativa de erro é a média do erro de cada rodada
Este método é exaustivo, ou seja, testa todas as possibilidades.
Estimativa menos enviesada, ou seja, estará bem próxima da realidade
Alta variância entre os n testes (erro assume apenas 0 e 1)
Alto custo computacional (n treinamentos e testes de classificadores)

161
Q

Qual método apresenta menor custo e menor variância? K-fold cross validation ou leave-one-out

A

K-fold cross validation

162
Q

O que é a técnica de validação bootstrapping?

A

Bootstrapping is a resampling technique that helps in estimating the uncertainty of a statistical model.

It includes sampling the original dataset with replacement and generating multiple new datasets of the same size as the original.

Each of these new datasets is then used to calculate the desired statistic, such as the mean or standard deviation.

This process is repeated multiple times, and the resulting values are used to construct a probability distribution for the desired statistic.

This technique is often used in machine learning to estimate the accuracy of a model, validate its performance, and identify areas that need improvement.

Características:

Variância menor;
Computacionalmente caro dependendo do número de experimentos e do tamanho das amostras de treino e teste
Útil quando a amostra original é pequena
Maior controle sobre o viés