Ciência de dados Flashcards

1
Q

(Áreas da IA) Defina Redes Neurais Artificiais

A

Modelos inspirados no funcionamento do cérebro
humano que são usados para processar informações e tomar decisões.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

(Áreas da IA) Defina * Aprendizado de Máquina (Machine Learning)

A

Algoritmos que permitem que as
máquinas aprendam com os dados e melhorem seu desempenho ao longo do
tempo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

(Áreas da IA) Defina Processamento de Linguagem Natural (PLN)

A

O estudo da interação entre
máquinas e linguagem humana, incluindo tarefas como tradução automática,
reconhecimento de fala e análise de sentimento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

(Áreas da IA) Defina Visão Computacional

A

Desenvolvimento de algoritmos e de sistemas capazes de
entender e de interpretar imagens e vídeos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

(Áreas da IA) Defina Robótica Inteligente

A

Combinação de IA e robótica para criar robôs capazes de
interagir com o ambiente e realizar tarefas complexas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

(Áreas da IA) Defina Sistemas Especialistas

A

Sistemas de IA projetados para imitar a inteligência
e o conhecimento de especialistas humanos em um domínio específico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

(Áreas da IA) Defina Algoritmos Genéticos

A

Técnicas de otimização baseadas em princípios
genéticos e em evolução natural, usadas para resolver problemas
complexos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

(Áreas da IA) Defina Sistemas de Recomendação

A

Algoritmos que analisam dados e padrões de comportamento do usuário para fornecer sugestões personalizadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

(Áreas da IA) Defina IA Conversacional

A

Tecnologias que permitem a interação entre humanos e
sistemas de IA por meio de diálogos naturais, como chatbots e assistentes
virtuais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

(Áreas da IA) Defina Mineração de Dados

A

Técnicas para descobrir padrões e conhecimentos
úteis a partir de conjuntos de dados grandes e complexos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

(Áreas da IA) Defina Reconhecimento de Padrões

A

Identificação de padrões em dados, como
reconhecimento facial, detecção de objetos e análise de imagem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

(Áreas da IA) Defina * IA Explicável

A

Desenvolvimento de métodos e de algoritmos que permitem
entender e explicar o processo de tomada de decisão de sistemas de IA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

(Áreas da IA) Defina Agentes Inteligentes

A

Programas de computador capazes de tomar decisões e agir de forma autônoma em um ambiente específico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

(Áreas da IA) Defina Aprendizado Profundo (Deep Learning)

A

Subcampo do machine learning, utiliza redes neurais
(unidades conectadas em rede para a análise de bancos de dados e informações)
para emular o cérebro humano.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

(Áreas da IA) Defina Processamento de Sinais

A

Análise e interpretação de sinais, como áudio e vídeo,
utilizando técnicas de IA.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

(Áreas da IA) Defina IA Responsável

A

Envolve garantir que a IA seja desenvolvida e implementada de
forma ética e legalmente responsável.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

(Áreas da IA) Defina Raciocínio Automatizado (Automated Reasoning)

A

Desenvolvimento de
algoritmos e de técnicas para automatizar o processo de raciocínio lógico,
permitindo que os computadores cheguem a conclusões ou provem teoremas de
forma automatizada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma simbólico

A

Construção de uma representação simbólica de um conceito por meio de exemplos e contraexemplos.
Representação simbólica na forma de alguma expressão lógica, como árvores de decisão e regras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Protótipo ou Memorização (Instance Based)

A
  • Sistema que classifica um exemplo por meio de exemplos similares conhecidos.
  • ‰ Sistemas lazy necessitam manter os exemplos na memória para classificar novos exemplos, em
    oposição aos sistemas gulosos (eager), que utilizam os exemplos para induzir o modelo,
    descartando-os logo após.
  • Exemplo: K-NN.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Conexionista.

A

Redes neurais, as quais envolvem unidades altamente interconectadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Genético

A

Um classificador genético consiste de uma população de elementos de classificação que competem
para fazer a predição.
* Elementos que possuem um desempenho ruim são descartados, enquanto os elementos mais
fortes proliferam, produzindo variações.
* Alguns operadores genéticos básicos que aplicados a população geram novos indivíduos são:
Reprodução, Cruzamento, Mutação e Inversão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

(Paradigmas de Aprendizado de máquina) Descreva o paradigma Estatístico

A

Utilização de modelos estatísticos para encontrar uma boa aproximação do conceito induzido.
* Vários desses métodos são paramétricos, assumindo alguma forma de modelo, e então
encontrando valores apropriados para os parâmetros do modelo a partir dos exemplos.
* Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que utilizam um modelo
probabilístico baseado no conhecimento prévio do problema, o qual é combinado com os exemplos
de treinamento para determinar a probabilidade final de uma hipótese.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Explique o trade off entre bias e variância.

A

Indutores instáveis apresentam alta variância (um pequena variação no conjunto de treinamento pode causar mudanças no classificador gerado) e baixo bias. Já indutores estáveis apresentam baixa variância e alto bias (viés, critério de preferência de uma hipótese sobre outras).

obs.: indutor é o programa que fera uma hipótese (classificador) a partir de um conjunto de exemplos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Explique o overfitting ou overtrainning.

A

Acontece quando a hipótese extraída a partir dos exemplos é muito específica para o conjunto de treinamento, perdendo o poder de generalização.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Explique o underfitting.
A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento quanto no de teste. Pode acontecer por ter poucos exemplos representativos ou tamanho pré-definido do classificador muito pequeno.
26
O que é acurácia?
Percentual de acertos. acurácia = (VP + VN)/(VP + VN + FP + FN)
27
O que é erro?
1 - acurácia.
28
O que é precisão?
Indica das classificações positivas do modelo, qual porcentagem foi acertada. Precisão = VP/(VP + FP)
29
O que é revocação, sensibilidade ou recall?
De todos os postivos existentes nos exemplos, quantos o modelo conseguiu classificar corretamente. revocação = VP/(VP+FN)
30
O que especificidade?
Avalia a capacidade de detectar resultados negativos. especificidade = VN/(VN + FP)
31
O que é o F-score ou score F1?
Média harmônica entre precisão e sensibilidade. f1 = 2.((precisao.sensibilidade)/precisao+sensibilidade))
32
O que é o erro do tipo 1?
Falso positivo.
33
O que é o erro do tipo 2?
Falso negativo.
34
Explique a maldição da dimensionalidade.
Quanto mais atributos, mais exemplos você irá precisar para ter todas as combinações possíveis destes atributos, o que torna o processo mais caro e mais lento.
35
O que pode ser feito caso ocorra overfitting?
Utilizar modelos menos complexos e fazer a validação cruzada para determinar quando cessar o treino.
36
Cite exemplos de classificadores (pelo menos 7)
* Árvore de Decisão. * Random Forest. * k-Nearest Neighbors. * Naive Bayes. * Regressão Logística. * Análise Discriminante Linear. * SVM (suport vector machine). * RNA (redes neurais artificiais).
36
Explique o que são raíz, nós e folhas de uma árvore de decisão.
* Raiz: é a primeira decisão a ser tomada pelo usuário. A partir dela o algoritmo é redirecionado a outras decisões. * Nós: são todas as decisões apresentadas na árvore. * Folhas: são os resultados da árvore de decisões. É nela que a classificação é realizada.
37
Como árvores de decisão podem ser reescritas?
Podem ser reescritas como um conjunto de regras, por exemplo, em forma normal disjuntiva (DNF).
38
Quais tipos de atributos uma árvore de decisão aceita?
Atributos contínuos e discretos.
39
Árvores de classificação tem que tipo de valor nas folhas? E árvores de regressão?
Classificação: valores discretos. Regressão: valores reais.
40
A árvore de decisão necessita de manipulação de dados, como normalização?
Não.
41
A maioria dos algoritmos de aprendizagem de árvores derivam de qual algoritmo? Qual sua estratégia.
ID3. * C4.5 e C5.0 são mais recentes. * O ID3 aprende a árvore usando uma estratégia top-down (escolhe os atributos mais relevantes primeiro).
42
O que pode ser feito para evitar ou corrigir overfitting em uma árvore de decisão?
Para evitar overfitting: * Pré-poda: para de crescer a árvore quando não tem mais dados suficientes para fazer previsões confiáveis. * Pós-poda: constrói a árvore toda, depois são removidas sub-árvores com menos relevância. * Métodos para poda: * Validação cruzada: Reservar alguns dados de treinamento (conjunto de validação) para avaliar utilidade das sub-árvores. * Testes estatísticos: Usa o teste para determinar se a regularidade observada foi devida ao acaso. * Comprimento da descrição mínima (MDL): Determina se a complexidade adicional da hipótese é mais complexa que lembrar explicitamente as exceções resultantes da poda.
43
O que é o Random Forest?
É um algoritmo de classificação baseado em árvores de decisão. A predição da floresta randômica é a média de todas as predições das diversas árvores de decisão construídas.
44
A Random Forest é capaz de resolver problemas de classificação e regressão?
Sim.
45
O que é o k-Nearest Neighbors?
KNN é um algoritmo que classifica novos dados com base em uma medida de similaridade entre seus “vizinhos” mais próximos, ou seja, aqueles que têm características semelhantes às suas. * Nesse método, utiliza-se a distância (usualmente a Euclidiana) entre uma nova observação e as demais observações de um training set para classificá-la de acordo com a observação mais próxima. * O “k” determina o número de vizinhos que serão utilizados para a classificação.
46
KNN é um método paramétrico ou não paramétrico?
Não paramétrico.
47
No KNN, o número de vizinhos k influencia no resultado da classificação?
Sim.
48
KNN pode ser usado como método de imputação de dados?
Sim.
49
A escolha da função para calcular as distâncias no método KNN pode influenciar significativamente nos resultados?
Sim.
50
O que é o Naive Bayes?
Família de algoritmos de aprendizado supervisionado baseados em probabilidade. Prevê uma tabela de probabilidades condicionais e depois calcula a saída com base nessa tabela. Teorema de Bayes: P(A|B) = (P(B|A).P(A))/P(B)
51
Quais são exemplos típicos de aplicação de um algoritmo Naive Bayes?
Classificação de spam no email e análise de sentimento.
52
Quais suposições ingênuas são feitas no método Naive Bayes?
* Todas as características do conjunto de dados não dependem um do outro. * Cada evento contribui igualmente para classificar o resultado.
53
Algoritmos Naive Bayes podem ser utilizados com uma quantidade reduzida de amostras?
Sim.
54
O que é a regressão logística?
A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias. Traduzindo: é aquele gráfico em S que vai tentar fazer classificação de valores categóricos, usando atributos contínuos ou binários.
55
A regressão logística é um modelo paramétrico ou não paramétrico?
Paramétrico.
56
Caracterize a Regressão Logística: 1- Binomial 2 - Ordinal 3 - Multinomial
* Regressão logística binominal No modelo de regressão logística binominal, os objetos são classificados em dois grupos ou categorias. * Regressão logística ordinal O modelo de regressão logística ordinal é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. * Regressão logística multinomial No modelo de regressão logística multinomial, os objetos são classificados em três ou mais categorias que não possuem ordem entre si.
57
A Regressão Logística precisa apenas de um pequeno número de suposições para realizar as predições. Certo ou errado?
Certo.
58
Qual método a regressão logística utiliza?
Método da máxima verossimilhança. (Em estatística, a estimativa por máxima verossimilhança é um método para estimar os parâmetros de um modelo).
59
Qual é o conceito por trás de Suport Vector Machine (SVM)?
O conceito por trás do SVM é a maximização da margem, ou seja, maximizar a distância da margem dos dados de treinamento, construindo um HIPERPLANO ÓTIMO, onde a distância entre uma classe e outra até o plano é a mesma.
60
Em SVM, o que são os vetores de suporte?
São os exemplos da base de treinamento mais próximos do hiperplano.
61
Como resolver problemas que não são linearmente separáveis com um classificador SVM?
* Projetando os dados em outra dimensão usando uma função de kernel (kernel trick).
62
Pra SVM, os dados necessitam ser padronizados?
Sim.
63
Cite alguns exemplos de uso de redes neurais artificiais.
* Avaliação de imagens captadas por satélite. * Classificação de padrões de escrita e fala. * Reconhecimento de faces com visão computacional. * Sistemas de controle e previsão financeira. * Identificação de anomalias e patologias na área médica com base em imagens. * Controle automatizado de equipamentos eletrônicos.
64
Como funciona um perceptron? (neurônio de uma rede neural artificial)
* Sinais são apresentados à entrada. * Cada sinal é multiplicado por um número, ou peso, que indica a sua influência na saída da unidade. * É feita a soma ponderada dos sinais que produz um nível de atividade. * Se este nível de atividade exceder um certo limite (threshold), a unidade produz uma determinada resposta de saída.
65
Por quais camadas são formadas Redes Multilayer perceptron (MLP)?
* Uma camada de entrada, formada pelos neurônios que estão conectados às entradas da rede; * Uma camada de saída, contendo os neurônios que apresentam as saídas da rede neural ao ambiente externo; * Uma ou mais camadas intermediárias (ou escondidas), compostas de neurônios cujas entradas e saídas estão conectadas somente a outros neurônios.
66
Quais são as fases de um algoritmo que trabalha com Backpropagation em RNA?
O algoritmo funciona em duas fases: * O passo para frente (forward pass), onde nossas entradas são passadas através da rede e as previsões de saída obtidas (essa etapa também é conhecida como fase de propagação). * O passo para trás (backward pass), onde calculamos o gradiente da função de perda na camada final (ou seja, camada de previsão) da rede e usamos esse gradiente para aplicar recursivamente a regra da cadeia (chain rule) para atualizar os pesos em nossa rede (etapa também conhecida como fase de atualização de pesos ou retro-propagação).
67
(RNA) o que o método do gradiente descendente faz?
ajusta os parâmetros das redes para melhor adaptar um conjunto de treinamento de pares entrada – saída.
68
(RNA) O que é a taxa de aprendizado ou learning rate?
Taxa de aprendizado (learning rate): indica a que ritmo os pesos são atualizados. Isso pode ser fixado ou alterado de modo adaptativo. O método atual mais popular é chamado Adam, o qual é um método que adapta a taxa de aprendizado.
69
(RNA) Diferencie um mínimo local de um mímimo absoluto em algoritmo de backpropagation. O que fazer ao ficar "preso" em um mínimo local?
Mínimo absoluto é o erro mínimo em um gradiente descentente, enquanto o mínimo local representa um vale desse gradiente, mas não é o mínimo absoluto. Se cair em um vale de mínimo local e não conseguir sair, mude (aumente) a taxa de aprendizado.
70
(RNA) Como funcionam as Redes Recorrentes ou retroalimentadas?
* Permitem a realimentação de uma camada com as informações geradas pela camada posterior. * Possibilidade de realimentação do neurônio com a sua própria saída (selffeedback). * Por terem essa característica, essas redes podem modelar problemas com característica temporal, como por exemplo a previsão do tempo dado o histórico climático em uma janela do passado.
71
(RNA) Como funciona a Markov Chain?
A ideia da Cadeia de Markov é construir um sistema matemático que visa calcular probabilidades de transição de um estado para o outro de acordo com um conjunto de regras probabilísticas. São chamados processos "sem memória", pois dependem somente da informação do presente. Cadeias de Markov são utilizadas, por exemplo, para representar a probabilidade de mutação de um aminoácido durante a sua evolução.
72
(RNA) Como funciona a Rede Neural Convolucional?
Uma rede neural convolucional (ou CNN, do inglês Convolutional Neural Network) é um tipo de rede neural projetada para processar dados estruturados em forma de grade, como imagens, vídeos, áudio ou dados temporais. Elas são amplamente utilizadas em tarefas de visão computacional. Uma CNN é composta por várias camadas, organizadas de forma hierárquica. As principais camadas de uma CNN incluem: 1 - Camada Convolucional (Convolutional Layer) 2 - Camada de Ativação (Activation Layer) 3 - Camada de Pooling (Pooling Layer) 4 - Camada Fully Connected (Camada Densa) *Camada de Normalização (opcional) 1. Camada Convolucional A camada convolucional é o componente principal de uma CNN. Ela aplica operações de convolução nos dados de entrada para extrair características, como bordas, texturas e formas. A convolução envolve o uso de filtros (ou kernels) que "varrem" a entrada em pequenas janelas para detectar padrões locais. Filtro (Kernel): Um pequeno conjunto de pesos (normalmente 3x3 ou 5x5), que é multiplicado pela entrada em janelas deslizantes para extrair características. Convolução: O filtro percorre a entrada e, em cada posição, multiplica seus pesos pelos valores da janela correspondente na imagem (ou outro dado de entrada), gerando uma soma ponderada. O resultado dessas operações é um mapa de características (ou feature map). Por exemplo, ao aplicar um filtro sobre uma imagem, as primeiras camadas convolucionais tendem a identificar características simples, como bordas horizontais e verticais. À medida que a rede se aprofunda, as camadas convolucionais sucessivas capturam padrões mais complexos, como formas e objetos inteiros. 2. Camada de Ativação A camada de ativação aplica uma função não-linear aos valores do mapa de características resultante da camada convolucional. As funções de ativação introduzem não-linearidade no modelo, permitindo que a rede aprenda representações mais complexas. A função de ativação mais comum nas CNNs é a ReLU (Rectified Linear Unit). Essa função zera todos os valores negativos e mantém os positivos, acelerando o aprendizado e ajudando a resolver o problema do desvanecimento do gradiente. 3. Camada de Pooling A camada de pooling é usada para reduzir a dimensionalidade do mapa de características, preservando as informações mais relevantes e descartando detalhes menores. Isso ajuda a reduzir a complexidade computacional e a evitar overfitting. O tipo mais comum de pooling é o Max Pooling, que seleciona o valor máximo em pequenas regiões (normalmente de tamanho 2x2) do mapa de características. Max Pooling: Selecione o valor máximo em uma região e descarte os outros valores. Isso preserva as características mais significativas e reduz a dimensionalidade. Average Pooling: Tira a média dos valores em uma região (menos comum). 4. Camada Fully Connected (Camada Densa) Depois de várias camadas convolucionais e de pooling, a CNN normalmente inclui uma ou mais camadas fully connected (totalmente conectadas), também conhecidas como camadas densas. Nessas camadas, cada neurônio está conectado a todos os neurônios da camada anterior. As camadas fully connected são usadas para combinar as características extraídas pelas camadas convolucionais e pooling e produzir a saída final, como a classificação de uma imagem. Essas camadas funcionam de maneira semelhante às camadas de uma rede neural tradicional. 5. Camada de Normalização (opcional) Em algumas CNNs, uma camada de normalização pode ser adicionada após a convolução, como a Batch Normalization, que normaliza os valores da saída da camada convolucional. Isso pode acelerar o treinamento e melhorar a convergência.
73
(RNA) Como funcionam Mapas Auto Organizáveis (SOM)?
São redes com aprendizado não-supervisionado e baseada em Aprendizagem Competitiva. Os Mapas Auto-Organizáveis (ou SOM) são um tipo de rede neural que serve para organizar e visualizar dados complexos de maneira mais simples, em um mapa bidimensional (como uma grade). Como Funciona um SOM Imagine que você tem muitos dados (como uma coleção de fotos ou números). Um SOM pega esses dados complexos e os organiza em um mapa, onde dados que são parecidos acabam ficando próximos uns dos outros. Aqui está uma explicação simplificada das etapas principais: Criação de uma Grade: O SOM começa com uma grade de neurônios (pontos) em duas dimensões. Cada neurônio da grade tem um "peso" que inicialmente é aleatório. Treinamento do SOM: Um dado (um ponto, uma foto, etc.) é apresentado ao SOM. O SOM verifica qual neurônio (ou ponto da grade) é mais parecido com esse dado. Esse neurônio é chamado de neurônio vencedor. O neurônio vencedor e seus vizinhos têm seus pesos ajustados para ficarem ainda mais parecidos com o dado apresentado. Esse processo se repete várias vezes, ajustando a grade gradualmente. Resultado Final: No final, a grade fica organizada de tal forma que dados parecidos no conjunto original estão próximos uns dos outros no mapa. Isso ajuda a visualizar padrões nos dados.
74
O que é uma função de ativação? onde ela é utilizada?
Função matemática que decide se um neurônio será ativado ou não. Usada em RNA. Incute não linearidade ao processo.
75
(Função de ativação) o que é a função limiar?
A saída do neurônio é igual a zero, quando seu valor de entrada for negativo e 1, quando seu valor de entrada for positivo.
76
(Função de ativação) o que é a função linear?
Aplica um fator de multiplicação ao valor que recebe. F(X) = aX.
77
(Função de ativação) o que é a função logística (ou sigmoide)?
A função logística ou sigmoide produz valores no intervalo [0, 1]. f(x) = 1/(1+e^-x)
78
(Função de ativação) o que é a função softmax?
* Função softmax: Softmax é uma generalização da função sigmoide para casos não-binários. * A função softmax recebe como entrada um vetor z de K números reais e o normaliza em uma distribuição de probabilidade que consiste em K probabilidades proporcionais aos exponenciais dos números de entrada. v
79
(Função de ativação) o que é a função maxout?
Função Maxout: A saída da função é o valor máximo entre as diversas entradas.
80
(Função de ativação) o que é a função gaussiana?
Função Gaussiana: Função radial típica usada majoritariamente em redes RBF (função de base radial).
81
(Função de ativação) o que é a função ReLu?
Se a entrada 𝑥 for maior que 0, a saída será 𝑥. Se a entrada 𝑥 for menor ou igual a 0, a saída será 0.
82
Em ML, o que é a Regressão?
Regressão refere-se a prever a saída de uma variável numérica (dependente e contínua) a partir de um conjunto de uma ou mais variáveis independentes. Uma equação de regressão é usada em estatística para descobrir qual relação existe , e se existe, entre conjuntos de dados.
83
Pra quê é utilizada a regressão linear?
Para descrever a relação entre uma variável dependente e uma ou mais variáveis independentes.
84
Qual a diferença entre regressão linear simples e regressão linear múltipla?
Simples: apenas uma variável independente. Múltipla: mais de uma variável independente.
85
O que é preciso saber antes de fazer uma Regressão Linear? (pressupostos)
A Regressão Linear tem uma série de pressupostos: * Linearidade: a relação entre as variáveis deve ser linear. * Homoscedasticidade (ou Homogeneidade de Variância): os termos de erro variância constante, independente dos valores das variáveis preditoras. Quebramos esse pressuposto quando as variáveis preditoras tem mais ou menos erro dependendo de seus valores. * Independência de erros: Os erros nas variáveis preditoras não devem estar correlacionados. * Não multicolinearidade: as variáveis preditoras não podem ser próximas de uma correlação perfeita. * Baixa exogeneidade: os valores das variáveis preditoras não estão contaminados com erros de medida. Erros de medida podem levar estimativas inconsistentes e superestimação dos coeficientes de regressão.
86
(Regressão Linear - f(x) = alfa + beta.X) Como interpretar beta?
O beta da regressão é o valor que determina o ângulo da linha da regressão. Dito de maneira mais direta, o valor do beta determina o quanto a variável preditora impacta na variável de resultado. Quanto maior o valor do módulo do beta (ignorando o sinal), mais influente ele é nos valores da variável de resultado. Outra maneira de interpretar o beta é entendo que o aumento de uma unidade no valor da variável X1, gera o aumento do valor do beta1 na variável de resultado.
87
(Regressão Linear - f(x) = alfa + beta.X) Quando usar o beta padronizado?
O beta da regressão sempre está na mesma unidade de medida da variável original (ex.: os escores de felicidade que vão de 1 a 5). Uma consequência é que pode ser difícil de identificar de maneira fácil o quão importante é aquela variável. Para resolver este problema, podemos usar o beta padronizado. Ele é uma versão do beta que indica o quão forte é a associação entre a variável preditora e a de resultado. Quando o beta padronizado é 0, a relação entre as variáveis é fraca. Quando o beta é 1 ou -1, há uma relação forte entre as variáveis.
88
Quando a regressão linear é usada adequadamente?
É utilizada adequadamente quando o dataset apresenta algum tipo de tendência de crescimento/descrescimento constante.
89
O que se usa para quantificar a relação entre duas variáveis quantitativas?
Para quantificar a relação entre duas variáveis quantitativas utiliza-se o coeficiente de correlação linear de Pearson: 0.9 < |r| <= 1,0 ótima 0.8 < |r| <= 0.9 boa 0.7 < |r| <= 0.8 razoável 0.6 < |r| <= medíocre 0,5 < |r| <= 0.6 péssima |r| <= 0,5 imprópria
90
(Regressão linear) O que é a análise de resíduos?
A análise de resíduos verifica se os erros (diferenças entre os valores reais e previstos) seguem uma distribuição aleatória. Um bom modelo deve ter resíduos que: * São distribuídos aleatoriamente (sem padrões); * Têm média zero; * Não exibem variância crescente (homocedasticidade).
91
(Regressão linear) O que é o teste de sinificância?
Avaliar a significância estatística dos coeficientes das variáveis através do teste t (p-valores). Se os p-valores forem baixos (tipicamente menores que 0,05), isso indica que a variável é relevante para o modelo.v
92
O que busca a clusterização em relação à distância dos clusters?
Minimizar a distância intracluster e maximizar a distância intercluster.
93
Quais são os algoritmos não supervisionados?
Algoritmos de agrupamento (clusterização), SOM, regras de associação, redução da dimensionalidade
94
É preciso normalizar variáveis em algoritmos de agrupamento?
Sim.
95
Quais são os principais tipos de clustering?
1. Clusterização Baseada em Centróides Clusterização baseada em centróides (Centroid-Based Clustering), também conhecida como partitional clustering, agrupa os dados em clusters onde cada cluster é representado pelo centróide, que é o ponto médio do cluster. ➡️ Algoritmo Principal: K-means O algoritmo começa com a seleção de K centróides iniciais. Cada ponto de dados é então atribuído ao centróide mais próximo, formando K clusters. Os centróides são recalculados como a média dos pontos em cada cluster e o processo de atribuição e recalculação continua até que os centróides não mudem mais significativamente. ✅ Entre as principais aplicações estão: segmentação de mercado, compressão de imagens, análise de comportamento do cliente. Vantagens: Simples de implementar. Escalável para grandes conjuntos de dados. Desvantagens: Sensível a outliers. Requer que o número de clusters (K ) seja definido previamente. 2. Clusterização Baseada em Densidade Clusterização baseada em densidade (Density-Based Clustering) forma clusters com base em regiões de alta densidade de pontos de dados, separadas por regiões de baixa densidade. ➡️ Algoritmo Principal DBSCAN: O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de clustering que identifica grupos de dados com base na densidade de pontos. Ele utiliza dois parâmetros: ε (epsilon), que define o raio de vizinhança de um ponto, e MinPts, o número mínimo de pontos necessários para formar um cluster. ✅ Entre as principais aplicações estão: detecção de anomalias, análise de redes sociais, agrupamento de pontos geoespaciais. Vantagens: Detecta clusters de formas arbitrárias. Robusto a outliers. Desvantagens: Requer a definição de parâmetros como o raio de busca (eps) e o número mínimo de pontos (minPts). Pode ter desempenho ruim em conjuntos de dados com densidades variáveis. 3. Clusterização Baseada em Distribuições Clusterização baseada em distribuições (Distribution-Based Clustering) assume que os dados são gerados por uma mistura de distribuições probabilísticas, como a distribuição normal. Cada cluster é representado por uma distribuição. ➡️ Algoritmo Principal: Gaussian Mixture Models (GMM) GMM assume que os dados são uma combinação de várias distribuições gaussianas. Ele utiliza o algoritmo de Expectation-Maximization (EM) para estimar os parâmetros das distribuições (médias, covariâncias) e as probabilidades de pertencimento dos pontos aos clusters. ✅ Entre as principais aplicações estão: análise de genomas, processamento de sinais, reconhecimento de padrões. Vantagens: Pode modelar clusters com formas elípticas. Fornece uma medida de incerteza das atribuições dos clusters. Desvantagens: Requer a especificação do número de clusters. Pode ser sensível a valores iniciais e convergir para mínimos locais. 4. Clusterização Hierárquica Clusterização hierárquica é uma técnica de agrupamento de dados que organiza os pontos em uma hierarquia de clusters, formando uma estrutura em forma de árvore chamada dendrograma. Existem dois métodos principais: o aglomerativo (bottom-up) e o divisivo (top-down). No método aglomerativo, cada ponto começa como um cluster individual e, em cada etapa, os clusters mais próximos são mesclados até que todos os pontos estejam em um único cluster. No método divisivo, o processo começa com todos os pontos em um único cluster, que é iterativamente dividido em clusters menores. Essa abordagem permite explorar diferentes níveis de granularidade dos agrupamentos, oferecendo uma visualização detalhada das relações entre os dados. ➡️ Algoritmo Principal: Agglomerative Hierarchical Clustering (AHC) AHC começa com cada ponto de dados como um cluster individual e, em cada etapa, os clusters mais próximos são combinados até que todos os pontos estejam em um único cluster. Existem várias formas de definir a proximidade entre clusters: Single Linkage: menor distância entre pontos dos clusters. Complete Linkage: maior distância entre pontos dos clusters. Average Linkage: média das distâncias entre todos os pontos dos clusters. Ward’s Method: minimiza o aumento da soma dos quadrados das distâncias dentro dos clusters. ✅ Entre as principais aplicações estão: análise de similaridade de documentos, bioinformática, reconhecimento de padrões. Vantagens: Não requer a especificação prévia do número de clusters. Permite visualizar a hierarquia dos clusters. Desvantagens: É computacionalmente caro para grandes conjuntos de dados. A escolha do método de ligação pode afetar significativamente os resultados.
96
O que são redes neurais recorrentes e que tipo de processamento de dados elas fazem?
Redes com loops, que permitem persistência de informação. Processamento de dados sequenciais (áudio, séries temporais, texto).
97
O que é a Long Short-Term Memory (LSTM)?
* Rede neural recorrente usada em processamento de linguagem natural. * Possuem quatro células (RNA) e três portões: * Forget Gate: remove as informações que não são mais necessárias. * Input Gate: Adiciona informações úteis. * Output Gate: extrai informações úteis.
98
O que são Redes de Hopfield?
* Utilizadas na reconstrução de padrões. * Rede base para outras arquiteturas. * Uma única camada com todos os neurônios conectados entre eles. * Como a saída dos neurônios está ligada à entrada de todos os outros, elas são aqui chamadas de estados. * Esses estados seguem a lógica booleana. A saída dos estados é dada por estados verdadeiros (true = 1) ou falsos (false = -1).
99
O que são Máquinas de Boltzmann?
* Rede neural recorrente estocástica baseada em grafos. * Aplicações: * Redução de dimensionalidade. * Pré-treinamento de redes neurais. * Detecção de fraudes. * Sistemas de recomendação colaborativo.
100
O que é uma Deep Belief Network?
* Uma pilha de Máquinas de Boltzmann Restritas (RBM – Restricted Boltzmann Machines), em que cada camada RBM se comunica com as camadas anterior e posterior. * Termina com uma camada Softmax gerando um classificador.
101
O que é o Deep Auto-Encoders?
Composto por duas redes simétricas Deep Belief. * As camadas são Máquinas de Boltzmann Restritas. * Aprendizado não supervisionado. * Usa y(i) = x(i). * Utilidade: remoção de ruido e redução de dimensionalidade. * encode -> compressed data -> decode
102
O que é uma Generative Adversarial Network?
* Arquiteturas de redes neurais profundas compostas por duas redes, colocando uma contra a outra. * Em vez de prever um rótulo com determinados recursos, elas geram conteúdo novo. * Uma rede neural, chamada de gerador, gera novas instâncias de dados, enquanto a outra, o discriminador, as avalia por autenticidade.
103
O que são Deep Neural Network Capsules?
* As redes são formadas por capsulas, que são pequenas redes neurais dentro de uma estrutura maior. * Treinada por roteamento dinâmico.
104
Recall é o mesmo que sensibilidade?
Sim.
105
O que é a regularização de dados?
A regularização de dados é uma técnica utilizada em machine learning e estatística para prevenir overfitting e melhorar a generalização de um modelo. Ela adiciona uma penalização aos parâmetros do modelo, de modo que ele não se ajuste excessivamente aos dados de treinamento. Principais regularizações L1(Lasso Regression), L2 (Ridge Regression) e Elastic Net (combinação de L1 e L2). obs: No caso de L1 (Lasso), ela pode reduzir alguns coeficientes a zero, promovendo um modelo mais interpretável, com menos variáveis.
106
Qual a diferença entre os comandos DELETE FROM, TRUNCATE TABLE e DROP TABLE?
Delete e truncate deletam dados mantendo a estrutura da tabela. Delete permite uso do WHERE, enquanto truncate não permite. Drop exclui a tabela toda, inclusive sua estrutura.
107
Caracterize o modelo Bag of words.
O modelo BoW consiste em contar a frequência de cada palavra no texto, criando assim um vetor de frequências que representa o documento em questão. Esse modelo é amplamente utilizado em tarefas como classificação de texto e análise de sentimentos. O modelo BoW não considera a ordem das palavras no texto, tratando-o como um conjunto não ordenado de palavras. O modelo BoW não é capaz de lidar com a ambiguidade das palavras, pois não leva em conta o contexto em que as palavras aparecem.
108
Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característica de palavras e frases poderem ter mais de um significado. Certo ou errado?
Certo.
109
PLN consegue entender o significado subjetivo e implícito em um texto?
Sim.
110
PNL - O que é o processo de tokenização?
O processo de tokenização envolve a divisão de um texto em palavras individuais ou unidades significativas, como frases ou símbolos. Cada uma dessas unidades é tratada como um token separado para análise posterior.
111
PNL - Conceitue rastreamento de dados (crawling) e raspagem de dados (scraping).
* Rastreamento de dados (crawling): * Utilizada por mecanismos de buscas e extratores de dados. * Fases: * Crawler obtém lista de URL a partir de uma URL base. * Extração dos dados existentes nessas URL. (extrai todos os dados) * Raspagem de dados (scraping): * Extração automática eficiente dos conjuntos de dados estruturados (principalmente HTML). * O Web Scraper acessa páginas web, encontra elementos de dados especificados na página e os extrai. (seleciona apenas as informações de interesse) * O Web Scraper imita a operação de um usuário em busca de informações em um navegador, automatizando e acelerando este acesso.
112
PLN - O que é o processo de normalização?
Tokenização; transformação de letras maiúsculas para minúsculas; remoção de caracteres especiais; remoção de tags HTML/Javascript/CSS.
113
PLN - O que é a remoção de stop words?
* Consiste em remover palavras muito frequentes, tais como “a”, “de”, “o”, “da”, “que”, “e” e “do”. * São removidas palavras não relevantes para o problema de PLN.
114
PLN - O que é a Etiquetagem (part-of-speech tagger)?
* Colocação de etiqueta em cada palavra para identificar a categoria gramatical ou elementos morfológicos ou semânticos
115
PLN - O que é a Stemização ou Lematização?
* Reduzir uma palavra ao seu radical.
116
PLN - Quais são as etapas de pré-processamento de dados?
* Normalização * Remoção de stop words * Análise estatítica (para selecionar palavras expressivas) * Correção ortográfica * Etiquetagem (part-of-speech tagger) * Remoção de numerais (números e palavras/símbolos como “R$”) * Stemização ou Lematização
117
PLN - Defina as seguintes abordagens de processamento: - Simbólica - Estatística - Conexionista - Híbrida
* Simbólica: * Se baseia nas regras linguísticas sem ambiguidades e bem estruturadas. * Estatística: * Utiliza modelos matemáticos e estatísticos. * Conexionista: * Utiliza o aprendizado e teorias de representação do conhecimento. * Híbrida: * Combina as demais abordagens.
118
Como é o Processamento de Linguagem Natural utilizando ML? (etapas)
Pré-processamento -> vetorização (bag of words; TF-IDF...) -> algoritmos de ML (Naive Bayes; RNN; LSTM...)
119
PLN - Como funcionam as seguintes Representações vetoriais de textos (word embedding): - Binário - Bag of words - TF-IDF
- Binário: * Cada palavra é atribuído um valor 1 ou 0 de acordo com sua presença ou ausência na sentença. - Bag Of Words: * O texto é simplificado para um vetor de palavras distintas e a respectiva contagem de ocorrência de cada uma delas. - TF-IDF: * Term Frequency mede o quão frequente um termo ocorre em um documento. * Inverse Document Frequency mede a raridade do termo para o documento.
120
Cite exemplos de assistentes virtuais mais conhecidas.
Alexa (Amazon Echo), Siri (iOS), Cortana (Microsoft a partir do Windows 10), Google Assitant (Android) ou Google Now
121
PLN - O que é a modelagem de tópicos e qual é o algoritmo mais usado?
Técnica de mineração de dados, não supervisionado, que extrai tópicos latentes de uma base de documentos (corpus). Os tópicos não são pré-definidos, mas sim descobertos através de uma análise de grupos de palavras que aparecem frequentemente juntas. O algoritmo mais famoso é o LDA - Latent Dirichlet Allocation.
122
PLN - Quais são as etapas de uma modelagem de tópicos?
1 - Representação do texto -> uso de matriz termo/documento 2 - Identificação de tópicos ->. técnicas de redução de dimensionalidade ou modelos probabilísticos 3 - Atribuição de tópicos aos documentos
123
PLN - Qual a vantagem do algoritmo de modelagem de tópicos LDA (Latent Dirichlet Allocation) em relação aos demais?
Este algoritmo pode ser aplicado a documentos inéditos.
124
PLN - Quais 3 hiper parâmetros devem ser definidos no algoritmo LDA (Latent Dirichlet Allocation)?
- número de tópicos - alfa: controla a distribuição de tópicos por documento - beta: controla a distribuição de palavras por tópicos
125
PLN - O que o algoritmo LDA (Latent Dirichlet Allocation) trás de resultado?
Distribuição de probabilidade para cada documento, que indica a pertinência do mesmo a algum dos tópicos e onde cada tópico é formado por uma distribuição de probabilidade das palavras presentes no documento.
126
O que é o aprendizado por reforço?
* Método de aprendizado de máquina onde um agente aprende a tomar decisões. * Aprendizado por meio de tentativa e erro, interagindo com um ambiente. * Recebe recompensas por ações corretas, visando maximizar a recompensa total.
127
Quais são as etapas do aprendizado por reforço?
* Observação do estado do ambiente. * Tomada de decisão baseada na política. * Execução da ação e observação da recompensa e do novo estado. * Atualização da política com base na recompensa recebida. obs.: a inicialização é aletória.
128
Aprendizado por reforço - defina os seguintes conceitos-chave: * Agente * Ambiente * Estado * Ações * Recompensa * Política * Função de valor * Episódio
* Agente: A entidade que toma decisões, como um robô ou software. * Ambiente: O mundo com o qual o agente interage e sobre o qual ele não tem controle total. * Estado: Uma representação da situação atual do agente dentro do ambiente. * Ações: As possíveis intervenções que o agente pode fazer no ambiente. * Recompensa: Um sinal do ambiente em resposta às ações do agente, indicando o sucesso dessas ações. * Política (Policy): Uma estratégia que define a escolha de ação do agente em determinados estados. * Função de Valor: Uma previsão da recompensa futura esperada, utilizada para avaliar quão bom é um estado ou uma ação. * Episódio: Uma sequência de ações, estados e recompensas que termina em um estado final.
129
Dê exemplos de aplicação do aprendizado por reforço.
* Jogos: Melhorar estratégias em jogos complexos, como Go e xadrez. * Robótica: Ensinar robôs a realizar tarefas como caminhar e pegar objetos. * Sistemas de Recomendação: Personalizar conteúdo para usuários em plataformas de streaming. * Otimização de Processos: Melhorar a logística e a cadeia de suprimentos em indústrias. * Automação de Veículos: Desenvolver sistemas de condução autônoma.
130
Aprendizado por reforço: explique o dilema exploration x exploitation
* O agente enfrenta o dilema de explorar novas ações (como tentar uma célula desconhecida - exploration) versus explorar ações conhecidas (como escolher uma célula que já sabe ser segura - exploitation). * Ele deve encontrar o equilíbrio certo para maximizar a recompensa cumulativa.
131
Qual o algoritmo mais famoso de aprendizagem por reforço e como ele funciona?
Deep Q-Network (DQN): * Visa aprender a política ótima, ensinando ao agente qual ação tomar sob determinadas condições para maximizar a soma de recompensas futuras. * Isso é feito através de uma função de valor Q, que estima a recompensa total esperada de tomar uma ação em um dado estado. No DQN, redes neurais profundas são usadas para aproximar a função de valor Q. * Isso permite que o agente lide com estados de entrada de alta dimensão (como imagens de pixels dos jogos), algo que métodos tradicionais de Qlearning não conseguem fazer de forma eficiente devido à maldição da dimensionalidade.
132
O que é a IA generativa?
IA que gera textos, imagens, vídeos e outros formatos de arquivo inéditos, a partir de uma grande base de treinamento.
133
Quais são os problemas relacionados a IA generativa?
Problemas: * Viés algorítmico. * Privacidade. * Transparência. * Alucinações.
134
Dê exemplos de IAs generativas
ChatGPT (da OpenAI), Google Bard ou Gemini, Bing Chat, Copilot (Microsoft), MidJourney, Wolfran (cálculos e gráficos)
135
Quais são os problemas éticos relacionados a IA generativa?
Deep Fake e manipulação de mídia Violação de privacidade Viés e discriminação (vinda da base de dados) Direitos autorais e propriedade intelectual Perda de emprego Manipulação de eleições Uso de identidade falsa Manipulação emocional (para incentivar compras por exemplo) Desigualdade digital (nem todos tem o mesmo acesso) Ataques cibernéticos (vazamento de dados e conversas)
136
Como funcionam as Redes Adversariais Generativas?
Uma rede neural, chamada de gerador, gera novas instâncias de dados, enquanto a outra, o discriminador, avalia sua autenticidade; ou seja, o discriminador decide se cada instância de dados que ele analisa pertence ou não ao conjunto de dados de treinamento real. O gerador vai então se aprimorando, tentando enganar o discriminador para se tornar o mais próximo possível do real.
137
Como funcionam os Autoencoders generativos?
Os autoencoders funcionam codificando dados não rotulados em uma representação compactada e, em seguida, decodificando os dados de volta à sua forma original. Os autoencoders simples foram usados para diversas finalidades, incluindo a reconstrução de imagens corrompidas ou borradas. Os autoencoders variacionais acrescentaram a capacidade crítica não só de reconstruir dados, mas também de gerar variações nos dados originais.
138
O que são Generative Pre-training Transformer?
Transformadores pré-treinados generativos, comumente conhecidos como GPT, são uma família de modelos de rede neural que usa a arquitetura de transformadores e são um avanço fundamental na inteligência artificial (IA) que impulsiona aplicações de IA generativa, como o ChatGPT. Os modelos GPT oferecem às aplicações a capacidade de criar texto e conteúdo semelhantes aos humanos (imagens, músicas e muito mais) e responder perguntas de forma conversacional. - Palavras são transformadas em números e posicionadas em um espaço tridimensional, onde palavras relacionadas a um mesmo universo ficam mais próximas umas das outras.
139
Que tipo de treinamento o ChatGPT usa?
Treinamento superviosionado seguido de treinamento por reforço.
140
Quais são as principais limitações do ChatGPT?
* Limitações: * Conhecimento Atualizado. * Perda de Compreensão Contextual em Textos Longos. * Vieses. * Precisão da Informação (Alucinações). * Interpretação Literal.
141
Engenharia de prompt - quais as melhores práticas ao se pedir repostas de uma IA generativa?
* Especificidade * Contexto * Estilo * Palavras chaves * Estruture a resposta desejada * Adequação ao domínio * Mitigação de viés * Analogias * Use exemplos (zero-shot, one-shot, few-shot) * Pedir o Passo-a-passo
142
O que é MLOps e quais seus objetivos?
* Machine Learning Operations * Disciplina emergente no campo da ciência de dados e engenharia de software * Combina ML, DevOps e Engenharia de Dados * Visa unificar o desenvolvimento de modelos de machine learning (ML) e as operações de TI. * Objetivo: * Criar um fluxo contínuo para projetar, desenvolver, testar, implantar e manter sistemas de ML em produção de forma escalável e sustentável * Garantir que os modelos de ML sejam usados de forma ética e responsável, e que os dados sejam protegido
143
Quais são os principais componentes do MLOps?
-> Integração e Entrega Contínuas (CI/CD): * Automação de testes para modelos de ML e sua integração em ambientes de produção. * Validação de modelos com novos dados * Atualizações automáticas de modelos * Entrega contínua de melhorias nos modelos sem prejudicar os sistemas em operação. -> Monitoramento: * Monitoramento contínuo para verificar a eficácia e detectar qualquer degradação no desempenho dos modelos(drift de modelo). * Atualizações periódicas do modelo para ajustá-lo a novos padrões de dados ou para melhorar sua precisão e eficiência. -> Gerenciamento de Ciclo de Vida de Modelos: * Gerenciamento do ciclo de vida completo dos modelos de ML, desde a concepção até a retirada * Versionamento de modelos * Gestão de artefatos (como dados, códigos e parâmetros) * Registro de experimentos para garantir reproducibilidade -> Orquestração de Workflow: * Automação de workflows de machine learning, incluindo préprocessamento de dados, treinamento de modelos, validação e deployment * Padronização e escalabilidade dos processos de ML
144
MLOps - quais são as principais ferramentas de: * Plataformas de Dados e Modelagem * Ferramentas de CI/CD * Monitoramento de Modelos * Orquestração
* Plataformas de Dados e Modelagem: * TensorFlow Extended (TFX), MLflow, Kubeflow. * Ferramentas de CI/CD: * Jenkins, GitLab, CircleCI. * Monitoramento de Modelos: * Prometheus, Grafana, ELK Stack. * Orquestração: * Apache Airflow, Prefect, Dagster.
145
O que é o TensorFlow?
O TensorFlow é uma biblioteca de código aberto (framework) para computação numérica, machine learning em grande escala, deep learning e outras cargas de trabalho de análise estatística e preditiva. Essas tecnologias permitem que desenvolvedores implementem modelos de machine learning de maneira mais rápida e fácil. Isso ajuda no processo de aquisição de dados, fornecendo previsões em escala e refinando resultados de aprendizagem futuros.
146
O que é o Prometheus?
O Prometheus é um sistema de monitoramento para serviços e aplicações. Ele coleta as métricas de seus alvos em determinados intervalos, avalia expressões de regras, exibe os resultados e também pode acionar alertas se alguma condição for observada como verdadeira.
147
O que é o Apache Airflow?
O Apache Airflow é uma ferramenta de orquestração de fluxo de trabalho de código aberto (open-source) criada pela Airbnb que tem sido amplamente adotado na engenharia de dados para tarefas de gestão de fluxos ETL (Extração, Transformação e Carga de Dados). A principal característica do Apache Airflow é a capacidade de definir, programar e monitorar fluxos de trabalho complexos, chamados de DAGs (Directed Acyclic Graphs). O Airflow foi construído para lidar com dependências entre tarefas e para gerenciar falhas, fornecendo mecanismos de retentativa e notificações de alerta. As tarefas e suas dependências são definidas em Python, tornando-as mais flexíveis e acessíveis para Engenheiros e Arquitetos de Dados. Além disso, o Airflow oferece uma interface de usuário baseada na web para visualizar e gerenciar fluxos de trabalho, o que facilita o monitoramento e a depuração de problemas.
148
Diferencie os níveis 0, 1 e 2 de MLOps.
Nível 0 -> fluxo de trabalho manuais; desconexão entre ML e operações; iterações não frequentes; falta de monintoramento; sem CI/CD. Nível 1 -> automatização do pipeline de ML; treino contínuo do modelo; componentes de código modularizados e reutilizáveis; aramazenamento centralizado; gerenciamento de metadados; implementação do mesmo pipeline em ambientes de desenvolvimento, préprodução e produção Nível 2 -> Automação do pipeline de CI/CD Adequado para empresas orientadas por tecnologia que atualizam seus modelos em minutos, os retreinam a cada hora ou diariamente e os reimplantam simultaneamente em milhares de servidores. Requer: * Um orquestrador de pipeline de ML * Um registro de modelos para rastrear vários modelos
149
Quais são os principais problemas éticos relacionados ao uso de IA?
* Viéis algoritmico: o modelo aprende preconceitos com a base de dados * Privacidade: uso indevido de dados pessoais * Explicabilidade: não sabemos o processo que levou a tal resultado (excessão: árvores de decisão) * Responsabilidade: necessidade de supervisão humana - não se pode responsabilizar uma máquina * Impacto no emprego: empregados sendo substituídos por IA * Ética na pesquisa: IA pode criar bases de dados fake e utilizá-la para criação de relatórios e pesquisas
150
Quais são as possíveis soluções de uma IA responsável?
* Transparência sobre: - dados de entrada - processos de desenvolvimento (quais modelos foram utilizados) - governança: explicar as medidas de supervisão e controle estabelecidas, bem como o responsável pelos resultados - conformidade: informação sobre como a IA atende a regulamentações nacionais e internacionais * Explicabilidade: - Racionalização de Decisões: Fornecer justificativas legíveis e compreensíveis para as decisões tomadas por um sistema de IA - Modelos Interpretáveis: Utilizar ou desenvolver modelos que naturalmente permitem explicação, como árvores de decisão, em contraste com modelos "caixa-preta", como redes neurais profundas - Ferramentas de Explicação: Desenvolver interfaces e ferramentas que ajudam a explicar as decisões de IA para os usuários * Promoção da ética: * Regulamentação: - Diretrizes - Princípios éticos * Auditorias * Avaliação de impacto * Mitigação de riscos * Desenvolvimento inclusivo * Diversidade na construção das bases de treinamento * Educação * Desenvolvedores, usuários e legisladores * Diversificação dos dados de treinamento * Análise de equidade
151
O que são regras de associação?
Se A, então B. Ex.: se comprou pão, compra leite. Algoritmo não superviosionado que verifica valores co-ocorrentes. A -> B A: antecessor B: conseguente A e B disjuntos
152
Quais são as métricas de avaliação das regras de associação?
* Suporte: qual a porcentagem de vezes a regra aparece na base de dados. num de vezes que a regra aparece/total de exemplos * Confiança: para as vezes em que A aparece, quantas vezes B aparece. num de vezes que A e B aparecem/num de vezes que A aparece * Lift: confiança(A->B)/suporte(B) lift > 1: quanto mais vezes ocorre A, mais vezes ocorre B lift = 1: não há associação entre A e B lift < 1: quanto mais vezes ocorre A, menos vezes ocorre B
153
Quais os principais algoritmos de regras de associação?
Apriori, Eclat, Partition, FP-Growth
154
Como funciona o algoritmo Apriori? (regras de associação)
* Passo 1: Geração de Itemsets frequentes: * Pesquisa em largura * Conta a frequência de cada item individualmente * Itens que atendem ao limite de suporte são considerados frequentes, formando a lista L * Forma pares de itens da lista L com suporte atendendo ao limite * Processo se repete para itemsets maiores * Passo 2: Geração das regras de associação: * Para cada itemset selecionado, todas as regras são geradas. * Calcula-se a confiança das regras. * Seleciona-se as regras de associação com confiança acima do limite.
155
A utilização de valores aleatórios nos métodos modernos de inicialização dos pesos das camadas das redes neurais artificiais (RNA) permite evitar o problema do desaparecimento do gradiente (vanishing gradient problem). Certo ou errado?
Certo.
156
Quais são as formas de tratar dados faltantes?
* Recuperação do dado original. * Média, mediana ou moda. * Utilização de dado aleatório. * Utilização de valor padrão (constante). * Utilização do último ou do próximo valor válido. * Interpolação linear (séries temporais). * Hot Deck (Preenche valores faltantes com dados observados de registros semelhantes no mesmo conjunto de dados) / Cold Deck (Utiliza fontes externas ou dados históricos para preencher os valores faltantes). * Regressão linear. * Imputação do vizinho K-nearest. * Métodos avançados de ML. * Criação de um estado “ausente” em campos discretos. * Exclusão do atributo. * Método do caso completo ou exclusão das amostras/linhas com dados faltantes (listwise deletion) -> deleta toda a linha em que há algum dado faltante. * Método dos casos disponíveis ou exclusão das amostras/linhas com dados faltantes nas variáveis de interesse (pairwise deletion) -> só deleta a linha se o dado faltante for de um atributo de interesse.
157
Cite algumas técnicas para identificar outliers.
1. Gráfico Boxplot: valores abaixo do limite inferior ou acima do limite superior são outliers. 2. Método de distância interquartil (IQR): Os outliers são definidos como valores que estão abaixo do limite inferior (Q1–1,5 * IQR) ou acima do limite superior (Q3 + 1,5 * IQR). IQR = Q3 - Q1. 3. Método do Desvio Padrão: são outliers pontos que estão a mais de 2,5 dp da média 4. Teste de Z-Score: são outliers pontos em que Z >= 3 (3 ou mais desvios padrões da média) 5. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): É um método de clustering em que os pontos são agrupados com base em sua densidade, e pontos que ficam isolados em regiões com baixa densidade são rotulados como ruído ou outliers. O método é útil para conjuntos de dados com distribuições não lineares e não gaussianas.
158
Cite algumas técnicas de tratamento de outliers.
1. Identificar e remover outliers (Trimming): Esta é uma das maneiras mais simples de tratar outliers. Identifique os valores que se desviam significativamente do resto dos dados e remova-os do conjunto de dados. No entanto, isso pode levar à perda de informações valiosas e não é uma abordagem muito recomendada em pequenos datasets. 2. Transformar os dados A transformação dos dados pode ser útil para tratar outliers, especialmente se os dados seguirem uma distribuição assimétrica. Algumas técnicas comuns de transformação incluem logaritmo, raiz quadrada, exponencial, entre outras. 3. Agrupar os dados Se os outliers representam erros de medição ou erros de entrada de dados, pode ser útil agrupar os dados em intervalos mais amplos. Isso pode ajudar a reduzir a influência dos outliers nos resultados finais. 4. Percentile based flooring and capping Essa técnica utiliza os percentis para definir limites inferiores (flooring) e superiores (capping) para os dados.
159
Qual é a diferença entre as técnicas de avaliação hold out e k-fold?
* Hold-out: Hold-out é uma técnica de validação simples e direta usada para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira: Divisão dos Dados: O conjunto de dados é dividido em duas partes: um conjunto de treinamento e um conjunto de teste. Normalmente, uma proporção comum é 80% para treinamento e 20% para teste, mas essa divisão pode variar dependendo do problema e da quantidade de dados disponíveis. Treinamento: O modelo é treinado usando apenas o conjunto de treinamento. Avaliação: O desempenho do modelo é avaliado usando o conjunto de teste. As métricas de avaliação (como acurácia, precisão, recall, F1-score, etc.) são calculadas para entender como o modelo generaliza para dados não vistos. Vantagens: Simplicidade e facilidade de implementação. Rápido e computacionalmente eficiente, pois o modelo é treinado apenas uma vez. Desvantagens: Pode levar a uma estimativa instável do desempenho do modelo, especialmente se o conjunto de dados for pequeno ou não representativo. A avaliação depende fortemente da divisão dos dados; diferentes divisões podem resultar em diferentes métricas de desempenho. * K-fold Cross-Validation K-fold cross-validation é uma técnica mais robusta e confiável para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira: Divisão dos Dados: O conjunto de dados é dividido em k partes (ou folds) de tamanhos aproximadamente iguais. Treinamento e Avaliação: O processo é repetido k vezes. Em cada repetição, um fold diferente é usado como conjunto de teste, enquanto os k−1 folds restantes são usados como conjunto de treinamento. Por exemplo, com k=10k = 10 k=10, o conjunto de dados é dividido em 10 partes. Em cada uma das 10 iterações, 9 partes são usadas para treinamento e 1 parte é usada para teste. Agregação dos Resultados: As métricas de desempenho (como acurácia, precisão, recall, F1-score, etc.) são calculadas para cada iteração e, em seguida, a média dessas métricas é usada para obter uma estimativa mais estável e confiável do desempenho do modelo. Vantagens: Fornece uma avaliação mais robusta e confiável do desempenho do modelo, pois todos os dados são usados tanto para treinamento quanto para teste em diferentes iterações. Reduz a variabilidade nas estimativas de desempenho que pode ocorrer com uma única divisão dos dados. Desvantagens: Mais computacionalmente intensivo, pois o modelo precisa ser treinado k vezes. Pode ser complexo de implementar em alguns casos. -> Comparação: Hold-out é rápido e simples, ideal para conjuntos de dados grandes onde uma única divisão é suficiente para obter uma estimativa razoável do desempenho do modelo. K-fold cross-validation é mais robusto e confiável, especialmente útil para conjuntos de dados menores ou quando se deseja uma avaliação mais precisa e menos dependente de uma única divisão dos dados.
160
O que é o método de avaliação leave-one-out?
Como o próprio nome diz: deixar um de fora. O método consiste em realizar o treinamento com n-1 dados e testar com o restante, esse processo é repetido n vezes, cada vez deixando um dado diferente de fora para teste. A estimativa de erro é a média do erro de cada rodada Este método é exaustivo, ou seja, testa todas as possibilidades. Estimativa menos enviesada, ou seja, estará bem próxima da realidade Alta variância entre os n testes (erro assume apenas 0 e 1) Alto custo computacional (n treinamentos e testes de classificadores)
161
Qual método apresenta menor custo e menor variância? K-fold cross validation ou leave-one-out
K-fold cross validation
162
O que é a técnica de validação bootstrapping?
Bootstrapping is a resampling technique that helps in estimating the uncertainty of a statistical model. It includes sampling the original dataset with replacement and generating multiple new datasets of the same size as the original. Each of these new datasets is then used to calculate the desired statistic, such as the mean or standard deviation. This process is repeated multiple times, and the resulting values are used to construct a probability distribution for the desired statistic. This technique is often used in machine learning to estimate the accuracy of a model, validate its performance, and identify areas that need improvement. Características: Variância menor; Computacionalmente caro dependendo do número de experimentos e do tamanho das amostras de treino e teste Útil quando a amostra original é pequena Maior controle sobre o viés