Ciência de dados Flashcards

Question

Explique o underfitting.

Answer 1

A hipótese induzida apresenta um desempenho ruim tanto no conjunto de treinamento quanto no de teste. Pode acontecer por ter poucos exemplos representativos ou tamanho pré-definido do classificador muito pequeno.

Answer 2

Percentual de acertos. acurácia = (VP + VN)/(VP + VN + FP + FN)

Answer 3

1 - acurácia.

Answer 4

Indica das classificações positivas do modelo, qual porcentagem foi acertada. Precisão = VP/(VP + FP)

Answer 5

De todos os postivos existentes nos exemplos, quantos o modelo conseguiu classificar corretamente. revocação = VP/(VP+FN)

Answer 6

Avalia a capacidade de detectar resultados negativos. especificidade = VN/(VN + FP)

Answer 7

Média harmônica entre precisão e sensibilidade. f1 = 2.((precisao.sensibilidade)/precisao+sensibilidade))

Answer 8

Falso positivo.

Answer 9

Falso negativo.

Answer 10

Quanto mais atributos, mais exemplos você irá precisar para ter todas as combinações possíveis destes atributos, o que torna o processo mais caro e mais lento.

Answer 11

Utilizar modelos menos complexos e fazer a validação cruzada para determinar quando cessar o treino.

Answer 12

* Árvore de Decisão. * Random Forest. * k-Nearest Neighbors. * Naive Bayes. * Regressão Logística. * Análise Discriminante Linear. * SVM (suport vector machine). * RNA (redes neurais artificiais).

Answer 13

* Raiz: é a primeira decisão a ser tomada pelo usuário. A partir dela o algoritmo é redirecionado a outras decisões. * Nós: são todas as decisões apresentadas na árvore. * Folhas: são os resultados da árvore de decisões. É nela que a classificação é realizada.

Answer 14

Podem ser reescritas como um conjunto de regras, por exemplo, em forma normal disjuntiva (DNF).

Answer 15

Atributos contínuos e discretos.

Answer 16

Classificação: valores discretos. Regressão: valores reais.

Answer 17

ID3. * C4.5 e C5.0 são mais recentes. * O ID3 aprende a árvore usando uma estratégia top-down (escolhe os atributos mais relevantes primeiro).

Answer 18

Para evitar overfitting: * Pré-poda: para de crescer a árvore quando não tem mais dados suficientes para fazer previsões confiáveis. * Pós-poda: constrói a árvore toda, depois são removidas sub-árvores com menos relevância. * Métodos para poda: * Validação cruzada: Reservar alguns dados de treinamento (conjunto de validação) para avaliar utilidade das sub-árvores. * Testes estatísticos: Usa o teste para determinar se a regularidade observada foi devida ao acaso. * Comprimento da descrição mínima (MDL): Determina se a complexidade adicional da hipótese é mais complexa que lembrar explicitamente as exceções resultantes da poda.

Answer 19

É um algoritmo de classificação baseado em árvores de decisão. A predição da floresta randômica é a média de todas as predições das diversas árvores de decisão construídas.

Answer 20

KNN é um algoritmo que classifica novos dados com base em uma medida de similaridade entre seus “vizinhos” mais próximos, ou seja, aqueles que têm características semelhantes às suas. * Nesse método, utiliza-se a distância (usualmente a Euclidiana) entre uma nova observação e as demais observações de um training set para classificá-la de acordo com a observação mais próxima. * O “k” determina o número de vizinhos que serão utilizados para a classificação.

Answer 21

Não paramétrico.

Answer 22

Família de algoritmos de aprendizado supervisionado baseados em probabilidade. Prevê uma tabela de probabilidades condicionais e depois calcula a saída com base nessa tabela. Teorema de Bayes: P(A|B) = (P(B|A).P(A))/P(B)

Answer 23

Classificação de spam no email e análise de sentimento.

Answer 24

* Todas as características do conjunto de dados não dependem um do outro. * Cada evento contribui igualmente para classificar o resultado.

Answer 25

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias. Traduzindo: é aquele gráfico em S que vai tentar fazer classificação de valores categóricos, usando atributos contínuos ou binários.

Answer 26

Paramétrico.

Answer 27

* Regressão logística binominal No modelo de regressão logística binominal, os objetos são classificados em dois grupos ou categorias. * Regressão logística ordinal O modelo de regressão logística ordinal é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. * Regressão logística multinomial No modelo de regressão logística multinomial, os objetos são classificados em três ou mais categorias que não possuem ordem entre si.

Answer 28

Método da máxima verossimilhança. (Em estatística, a estimativa por máxima verossimilhança é um método para estimar os parâmetros de um modelo).

Answer 29

O conceito por trás do SVM é a maximização da margem, ou seja, maximizar a distância da margem dos dados de treinamento, construindo um HIPERPLANO ÓTIMO, onde a distância entre uma classe e outra até o plano é a mesma.

Answer 30

São os exemplos da base de treinamento mais próximos do hiperplano.

Answer 31

* Projetando os dados em outra dimensão usando uma função de kernel (kernel trick).

Answer 32

* Avaliação de imagens captadas por satélite. * Classificação de padrões de escrita e fala. * Reconhecimento de faces com visão computacional. * Sistemas de controle e previsão financeira. * Identificação de anomalias e patologias na área médica com base em imagens. * Controle automatizado de equipamentos eletrônicos.

Answer 33

* Sinais são apresentados à entrada. * Cada sinal é multiplicado por um número, ou peso, que indica a sua influência na saída da unidade. * É feita a soma ponderada dos sinais que produz um nível de atividade. * Se este nível de atividade exceder um certo limite (threshold), a unidade produz uma determinada resposta de saída.

Answer 34

* Uma camada de entrada, formada pelos neurônios que estão conectados às entradas da rede; * Uma camada de saída, contendo os neurônios que apresentam as saídas da rede neural ao ambiente externo; * Uma ou mais camadas intermediárias (ou escondidas), compostas de neurônios cujas entradas e saídas estão conectadas somente a outros neurônios.

Answer 35

O algoritmo funciona em duas fases: * O passo para frente (forward pass), onde nossas entradas são passadas através da rede e as previsões de saída obtidas (essa etapa também é conhecida como fase de propagação). * O passo para trás (backward pass), onde calculamos o gradiente da função de perda na camada final (ou seja, camada de previsão) da rede e usamos esse gradiente para aplicar recursivamente a regra da cadeia (chain rule) para atualizar os pesos em nossa rede (etapa também conhecida como fase de atualização de pesos ou retro-propagação).

Answer 36

ajusta os parâmetros das redes para melhor adaptar um conjunto de treinamento de pares entrada – saída.

Answer 37

Taxa de aprendizado (learning rate): indica a que ritmo os pesos são atualizados. Isso pode ser fixado ou alterado de modo adaptativo. O método atual mais popular é chamado Adam, o qual é um método que adapta a taxa de aprendizado.

Answer 38

Mínimo absoluto é o erro mínimo em um gradiente descentente, enquanto o mínimo local representa um vale desse gradiente, mas não é o mínimo absoluto. Se cair em um vale de mínimo local e não conseguir sair, mude (aumente) a taxa de aprendizado.

Answer 39

* Permitem a realimentação de uma camada com as informações geradas pela camada posterior. * Possibilidade de realimentação do neurônio com a sua própria saída (selffeedback). * Por terem essa característica, essas redes podem modelar problemas com característica temporal, como por exemplo a previsão do tempo dado o histórico climático em uma janela do passado.

Answer 40

A ideia da Cadeia de Markov é construir um sistema matemático que visa calcular probabilidades de transição de um estado para o outro de acordo com um conjunto de regras probabilísticas. São chamados processos "sem memória", pois dependem somente da informação do presente. Cadeias de Markov são utilizadas, por exemplo, para representar a probabilidade de mutação de um aminoácido durante a sua evolução.

Answer 41

Uma rede neural convolucional (ou CNN, do inglês Convolutional Neural Network) é um tipo de rede neural projetada para processar dados estruturados em forma de grade, como imagens, vídeos, áudio ou dados temporais. Elas são amplamente utilizadas em tarefas de visão computacional. Uma CNN é composta por várias camadas, organizadas de forma hierárquica. As principais camadas de uma CNN incluem: 1 - Camada Convolucional (Convolutional Layer) 2 - Camada de Ativação (Activation Layer) 3 - Camada de Pooling (Pooling Layer) 4 - Camada Fully Connected (Camada Densa) *Camada de Normalização (opcional) 1. Camada Convolucional A camada convolucional é o componente principal de uma CNN. Ela aplica operações de convolução nos dados de entrada para extrair características, como bordas, texturas e formas. A convolução envolve o uso de filtros (ou kernels) que "varrem" a entrada em pequenas janelas para detectar padrões locais. Filtro (Kernel): Um pequeno conjunto de pesos (normalmente 3x3 ou 5x5), que é multiplicado pela entrada em janelas deslizantes para extrair características. Convolução: O filtro percorre a entrada e, em cada posição, multiplica seus pesos pelos valores da janela correspondente na imagem (ou outro dado de entrada), gerando uma soma ponderada. O resultado dessas operações é um mapa de características (ou feature map). Por exemplo, ao aplicar um filtro sobre uma imagem, as primeiras camadas convolucionais tendem a identificar características simples, como bordas horizontais e verticais. À medida que a rede se aprofunda, as camadas convolucionais sucessivas capturam padrões mais complexos, como formas e objetos inteiros. 2. Camada de Ativação A camada de ativação aplica uma função não-linear aos valores do mapa de características resultante da camada convolucional. As funções de ativação introduzem não-linearidade no modelo, permitindo que a rede aprenda representações mais complexas. A função de ativação mais comum nas CNNs é a ReLU (Rectified Linear Unit). Essa função zera todos os valores negativos e mantém os positivos, acelerando o aprendizado e ajudando a resolver o problema do desvanecimento do gradiente. 3. Camada de Pooling A camada de pooling é usada para reduzir a dimensionalidade do mapa de características, preservando as informações mais relevantes e descartando detalhes menores. Isso ajuda a reduzir a complexidade computacional e a evitar overfitting. O tipo mais comum de pooling é o Max Pooling, que seleciona o valor máximo em pequenas regiões (normalmente de tamanho 2x2) do mapa de características. Max Pooling: Selecione o valor máximo em uma região e descarte os outros valores. Isso preserva as características mais significativas e reduz a dimensionalidade. Average Pooling: Tira a média dos valores em uma região (menos comum). 4. Camada Fully Connected (Camada Densa) Depois de várias camadas convolucionais e de pooling, a CNN normalmente inclui uma ou mais camadas fully connected (totalmente conectadas), também conhecidas como camadas densas. Nessas camadas, cada neurônio está conectado a todos os neurônios da camada anterior. As camadas fully connected são usadas para combinar as características extraídas pelas camadas convolucionais e pooling e produzir a saída final, como a classificação de uma imagem. Essas camadas funcionam de maneira semelhante às camadas de uma rede neural tradicional. 5. Camada de Normalização (opcional) Em algumas CNNs, uma camada de normalização pode ser adicionada após a convolução, como a Batch Normalization, que normaliza os valores da saída da camada convolucional. Isso pode acelerar o treinamento e melhorar a convergência.

Answer 42

São redes com aprendizado não-supervisionado e baseada em Aprendizagem Competitiva. Os Mapas Auto-Organizáveis (ou SOM) são um tipo de rede neural que serve para organizar e visualizar dados complexos de maneira mais simples, em um mapa bidimensional (como uma grade). Como Funciona um SOM Imagine que você tem muitos dados (como uma coleção de fotos ou números). Um SOM pega esses dados complexos e os organiza em um mapa, onde dados que são parecidos acabam ficando próximos uns dos outros. Aqui está uma explicação simplificada das etapas principais: Criação de uma Grade: O SOM começa com uma grade de neurônios (pontos) em duas dimensões. Cada neurônio da grade tem um "peso" que inicialmente é aleatório. Treinamento do SOM: Um dado (um ponto, uma foto, etc.) é apresentado ao SOM. O SOM verifica qual neurônio (ou ponto da grade) é mais parecido com esse dado. Esse neurônio é chamado de neurônio vencedor. O neurônio vencedor e seus vizinhos têm seus pesos ajustados para ficarem ainda mais parecidos com o dado apresentado. Esse processo se repete várias vezes, ajustando a grade gradualmente. Resultado Final: No final, a grade fica organizada de tal forma que dados parecidos no conjunto original estão próximos uns dos outros no mapa. Isso ajuda a visualizar padrões nos dados.

Answer 43

Função matemática que decide se um neurônio será ativado ou não. Usada em RNA. Incute não linearidade ao processo.

Answer 44

A saída do neurônio é igual a zero, quando seu valor de entrada for negativo e 1, quando seu valor de entrada for positivo.

Answer 45

Aplica um fator de multiplicação ao valor que recebe. F(X) = aX.

Answer 46

A função logística ou sigmoide produz valores no intervalo [0, 1]. f(x) = 1/(1+e^-x)

Answer 47

* Função softmax: Softmax é uma generalização da função sigmoide para casos não-binários. * A função softmax recebe como entrada um vetor z de K números reais e o normaliza em uma distribuição de probabilidade que consiste em K probabilidades proporcionais aos exponenciais dos números de entrada. v

Answer 48

Função Maxout: A saída da função é o valor máximo entre as diversas entradas.

Answer 49

Função Gaussiana: Função radial típica usada majoritariamente em redes RBF (função de base radial).

Answer 50

Se a entrada 𝑥 for maior que 0, a saída será 𝑥. Se a entrada 𝑥 for menor ou igual a 0, a saída será 0.

Answer 51

Regressão refere-se a prever a saída de uma variável numérica (dependente e contínua) a partir de um conjunto de uma ou mais variáveis independentes. Uma equação de regressão é usada em estatística para descobrir qual relação existe , e se existe, entre conjuntos de dados.

Answer 52

Para descrever a relação entre uma variável dependente e uma ou mais variáveis independentes.

Answer 53

Simples: apenas uma variável independente. Múltipla: mais de uma variável independente.

Answer 54

A Regressão Linear tem uma série de pressupostos: * Linearidade: a relação entre as variáveis deve ser linear. * Homoscedasticidade (ou Homogeneidade de Variância): os termos de erro variância constante, independente dos valores das variáveis preditoras. Quebramos esse pressuposto quando as variáveis preditoras tem mais ou menos erro dependendo de seus valores. * Independência de erros: Os erros nas variáveis preditoras não devem estar correlacionados. * Não multicolinearidade: as variáveis preditoras não podem ser próximas de uma correlação perfeita. * Baixa exogeneidade: os valores das variáveis preditoras não estão contaminados com erros de medida. Erros de medida podem levar estimativas inconsistentes e superestimação dos coeficientes de regressão.

Answer 55

O beta da regressão é o valor que determina o ângulo da linha da regressão. Dito de maneira mais direta, o valor do beta determina o quanto a variável preditora impacta na variável de resultado. Quanto maior o valor do módulo do beta (ignorando o sinal), mais influente ele é nos valores da variável de resultado. Outra maneira de interpretar o beta é entendo que o aumento de uma unidade no valor da variável X1, gera o aumento do valor do beta1 na variável de resultado.

Answer 56

O beta da regressão sempre está na mesma unidade de medida da variável original (ex.: os escores de felicidade que vão de 1 a 5). Uma consequência é que pode ser difícil de identificar de maneira fácil o quão importante é aquela variável. Para resolver este problema, podemos usar o beta padronizado. Ele é uma versão do beta que indica o quão forte é a associação entre a variável preditora e a de resultado. Quando o beta padronizado é 0, a relação entre as variáveis é fraca. Quando o beta é 1 ou -1, há uma relação forte entre as variáveis.

Answer 57

É utilizada adequadamente quando o dataset apresenta algum tipo de tendência de crescimento/descrescimento constante.

Answer 58

Para quantificar a relação entre duas variáveis quantitativas utiliza-se o coeficiente de correlação linear de Pearson: 0.9 < |r| <= 1,0 ótima 0.8 < |r| <= 0.9 boa 0.7 < |r| <= 0.8 razoável 0.6 < |r| <= medíocre 0,5 < |r| <= 0.6 péssima |r| <= 0,5 imprópria

Answer 59

A análise de resíduos verifica se os erros (diferenças entre os valores reais e previstos) seguem uma distribuição aleatória. Um bom modelo deve ter resíduos que: * São distribuídos aleatoriamente (sem padrões); * Têm média zero; * Não exibem variância crescente (homocedasticidade).

Answer 60

Avaliar a significância estatística dos coeficientes das variáveis através do teste t (p-valores). Se os p-valores forem baixos (tipicamente menores que 0,05), isso indica que a variável é relevante para o modelo.v

Answer 61

Minimizar a distância intracluster e maximizar a distância intercluster.

Answer 62

Algoritmos de agrupamento (clusterização), SOM, regras de associação, redução da dimensionalidade

Answer 63

1. Clusterização Baseada em Centróides Clusterização baseada em centróides (Centroid-Based Clustering), também conhecida como partitional clustering, agrupa os dados em clusters onde cada cluster é representado pelo centróide, que é o ponto médio do cluster. ➡️ Algoritmo Principal: K-means O algoritmo começa com a seleção de K centróides iniciais. Cada ponto de dados é então atribuído ao centróide mais próximo, formando K clusters. Os centróides são recalculados como a média dos pontos em cada cluster e o processo de atribuição e recalculação continua até que os centróides não mudem mais significativamente. ✅ Entre as principais aplicações estão: segmentação de mercado, compressão de imagens, análise de comportamento do cliente. Vantagens: Simples de implementar. Escalável para grandes conjuntos de dados. Desvantagens: Sensível a outliers. Requer que o número de clusters (K ) seja definido previamente. 2. Clusterização Baseada em Densidade Clusterização baseada em densidade (Density-Based Clustering) forma clusters com base em regiões de alta densidade de pontos de dados, separadas por regiões de baixa densidade. ➡️ Algoritmo Principal DBSCAN: O DBSCAN (Density-Based Spatial Clustering of Applications with Noise) é um algoritmo de clustering que identifica grupos de dados com base na densidade de pontos. Ele utiliza dois parâmetros: ε (epsilon), que define o raio de vizinhança de um ponto, e MinPts, o número mínimo de pontos necessários para formar um cluster. ✅ Entre as principais aplicações estão: detecção de anomalias, análise de redes sociais, agrupamento de pontos geoespaciais. Vantagens: Detecta clusters de formas arbitrárias. Robusto a outliers. Desvantagens: Requer a definição de parâmetros como o raio de busca (eps) e o número mínimo de pontos (minPts). Pode ter desempenho ruim em conjuntos de dados com densidades variáveis. 3. Clusterização Baseada em Distribuições Clusterização baseada em distribuições (Distribution-Based Clustering) assume que os dados são gerados por uma mistura de distribuições probabilísticas, como a distribuição normal. Cada cluster é representado por uma distribuição. ➡️ Algoritmo Principal: Gaussian Mixture Models (GMM) GMM assume que os dados são uma combinação de várias distribuições gaussianas. Ele utiliza o algoritmo de Expectation-Maximization (EM) para estimar os parâmetros das distribuições (médias, covariâncias) e as probabilidades de pertencimento dos pontos aos clusters. ✅ Entre as principais aplicações estão: análise de genomas, processamento de sinais, reconhecimento de padrões. Vantagens: Pode modelar clusters com formas elípticas. Fornece uma medida de incerteza das atribuições dos clusters. Desvantagens: Requer a especificação do número de clusters. Pode ser sensível a valores iniciais e convergir para mínimos locais. 4. Clusterização Hierárquica Clusterização hierárquica é uma técnica de agrupamento de dados que organiza os pontos em uma hierarquia de clusters, formando uma estrutura em forma de árvore chamada dendrograma. Existem dois métodos principais: o aglomerativo (bottom-up) e o divisivo (top-down). No método aglomerativo, cada ponto começa como um cluster individual e, em cada etapa, os clusters mais próximos são mesclados até que todos os pontos estejam em um único cluster. No método divisivo, o processo começa com todos os pontos em um único cluster, que é iterativamente dividido em clusters menores. Essa abordagem permite explorar diferentes níveis de granularidade dos agrupamentos, oferecendo uma visualização detalhada das relações entre os dados. ➡️ Algoritmo Principal: Agglomerative Hierarchical Clustering (AHC) AHC começa com cada ponto de dados como um cluster individual e, em cada etapa, os clusters mais próximos são combinados até que todos os pontos estejam em um único cluster. Existem várias formas de definir a proximidade entre clusters: Single Linkage: menor distância entre pontos dos clusters. Complete Linkage: maior distância entre pontos dos clusters. Average Linkage: média das distâncias entre todos os pontos dos clusters. Ward’s Method: minimiza o aumento da soma dos quadrados das distâncias dentro dos clusters. ✅ Entre as principais aplicações estão: análise de similaridade de documentos, bioinformática, reconhecimento de padrões. Vantagens: Não requer a especificação prévia do número de clusters. Permite visualizar a hierarquia dos clusters. Desvantagens: É computacionalmente caro para grandes conjuntos de dados. A escolha do método de ligação pode afetar significativamente os resultados.

Answer 64

Redes com loops, que permitem persistência de informação. Processamento de dados sequenciais (áudio, séries temporais, texto).

Answer 65

* Rede neural recorrente usada em processamento de linguagem natural. * Possuem quatro células (RNA) e três portões: * Forget Gate: remove as informações que não são mais necessárias. * Input Gate: Adiciona informações úteis. * Output Gate: extrai informações úteis.

Answer 66

* Utilizadas na reconstrução de padrões. * Rede base para outras arquiteturas. * Uma única camada com todos os neurônios conectados entre eles. * Como a saída dos neurônios está ligada à entrada de todos os outros, elas são aqui chamadas de estados. * Esses estados seguem a lógica booleana. A saída dos estados é dada por estados verdadeiros (true = 1) ou falsos (false = -1).

Answer 67

* Rede neural recorrente estocástica baseada em grafos. * Aplicações: * Redução de dimensionalidade. * Pré-treinamento de redes neurais. * Detecção de fraudes. * Sistemas de recomendação colaborativo.

Answer 68

* Uma pilha de Máquinas de Boltzmann Restritas (RBM – Restricted Boltzmann Machines), em que cada camada RBM se comunica com as camadas anterior e posterior. * Termina com uma camada Softmax gerando um classificador.

Answer 69

Composto por duas redes simétricas Deep Belief. * As camadas são Máquinas de Boltzmann Restritas. * Aprendizado não supervisionado. * Usa y(i) = x(i). * Utilidade: remoção de ruido e redução de dimensionalidade. * encode -> compressed data -> decode

Answer 70

* Arquiteturas de redes neurais profundas compostas por duas redes, colocando uma contra a outra. * Em vez de prever um rótulo com determinados recursos, elas geram conteúdo novo. * Uma rede neural, chamada de gerador, gera novas instâncias de dados, enquanto a outra, o discriminador, as avalia por autenticidade.

Answer 71

* As redes são formadas por capsulas, que são pequenas redes neurais dentro de uma estrutura maior. * Treinada por roteamento dinâmico.

Answer 72

A regularização de dados é uma técnica utilizada em machine learning e estatística para prevenir overfitting e melhorar a generalização de um modelo. Ela adiciona uma penalização aos parâmetros do modelo, de modo que ele não se ajuste excessivamente aos dados de treinamento. Principais regularizações L1(Lasso Regression), L2 (Ridge Regression) e Elastic Net (combinação de L1 e L2). obs: No caso de L1 (Lasso), ela pode reduzir alguns coeficientes a zero, promovendo um modelo mais interpretável, com menos variáveis.

Answer 73

Delete e truncate deletam dados mantendo a estrutura da tabela. Delete permite uso do WHERE, enquanto truncate não permite. Drop exclui a tabela toda, inclusive sua estrutura.

Answer 74

O modelo BoW consiste em contar a frequência de cada palavra no texto, criando assim um vetor de frequências que representa o documento em questão. Esse modelo é amplamente utilizado em tarefas como classificação de texto e análise de sentimentos. O modelo BoW não considera a ordem das palavras no texto, tratando-o como um conjunto não ordenado de palavras. O modelo BoW não é capaz de lidar com a ambiguidade das palavras, pois não leva em conta o contexto em que as palavras aparecem.

Answer 75

O processo de tokenização envolve a divisão de um texto em palavras individuais ou unidades significativas, como frases ou símbolos. Cada uma dessas unidades é tratada como um token separado para análise posterior.

Answer 76

* Rastreamento de dados (crawling): * Utilizada por mecanismos de buscas e extratores de dados. * Fases: * Crawler obtém lista de URL a partir de uma URL base. * Extração dos dados existentes nessas URL. (extrai todos os dados) * Raspagem de dados (scraping): * Extração automática eficiente dos conjuntos de dados estruturados (principalmente HTML). * O Web Scraper acessa páginas web, encontra elementos de dados especificados na página e os extrai. (seleciona apenas as informações de interesse) * O Web Scraper imita a operação de um usuário em busca de informações em um navegador, automatizando e acelerando este acesso.

Answer 77

Tokenização; transformação de letras maiúsculas para minúsculas; remoção de caracteres especiais; remoção de tags HTML/Javascript/CSS.

Answer 78

* Consiste em remover palavras muito frequentes, tais como “a”, “de”, “o”, “da”, “que”, “e” e “do”. * São removidas palavras não relevantes para o problema de PLN.

Answer 79

* Colocação de etiqueta em cada palavra para identificar a categoria gramatical ou elementos morfológicos ou semânticos

Answer 80

* Reduzir uma palavra ao seu radical.

Answer 81

* Normalização * Remoção de stop words * Análise estatítica (para selecionar palavras expressivas) * Correção ortográfica * Etiquetagem (part-of-speech tagger) * Remoção de numerais (números e palavras/símbolos como “R$”) * Stemização ou Lematização

Answer 82

* Simbólica: * Se baseia nas regras linguísticas sem ambiguidades e bem estruturadas. * Estatística: * Utiliza modelos matemáticos e estatísticos. * Conexionista: * Utiliza o aprendizado e teorias de representação do conhecimento. * Híbrida: * Combina as demais abordagens.

Answer 83

Pré-processamento -> vetorização (bag of words; TF-IDF...) -> algoritmos de ML (Naive Bayes; RNN; LSTM...)

Answer 84

- Binário: * Cada palavra é atribuído um valor 1 ou 0 de acordo com sua presença ou ausência na sentença. - Bag Of Words: * O texto é simplificado para um vetor de palavras distintas e a respectiva contagem de ocorrência de cada uma delas. - TF-IDF: * Term Frequency mede o quão frequente um termo ocorre em um documento. * Inverse Document Frequency mede a raridade do termo para o documento.

Answer 85

Alexa (Amazon Echo), Siri (iOS), Cortana (Microsoft a partir do Windows 10), Google Assitant (Android) ou Google Now

Answer 86

Técnica de mineração de dados, não supervisionado, que extrai tópicos latentes de uma base de documentos (corpus). Os tópicos não são pré-definidos, mas sim descobertos através de uma análise de grupos de palavras que aparecem frequentemente juntas. O algoritmo mais famoso é o LDA - Latent Dirichlet Allocation.

Answer 87

1 - Representação do texto -> uso de matriz termo/documento 2 - Identificação de tópicos ->. técnicas de redução de dimensionalidade ou modelos probabilísticos 3 - Atribuição de tópicos aos documentos

Answer 88

Este algoritmo pode ser aplicado a documentos inéditos.

Answer 89

- número de tópicos - alfa: controla a distribuição de tópicos por documento - beta: controla a distribuição de palavras por tópicos

Answer 90

Distribuição de probabilidade para cada documento, que indica a pertinência do mesmo a algum dos tópicos e onde cada tópico é formado por uma distribuição de probabilidade das palavras presentes no documento.

Answer 91

* Método de aprendizado de máquina onde um agente aprende a tomar decisões. * Aprendizado por meio de tentativa e erro, interagindo com um ambiente. * Recebe recompensas por ações corretas, visando maximizar a recompensa total.

Answer 92

* Observação do estado do ambiente. * Tomada de decisão baseada na política. * Execução da ação e observação da recompensa e do novo estado. * Atualização da política com base na recompensa recebida. obs.: a inicialização é aletória.

Answer 93

* Agente: A entidade que toma decisões, como um robô ou software. * Ambiente: O mundo com o qual o agente interage e sobre o qual ele não tem controle total. * Estado: Uma representação da situação atual do agente dentro do ambiente. * Ações: As possíveis intervenções que o agente pode fazer no ambiente. * Recompensa: Um sinal do ambiente em resposta às ações do agente, indicando o sucesso dessas ações. * Política (Policy): Uma estratégia que define a escolha de ação do agente em determinados estados. * Função de Valor: Uma previsão da recompensa futura esperada, utilizada para avaliar quão bom é um estado ou uma ação. * Episódio: Uma sequência de ações, estados e recompensas que termina em um estado final.

Answer 94

* Jogos: Melhorar estratégias em jogos complexos, como Go e xadrez. * Robótica: Ensinar robôs a realizar tarefas como caminhar e pegar objetos. * Sistemas de Recomendação: Personalizar conteúdo para usuários em plataformas de streaming. * Otimização de Processos: Melhorar a logística e a cadeia de suprimentos em indústrias. * Automação de Veículos: Desenvolver sistemas de condução autônoma.

Answer 95

* O agente enfrenta o dilema de explorar novas ações (como tentar uma célula desconhecida - exploration) versus explorar ações conhecidas (como escolher uma célula que já sabe ser segura - exploitation). * Ele deve encontrar o equilíbrio certo para maximizar a recompensa cumulativa.

Answer 96

Deep Q-Network (DQN): * Visa aprender a política ótima, ensinando ao agente qual ação tomar sob determinadas condições para maximizar a soma de recompensas futuras. * Isso é feito através de uma função de valor Q, que estima a recompensa total esperada de tomar uma ação em um dado estado. No DQN, redes neurais profundas são usadas para aproximar a função de valor Q. * Isso permite que o agente lide com estados de entrada de alta dimensão (como imagens de pixels dos jogos), algo que métodos tradicionais de Qlearning não conseguem fazer de forma eficiente devido à maldição da dimensionalidade.

Answer 97

IA que gera textos, imagens, vídeos e outros formatos de arquivo inéditos, a partir de uma grande base de treinamento.

Answer 98

Problemas: * Viés algorítmico. * Privacidade. * Transparência. * Alucinações.

Answer 99

ChatGPT (da OpenAI), Google Bard ou Gemini, Bing Chat, Copilot (Microsoft), MidJourney, Wolfran (cálculos e gráficos)

Answer 100

Deep Fake e manipulação de mídia Violação de privacidade Viés e discriminação (vinda da base de dados) Direitos autorais e propriedade intelectual Perda de emprego Manipulação de eleições Uso de identidade falsa Manipulação emocional (para incentivar compras por exemplo) Desigualdade digital (nem todos tem o mesmo acesso) Ataques cibernéticos (vazamento de dados e conversas)

Answer 101

Uma rede neural, chamada de gerador, gera novas instâncias de dados, enquanto a outra, o discriminador, avalia sua autenticidade; ou seja, o discriminador decide se cada instância de dados que ele analisa pertence ou não ao conjunto de dados de treinamento real. O gerador vai então se aprimorando, tentando enganar o discriminador para se tornar o mais próximo possível do real.

Answer 102

Os autoencoders funcionam codificando dados não rotulados em uma representação compactada e, em seguida, decodificando os dados de volta à sua forma original. Os autoencoders simples foram usados para diversas finalidades, incluindo a reconstrução de imagens corrompidas ou borradas. Os autoencoders variacionais acrescentaram a capacidade crítica não só de reconstruir dados, mas também de gerar variações nos dados originais.

Answer 103

Transformadores pré-treinados generativos, comumente conhecidos como GPT, são uma família de modelos de rede neural que usa a arquitetura de transformadores e são um avanço fundamental na inteligência artificial (IA) que impulsiona aplicações de IA generativa, como o ChatGPT. Os modelos GPT oferecem às aplicações a capacidade de criar texto e conteúdo semelhantes aos humanos (imagens, músicas e muito mais) e responder perguntas de forma conversacional. - Palavras são transformadas em números e posicionadas em um espaço tridimensional, onde palavras relacionadas a um mesmo universo ficam mais próximas umas das outras.

Answer 104

Treinamento superviosionado seguido de treinamento por reforço.

Answer 105

* Limitações: * Conhecimento Atualizado. * Perda de Compreensão Contextual em Textos Longos. * Vieses. * Precisão da Informação (Alucinações). * Interpretação Literal.

Answer 106

* Especificidade * Contexto * Estilo * Palavras chaves * Estruture a resposta desejada * Adequação ao domínio * Mitigação de viés * Analogias * Use exemplos (zero-shot, one-shot, few-shot) * Pedir o Passo-a-passo

Answer 107

* Machine Learning Operations * Disciplina emergente no campo da ciência de dados e engenharia de software * Combina ML, DevOps e Engenharia de Dados * Visa unificar o desenvolvimento de modelos de machine learning (ML) e as operações de TI. * Objetivo: * Criar um fluxo contínuo para projetar, desenvolver, testar, implantar e manter sistemas de ML em produção de forma escalável e sustentável * Garantir que os modelos de ML sejam usados de forma ética e responsável, e que os dados sejam protegido

Answer 108

-> Integração e Entrega Contínuas (CI/CD): * Automação de testes para modelos de ML e sua integração em ambientes de produção. * Validação de modelos com novos dados * Atualizações automáticas de modelos * Entrega contínua de melhorias nos modelos sem prejudicar os sistemas em operação. -> Monitoramento: * Monitoramento contínuo para verificar a eficácia e detectar qualquer degradação no desempenho dos modelos(drift de modelo). * Atualizações periódicas do modelo para ajustá-lo a novos padrões de dados ou para melhorar sua precisão e eficiência. -> Gerenciamento de Ciclo de Vida de Modelos: * Gerenciamento do ciclo de vida completo dos modelos de ML, desde a concepção até a retirada * Versionamento de modelos * Gestão de artefatos (como dados, códigos e parâmetros) * Registro de experimentos para garantir reproducibilidade -> Orquestração de Workflow: * Automação de workflows de machine learning, incluindo préprocessamento de dados, treinamento de modelos, validação e deployment * Padronização e escalabilidade dos processos de ML

Answer 109

* Plataformas de Dados e Modelagem: * TensorFlow Extended (TFX), MLflow, Kubeflow. * Ferramentas de CI/CD: * Jenkins, GitLab, CircleCI. * Monitoramento de Modelos: * Prometheus, Grafana, ELK Stack. * Orquestração: * Apache Airflow, Prefect, Dagster.

Answer 110

O TensorFlow é uma biblioteca de código aberto (framework) para computação numérica, machine learning em grande escala, deep learning e outras cargas de trabalho de análise estatística e preditiva. Essas tecnologias permitem que desenvolvedores implementem modelos de machine learning de maneira mais rápida e fácil. Isso ajuda no processo de aquisição de dados, fornecendo previsões em escala e refinando resultados de aprendizagem futuros.

Answer 111

O Prometheus é um sistema de monitoramento para serviços e aplicações. Ele coleta as métricas de seus alvos em determinados intervalos, avalia expressões de regras, exibe os resultados e também pode acionar alertas se alguma condição for observada como verdadeira.

Answer 112

O Apache Airflow é uma ferramenta de orquestração de fluxo de trabalho de código aberto (open-source) criada pela Airbnb que tem sido amplamente adotado na engenharia de dados para tarefas de gestão de fluxos ETL (Extração, Transformação e Carga de Dados). A principal característica do Apache Airflow é a capacidade de definir, programar e monitorar fluxos de trabalho complexos, chamados de DAGs (Directed Acyclic Graphs). O Airflow foi construído para lidar com dependências entre tarefas e para gerenciar falhas, fornecendo mecanismos de retentativa e notificações de alerta. As tarefas e suas dependências são definidas em Python, tornando-as mais flexíveis e acessíveis para Engenheiros e Arquitetos de Dados. Além disso, o Airflow oferece uma interface de usuário baseada na web para visualizar e gerenciar fluxos de trabalho, o que facilita o monitoramento e a depuração de problemas.

Answer 113

Nível 0 -> fluxo de trabalho manuais; desconexão entre ML e operações; iterações não frequentes; falta de monintoramento; sem CI/CD. Nível 1 -> automatização do pipeline de ML; treino contínuo do modelo; componentes de código modularizados e reutilizáveis; aramazenamento centralizado; gerenciamento de metadados; implementação do mesmo pipeline em ambientes de desenvolvimento, préprodução e produção Nível 2 -> Automação do pipeline de CI/CD Adequado para empresas orientadas por tecnologia que atualizam seus modelos em minutos, os retreinam a cada hora ou diariamente e os reimplantam simultaneamente em milhares de servidores. Requer: * Um orquestrador de pipeline de ML * Um registro de modelos para rastrear vários modelos

Answer 114

* Viéis algoritmico: o modelo aprende preconceitos com a base de dados * Privacidade: uso indevido de dados pessoais * Explicabilidade: não sabemos o processo que levou a tal resultado (excessão: árvores de decisão) * Responsabilidade: necessidade de supervisão humana - não se pode responsabilizar uma máquina * Impacto no emprego: empregados sendo substituídos por IA * Ética na pesquisa: IA pode criar bases de dados fake e utilizá-la para criação de relatórios e pesquisas

Answer 115

* Transparência sobre: - dados de entrada - processos de desenvolvimento (quais modelos foram utilizados) - governança: explicar as medidas de supervisão e controle estabelecidas, bem como o responsável pelos resultados - conformidade: informação sobre como a IA atende a regulamentações nacionais e internacionais * Explicabilidade: - Racionalização de Decisões: Fornecer justificativas legíveis e compreensíveis para as decisões tomadas por um sistema de IA - Modelos Interpretáveis: Utilizar ou desenvolver modelos que naturalmente permitem explicação, como árvores de decisão, em contraste com modelos "caixa-preta", como redes neurais profundas - Ferramentas de Explicação: Desenvolver interfaces e ferramentas que ajudam a explicar as decisões de IA para os usuários * Promoção da ética: * Regulamentação: - Diretrizes - Princípios éticos * Auditorias * Avaliação de impacto * Mitigação de riscos * Desenvolvimento inclusivo * Diversidade na construção das bases de treinamento * Educação * Desenvolvedores, usuários e legisladores * Diversificação dos dados de treinamento * Análise de equidade

Answer 116

Se A, então B. Ex.: se comprou pão, compra leite. Algoritmo não superviosionado que verifica valores co-ocorrentes. A -> B A: antecessor B: conseguente A e B disjuntos

Answer 117

* Suporte: qual a porcentagem de vezes a regra aparece na base de dados. num de vezes que a regra aparece/total de exemplos * Confiança: para as vezes em que A aparece, quantas vezes B aparece. num de vezes que A e B aparecem/num de vezes que A aparece * Lift: confiança(A->B)/suporte(B) lift > 1: quanto mais vezes ocorre A, mais vezes ocorre B lift = 1: não há associação entre A e B lift < 1: quanto mais vezes ocorre A, menos vezes ocorre B

Answer 118

Apriori, Eclat, Partition, FP-Growth

Answer 119

* Passo 1: Geração de Itemsets frequentes: * Pesquisa em largura * Conta a frequência de cada item individualmente * Itens que atendem ao limite de suporte são considerados frequentes, formando a lista L * Forma pares de itens da lista L com suporte atendendo ao limite * Processo se repete para itemsets maiores * Passo 2: Geração das regras de associação: * Para cada itemset selecionado, todas as regras são geradas. * Calcula-se a confiança das regras. * Seleciona-se as regras de associação com confiança acima do limite.

Answer 120

* Recuperação do dado original. * Média, mediana ou moda. * Utilização de dado aleatório. * Utilização de valor padrão (constante). * Utilização do último ou do próximo valor válido. * Interpolação linear (séries temporais). * Hot Deck (Preenche valores faltantes com dados observados de registros semelhantes no mesmo conjunto de dados) / Cold Deck (Utiliza fontes externas ou dados históricos para preencher os valores faltantes). * Regressão linear. * Imputação do vizinho K-nearest. * Métodos avançados de ML. * Criação de um estado “ausente” em campos discretos. * Exclusão do atributo. * Método do caso completo ou exclusão das amostras/linhas com dados faltantes (listwise deletion) -> deleta toda a linha em que há algum dado faltante. * Método dos casos disponíveis ou exclusão das amostras/linhas com dados faltantes nas variáveis de interesse (pairwise deletion) -> só deleta a linha se o dado faltante for de um atributo de interesse.

Answer 121

1. Gráfico Boxplot: valores abaixo do limite inferior ou acima do limite superior são outliers. 2. Método de distância interquartil (IQR): Os outliers são definidos como valores que estão abaixo do limite inferior (Q1–1,5 * IQR) ou acima do limite superior (Q3 + 1,5 * IQR). IQR = Q3 - Q1. 3. Método do Desvio Padrão: são outliers pontos que estão a mais de 2,5 dp da média 4. Teste de Z-Score: são outliers pontos em que Z >= 3 (3 ou mais desvios padrões da média) 5. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): É um método de clustering em que os pontos são agrupados com base em sua densidade, e pontos que ficam isolados em regiões com baixa densidade são rotulados como ruído ou outliers. O método é útil para conjuntos de dados com distribuições não lineares e não gaussianas.

Answer 122

1. Identificar e remover outliers (Trimming): Esta é uma das maneiras mais simples de tratar outliers. Identifique os valores que se desviam significativamente do resto dos dados e remova-os do conjunto de dados. No entanto, isso pode levar à perda de informações valiosas e não é uma abordagem muito recomendada em pequenos datasets. 2. Transformar os dados A transformação dos dados pode ser útil para tratar outliers, especialmente se os dados seguirem uma distribuição assimétrica. Algumas técnicas comuns de transformação incluem logaritmo, raiz quadrada, exponencial, entre outras. 3. Agrupar os dados Se os outliers representam erros de medição ou erros de entrada de dados, pode ser útil agrupar os dados em intervalos mais amplos. Isso pode ajudar a reduzir a influência dos outliers nos resultados finais. 4. Percentile based flooring and capping Essa técnica utiliza os percentis para definir limites inferiores (flooring) e superiores (capping) para os dados.

Answer 123

* Hold-out: Hold-out é uma técnica de validação simples e direta usada para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira: Divisão dos Dados: O conjunto de dados é dividido em duas partes: um conjunto de treinamento e um conjunto de teste. Normalmente, uma proporção comum é 80% para treinamento e 20% para teste, mas essa divisão pode variar dependendo do problema e da quantidade de dados disponíveis. Treinamento: O modelo é treinado usando apenas o conjunto de treinamento. Avaliação: O desempenho do modelo é avaliado usando o conjunto de teste. As métricas de avaliação (como acurácia, precisão, recall, F1-score, etc.) são calculadas para entender como o modelo generaliza para dados não vistos. Vantagens: Simplicidade e facilidade de implementação. Rápido e computacionalmente eficiente, pois o modelo é treinado apenas uma vez. Desvantagens: Pode levar a uma estimativa instável do desempenho do modelo, especialmente se o conjunto de dados for pequeno ou não representativo. A avaliação depende fortemente da divisão dos dados; diferentes divisões podem resultar em diferentes métricas de desempenho. * K-fold Cross-Validation K-fold cross-validation é uma técnica mais robusta e confiável para avaliar o desempenho de um modelo de aprendizado de máquina. A abordagem funciona da seguinte maneira: Divisão dos Dados: O conjunto de dados é dividido em k partes (ou folds) de tamanhos aproximadamente iguais. Treinamento e Avaliação: O processo é repetido k vezes. Em cada repetição, um fold diferente é usado como conjunto de teste, enquanto os k−1 folds restantes são usados como conjunto de treinamento. Por exemplo, com k=10k = 10 k=10, o conjunto de dados é dividido em 10 partes. Em cada uma das 10 iterações, 9 partes são usadas para treinamento e 1 parte é usada para teste. Agregação dos Resultados: As métricas de desempenho (como acurácia, precisão, recall, F1-score, etc.) são calculadas para cada iteração e, em seguida, a média dessas métricas é usada para obter uma estimativa mais estável e confiável do desempenho do modelo. Vantagens: Fornece uma avaliação mais robusta e confiável do desempenho do modelo, pois todos os dados são usados tanto para treinamento quanto para teste em diferentes iterações. Reduz a variabilidade nas estimativas de desempenho que pode ocorrer com uma única divisão dos dados. Desvantagens: Mais computacionalmente intensivo, pois o modelo precisa ser treinado k vezes. Pode ser complexo de implementar em alguns casos. -> Comparação: Hold-out é rápido e simples, ideal para conjuntos de dados grandes onde uma única divisão é suficiente para obter uma estimativa razoável do desempenho do modelo. K-fold cross-validation é mais robusto e confiável, especialmente útil para conjuntos de dados menores ou quando se deseja uma avaliação mais precisa e menos dependente de uma única divisão dos dados.

Answer 124

Como o próprio nome diz: deixar um de fora. O método consiste em realizar o treinamento com n-1 dados e testar com o restante, esse processo é repetido n vezes, cada vez deixando um dado diferente de fora para teste. A estimativa de erro é a média do erro de cada rodada Este método é exaustivo, ou seja, testa todas as possibilidades. Estimativa menos enviesada, ou seja, estará bem próxima da realidade Alta variância entre os n testes (erro assume apenas 0 e 1) Alto custo computacional (n treinamentos e testes de classificadores)

Answer 125

K-fold cross validation

Answer 126

Bootstrapping is a resampling technique that helps in estimating the uncertainty of a statistical model. It includes sampling the original dataset with replacement and generating multiple new datasets of the same size as the original. Each of these new datasets is then used to calculate the desired statistic, such as the mean or standard deviation. This process is repeated multiple times, and the resulting values are used to construct a probability distribution for the desired statistic. This technique is often used in machine learning to estimate the accuracy of a model, validate its performance, and identify areas that need improvement. Características: Variância menor; Computacionalmente caro dependendo do número de experimentos e do tamanho das amostras de treino e teste Útil quando a amostra original é pequena Maior controle sobre o viés