CIÊNCIA DE DADOS Flashcards

1
Q

O problema de underfitting ocorre quando o modelo não se ajusta aos dados de treinamento, enquanto o overfitting ocorre quando o modelo não se ajusta a novos dados.

A

CERTO

Overfitting:
Excesso de dados (ruidosos)
Desempenho Excelente no treinamento
Desempenho ruim no teste, pois não se ajusta a novos dados

Underfitting:
Poucos dados
Desempenho ruim já no treinamento
Não consegue encontrar relação entre as variáveis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O aprendizado supervisionado utiliza a regressão para entender a relação entre variáveis dependentes e independentes.

A

CERTO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aprendizado de máquina pode ser definido como a criação e o uso de modelos que são aprendidos a partir dos dados.

A

CERTO

é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos computacionais que aprendem padrões e relações a partir de dados, sem uma programação explícita.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Um dos autores mais influentes em machine learning, Tom Mitchell, destaca três elementos-chave do Aprendizado de Máquina:
1. Experiência: ……………………………
2. Tarefa:……………………
3. Medida de desempenho: ……………………….

A
  1. Experiência: dados de entrada para treinar o algoritmo
  2. Tarefa: atividade de execução: como classificação, previsão, agrupamento, etc.
  3. Medida de desempenho: métrica de avaliação para quantificar o quão bem o algoritmo está realizando a tarefa
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

O aprendizado ……………………… é um dos tipos mais comuns de aprendizado de máquina, onde o algoritmo é treinado em um conjunto de dados rotulados, ou seja, cada exemplo de treinamento possui uma entrada e a saída desejada correspondente. Um exemplo prático é um modelo de classificação de e-mails, onde o algoritmo é treinado com exemplos rotulados de e-mails como spam ou não spam.

A

supervisionado

o algoritmo recebe feedback explícito sobre sua saída em relação às saídas esperadas. Essa supervisão permite que o algoritmo ajuste seus parâmetros iterativamente para minimizar a discrepância entre suas previsões e os rótulos verdadeiros dos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

…………………………..é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída.

A

Aprendizado de máquina é um subcampo da inteligência artificial que consiste no treinamento de modelos computacionais para que possam reconhecer padrões e, a partir de um conjunto de dados de entrada, prever o valor de uma variável de saída. Em relação ao aprendizado de máquina, julgue o item a seguir.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

…………………………. é uma representação simplificada de um sistema complexo que é usado para facilitar a compreensão, análise ou previsão desse sistema. Em aprendizado de máquina, é uma função matemática que relaciona entradas de dados a saídas esperadas.

A

MODELO

O objetivo do treinamento do modelo é encontrar os parâmetros que melhor ajustam os dados de treinamento, de modo que o modelo possa fazer previsões precisas sobre novos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

……………………….: São os parâmetros de nível superior que você define manualmente antes de iniciar o treinamento, que se baseiam em propriedades como as características dos dados e a capacidade de aprendizado algoritmo.

A

HIPERPAR METROS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Um fluxo ou pipeline de um projeto de aprendizado de máquina pode ser exemplificado nas seguintes etapas:
1) Ingestão de dados
2)
3)
4)
5)
6)

A

1) Ingestão de dados
2) Exploração de dados
3) Processado dos dados
4) Treinamento do modelo
5) Validação e análise do modelo
6) Deployment do modelo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O objetivo dos modelos de Aprendizado de Máquina é estimar a função que melhor se ajusta aos dados de entrada para realizar previsões corretas de forma generalizada. Para avaliar e otimizar o desempenho do modelo, consideramos dois aspectos fundamentais: …………………….. e …………………

A

viés e variância.

Ambos têm impacto direto no desempenho do modelo e na sua capacidade de generalização para novos dados. Um modelo com alto viés e baixa variância tende a subestimar a complexidade dos dados, enquanto um modelo com baixo viés e alta variância pode estar superajustando aos dados de treinamento, não generalizando bem para novos dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Overfitting está relacionado a ……………….. viés e ………………… variância.

A

Baixo Viés e Alta Variância - O modelo está superestimando (overfitting) nos dados de treino e não generaliza bem com dados novos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Underfiting está relacionado a ……………….. viés e ………………… variância.

A

Alto Viés e Baixa Variância - O modelo está subestimando (underfitting) nos dados de treino e não captura a relação verdadeira entre as variáveis preditoras e a variável resposta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Para evitar o overfitting, existem algumas estratégias:

1)
2)
3)

A
  1. Simplificar o modelo
  2. Aumentar o tamanho do conjunto de treinamento
  3. Reduzir o ruído nos dados de treinamento: Corrigir erros nos dados e remover outliers podem ajudar a reduzir o ruído e melhorar a capacidade de generalização do modelo.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

…………………………. - Uma tabela NxN que resume o sucesso das previsões de um modelo de classificação; ou seja, a correlação entre o rótulo e a classificação do modelo. Um eixo de uma matriz de confusão é o rótulo que o modelo previu e o outro eixo é o rótulo real. N representa o número de classes. Em um problema de classificação binária, N=2

A

Matriz de confusão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

A Matriz de confusão é uma tabela NxN que resume o sucesso das previsões de um modelo de …………………….

A

classificação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

A ………………………….. permite avaliar o desempenho de um modelo de classificação a partir da frequência de erros e acertos.

A

matriz de confusão

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Dropout - Uma forma de regularização útil no treinamento de redes neurais. Funciona removendo uma seleção aleatória de um número fixo de unidades em uma camada de rede para uma única etapa de gradiente.

A

CERTO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

A regressão ………………………. é usada para problemas de classificação binária, onde a saída é uma variável categórica com duas classes. Por exemplo, prever se um e-mail é spam ou não.

A

Regressão Logística

Utilizada para problemas de classificação binária, onde o objetivo é prever uma das duas classes possíveis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

…………………………………… é uma técnica estatística utilizada para modelar a relação entre uma variável dependente categórica binária (ou multinomial) e uma ou mais variáveis independentes. Ela é frequentemente empregada em situações em que estamos interessados em prever a probabilidade de ocorrência de um evento, como prever se um paciente tem uma determinada doença com base em suas características clínicas.

A

regressão logística

Os parâmetros do modelo de regressão logística são estimados usando técnicas de máxima verossimilhança ou métodos de mínimos quadrados. O objetivo é encontrar os valores dos coeficientes de regressão que maximizam a verossimilhança dos dados observados. Este processo é realizado iterativamente até que a convergência seja alcançada.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

O aprendizado SUPERVISIONADO e NÃO SUPERVISIONADO dividem-se em quais técnicas?

A

SUPERVISIONADO:
1) Técnicas de Classificação
2) Técnicas de Regressão

NÃO SUPERVISIONADO:
1) Técnicas de Agrupamento
2) Técnicas de Redução de Dimensionalidade
3) Técnicas de Associação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Cite 7 tarefas/técnicas de CLASSIFICAÇÃO

A

1) Regressão Logística
2) Máquinas de Vetores de Suporte (SVM)
3) K-Vizinhos Mais Próximos (KNN)
4) Árvores de Decisão
5) Florestas Aleatórias
6) Redes Neurais
7) Naive Bayes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

O modelo de regressão logística …………………… é diferente porque trabalha com o conceito de categorias ordenadas. Neste caso, os objetos são classificados em três ou mais classes que possuem uma ordem já determinada. Por exemplo, o desempenho do atleta é ruim, justo ou excelente. Outro exemplo: o grau de satisfação do paciente com o tratamento é insatisfeito, satisfeito ou muito satisfeito.

A

ORDINAL

REGRESSÃO LOGÍSTICA BINOMINAL - Duas classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA ORDINAL - Tres ou mais classes de forma Ordenadas.
REGRESSÃO LOGÍSTICA MULTINOMIAL -Tres ou mais classes que NÃO possui Ordem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Qual é a técnica que pode ser utilizada para sugerir que aqueles clientes que compraram o produto A também compraram o produto B, ou que aqueles clientes que compraram os produtos A, B e C são mais similares que os clientes que compraram o produto A?

A

Regras de associação: identificação de grupos de dados que apresentam co-ocorrência entre si, por exemplo, uma cesta de compras. A tarefa de descoberta de associações compreende a busca por itens que frequentemente ocorrem de forma simultânea em uma quantidade mínima de transações do conjunto de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Qual técnica e tarefa?

A analista Carla implementou uma solução algorítmica que classifica os novos processos submetidos à PGM de Niterói em níveis de indício de fraude. Para atingir este objetivo, Carla se baseou no algoritmo de machine learning para classificação que atribui, necessariamente, um valor no intervalo numérico de 0 a 1 para cada entrada. Carla utilizou como base o algoritmo de machine learning: ……………………….

A

Técnicas de Classificação - Regressão Logística

REGRESSAO LOGISTICA é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Qual técnica e tarefa?

Utilizam hiperplanos para separar dados em diferentes classes. Podem ser usadas tanto para classificação binária quanto para múltiplas classes. É eficaz em problemas de classificação e pode lidar com conjuntos de dados complexos.

A

Técnicas de Classificação - Máquinas de Vetores de Suporte (SVM)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

No SVM (Máquina de Vetor de Suporte), o …………………….. é uma reta que separa os dados com uma margem.

A

hiperplano

Os pontos mais próximos da fronteira são colocados numa linha pontilhada para a classificação, ou seja, depois da linha não há mais círculos e quadrados. As duas linhas no ponto de fronteira, são chamados de vetores de suporte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Os modelos implementados a partir dos algoritmos de Máquina de Vetor de Suporte utilizam funções kernel, conferindo como vantagem capacidade de lidar com dados não …………………

A

Não Lineares

Kernel é basicamente o nome dado a função que o SVM vai usar para deduzir relações.
Kernel LINEAR ajuda a prevenir overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Em redes neurais, a ………………………….. simula o comportamento de um neurônio biológico ao decidir disparar ou inibir sinais, dependendo de sua lógica interna. O valor de saída é então despachado para todas as unidades receptoras conforme determinado pela topologia subjacente.

A

função de ativação

a função de ativação permite que uma alteração pequena nos pesos cause apenas uma pequena alteração no output… isso somado com a característica de poder decidir se um neurônio será ativado ou não, faz com que a rede possa aprender padrões complexos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

As redes neurais …………………….. são incríveis porque conseguem aprender automaticamente características importantes em diferentes partes de uma imagem, como bordas, texturas e formas. Isso as torna perfeitas para tarefas como identificação de objetos em fotos, reconhecimento facial e outras coisas legais.

A

Redes Neurais Convolucionais (CNN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Em redes neurais completamente conectadas, também conhecidas como redes ……………………….., todos os neurônios de uma camada estão conectados aos neurônios da camada seguinte.

A

neurais densas ou fully connected

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

As redes neurais feedforward são essencialmente funções complexas que mapeiam uma
entrada para uma saída correspondente, aprendendo a distribuição subjacente dos dados
durante o treinamento. Durante o processo de treinamento, a ………………………. é usada
para atualizar os parâmetros do modelo, reduzindo a perda e aproximando melhor a
distribuição dos dados.

A

retropropagação

a camada final pode enviar informações para as anteriores a fim de melhorar o processo de aprendizado

O algoritmo de retropropagação padrão é uma otimização de primeira ordem. Sua convergência é altamente sensível ao tamanho da rede, ao nível de ruído nos dados e à escolha da taxa de aprendizagem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

As redes neurais …………………….. são essencialmente funções complexas que mapeiam uma
entrada para uma saída correspondente, aprendendo a distribuição subjacente dos dados
durante o treinamento. Durante o processo de treinamento, a retropropagação é usada
para atualizar os parâmetros do modelo, reduzindo a perda e aproximando melhor a
distribuição dos dados.

A

feedforward

As conexões entre as camadas de uma rede neural do tipo o MLP (Multi Layer Percetron) são de natureza feedfoward.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

No contexto de Redes Neurais, o ………………….. é simplesmente uma função matemática que recebe um conjunto de entradas, realiza alguns cálculos matemáticos e produz o resultado do cálculo.

A

Perceptron

um perceptron é representado por um conjunto de parâmetros que incluem pesos, w e um viés. É capaz de classificar padrões simples em duas classes, formando uma região de decisão de meio plano. Um único perceptron, entretanto, é incapaz de separar padrões de entrada que requerem limites de decisão mais complexos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Os mapas de Kohonen fazem parte das redes neurais auto-organizáveis, as quais se caracterizam por dividir o conjunto de padrões de entrada em grupos inerentes aos dados, formando-se agrupamentos denominados CLUSTERS.

A

CERTO

As redes de Kohonen são um tipo de rede neural que realiza armazenamento em cluster, também conhecido como knet ou mapa de auto-organização. Este tipo de rede pode ser utilizado para armazenar em cluster o conjunto de dados em grupos distintos quando você não souber quais desses grupos estão no início.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Em Redes Neurais, o backpropagation é uma técnica de busca de gradiente que minimiza uma função de custo entre as saídas desejadas e aquelas geradas pela rede (loss). O objetivo é estabelecer uma relação funcional para um determinado problema, ajustando os …………………. entre os neurônios.

A

PESOS

backpropagation pode ser considerado a pedra angular das redes neurais modernas e aprendizagem profunda. Fundamentalmente, backpropagation é uma técnica para calcular derivadas rapidamente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

O Algoritmo KNN (K-Vizinhos mais próximos) é um classificador de aprendizado supervisionado e não paramétrico (as entradas e as saídas de dados não precisam de uma função matemática específica, isto é, para cada novo dado que se deseja classificar, utiliza-se o conjunto de dados de treinamento original para calcular.)

A

CERTO

Baseado em distância que pode ser utilizado tanto para classificação quanto para regressão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

As árvores de decisão possuem significativa dependência dos dados de treinamento, portanto, são instáveis, pois pequenas alterações nos dados de treino produzem novas árvores.

A

CERTO

algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E REGRESSÃO, devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa DEPENDÊNCIA dos dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E ………………….., devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa …………………… dos dados

A

Algoritmos de árvores de decisão são do tipo SUPERVISIONADO e podem ser utilizados em tarefas de CLASSIFICAÇÃO E REGRESSÃO, devendo ser PREVIAMENTE CATEGORIZADOS e PODENDO SER REAGRUPADOS
OU SEJA…APRESENTANDO significativa DEPENDÊNCIA dos dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

A árvore de decisão é um algoritmo preditivo, ou seja, ela nem sempre acerta na previsão de uma classe para uma instância do modelo.

A

CERTO

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

A árvore de decisão é semelhante a um monte de instruções ………., um algoritmo simples, mas elegante, com uma visualização muito intuitiva. É realmente fácil entender o que está acontecendo, ao contrário das redes neurais. Além disso, pouco ou nenhum préprocessamento de dados é necessário.

A

if-else

Como o nome sugere, é uma árvore, portanto, começa com um nó raiz, que é um dos recursos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Em um modelo para um aprendizado supervisionado dos dados no formato de uma árvore de decisão, um algoritmo de construção da árvore busca minimizar a informação necessária para classificar os dados nas partições da árvore.

A

CERTO

O algoritmo procura dividir os dados em partes (nós) de modo a reduzir a incerteza na classificação dos dados. Portanto, o objetivo é minimizar a informação necessária para classificar os dados com precisão, tornando a árvore de decisão eficaz na classificação de novos exemplos. Cada nó interno da árvore representa uma decisão com base em uma característica dos dados, enquanto as folhas representam resultados ou classificações.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Exemplos de Algoritmos utilizados na técnica de Árvores de Decisão:

1) ID3 (Iterative Dichotomiser 3): Usa ganho de informação para decidir os atributos que dividem os dados.
2) …………………….: Extensões do ID3 que lidam melhor com atributos contínuos e dados ausentes.
3) CART (Classification and Regression Trees): Utiliza o índice de Gini para classificação e redução de variância para regressão.

A

1) ID3 (Iterative Dichotomiser 3): Usa ganho de informação para decidir os atributos que dividem os dados.
2) C4.5 e C5.0: Extensões do ID3 que lidam melhor com atributos contínuos e dados ausentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

………………………..: É um método utilizado para separar (ou estratificar) um conjunto de dados de modo a perceber que existe um padrão. Consiste na divisão de um grupo em diversos subgrupos com base em fatores apropriados os quais são conhecidos como fatores de estratificação.

A

Estratificação

estratificar = separar em níveis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Em sistemas de suporte à decisão, uma das abordagens da árvore de decisão é a ……………………., em que são criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.

A

predição

Preditivas: Ajuda a prever cenários futuros com base na análise de padrões da base de dados. É possível tomar decisões mais precisas. Os métodos usados: dados estatísticos e históricos, mineração de dados e inteligência artificial

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

A árvore de decisão é uma técnica utilizada em mineração de dados cuja abordagem para a criação de regras para utilização nos próximos eventos é a estratificação.

A

ERRADO

Predição.

São criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Existem várias medidas de distância comumente usadas em problemas de aprendizado de máquina, cada uma adequada para diferentes tipos de dados e contextos. Quais são as duas mais populares?

A
  • Distância Euclidiana
  • Distância de Manhattan
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

O algoritmo random forest atribui a mesma importância para todas as variáveis ao fazer as predições.

A

ERRADO

A ideia da arvore de decisão é justamente construir regras colocando no topo as informações que proporciam o maior ganho de informação pra aquele contexto…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

O algoritmo random forest é um algoritmo de aprendizado de máquina supervisionado em que se agrupam os resultados de várias árvores de decisão de cada nó para se obter uma conclusão própria e aumentar a precisão do modelo, não sendo o referido algoritmo adequado para grandes conjuntos de dados.

A

ERRADO

é utilizado para grandes conjuntos de dados quando uma única árvore de decisão não consegue fazer a previsão correta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

………………………….: é um algoritmo que gera uma tabela de probabilidades a partir de uma técnica de classificação de dados. É usado para o machine learning, mas a técnica é famosa no meio acadêmico da estatística.

A

Naive Bayes

Seu racional é baseado nos estudos de Thomas Bayes e “naive” significa ingênuo, uma referência a linha de análise do algoritmo para as características da base de dados em questão.

50
Q

……………………. é um algoritmo de machine learning supervisionado que realiza classificação com base no princípio da independência condicional de classe, em que o algoritmo avalia o quanto ele contribuiu para classificar a instância como boa ou ruim, construindo uma tabela de probabilidades.

A

Naive bayes

O algoritmo Naive Bayes é utilizado para categorizar palavras com base na frequência; um exemplo do uso desse algoritmo é a classificação de e-mails como spam.

51
Q

Naive bayes é um algoritmo de machine learning supervisionado que realiza classificação com base no princípio da independência condicional de classe a partir do teorema de Bayes, em que o algoritmo avalia o quanto ele contribuiu para classificar a instância como boa ou ruim, construindo uma tabela de ……………………..

A

probabilidades

A principal característica do algoritmo, e também o motivo de receber “naive” (ingênuo) no nome, é que ele desconsidera completamente a correlação entre as variáveis, tratando-as de forma independente.

52
Q

…………………………. é um método probabilístico de aprendizado de máquina que utiliza as frequências das ocorrências em uma base de dados para prever uma variável de interesse. O algoritmo a ser implementado depende da natureza dos dados manipulados.

A

Naive Bayes

O algoritmo Naive Bayes é utilizado para categorizar palavras com base na frequência; um exemplo do uso desse algoritmo é a classificação de e-mails como spam.

53
Q

A aprendizagem SVM - Máquinas de Vetores de Suporte combina aspectos da aprendizagem do vizinho mais próximo baseada em instância, e a modelagem de …………………. . A combinação é extremamente poderosa, permitindo que os SVMs modelem relacionamentos altamente complexos.

A

regressão linear, que busca estabelecer uma relação linear entre uma variável de entrada e uma variável de saída

54
Q

…………………… : Modela a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. O sistema aprende os coeficientes que melhor ajustam os dados de treinamento a uma linha ou plano, e esse modelo é usado para prever valores para novos pontos de dados.

A

Regressão Linear

É um modelo que busca estabelecer uma relação linear entre uma variável de entrada e uma variável de saída. São comumente usados para prever valores contínuos, como preços de imóveis ou temperatura.

55
Q

A …………………………. é uma técnica estatística utilizada para entender a relação entre uma variável dependente (ou resposta) e uma ou mais variáveis independentes (ou preditoras).

A

regressão linear

A ideia por trás da regressão linear é encontrar a melhor linha reta que represente essa relação de forma aproximada.

56
Q

………………………. é uma técnica estatística fundamental para modelar a relação entre variáveis e fazer previsões com base nessa relação. É amplamente utilizada em diversos campos, incluindo ciências sociais, economia, engenharia e ciências da saúde, entre outros.

A

Regressão Linear

É um modelo que busca estabelecer uma relação linear entre uma variável de entrada e uma variável de saída. São comumente usados para prever valores contínuos, como preços de imóveis ou temperatura.

57
Q

O modelo Bernoulli Naive Bayes é adequado para dados categóricos binários, como aqueles que foram codificados em ONE-HOT. Neste modelo, cada atributo é considerado uma variável aleatória binária e é assumido que cada uma delas é independente das outras variáveis dada a classe.

A

CERTO

ONE-HOT = BINÁRIO 0 OU 1 = BERNOULLI

58
Q

…………………….. é o método mais utilizado de análise preditiva; nela, são usadas relações lineares entre uma variável dependente (destino) e uma ou mais variáveis independentes (preditores) para prever o futuro do destino.

A

A regressão linear

A Regressão Linear é um algoritmo de aprendizado supervisionado utilizado para modelar a relação entre uma variável dependente (y) (resposta) e uma ou mais variáveis independentes (x) (explicação). O objetivo é encontrar uma equação linear que melhor se ajuste aos dados e seja capaz de prever.

59
Q

Para classificar os processos tramitados no TJ-AC em duas categorias (deferidos e indeferidos), um analista escolheu um algoritmo que divide os dados de entrada em duas regiões separadas por uma linha e resulta em uma simetria na classificação, de forma que o ponto mais próximo de cada classe está a uma distância d do ponto médio entre os dois grupos de classe (hiperplano). O algoritmo descrito é denominado:

A

SVM (máquina de vetores de suporte), esse algoritmo pode ser usado pra classificação ou regressão, e visa encontrar o hiperplano que melhor divide os dados em diferentes classes… consegue aprender conceitos não presentes nos dados originais e faz o uso de kernel trick

60
Q

A analista Carla implementou uma solução algorítmica que classifica os novos processos submetidos à PGM de Niterói em níveis de indício de fraude. Para atingir este objetivo, Carla se baseou no algoritmo de machine learning para classificação que atribui, necessariamente, um valor no intervalo numérico de 0 a 1 para cada entrada. Carla utilizou como base o algoritmo de machine learning:

A

REGRESSAO LOGISTICA: é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente BINÁRIA, a partir de uma série de variáveis explicativas contínuas e/ou binárias.

61
Q

__________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas (dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias.

A

Regressão Linear – Regressão Logística

Falou em estatística e dependência de variáveis é Regressão Logística!

62
Q

A ……………………………… ocorre quando duas ou mais variáveis independentes encontram-se altamente correlacionadas, causando instabilidade na estimação dos parâmetros e pode comprometer a interpretação dos modelos de regressão. Uma técnica alternativa para lidar com isso é a análise de componentes principais, que atua promovendo uma transformação linear nos dados, transformando um conjunto de variáveis inicialmente correlacionadas em um conjunto de variáveis descorrelacionadas.

A

multicolinearidade

63
Q

A tarefa de regressão em aprendizado de máquina envolve prever um valor contínuo com base
em um conjunto de características.

A

CERTO

vide a a regressão linear, que é um algoritmo que é utilizado para prever um valor contínuo baseado em um conjunto de atributos. Ele assume que existe uma relação linear entre os atributos e o valor que está sendo estimado, e ajusta os pesos dos atributos de forma a minimizar o erro de estimação.

64
Q

Em contraste com a regressão linear simples, onde se ajusta uma linha reta aos dados, a regressão …………………… permite modelar relações mais complexas entre a variável independente (explicativa) e a variável dependente (resposta).

A

polinomial

Extensão da regressão linear que pode modelar relações não lineares.

65
Q

Apesar da Regressão Logística ser usada para classificação, a função logística modela a probabilidade de uma variável binária.

A

CERTO

66
Q

Uma das vantagens da técnica de árvore de decisão para regressão é evitar a propagação de erros, mesmo que uma divisão ocorra indevidamente.

A

ERRADO

Independentemente de ser escolhida uma árvore para classificação ou para regressão não é possível evitar os erros, a ideia é ter o mínimo de erros possíveis, agora evitar é praticamente impossível.

67
Q

A regressão tem como objetivo a obtenção de uma equação que relacione uma variável de resposta a uma ou mais variáveis explicativas.

A

CERTO

Na regressão nós iremos prever números, possibilidades..

→ Uma vez construído o modelo (que é uma equação matemática), ele pode ser utilizado para realizar predições ou calcular probabilidades.
→ Exemplo sobre regressão: Quando o Google consegue estimar e prever o número de pessoas que vão ter resfriado, com base nas pesquisas que foram realizadas.

68
Q

Informações históricas podem ser obtidas por meio de tendencies, as quais são calculadas a partir da aplicação de algoritmos de regressão linear.

A

CERTO

69
Q

O aprendizado supervisionado utiliza a regressão para entender a relação entre variáveis dependentes e independentes.

A

CERTO

No aprendizado supervisionado, a regressão é usada para entender e modelar a relação entre variáveis dependentes (resposta) e independentes (preditoras).

70
Q

As técnicas de regressão utilizam um conjunto finito de hipóteses para, a partir dos atributos previsores, determinar a categoria de um objeto do conjunto de dados analisado.

A

ERRADO

As técnicas de CLASSIFICAÇÃO utilizam um conjunto finito de hipóteses para, a partir dos atributos previsores, determinar a categoria de um objeto do conjunto de dados analisado.

71
Q

Em machine learning, os sistemas podem usar aprendizado do tipo supervisionado, não supervisionado, autônomo ou gerenciado.

A

ERRADO

Os principais tipos de aprendizado em machine learning são:

Aprendizado Supervisionado
Aprendizado Não Supervisionado
Aprendizado por Reforço

72
Q

A tarefa do agrupamento consiste em segmentar uma base de dados não rotulada em grupos que tenham algum significado ou utilidade prática.

A

ERRADO

A tarefa do agrupamento, também conhecida como clustering, é segmentar uma base de dados não rotulada em grupos com base em alguma medida de SIMILARIDADE entre os dados. Estes grupos PODEM OU NÃO ter significado ou utilidade prática, e isso depende da análise de negócios ou interpretação que será feita após a aplicação do algoritmo de agrupamento.

73
Q

As técnicas de agrupamento têm por objetivo fazer a previsão de um atributo alvo a partir do agrupamento de dados que compartilhem padrões semelhantes.

A

ERRADO

Agrupamento não é uma técnica preditiva e sim DESCRITIVA.

74
Q

O método de clustering k-means objetiva particionar ‘n’ observações entre ‘k’ grupos; cada observação pertence ao grupo mais próximo da média.

A

CERTO

K - means -> média
K - mods -> moda
K - medoids -> mediana

75
Q

Os algoritmos C4.5 e K-Means, muito utilizados para descoberta de conhecimento através de mineração de dados, são algoritmos de respectivamente …………………

A

classificação e agrupamento (clustering)

76
Q

No algoritmo K-means, a similaridade intragrupo é avaliada considerando-se o valor médio dos objetos em um grupo, que pode ser visto como o seu centro de gravidade ou o ……………………

A

CENTROIDE

Esses centróides devem ser colocados de forma inteligente, pois a localização diferente causa resultados diferentes.

77
Q

K-means é um algoritmo de aprendizado não supervisionado, em que se calcula a distância entre os objetos da base e cada um dos centroides; em que se atribui cada objeto ao centroide mais próximo; e em que se classifica cada item para sua média mais próxima.

A

CERTO

O algoritmo de k-means utiliza uma métrica de similaridade da distância entre um registro e um centroide de cluster.

78
Q

O algoritmo k-means seleciona objetos reais de uma base de dados como centroide do grupo para realizar o agrupamento de objetos semelhantes.

A

ERRADO

O algoritmo k-means não seleciona objetos reais da base de dados como centroides iniciais. A escolha inicial dos centroides é feita de forma aleatória. No início do algoritmo, k centroides são escolhidos aleatoriamente a partir do conjunto de dados ou por meio de uma estratégia específica, mas não são necessariamente objetos reais da base de dados. A partir dessa inicialização, o algoritmo procede iterativamente, atribuindo pontos aos clusters, recalculando os centroides e repetindo até a convergência.

79
Q

O DBSCAN é um algoritmo de aprendizado …………………….. que forma clusters com base em regiões ………………….. povoadas.

A

O DBSCAN (Density-Based Spatial Clustering of Applications With Noise) é um algoritmo de aprendizado NÃO SUPERVISIONADO que forma clusters com base em regiões DENSAMENTE povoadas.

80
Q

Cite 5 algoritmos de Técnicas de Agrupamento/Clustering

A

1) K-Means
2) Hierarchical Clustering
3) DBSCAN
4) Mean Shift
5) Gaussian Mixture Models (GMM)

81
Q

As técnicas de ……………………………… são usadas para reduzir o número de variáveis (ou dimensões) nos dados, preservando ao máximo a informação relevante.

A

Técnicas de Redução de Dimensionalidade

Redução de Dimensionalidade uma tarefa cujo objetivo é simplificar os dados sem perder muitas informações. Uma maneira de fazer isso é mesclar vários recursos correlacionados em um.

82
Q

……………………………. é uma tarefa cujo objetivo é simplificar os dados sem perder muitas informações. Uma maneira de fazer isso é mesclar vários recursos correlacionados em um.

A

Redução de dimensionalidade

são usadas para reduzir o número de variáveis (ou dimensões) nos dados, preservando ao máximo a informação relevante.

83
Q

A ……………………………… produz novos dados que capturam as informações mais importantes contidas nos dados de origem. Em vez de agrupar dados em clusters enquanto retêm os dados originais, esses algoritmos transformam os dados com o objetivo de usar menos recursos para representar as informações originais.

A

redução da dimensionalidade

é uma tarefa cujo objetivo é simplificar os dados sem perder muitas informações. Uma maneira de fazer isso é mesclar vários recursos correlacionados em um.

84
Q

A redução de dimensionalidade acrescenta variáveis nos modelos de inteligência artificial para torná-los mais específicos e objetivos.

A

ERRADO

é uma tarefa cujo objetivo é simplificar os dados sem perder muitas informações. Uma maneira de fazer isso é mesclar vários recursos correlacionados em um.

85
Q

A Redução da Dimensionalidade é uma tarefa cujo objetivo é simplificar os dados sem perder muitas informações. Uma maneira de fazer isso é mesclar vários recursos correlacionados em um.

A

CERTO

são usadas para reduzir o número de variáveis (ou dimensões) nos dados, preservando ao máximo a informação relevante.

86
Q

O algoritmo que é especificamente associado a tarefas de classificação, cujo objetivo é classificar as instâncias em classes predefinidas com base em características ou atributos é …………………………..

A

árvores de decisão

Em sistemas de suporte à decisão, uma das abordagens da árvore de decisão é a predição, em que são criadas regras com base em eventos já ocorridos para aplicação em eventos futuros similares.

87
Q

Os sistemas de recomendação sugerem itens aos usuários com base em várias técnicas. Existem três tipos de mecanismos utilizados para oferecer conteúdo online:

A

filtragem colaborativa, filtragem baseada em conteúdo e o sistema híbrido

88
Q

……………………………. são aplicações que conseguem sugerir algo a uma pessoa, com a ajuda de uma predição probabilística de que ele vai gostar daquilo. Envolve uma análise profunda que compreende padrões, correlações entre os dados e até mesmo a distância entre variáveis existentes na base de dados.

A

Sistemas de recomendação, ou algoritmos de recomendação

Dividem-sem em:
filtragem colaborativa, filtragem baseada em conteúdo e o sistema híbrido

89
Q

Qual abordagem de sistemas de recomendação?

São analisadas as interações passadas dos usuários com os produtos.

A

Filtragem colaborativa

Filtragem Colaborativa Baseada em Usuário: Recomenda itens que usuários semelhantes gostaram.
Filtragem Colaborativa Baseada em Item: Recomenda itens semelhantes aos que o usuário já gostou.

90
Q

Geralmente, Sistemas de Recomencação são desenvolvidos de forma não supervisionada, a partir de uma visão descritiva da base de dados. Ou seja, a pessoa cientista de dados passa um conjunto de dados sem saídas predefinidas para os sistemas. O objetivo é esperar que o sistema aprenda e extraia os padrões internos já existentes para gerar isso como saída.

A

CERTO

Temos várias formas de implementar uma aplicação de recomendação:
algoritmo apriori de regras de associação,
filtragem colaborativa
filtragem de conteúdo.
filtragem híbrida

91
Q

Qual abordagem de sistemas de recomendação?

São analisadas as interações passadas dos usuários com os produtos e recomenda itens/produtos que usuários semelhantes gostaram.

A

Filtragem Colaborativa Baseada em Usuário

92
Q

Qual abordagem de sistemas de recomendação?

São analisadas as interações passadas dos usuários com os produtos e recomenda itens/produtos semelhantes aos que o usuário já gostou.

A

Filtragem Colaborativa Baseada em Item/Produto

93
Q

Qual abordagem de sistemas de recomendação?

Agrupa produtos com base em características similares, como o gênero no caso de livros ou músicas. Então, é feita a recomendação a partir disso: quem gostou do item X do gênero A deve gostar também de Y do gênero A

A

Filtragem Baseada em Conteúdo

94
Q

Qual abordagem de sistemas de recomendação?

Recomenda itens com base nas características do item/produto e nas preferências do usuário.

A

Filtragem Baseada em Conteúdo

95
Q

Existem várias formas de paralelizar operações em ciência de dados. Cite 4 formas e a diferença.

A
  1. Paralelização de Dados: os dados são divididos em partes menores e cada parte é processada independentemente por um núcleo de processamento ou por um computador diferente
  2. Paralelização de Tarefas: diferentes partes do processo de análise de dados são executadas simultaneamente em diferentes núcleos de processamento ou máquinas
  3. Paralelização de Modelo: algoritmos de machine learning podem ser paralelizados internamente.
  4. Paralelização de Memória: distribui-se os dados em diferentes segmentos de memória e permitindo que diferentes núcleos acessem esses segmentos simultaneamente.
96
Q

Na computação paralela, todos os processadores estão presentes no mesmo circuito integrado.

A

CERTO

Nesse paradigma, todos os recursos do computador estão centralizados em um único sistema físico. Todos os recursos, como processadores, memória e armazenamento, são compartilhados e fortemente acoplados em um único sistema operacional integrado.

Ex: cpu multi nucleo/threads

97
Q

Na computação paralela, todos os recursos do computador estão centralizados em um único sistema físico.

A

CERTO

Todos os recursos, como processadores, memória e armazenamento, são compartilhados e fortemente acoplados em um único sistema operacional integrado.

98
Q

Na computação distribuída, cada processador encontra-se geograficamente separado por longas distâncias.

A

ERRADO

Um sistema distribuído consiste em vários computadores autônomos, cada um com sua própria memória privada, comunicando-se através de uma rede de computadores.
Não necessariamente estão distribuídos geograficamente por longas distâncias

99
Q

Na computação distribuída, um conjunto de computadores independentes entre si que apresentam a seus usuários como um sistema único e coerente

A

CERTO

A troca de informações em um sistema distribuído é realizada por meio de mensagens. Um programa de computador executado em um sistema distribuído é conhecido como programa distribuído.

100
Q

A computação ……………………….. consiste em vários computadores autônomos, cada um com sua própria memória privada, comunicando-se através de uma rede de computadores.

A

Distribuída

A troca de informações em um sistema distribuído é realizada por meio de mensagens.

101
Q

………………… é um método usado em processadores para executar múltiplas instruções simultaneamente. A técnica melhora o desempenho do sistema e funciona a partir da divisão de uma tarefa em partes menores, que podem ser processadas em conjunto.

A

Pipeline

O processamento paralelo é uma das principais vantagens do pipeline. Como mais de uma instrução pode ser executada ao mesmo tempo, um chip pode trabalhar de maneira mais eficiente.

102
Q

No contexto de processamento paralelo, o pipeline é um tipo de paralelismo a nível de instrução.

A

CERTO

Uma instrução é um comando dado a um computador para executar uma tarefa, como operações matemáticas (adição, subtração, multiplicação e divisão), operações lógicas (e, ou) e controle de fluxo (condições, repetições e desvios).

103
Q

A computação em nuvem (cloud computing) possibilita a computação ubíqua.

A

CERTO

ubíquo = onipresente; que pode ser encontrado em todos os lugares; que está em toda e qualquer parte.

104
Q

A computação em nuvem (cloud computing) é considerada uma commodity.

A

CERTO

Commodity se refere a uma “mercadoria’, ou seja, a computação em nuvem se tornou um comercio em grande escala.

105
Q

MapReduce é uma estrutura de execução distribuída baseada em Java que faz parte do ecossistema Apache Hadoop. Desenhado para processar grandes volumes de dados em paralelo, divide o trabalho em um conjunto de tarefas independentes.

A

CERTO

106
Q

Problemas que envolvem o tratamento de grandes conjuntos de dados têm como solução ideal o uso de um modelo de processamento paralelo e distribuído que se adapta a qualquer volume e grau de complexidade. Esse é o caso do MapReduce, uma técnica que abstrai os detalhes de paralelização e distribuição do processamento de dados, que pode ser utilizada em aplicações que necessitem dessas características, como ocorre com algumas abordagens não triviais, a exemplo do tratamento do “big data” e do processamento de algoritmos de alta complexidade e escalabilidade.

A

CERTO

107
Q

O Hadoop MapReduce possui diversas bibliotecas para manipulação e serialização de arquivos e pode ser utilizado para disponibilizar integrações de interface para outros sistemas.

A

ERRADO

Ele é desenhado para processar grandes volumes de dados em paralelo, divide o trabalho em um conjunto de tarefas independentes.

108
Q

Quando são utilizados multiprocessadores simétricos, há uma cópia do sistema operacional em memória, que qualquer CPU pode executar.

A

CERTO

Esse modelo equilibra processos e a memória dinamicamente.

Nesse tipo de arquitetura, vários processadores idênticos compartilham acesso uniforme à memória principal e a outros recursos do sistema.

109
Q

No modelo de computação em grid, diversos nodos de processamento são coordenados para operarem como se fossem um único sistema, por meio de técnicas de compartilhamento de memória secundária.

A

ERRADO

Quem compartilha memória secundária ou primária são sistemas fortemente acoplados. Grid é um sistema fracamente acoplado que troca mensagens, pacotes através da rede de computadores para um processamento muito grande.

110
Q

Arquiteturas de Computação em Cluster: são uma abordagem popular para construir sistemas de computação de alto desempenho, nos quais vários computadores independentes, conhecidos como ……………….., são interconectados para trabalhar juntos como uma única entidade coesa.

A

nós

Um cluster é composto por vários nós de computação individuais, que podem variar de servidores de alta potência a computadores desktop comuns. Cada nó possui seu próprio processador, memória, armazenamento e sistema operacional.

111
Q

Um nó é composto por vários clusters de computação individuais, que podem variar de servidores de alta potência a computadores desktop comuns. Cada cluster possui seu próprio processador, memória, armazenamento e sistema operacional.

A

ERRADO

Um cluster é composto por vários nós de computação individuais, que podem variar de servidores de alta potência a computadores desktop comuns. Cada nó possui seu próprio processador, memória, armazenamento e sistema operacional.

112
Q

Um cluster é composto por vários ……………………. de computação individuais, que podem variar de servidores de alta potência a computadores desktop comuns.

A

NÓS

Cada nó possui seu próprio processador, memória, armazenamento e sistema operacional.

113
Q

Multiprocessamento Simétrico X Cluster X Grid

Vários processadores compartilhando uma única memória e sistema
operacional

A

SMP (Multiprocessamento Simétrico)

114
Q

Multiprocessamento Simétrico X Cluster X Grid

Conjunto de computadores interconectados em uma rede local ou em um data center

A

Cluster

114
Q

Multiprocessamento Simétrico X Cluster X Grid

Servidores de alta capacidade, estações de trabalho de alto desempenho.

A

SMP (Multiprocessamento Simétrico)

115
Q

Multiprocessamento Simétrico X Cluster X Grid

Clusters de Hadoop, clusters de computação científica, clusters de
computação em nuvem

A

Cluster

116
Q

Multiprocessamento Simétrico X Cluster X Grid

Computação em nuvem, projetos de pesquisa distribuída

A

Grid

117
Q
A
118
Q
A
119
Q
A
120
Q
A