Machine Learning Flashcards

1
Q

Quando surgiu o termo “Inteligência Artificial”?

A

Com John McCarthy em 1956.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual a diferença entre “artificial intelligence”, “machine learning” e “deep learning”?

A

A inteligência artificial trata de programas que podem sentir, raciocinar, agir e se adaptar a fim de imitar a inteligência humana por meio de diversas técnicas.
O aprendizado de máquina trata de algoritmos cujo desempenho melhoram à medida que eles são expostos a mais dados no decorrer do tempo.
O Aprendizado de Máquina (Machine Learning) é a ciência e a arte de programar computadores para que eles possam aprender com os dados, computadores tem a capacidade de aprender sem ser explicitamente programado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que é programação tradicional?

A

É aquele processo manual de escrever um conjunto de regras em uma sequência de passos – também chamado de algoritmo – utilizando uma linguagem de programação para que o computador as execute sobre um conjunto de dados de entrada a fim de produzir um conjunto de resultados de saída.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quanto mais exemplos de resultados você oferece a máquina, mais o algoritmo é treinado, mais regras são aprendidas e mais ajustado se torna o modelo.
Esse processo é chamado de:

A

treinamento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qual a etapa que vem após a etapa de treinamento? Descreva.

A

Etapa de inferência. Se utiliza uma programação bem próxima à programação tradicional com regras aprendidas na etapa anterior e novos dados para gerar inferir resultados. A inferência trabalha com probabilidades e não com afirmação. Ela vai dizer se determinado algoritmo tem baixa ou alta probabilidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quem “treina” os algoritmos?

A

O cientista de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qual a fase mais custosa, a de treinamento ou a de inferência?

A

A de treinamento porque será colocado a maior quantidade de dados possíveis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

CERTO OU ERRADO

A máquina pode aprender com seus erros e fazer inferência sobre dados.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O modelo (treinado) é um objeto computacional que efetivamente transforma uma observação (variáveis independentes) em uma (1) utilizando um (2), (3) e (4).

A

O modelo (treinado) é um objeto computacional que efetivamente transforma uma observação (variáveis independentes) em uma previsão utilizando um algoritmo específico, instanciado e treinado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é o Responsible IA (Inteligência Artificial Responsável)?

A

Uma abordagem para o desenvolvimento e uso de sistemas de Inteligência Artificial.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais os impactos que o Responsible IA leva em consideração?

A

Éticos, sociais e ambientais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais os objetivos da Responsible IA?

A

1) Garantir que os sistemas de IA sejam desenvolvidos e utilizados de forma ética e legalmente responsável, respeitando os direitos e privacidade das pessoas e minimizando os impactos negativos sobre a sociedade.
2) Promover a transparência e explicabilidade das decisões tomadas por sistemas de IA, permitindo que as pessoas entendam como as decisões foram tomadas e possam contestá-las se necessário.
3) Promover a equidade e inclusão, considerando aspectos sociais e garantindo que os sistemas de IA não discriminem ou prejudiquem grupos ou indivíduos e promovam a diversidade e a inclusão na IA.
4) Garantir a segurança e confiabilidade dos sistemas de IA, minimizando o risco de prejuízos para as pessoas ou a sociedade em geral.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qual a diferença entre IA Responsável e IA Explicável?

A

IA Explicável refere-se à capacidade de explicar como uma decisão foi tomada pelo modelo de IA para os usuários entenderem como foram feitas as tomadas de decisão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais os princípios e práticas da IA responsável?

A

Não há uma consolidação ainda. Mas são algumas das consideradas por grandes organizações:
- Transparência
- Explicabilidade ou Interpretabilidade
- Privacidade/Segurança
- Responsabilização
- Inclusividade/diversidade
- Justiça/equidade
- Confiabilidade/uso seguro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Os dados, o sistema e os modelos de negócios de IA devem ser transparentes e há um mecanismo que pode ajudar a alcançar isso.
Que mecanismo é esse?

A

Mecanismo de rastreabilidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

O que é a Explicabilidade em IA Responsável?

A

Como e por que a IA chegou a determinada conclusão, tornando a tomada de decisão mais transparente e compreensível e explicada para pessoas não conhecedoras.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

A explicabilidade é especialmente importante em áreas onde as decisões da IA têm implicações significativas para os indivíduos em determinadas áreas.

Como essa falta de explicabilidade pode afetar pode afetar a confiança na IA?

A

A falta de explicabilidade em áreas como justiça, crédito, saúde, financeira, por exemplo, pode levar a decisões injustas ou discriminatórias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

CERTO OU ERRADO

A explicabilidade é considerada fundamental da Responsabilidade AI.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Apesar de grande parte da doutrina considerar Explicabilidade e Interpretabilidade sinônimos, há uma parcela que as diferenciam. Explique.

A

A interpretabilidade tem relação com a facilidade de se estabelecer uma relação de causa e efeito nas predições, ou seja, a capacidade de predizer o que vai acontecer em função dos dados e parâmetros fornecidos como entradas.

A explicabilidade pode denotar a medida em que o funcionamento do modelo em si pode ser explicado para pessoas não especialistas, ou ao menos as previsões geradas pelo modelo podem ser explicadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

O que é a Privacidade na IA Responsável?

A

Se refere à proteção dos dados pessoais e sensíveis dos usuários que são coletados e processados pelos sistemas de inteligência artificial.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quais os tipos de Privacidadade que uma entidade de IA pode adotar?

A
  • Criptografia
  • Controles de acesso rigorosos
  • Adoção de práticas de segurança cibernética robustas.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

CERTO OU ERRADO

A implementação de recursos de IA pode conter a escolha de privacidade por parte dos usuários, que podem escolher quais dados desejam compartilhar com a IA e em que condições.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

CERTO OU ERRADO

As organizações pode ocultar aos usuários como seus dados serão usados e como a IA tomará decisões com base nesses dados.

A

ERRADO! Quebra o princípio da Privacidade e Segurança. A IA deve ser CLARA quanto ao uso dos dados e como esses dados serão usados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

A segurança da informação e a privacidade devem ser levadas em conta em que fases do ciclo de vida das soluções de IA?

A

TODAS AS FASES!!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

A Responsabilização também pode ser chamada de:

A

Accountability, Auditabilidade, Prestação de Contas…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

O que é a Renponsabilização em IA Responsável?

A

A capacidade de responsabilizar algoritmos e sistemas de inteligência artificial por suas decisões e ações. Inclui também a responsabilidade pelos impactos sociais e ambientais dos sistemas de IA, bem como a implementação de medidas para minimizar esses impactos negativos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

O que diz a Inclusividade/Diversidade na IA Responsável?

A

Que a IA deve ser implementada de forma a não distinguir as pessoas de acordo com suas características, sexo, idade, gênero e etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Como a Inclusividade/Diversidade pode ser importante no na acessibilidade?

A

Com o fornecimento de opções para interfaces de usuário alternativas (Ex: texto em áudio ou legendas em vídeo) e treinando algoritmos para reconhecer e lidar com diferentes formas de fala e comunicação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

CERTO OU ERRADO

A Inclusividade promove a equidade e a justiça social na aplicação de tecnologias de IA e ajuda a criar soluções mais efetivas e amplamente aceitas pela sociedade.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Ao que refere-se a Justica/Equidade em uma IA Responsável?

A

Garantia de que os sistemas de IA não discriminem indivíduos ou grupos com base em suas características protegidas ou outros fatores, evitando preconceitos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Qual a diferença entre Justica/Equidade e Inclusividade/Diversidade?

A

A Inclusividade é o meio para se chegar à Justiça. A Justiça é a efetivação da inclusividade, promovendo tratamento igual para todos.
Em suma: a inclusão é a entrada ou causa e a justiça é a saída ou consequência.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

A Confiabilidade e Uso Seguro em IA Responsável nos diz que as aplicações de IA devem ser:

A

robustas e confiáveis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Qual a diferenciação entre Confiabilidade e Uso Seguro?

A

A confiabilidade refere-se à capacidade de um sistema de IA para desempenhar consistentemente e com precisão a tarefa para a qual foi projetado, em diferentes condições e ao longo do tempo.
O uso seguro, por outro lado, refere-se à capacidade de um sistema de IA para evitar danos ou lesões aos usuários, partes interessadas ou ao ambiente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Quais os tipos de aprendizado de máquina?

A
  • Supervisionado
  • Não supervisionado
  • Semi-supervisionado
  • Por reforço
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Explique o aprendizado de máquina supervisionado.

A

Se baseia em expectativa de saídas de dados a partir de dados de entrada inseridos manualmente por um especialista ou supervisor. O supervisor/especialista conhece os rótulos ou valores (dados de saída) para cada exemplo, então insere dados de entrada para que a saída seja a mais satisfatória possível. O supervisor/especialista vai corrigindo os erros a partir das respostas que os dados de entrada dão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

CERTO OU ERRADO

Nos dados supervisionados, a saída desejada para cada exemplo de entrada já é conhecida, isto é, os dados de saída são previamente rotulados.

A

CERTO! São previamente rotulados pelo supervisor ou especialista que já conhece os dados de saída.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Como é chamado o trabalho em que o supervisor/especialista rotula previamente os dados de saída?

A

Tarefa de previsão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Qual o tipo de abordagem mais comum do aprendizado de máquina?

A

O aprendizado supervisionado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

CERTO OU ERRADO

Os problemas de aprendizado supervisionado geralmente tratam de uma variável quantitativa ou qualitativa.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Qual o nome da tarefa em que os rótulos se referem a um conjunto infinito de valores numéricos contínuos?

A

Tarefa de regressão.
ex: dados de entrada = menor ou maior que 100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Qual o nome da tarefa em que os rótulos se referem a um conjunto finito e não ordenado de valores categóricos?

A

Tarefa de classificação.
ex: dados de entrada = bonito ou feio, branco ou preto…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Quais os modelos supervisionados mais conhecidos?

A
  • Árvores de decisão
  • regressão linear
  • regressão logística
  • redes neurais
  • K-Nearest Neighbors (KNN),
  • Support Vector Machines (SVM)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Explique sobre o aprendizado de máquina não supervisionado.

A

O algoritmo busca um padrão de nos dados sem a utilização de um supervisor ou especialista para atribuir um valor de saída previamente. O intuito é pegar dados desconhecidos e encontrar estruturas desconhecidos para o cientista de dados. Os algoritmos encontram o padrão de forma autônoma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

CERTO OU ERRADO

No aprendizado não supervisionado, se utiliza rótulos/categorias para as amostras de treinamento.

A

ERRADO! Isso é no aprendizado supervisionado. No aprendizado não supervisionado, não se utiliza rótulos/categorias (dados de saída) para as amostras de treinamentos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Qual o nome da tarefa em que o algoritmo identifica as semelhanças nos dados apresentados e reage com base na presença ou ausência dessas tais semelhanças?

A

Tarefa de descrição.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

CERTO OU ERRADO

A ideia do aprendizado não supervisionado é prever os dados de saída.

A

ERRADO! A ideia do aprendizado não supervisionado é ORGANIZAR os dados ou DESCREVE-LOS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Existe realmente uma chance de o algoritmo do aprendizado não supervisionado gerar categorias completamente diferentes do que você esperava. Existem dois grandes sub-grupos de aprendizado não-supervisionado.
Quais são?

A
  • Agrupamento (Clustering)
  • Regras de Associação (Association Rules)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

O que faz o sub-grupo agrupamento (clustering)?

A

Estabelece regras capazes de verificar como determinados elementos em um conjunto estão intimamente associados.
Ex: Em um supermercado, sempre que uma pessoa compra pão, ela também compra leite. Então o agrupamento cria essa associação.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

Quais os principais modelos do agrupamento (clustering)?

A
  • Apriori
  • FP-Growth
  • Eclat.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

O que faz o sub-grupo “associação de regras”?

A

Ele busca padrões em um conjunto de dados e os transforma em conjuntos, comparam os dados de um mesmo grupo e verificam se são homogêneos ou semelhantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Quais os principais modelos de associação de regras?

A
  • k-Means
  • Agrupamento Hierárquico.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Explique sobre o aprendizado semi supervisionado.

A

Ele está entre o supervisionado e o não supervisionado. Utiliza-se tanto dados rotulados quanto dados não rotulados, sendo pouca quantidade de dados rotulados e uma grande quantidade de dados não rotulados. Pode ser aplicado com a duas tarefas do supervisionado (regressão e classificação) e as duas tarefas do não supervisionado (agrupamento e associação de regras).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

Explique sobre o aprendizado por reforço.

A

Consiste num conjunto de técnicas que utilizam tentativas e erros para definir interações ótimas de como interagir o ambiente ou agente. A meta é punir a ação considerada negativa e beneficiar a ação considerada positiva.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

No que consiste o tarefa/técnica de classificação?

A

É uma tarefa do aprendizado supervisionado que permite classificar dados em grupos (dados de entrada) para facilitar a análise, utilizado para prever comportamento futuro ou para descobrir padrões (dados de saídas pré definidos).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

O que são features para a tarefa de classificação?

A

São dados ou características utilizadas pelo supervisor ou especialista que caracterizam de forma útil aquilo que desejamos classificar.
Ex: envergadura e massa, peso e altura…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

O que é a matriz de confusão (ou matriz de erro)?

A

É uma tabela utilizada para avaliar a qualidade de um modelo que mostra as frequências de classificação para cada classificador/rótulo do modelo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

Há cinco tipos de métricas para calcular a precisão da coleta de dados para o aprendizado de máquina. Quais são?

A
  • Acurácia
  • Sensibilidade
  • Especificidade
  • Precisão
  • F1-Score
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Explique sobre a métrica de acurácia.

A

É a mais simples das métricas, que visa verificar a quantidade de acertos dentro do total de previsões.
Fórmula: (VP + VN) ÷ (VP + FP + VN + FN)
*Leia-se: valor positivo + valor negativo ÷ valor positivo + falso positivo + valor negativo + falso negativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Explique sobre a métrica de sensibilidade.

A

Avalia a capacidade do classificador de detectar com sucesso resultados positivo. Pode ser chamado de revocação ou recall.
Fórmula: VP ÷ (VP + FN)
leia-se: valor positivo ÷ valor positivo + falso negativo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

Explique sobre a métrica de especificidade.

A

Avalia a capacidade do classificador de detectar com sucesso resultados negativos.
Fórmula: VN ÷ (VN + FP)
leia-se: valor negativo ÷ valor negativo + falso positivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Explique sobre a métrica de precisão.

A

Mensurar a proporção de previsões positivas corretas sobre a soma de todos os valores positivos.
Fórmula: VP ÷ (VP + FP)
leia-se: valor positivo ÷ valor positivo + falso positivo

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Explique sobre a métrica de F1-Score.

A

Média harmônica calculada com base na precisão e na sensibilidade, ou seja, é uma medida derivada dessas outras medidas. Tenta condensar em uma única medida um pouco da precisão e um pouco da sensibilidade.
Fórmula: (Precisão x Recall) ÷ (Precisão + Recall) x 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

Qual a métrica que responde a pergunta abaixo?

“Dentre os valores realmente negativos, quantos o modelo acertou (previu corretamente como negativo)?”

A

Especificidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Qual a métrica que responde a pergunta abaixo?

“Dentre os valores previstos como positivos, quantos o modelo acertou (previu corretamente como positivo)?”

A

Precisão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
65
Q

Qual a métrica que responde a pergunta abaixo?

“Dentre todas as previsões realizadas, quantas o modelo acertou?”

A

Acurácia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
66
Q

Qual a métrica que responde a pergunta abaixo?

“Dentre os valores realmente positivos, quantos o modelo acertou (previu corretamente como positivo)?”

A

Sensibilidade (recall).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
67
Q

Em que situação é recomendado o uso da métrica de precisão?

A

Situações em que falsos-positivos são mais prejudiciais que os falsos-negativos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
68
Q

Em que situação é recomendado o uso da métrica de recall (sensibilidade)?

A

Situações em que falsos-negativos são mais prejudiciais que os falsos-positivos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
69
Q

Do que se trata a técnica de agrupamento?

A

Uma técnica para identificar grupo de dados multivalorados para descobrir padrões e a relação entre os dados e os transformar em subconjuntos, de modo que todos os elementos do subconjunto possuam características em comum.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
70
Q

Como também pode ser chamado a técnica de agrupamento?

A

Clustering.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
71
Q

Qual a diferença entre classificação e clustering (agrupamento)?

A

A classificação é um algoritmo supervisionado, ou seja, precisa de algum supervisor/especialista para realizar esse agrupamento, ou seja, cada objeto da base possui a classe correspondente à qual pertence previamente definida.
O clustering é um algoritmo não supervisionado, não necessitando de interferência externa.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
72
Q

Do que se trata a técnica “Regras de Associação”?

A

São algoritmos não supervisionados, utilizados para descobrir relação entre variáveis de um conjunto de dados, descrevendo padrões que ocorrem com frequência para prever ocorrência futuras.
Ex: carrinho de supermercado da imagem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
73
Q

Como funciona o formato da Regra de Associação?

A

É um formato X → Y (antecedente para o consequente). Basicamente, o algoritmo associa que ocorrendo X, é provável que ocorra Y.
Ex: o algoritmo verifica que o cliente comprou cerveja, gelo e carne (X) e pode ser que ele associe e sugira carvão, sal grosso (Y)…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
74
Q

Quais os dois conceitos centrais (ou medidas de interesse) em mineração de regras de associação?

A
  • Suporte/prevalência
  • confiança/força
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
75
Q

O que a medida de interesse de suporte/prevalência busca na mineração de regras de associação?

A

A frequência com que um conjunto de itens específicos ocorrem no banco de dados, isto é, o percentual de transações que contém todos os itens do conjunto.
Ex: a quantidade de vezes em que os itens são comprados separadamente e se calcula a proporção. Em 10 compras, tiveram 4 cervejas, 6 gelos e 2 carvões não necessariamente juntos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
76
Q

O que a medida de interesse de confiança/força busca na mineração de regras de associação?

A

A probabilidade de que exista uma relação entre itens, a quantidade de vezes que eles aparecem simultaneamente.
Ex: a quantidade de vezes que cerveja, gelo e carne são comprados juntos!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
77
Q

O que são Modelos de Regressão?

A

São modelos estatísticos utilizado para verificar a relação entre uma variável dependente para um conjunto de dados ou variáveis independentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
78
Q

Para que normalmente é usado o Modelo de Regressão?

A

Para fazer previsões sobre valores futuros da variável dependente. É um tipo de modelo preditivo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
79
Q

O que é o modelo preditivo?

A

É o modelo responsável por relacionar dados de entrada (também chamados de variáveis independentes) com o resultado esperado (variáveis dependentes ou variável alvo contínua).
Em suma: São uma função matemática que, quando aplicada a uma massa de dados, é capaz de identificar padrões e oferecer uma previsão do que pode ocorrer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
80
Q

Quais são os dois modelos de regressão mais conhecidos?

A

Regressão linear e a regressão logística

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
81
Q

CERTO OU ERRADO

Regressão é uma técnica para investigar a relação entre variáveis ou features independentes e uma variável ou resultado dependente.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
82
Q

Do que se trata a regressão linear?

A

Ferramenta estatística para quantificar a relação entre variável específica e um resultado esperado, controlando o efeito de uma variável enquanto as outras se mantém constantes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
83
Q

Qual a metodologia utilizada pela Regressão Linear e o que faz essa metodologia?

A

Mínimos Quadrados Ordinários (MQO) e ela traça uma reta a partir da estatística e faz o valor do residual ao quadrado. Residual é a diferença entre a reta e o ponto fora dela, conforme imagem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
84
Q

CERTO OU ERRADO

Os mínimos quadrados ordinários nos dão a melhor descrição de uma relação linear entre duas variáveis.

A

CERTO!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
85
Q

CERTO OU ERRADO

O resultado do mínimo quadrado ordinário é uma reta.

A

ERRADO! É uma equação que é descrita pela reta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
86
Q

RESUMO DE REGRESSÃO LINEAR

y = a + bx

onde y é o peso em quilos; a é o intercepto, isto é, ponto em que a reta intercepta o eixo y (valor de y quando x = 0); b é a inclinação da reta; e x é a altura em centímetros.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
87
Q

Do que se trata a regressão logística?

A

É um algoritmo supervisionado que, a partir de um conjunto de dados, permite prever os valores de uma variável categórica a partir de uma série de variáveis explicativa contínuas ou binárias, mas geralmente binárias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
88
Q

CERTO OU ERRADO

Uma das limitações da regressão logística é de trabalhar apenas com dados categóricos.

A

ERRADO! A regressão logística trabalha apenas com dados quantitativos para prever dados categóricos (qualitativos).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
89
Q

Para qual finalidade é a regressão logística?

A

Para classificação de dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
90
Q

CERTO OU ERRADO

A utilização da regressão logística se dá com categorias de dois valores.

A

CERTO! A regressão logística é com dois valores (binárias). Ou seja, só pode haver dois valores como: baixo ou alto, masculino ou feminino, preto ou branco…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
91
Q

O que é a Função Sigmoide?

A

É uma função de ativação, utilizada na regressão logística,
que recebe como entrada um número real [-∞, +∞] retornado por uma função de regressão linear e sempre retorna um número entre [0,1].

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
92
Q

O que são redes neurais feed-foward?

A

Tipo mais comum de redes neurais, são redes neurais artificiais que “caminham” em apenas uma direção, da entrada para a saída.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
93
Q

Como é organizado a rede neural feed-foward?

A

Os neurônios são organizados em camadas e o sinal se propaga de uma camada para outra. Cada neurônio recebe uma entrada da camada anterior e essa camada faz soma ponderada das entradas (chamada carga elétrica total) e passa o resultado para a próxima camada.
como o próprio nome diz, alimentar a frente

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
94
Q

Para quais tarefas de aprendizado é utilizado a rede neural feed-foward?

A

Para as tarefas de aprendizado supervisionado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
95
Q

PARA FIXAR

Neurônio Artificial

Temos um conjunto de n entradas (e₁, e₂, e₃ ,…, eₙ) que são multiplicadas por pesos específicos associados a cada entrada (p₁, p₂, p₃,…, pₙ). Cada um desses pesos é livremente ajustável de forma independente dos demais. Em seguida, nós realizamos a soma de cada entrada multiplicada por seu respectivo peso associado. E o próximo passo é somar tudo isso com uma entrada especial denominada viés ou bias (b).

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
96
Q

O peso de uma entrada na rede neural representa o que?

A

A sua força ou influência no resultado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
97
Q

O que é um viés (bias) em uma rede neural?

A

É um valor que pode ser ajustado para aumentar ou diminuir a força do sinal ao adicionar um valor positivo/negativo com o intuito de regular o formato/curvatura da função e ajustá-la ao propósito desejado.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
98
Q

Qual o objetivo de uma função de ativação em uma rede neural?

A

Transformar o formato de reta (de uma função linear) em um formato não linear, tornando a função mais flexível/adaptável para tarefas complexas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
99
Q

Existem duas grandes classes de funções de ativação. Quais são?

A

Funções de limite e funções sigmóides.

100
Q

O que é uma função de limite?

A

É uma função que compara um valor com um determinado limite e decide se um neurônio será ativado (1) ou não será ativado (0).
ou seja, se estabelece um limite e se o neurônio bater certo limite, retornará com uma resposta, podendo ser 1 ou 2, nesse caso

101
Q

Como funciona uma função logística?

A

Ela recebe um valor real qualquer como entrada [-∞,+∞] e retorna um valor de saída entre 0 e 1.
a imagem é a representação dessa função

102
Q

Como funciona uma função tangente hiperbólica?

A

Recebe um valor real qualquer como entrada [-∞,+∞] e retorna um valor de saída entre -1 e 1.
representado pela função da imagem

103
Q

Qual a unidade básica de uma rede neural artificial?

A

O percepton (ou nó).

104
Q

De que forma são utilizados os perceptrons?

A

Combinados com diversos outros percepton, ele não age sozinho.

105
Q

Qual a forma de organização mais comum de um percepton?

A

Por camadas.

106
Q

O que é um Single Layer Perceptron (SLP)?

A

É uma rede neural que organiza os perceptrons em uma única camada de processamento.

107
Q

PARA FIXAR

O Single Layer Percepton (SLP), apesar de possuir duas camadas, apenas os perceptrons da camada de saída realizam processamentos – os nós da camada de entrada apenas transferem os valores diretamente para a camada de saída.

A
108
Q

O Single Layer Percepton (SLP) é adequado para resolver quais tipos de problemas?

A

Problemas de classificação, porém apenas aqueles em que as classes são linearmente separáveis, como na imagem. Veja que apenas H3 consegue separar linearmente.

109
Q

O que é um Multilayer Perceptrons (MLP)?

A

Uma arquitetura de redes neurais artificiais que utiliza múltiplas camadas de perceptrons.

110
Q

Como funciona a organização do Multilayer Perceptrons (MLP)?

A

Possui duas camadas que realizam processamentos: camada oculta e a de saída. Os nós da camada de entrada apenas transferem os valores (com seus respectivos pesos) para os nós da camada oculta (ou camada escondida). Aos dados de entrada são aplicados pesos, em seguida eles são sendo processados pela camada oculta até chegarem a um resultado de saída.

111
Q

PARA FIXAR

Exemplo de Multilayer perceptons

A
112
Q

O que podemos concluir da imagem?

A

Se trata de uma exemplo de Multilayer Percepton no qual está sendo utilizado um deep learning (aprendizado profundo). Nesse caso, se coloca um algoritmo para facilitar o aprendizado da rede neural, tipo um ajuste.

113
Q

O que é o backpropagation (propagação pra trás)?

A

São erros de previsão entre saídas obtidas e saídas esperadas de uma rede neural artificial e quantificados por meio de uma função de custo/perda, que retornam para a rede em forma de ajuste dos pesos e vieses.

114
Q

O backpropagation consiste em duas etapas. Quais são?

A

1) Etapa de propagação: as entradas fluem através das camadas ocultas da rede neural e previsões são obtidas na camada de saída

2) Etapa de retropropagação: calcula-se o gradiente da função de custo/perda na camada de saída e ele é utilizado para atualizar os pesos (inclusive o viés) recursivamente.

115
Q

Qual algoritmo é considerado o mais importante da história das redes neurais?

A

O backpropagation.

116
Q

O que é um gradiente?

A

Também chamado de gradiente descendente, é um vetor de derivadas parciais (primeira derivada) de uma função de saída em relação a valores de entrada.

117
Q

A função do gradiente pode ser de dois tipos. Quais?

A
  • Convexa: a linha traçada entre quaisquer dois pontos está sempre acima da curva;
  • Não convexa: temos mais de um ponto mínimo.
118
Q

Existem dois tipos de gradiente descendente. Quais?

A
  • Em lote (batch): adequado para funções convexas, contínuas e diferenciáveis, e utiliza – a cada iteração – todos os dados da base de treinamento para otimizar os pesos dos nós de uma rede neural. O gradiente descendente em lote (batch) é o padrão.
  • Estocástico: adequado para funções não convexas, e escolhe uma sub- amostra aleatória dos dados da base de treinamento para otimizar parâmetros.
119
Q

O viés (ou peso) pode ser chamado de outro nome:

A

Termo de Interceptação (ou Intercept Term).

120
Q

O que seria um erro em um modelo preditivo?

A

A diferença entre o valor previsto e o valor real obtido.

121
Q

Um algoritmo preditivo é capaz de eliminar todas as possíveis zonas de interseção entre diversas categorias de classificação?

A

NÃO! Ou seja, ele não tem como acertar 100% das vezes. Haverá oportunidade, mesmo que raríssima, em que o algoritmo irá errar.

122
Q

CERTO OU ERRADO

Um modelo é capaz de modelar de forma satisfatória todos os elementos que compõem o resultado obtido de um dado.

A

ERRADO! Não é, e é por isso que há erros em modelos. Há muitas variáveis desconhecidas que impactarão no resultado. Um bom modelo encontra padrões que podem ser generalizados por uma função que reduz
o erro de generalização obtido para entradas desconhecidas.

123
Q

O que é a validação/avaliação de modelos preditivos?

A

É o processo de avaliar o desempenho de um modelo preditivo em um conjunto de dados separados que não foi usado para treinamento, com o intuito de estimar o desempenho do modelo ainda não visto. É uma etapa essencial do modelo preditivo.

124
Q

Qual o fluxo de processos típico de aprendizado de máquina para modelos preditivos?

A

1) Pré processamento: dados brutos e possíveis categoria de dados que o modelo tentará prever o modelo. São retirados todas as duplicações redundâncias, coisas desnecessárias e etc…É realizada a limpeza e formatação dos dados brutos, além da extração e seleção de características, isto é, os atributos serão avaliados. Os grupos serão divididos em: conjunto de dados de treinamento (ou indução).
Os dados serão divididos em dados de treinamento e dados de testes.

2) Aprendizado: selecionar e testar alguns algoritmos e ver como eles se comportam.

3) Avaliação: realizar previsões de rótulos (categorias) baseado nos dados de teste, que são desconhecidos pelo algoritmo. Avaliar se o modelo criado acertou a categoria e descobrir se ele permite fazer uma boa generalização dos dados.

4) Predição: o modelo final é executado com os dados de teste (que permanecem desconhecidos por parte do modelo) e seu desempenho é calculado por meio da métrica de acurácia.

125
Q

O que é e como funciona a validação cruzada?

A

É uma técnica usada para avaliar modelos de aprendizado de máquina. Consiste em dividir um conjunto de dados em várias partes, treinar um modelo e testar ele em outro modelo.

126
Q

Para que a validação cruzada é empregada?

A

Para realizar predições.

127
Q

A validação de dados pode ocorrer de duas formas. Quais?

A

Exaustiva: testar o modelo de todas as formas possíveis.

Não exaustiva: não testa todas as combinações e permutações possíveis.

128
Q

O que é uma abordagem LpO?

A

É uma abordagem da validação cruzada exaustiva, que significa Leave P Out, em que, como o nome sugere, deixa de fora um valor p de observações.
ou seja, suponha que haverá n observações. o total de observações será n-p

129
Q

O que é uma abordagem Holdout?

A

É uma técnica da validação cruzada não exaustiva, em que se divide o conjunto de dados em subconjuntos mutuamente exclusivos (disjuntos): um para treinamento e outro para testes. Se busca fazer uma estimativa imparcial do desempenho o modelo preditivo.
É indicado para conjunto de dados maiores.

130
Q

Em que consiste o método K-Fold?

A

É um método de validação cruzada não exaustiva que é usado para avaliar o desempenho de um modelo de aprendizado de máquinas e sua robustez. É dividido em k subconjuntos iguais mutuamente exclusivos em que um subconjunto é usado para testes e o restante k-1 são usados para treinamento.
É indicado para conjunto de dados pequenos/limitados.

131
Q

EXEMPLO DA APLICAÇÃO DE UM MÉTODO K-FOLD

A
132
Q

Em que consiste a Curva Roc?

A

Roc significa Receiver Operation Characterism. A curva roc é uma representação gráfica do desempenho de um sistema de classificação binária à medida em que seu limite de discriminação é variado. É um gráfico da taxa de verdadeiros-positivos em relação à taxa falso-positivos.

133
Q

EXEMPLO DA CURVA ROC

As bolinhas azuis acima da curva representam os verdadeiros-positivos (Ex: o médico previu que o paciente estava infectado com o coronavírus e ele realmente estava).
As bolinhas azuis abaixo da curva representam os falsos-positivo (Ex: o médico previu que o paciente estava infectado, mas ele não estava). Já os quadradinhos vermelhos acima da curva representam os falsos-negativos (Ex: o médico previu que o paciente não estava infectado, mas ele estava). Por fim, os quadradinhos vermelhos abaixo da curva representam os verdadeiros-negativos (Ex: o médico previu que o paciente não estava infectado e ele realmente não estava).

A
134
Q

CERTO OU ERRADO

A Curva ROC pode ser plotada como um gráfico de Sensibilidade x (1-Especificidade); ou como um gráfico de Taxa de Verdadeiros-Positivos (TVP) x 1 – Taxa de Verdadeiros-Negativos (TVN); ou, o mais comum, como um gráfico de Taxa de Verdadeiros-Positivos (TVP) x Taxa de Falsos-Positivos (TFP).

A

CERTO!

135
Q

O que é a AUC?

A

Significa “area under curve”, que é a área que ficará por baixo da curva, que mede a capacidade de discriminar duas classes e medir o desempenho de uma variedade de algoritmos.
resumindo: se a área sob a curva de um algoritmo for maior que a área sob a curva de outro algoritmo, significa que ele possui um desempenho melhor.

136
Q

Quais as principais métricas de desempenho de uma regressão?

A
  • Erro médio absoluto (EMA)
  • Erro quadrático médio (EQM)
  • Raiz do erro quadrático médio (REQM)
  • Coeficiente de determinação (R²)
137
Q

Do que se trata o erro médio absoluto?

A

É uma métrica de regressão que trata da média dos erros em um conjunto de previsões, sem considerar sua direção.

138
Q

Como é calculado o erro médio absoluto?

A

A média das diferenças absolutas entre os valores previstos e os valores reais.

139
Q

Em que consiste o erro médio quadrático?

A

É uma métrica de regressão que trata de uma medida da média dos quadrados dos erros em um conjunto de previsões.

140
Q

O que é o MAE dentro do erro médio absoluto?

A

É uma medida da precisão do modelo e ajuda a identificar o viés e a variância. Quanto menor seu valor, mais preciso é o modelo.

141
Q

Como é calculado o erro médio quadrático?

A

A média das diferenças quadradas entre os valores previstos e os valores reais.

142
Q

Do que se trata a raiz do erro quadrático médio?

A

É uma métrica de regressão que trata de uma medida da raiz da média dos quadrados dos erros em um conjunto de previsões de diferentes modelos.

143
Q

Do que se trata o coeficiente de determinação?

A

É uma métrica de regressão, que trata da proporção da variabilidade dos dados que é explicado pelo modelo. Em outras palavras, é a medida de quão bem um modelo de regressão se ajusta os dados.

144
Q

Quando ocorre um underfitting?

A

Quando um modelo de aprendizado de máquina não captura adequadamente o padrão subjacente de dados, resultando em uma representação imprecisa.

145
Q

Quando ocorre um overfitting?

A

Quando um modelo de aprendizado de máquinas captura muita variação dos dados, resultando em um modelo que não generaliza bem e é muito sensível a pequenas variações dos dados.

Ex na imagem.

146
Q

CERTO OU ERRADO

Os dados que definem qual é o melhor modelo são os dados de treinamento.

A

ERRADO! São os dados de teste.

147
Q

O que é um viés (ou bias, em inglês)?

A

Diferença entre a predição (média) de valor de uma variável e seu valor correto que o modelo deveria prever, a incapacidade de capturar o verdadeiro relacionamento entre variáveis.

148
Q

O que é uma variância?

A

Sensibilidade de um modelo ao ser usado com novos conjuntos de dados diferentes.
o quão consistente é esse modelo ao utilizar novos conjuntos de dados

149
Q

O que podemos deduzir de um modelo de aprendizado de máquina com alto viés?

A

Que as previsões sobre diferentes conjuntos de dados variam bastante (baixa generalização).

150
Q

O que podemos deduzir de um modelo de aprendizado de máquina com baixa variância?

A

Que as previsões sobre diferentes conjuntos de dados são consistentes (alta generalização).

151
Q

Qual o modelo ideal para um aprendizado de máquina se tratando de viés e variância?

A

Que o modelo possua baixo viés e baixa variância.

152
Q

O que podemos deduzir de um modelo de aprendizado de máquina com baixo viés e baixa variância?

A

Que o modelo possui ótima precisão (overfitting) dos dados de treinamento e varia pouco quando aplicado a novos testes.

153
Q

O que podemos deduzir de um modelo de aprendizado de máquina com baixo viés e alta variância?

A

Que o modelo possui ótima precisão (overfitting) dos dados de treinamento mas varia muito quando aplicado a novos testes.

154
Q

O que podemos deduzir de um modelo de aprendizado de máquina com alto viés e baixa variância?

A

Que o modelo possui péssima precisão dos dados (underfitting) de treinamento mas varia pouco quando aplicado a novos testes.

155
Q

O que podemos deduzir de um modelo de aprendizado de máquina com alto viés e alta variância?

A

Que o modelo possui péssima precisão dos dados (underfitting) de treinamento e varia muito quando aplicado a novos testes.

156
Q

Como se comportam os modelos lineares quanto ao viés e variância?

A

Geralmente tem alto viés e baixa variância.

157
Q

Como se comportam os modelos não lineares quanto ao viés e variância?

A

Geralmente tem baixo viés e alta variância.

158
Q

O que é um “Ensemble”?

A

Um técnica em que vários modelos são usados para fazer previsões mais precisas que qualquer modelo individual, aumentando a precisão e reduzindo o overfitting.

159
Q

O Ensemble pode ser usado para que tipos de problemas?

A

De regressão e classificação.

160
Q

Como são chamados os blocos de construção para projetar modelos mais complexos?

A

weak learner (ou modelos de base).

161
Q

PARA FIXAR

A ideia por trás do ensemble é tentar reduzir o viés e/ou variância desses weak learners, combinando vários deles para criar um Strong Learner (ou Ensemble) que alcance melhores desempenhos.
Por ex: usamos uma imagem de um sushi para que o aprendizado de máquina verifique se é ou não um sushi, retornando com a resposta “sushi” ou “não sushi”.
Como o ensemble combina vários métodos, digamos que será utilizado os métodos Árvore de Decisão, Regressão Logística, Regressão Linear e Support Vector Machine.
Se três dos 4 métodos identificam que a imagem é um sushi, então ele ponderá e decidirá que se trata da imagem de um sushi.

A
162
Q

O que é um ensemble homogêneo ou heterogêneo?

A

O ensemble homogêneo utiliza instâncias do mesmo algoritmo, ao passo que o ensemble heterogêneo utiliza instância de vários algoritmos.

163
Q

Como é feita a combinação de métodos do ensemble?

A

A partir de 3 técnicas que conseguem combinar esse modelos.
1) Bagging
2) Boosting
3) Stacking

164
Q

No que consiste um “bagging”?

A

Também chamado de Bootstrap Aggregating, é uma técnica de ensemble para minimizar a variância.

165
Q

Como funciona o método bagging?

A

Ele cria vários modelos que são treinador em diferentes subconjuntos dos mesmos dados e, sem seguida, combina as previsões.

166
Q

CERTO OU ERRADO

O Bagging (Bootstrap Aggregating) cria classificadores para o ensemble a partir de uma redistribuição do conjunto de dados de treinamento.

A

CERTO!

167
Q

O método bagging utiliza um conjunto de algoritmos de
aprendizado de máquina homogêneo ou heterogêneo?

A

Homogêneo.

168
Q

O que é um bootstrap?

A

É utilizado para criar muitos conjuntos de treinamento diferentes que podem ser usados para treinar vários modelos.

169
Q

PARA FIXAR

Bagging é um método que utiliza diversas instâncias do mesmo algoritmo de aprendizado de máquina com o conjunto de dados de treinamento extraído por meio de amostragem por substituição do conjunto de dados originais a fim de minimizar a variância sem aumentar o viés combinando os resultados dos modelos de base em uma saída (output) que representa a média dos valores (regressão) ou maioria dos votos (classificação).
O número de subconjuntos, bem como o número de itens por subconjunto e o tipo de algoritmo serão determinados pela natureza do problema do aprendizado de máquina.

A
170
Q

O que é o “Boosting”?

A

É uma técnica de ensemble que combina vários weak learners para criar um strong learner.

171
Q

Como funciona o boosting?

A

Ele treina cada weak learner em uma sequência, com cada “aluno” posterior focando nos erros do “aluno” anterior.

172
Q

Qual a finalidade do boosting?

A

Reduzir o viés sem aumentar a variância e é geralmente mais adequado para resolver problemas de underfitting.

173
Q

Quais os algoritmos de boosting mais famosos?

A

AdaBoosting e Gradient Boosting.

174
Q

PARA FIXAR

O boosting combina vários weak learners (modelos de base) de forma independente e sequencial, de modo que cada um compense a fraqueza do algoritmo anterior – além de utilizar uma amostragem de dados por substituição com ponderação (atribuição de pesos aos dados incorretamente previstos e aos modelos em si). Além disso, ele é fácil de entender e fácil de interpretar, aprendem com seus erros e não requerem pré-processamento de dados.
Stacking.

A
175
Q

No que consiste o stacking?

A

É uma técnica de ensemble que utiliza um conjunto heterogêneo de weak learners e utiliza a saída desses weak learners como entradas em um meta-modelo com o objetivo de aprender o mapeamento entre as saídas e classes corretas.

176
Q

O que é um meta-modelo?

A

Um algoritmo de aprendizado de máquina construído sobre um conjunto de outros modelos de base.

177
Q

O que são técnicas de regularização?

A

Controle fino do nível de complexidade de um dado modelo.

178
Q

Qual o objetivo das técnicas de regularização?

A

Reduzir a variância tornando o modelo mais generalizável, limitar o grau de flexibilidade do modelo para se ajustar aos dados de treinamento, visando evitar o overfitting.

179
Q

O que é uma apofenia?

A

É a percepção de padrões ou conexões em dados aleatórios, ou seja, é quando o aprendizado de máquina busca padrões onde não existe.

180
Q

Como a regularização se aplica às técnicas de regressão?

A

A técnica busca efetivamente regularizar, normalizar ou suavizar modelos excessivamente complexos ou que dão muito destaque para uma característica específica.

181
Q

O que é a técnica de Regressão Lasso (L1)?

A

Lasso significa Least Absolute Shrinkage and Selection Operation.

É uma técnica de regularização que busca reduzir a complexidade de um modelo preditivo, eliminando as variáveis menos importantes e reduzindo o overfitting.

182
Q

O que é a técnica de Regressão Ridge (L2)?

A

É uma técnica de regularização que adiciona um termo de penalidade à função de custo para reduzir a complexidade do modelo.

183
Q

O que é um termo de penalidade?

A

É um parâmetro de regularização que reduz as estimativas do coeficiente a zero.

184
Q

Qual a finalidade da técnica de Regressão Ridge (L2)?

A

Prevenir o overfitting e melhorar a precisão do modelo e pode ser usada para identificar variáveis importantes em um conjunto de dados.

185
Q

O que é um elastic net (L1 + L2)?

A

É uma técnica de regularização usada para combinar os recursos das técnicas de regressão Lasso e Ridge (L1 e L2, respectivamente).

186
Q

Como funciona a aplicabilidade do elastic net (L1+ L2)?

A

Ela adiciona os termos de regularização de L1 e L2 (Lasso e Ridge) à função da perda, ajudando a reduzir a complexidade do modelo e melhorar a precisão das previsões.

187
Q

A qual algoritmo é aplicado o elastic net (L1 + L2)?

A

Geralmente ao Support Vector Machines (SVM).

188
Q

PARA FIXAR

Lasso (L1), Ridge (L2) e Elastic Net (L1+L2).
A primeira calcula a soma dos pesos absolutos; a segunda calcula a soma do quadrado dos pesos; e a terceira combinas as duas.

A
189
Q

Qual a técnica de regularização aplicada à Árvores de Decisão?

A

Poda (pruning).

190
Q

O que é a técnica de poda (pruning)?

A

É uma técnica de regularização para reduzir a complexidade do modelo, removendo parâmetros ou conexões desnecessárias em uma rede.

191
Q

Qual o objetivo da técnica de poda?

A

Melhorar a precisão do modelo preditivo, reduzindo o overfitting e os requisitos de memória e melhorando a velocidade do treinamento.

192
Q

Quais as técnicas de regularização aplicada a redes neurais?

A
  • dropout
  • early stopping
  • data augmentation
193
Q

O que é a técnica dropout?

A

É uma técnica de regularização para evitar o overfitting.

194
Q

Como funciona a técnica de dropout?

A

Desconecta uma fração das unidades de entrada durante o treinamento, fazendo com que o modelo aprenda com menos parâmetros e reduzindo a complexidade. Quando aplicada, os neurônios desativados não recebem mais entradas, não produzem mais saídas e também não são ajustados.

resumindo: desativa/desconecta aleatoriamente neurônios da rede durante cada sessão de treinamento do modelo

195
Q

CERTO OU ERRADO

A técnica de dropout é uma técnica de regularização aplicada durante o teste de redes neurais.

A

ERRADO! A técnica de dropout não é usada durante o teste e sim durante o TREINAMENTO.

196
Q

Qual a porcentagem de fração de unidades a serem descartadas na técnica de dropout?

A

Entre 20% e 50%.

197
Q

No que consiste a técnica de early dropping?

A

É uma técnica de regularização usada em redes neurais para evitar o overfitting dos dados de treinamento.

198
Q

Como funciona a técnica de early dropping?

A

Também chamada de Parada Precoce ou Parada Antecipada

A técnica consiste em monitorar o desempenho do modelo em um conjunto de dados de validação durante o treinamento. Se nesse processo de treinamento, o desempenho não melhora, ele interrompe.

resumindo: a técnica interrompe o treinamento antes de a rede neural começar a se ajustar excessivamente aos dados de treinamento.

199
Q

O que é uma “época” em aprendizado de dados?

A

É uma passagem completa pelo conjunto de dados.

200
Q

PARA FIXAR

Early dropping

Em determinado momento, a acurácia dos dados de treinamento permanece aumentando até estabilizar enquanto a acurácia dos dados de teste começa a cair vertiginosamente. O que isso nos indica? Isso indica que houve um sobreajuste (overfitting), isto é, o modelo tem um excelente desempenho (alta acurácia) com dados de treinamento, mas um péssimo desempenho (baixa acurácia) com dados de teste. É importante interromper o treinamento antes de a rede neural começar a se ajustar excessivamente aos dados de treinamento.

A
201
Q

Em que consiste a técnica “data augmentation”?

A

Técnica de regularização de redes neurais para aumentar artificialmente o tamanho de um conjunto de dados de treinamento, manipulando e adicionando transformações aleatórias aos dados existentes.

202
Q

Qual o objetivo do data augmentation?

A

Melhorar a precisão e robustez dos modelos de aprendizado de máquina.

203
Q

Quais as técnicas de aumento de dados?

A

Corte, inversão, rotação, adição de ruído, deslocamento…

204
Q

O que é um parâmetro?

A

Representações internas do modelo ajustadas automaticamente pelo processo de aprendizagem ou treinamento sintetizados a partir de padrões estatísticos dos dados.
resumindo: variável de configuração interna a um modelo e cujos valores podem ser estimados a partir dos dados

205
Q

O que é um hiperparâmetro?

A

É um parâmetro no qual o seu valor é definido no início do processo de aprendizado, uma característica ou restrição atribuída a um algoritmo.

206
Q

O que é a Otimização de Hiperparâmetros?

A

É o processo de selecionar um conjunto de hiperparâmetros para um determinado algoritmo e maximizar seu desempenho em um determinado conjunto de dados, geralmente utilizando tentativas e erros.

207
Q

Quais os métodos mais utilizados para aplicação da Otimização de Hiperparâmetros?

A

Pesquisa em grade, pesquisa aleatória e otimização bayesiana.

208
Q

CERTO OU ERRADO

Quando os valores dos dados estão sob o controle do cientista de dados, temos um parâmetro.

A

ERRADO! Temos um hiperparâmetro. O parâmetro são extraídos do próprio conjunto de dados e estão sob controle do algoritmo.

209
Q

Qual é o melhor valor para um hiperparâmetro de um problema específico?

A

Não há como saber, vai depender do processo de tentativa e erros.

210
Q

O que é um grid search?

A

É a pesquisa em grade, uma técnica de otimização de hiperparâmetros de um determinado modelos para obter o melhor desempenho possível.

211
Q

Como funciona o grid search?

A

Ela realiza uma pesquisa exaustiva sobre um conjunto de hiperparâmetros especificados manualmente pelo usuário e explora explora cada combinação de uma grade específica, avaliando o desempenho.

212
Q

CERTO OU ERRADO

A utilização da otimização de hipermarâmetros por Grid Search é útil quando temos que testar poucas combinações de valores para poucos hiperparâmetros e inviável quando temos uma grande quantidade de valores.

A

CERTO! O hiperparâmetro testa todas as combinações possíveis e inserção de dados é de forma manual, logo, fica inviável ter que testar todas as combinações de uma grande quantidade de dados.

213
Q

O que é um random search?

A

É a pesquisa aleatória, uma técnica de otimização de hiperparâmetros que envolve a amostragem aleatória de uma conjunto de valores de hiperparâmetros possíveis e, em seguida, a seleção do melhor conjunto com base nos resultados.

214
Q

No random search, como funciona a seleção de dados para os testes?

A

O próprio algoritmo escolhe aleatoriamente quais valores serão testados para cada hiperparâmetro e depois é executado a quantidade pré-definida de testes.

215
Q

Quando o random search se torna um método mais útil?

A

Quando há uma grande quantidade de hiperparâmetros.

216
Q

Qual o problema do uso do método de random search?

A

Ela não garante que encontrará a melhor combinação de hiperparâmetros e é possível que o algoritmo acaba explorando muito uma região do espaço de busca e explorando pouco outras.

217
Q

O que é o método de pesquisa bayesiano?

A

É uma técnica de otimização de hiperparâmetros que usa a inferência bayesiana para construir um modelo probabilístico de um espaço de pesquisa.

218
Q

Como funciona o método de pesquisa bayesiano?

A

Ele usa um modelo probabilístico de um espaço de pesquisa para otimizar o processo de busca, levando em consideração a incerteza do problema e orientando a busca para encontrar melhores soluções.

219
Q

PARA FIXAR

A otimização bayesiana utiliza desempenhos de hiperparâmetros anteriores para orientar quais valores de hiperparâmetros serão testados posteriormente.
Ela tenta estimar a probabilidade de desempenho de combinações em função de resultados já avaliados. Após cada avaliação, o algoritmo detecta quais valores de hiperparâmetro são mais interessantes de explorar e quais não são.

A
220
Q

Do que se trata a técnica de separabilidade dos dados?

A

É a capacidade de separar linearmente os dados em grupos distintos e separa-los.

221
Q

Em que categorias são separados os dados depois de aplicado a separabilidade dos dados?

A

Clusters, classes ou categorias distintas.

222
Q

A separabilidade dos dados é uma ferramenta útil para que?

A

Para agrupamentos e algoritmos de classificação.

223
Q

CERTO OU ERRADO

A separabilidade linear é basicamente apenas uma propriedade que existe entre dois ou mais conjuntos de pontos e só ser representada em um plano cartesiano.

A

ERRADO! De fato, é uma propriedade que existe entre dois ou mais conjuntos mas pode ser representada por diversos tipos: coordenadas polares, coordenadas cilíndricas, coordenadas esféricas, coordenadas elípticas, coordenadas parabólicas, coordenadas hiperbólicas, coordenadas parabólicas cilíndricas, entre outros.

224
Q

O que é um aprendizado de representação?

A

São algoritmos de aprendizado de máquina capazes de buscar de forma autônoma outras representações dos dados que satisfazem o objetivo de uma tarefa de predição qualquer.

225
Q

O que é uma redução de dimensionalidade?

A

É o processo de redução do número de features (características ou variáveis) em um conjunto de dados, mantendo só as informações mais importantes.

226
Q

Para que a redução de dimensionalidade é utilizada?

A

1) Para reduzir a complexidade de uma conjunto de dados, preservando apenas as características essenciais.
2) Reduzir o overfitting
3) Reduzir o tempo de computação
4) melhorar a precisão dos modelos

227
Q

CERTO OU ERRADO

Quanto mais dimensões existirem, maior será o volume espacial, mais esparsos ficam os dados e o desempenho da previsão fica pior.

A

CERTO! Depois de certo ponto, quanto maior a quantidade de variáveis, pior o desempenho da previsão.

228
Q

O que é a Maldição da Dimensionalidade (Curse of Dimensionality)?

A

É o conjunto de fenômenos que surgem quando analisamos e organizamos dados em espaços de alta dimensionalidade.

229
Q

Quais as vantagens da redução de dimensionalidade?

A

1) Simplificação dos modelos de aprendizado de máquina: é mais fácil ajustar um modelo que tenha duas variáveis de entrada do que um modelo que tenha 80 variáveis de entrada.
2) Redução do overfitting: é muito mais difícil ocorrer sobreajuste em um modelo de aprendizado de máquina com menos variáveis do que com muitas variáveis.
3) Simplificação da representação gráfica: visualizar dados representados em mais de três dimensões é inviável para seres humanos.
4) Redução do custo computacional: com menos variáveis, é necessário utilizar menos recursos computacionais para realizar o treinamento de um modelo de aprendizado de máquina.
5) Redução do tempo de treinamento: como há menos variáveis para ajustar, leva menos tempo para treinar o modelo de aprendizado de máquina.
6) Aumentar a performance: como há variáveis com nenhuma correlação, sua eliminação ajuda a melhorar o desempenho do modelo de aprendizado de máquina.

230
Q

Existem dois tipos de métodos de redução de dimensionalidade. Quais são?

A

seleção de variáveis e fatorização de matrizes.

231
Q

Como funciona o método de seleção de variáveis para redução da dimensionalidade?

A

Ele seleciona um subconjunto de variáveis relevantes para uso na construção do modelo, aquelas que tem relacionamento mais forte com a variável dependente e que são mais úteis para a previsão.

232
Q

Quais os métodos de seleção de variáveis para redução da dimensionalidade?

A

1) Método filter
2) Método wraper
3) Método embedded

233
Q

No que consiste o método filter para seleção de variáveis para redução de dimensionalidade?

A

É uma técnica que usa várias métricas estatísticas para avaliar a importância dos recursos e selecionar o métodos mais relevantes para a construção de um modelo preditivo.

234
Q

Como funciona a aplicação do método filter para seleção de variáveis para redução de dimensionalidade?

A

Ela reduz a dimensionalidade do modelo ao filtrar, descartar ou eliminar aquelas variáveis menos relevantes, isto é, que possuem pouca correlação com a variável alvo. Após isso, basta executar o algoritmo de aprendizado de máquina. É bastante simples, rápido e robusto.

235
Q

Com quais tipos de modelo pode ser utilizado o método filter?

A

Como ele é usado em combinação com outras técnicas, ,pode ser usado com diferentes tipos de modelos, tais como classificação, regressão, entre outros.

236
Q

No que consiste o método wraper para seleção de variáveis para redução de dimensionalidade?

A

É uma técnica que avalia o conjunto de features (características ou variáveis) escolhido e otimiza uma métrica de desempenho.

237
Q

Como funciona o método wraper para seleção de variáveis para redução de dimensionalidade?

A

Ele seleciona um subconjunto de features e, sem seguida, avalia o desempenho de um modelo treinado nesses recursos.

238
Q

PARA FIXAR

MÉTODO WRAPER

A

Esse método busca empacotar (wrap) um problema de seleção de variáveis em uma caixa preta. Dentro dessa caixa preta, são treinados modelos de aprendizado de máquina. Em outras palavras, esse método executará diversos testes de treinamento de modelos com as variáveis a fim de encontrar o melhor subconjunto de variáveis.
Na prática, ele inicialmente realiza o treinamento do modelo considerando todas as variáveis e analisa o desempenho.
Em seguida, ele descarta alguma variável, realiza o treinamento novamente e verifica se o desempenho melhorou. Ele realiza esse procedimento iterativamente até alcançar um conjunto de variáveis com um desempenho preditivo melhor que o conjunto de variáveis original.
Logo, esse método considera as relações entre as variáveis independentes, sendo capaz de descartar variáveis redundantes. Por outro lado, esse método consome muito tempo e pode resultar em overfitting.

239
Q

No que consiste o método embedded para seleção de variáveis para redução de dimensionalidade?

A

É uma técnica de seleção de variáveis que combina o método filter com o método wraper para treinar um classificador em um subconjunto de features e, em seguida, adicionar recursos adicionais ao modelo conforme necessário.

240
Q

O que é uma fatoração de matrizes?

A

É uma técnica utilizada para fatorar a matriz original em matrizes menores com o objetivo de encontrar o melhor subconjunto de dados com a menor dimensionalidade.
por ex: você assiste vários filmes da netflix e atribui nota a cada um deles. o algoritmo vai decompor isso em vários subconjuntos a fim de recomendar novos filmes

241
Q

O que é um sistema de recomendação?

A

É um algoritmo que faz previsões sobre os interesse do usuário, usando dados históricos e dados de itens específicos, fazendo recomendações personalizadas e relevantes.

242
Q

Qual a principal base para criação de sistemas de recomendação?

A

A fatoração de matrizes.

243
Q

Existem três modelos de sistema de recomendação. Quais são?

A

1) baseado em filtragem colaborativa: os algoritmos usam aprendizado de máquina para prever seus gostos com base em usuários que têm perfis similares

2) baseado em conteúdo: se baseia em características de um conteúdo, sem depender necessariamente de uma interação de outro usuário

3) híbrido: se fundamenta tanto
nas características de similaridade de perfis quanto nas características de similaridade de conteúdo

244
Q

Quais os principais métodos de redução de dimensionalidade?

A

1) PCA (Principal Component Analysis)
2) PCR (Principal Component Regression)
3) t-SNE
4) MDS (Multi-Dimensional Scaling).

245
Q

O que é a Análise de Componentes Principais?

A

PCA (Principal Component Analysis), é uma técnica que reduz a dimensionalidade por meio da transformação de um grande conjunto de variáveis em um conjunto de variáveis menor, chamados de Componentes Principais.

246
Q

PARA FIXAR

O PCA converte as correlações (diretas ou inversas) entre variáveis de forma que variáveis altamente correlacionadas fiquem agrupadas e representem padrões fortes de conjuntos de dados grandes e complexos.

A
247
Q
A