Aula 3 Flashcards

1
Q

Qual é a ideia chave por trás do conceito de aprendizado de máquina?

A

“A noção chave por trás do conceito de aprendizado de máquina é a predição. Prever o futuro é um dos sonhos mais antigos da humanidade” (Lemberger et al, 2015, p. 108).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual é a definição de aprendizado de máquina computacional fornecida por Amaral (2016)?

A

“O aprendizado de máquina computacional se refere à aplicação de técnicas computacionais na busca de padrões que porventura estejam ocultos em um conjunto de dados” (Amaral, 2016, p. 81).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Como Turing contribuiu para o campo da Inteligência Artificial em 1950?

A

“Ainda em 1950, Turing já havia considerado em realmente se ter máquinas inteligentes, as quais pudessem ser ensinadas” (Russel; Norvig, 2004, p. 51).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O que o aprendizado de máquina usa para construir uma função de predição?

A

“Machine learning, como mencionado no original em inglês, é um conjunto de ferramentas estatísticas ou geométricas e de algoritmos que permitem a automatização da construção de uma função de predição a partir de um conjunto de observações chamados de conjunto de treinamento” (Lemberger et al, 2015, p. 110).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quais são alguns dos usos comuns do aprendizado de máquina no âmbito empresarial?

A

“Detecção de comportamentos de fraude em transações financeiras online.”
“Estimar uma taxa de conversão em um site comercial com base no número de cliques em determinadas páginas.”
“Prever os riscos de insolvência de um cliente com base em seus recursos e perfil socioprofissional.”
“Antecipar intenções de encerrar um serviço com base nas atividades de um assinante.”
“Descobrir as preferências de um cliente que queremos manter para sugerir produtos e serviços adequados aos seus gostos e necessidades” (Lemberger et al, 2015, p. 108).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qual é a diferença entre predição e compreensão no contexto de aprendizado de máquina?

A

“Predição é diferente de compreensão. […] No entanto, a ciência não para por aí, pois tem a ambição não apenas de prever, mas também de entender o fenômeno observado, por meio de um modelo explicativo” (Lemberger et al, 2015, p. 108).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são os dois tipos de variáveis usadas em aprendizado de máquina para descrever cada observação passada de um fenômeno?

A

“Cada observação passada de um fenômeno é descrita usando dois tipos de variáveis: variáveis preditivas (ou atributos ou parâmetros), das quais esperamos poder fazer previsões. […] E as variáveis alvo, cujo valor queremos prever para eventos ainda não observados” (Lemberger et al, 2015, p. 109).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Como se define um modelo de aprendizado de máquina?

A

“Um modelo de aprendizado de máquina é um processo algorítmico específico que permite a construção de uma função de predição f a partir de um conjunto de dados de aprendizado” (Lemberger et al, 2015, p. 110).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais são as três fases distintas na construção de um modelo de aprendizado de máquina?

A

“A seleção do algoritmo de aprendizado de máquina a partir de uma biblioteca de algoritmos disponíveis.”
“O treinamento do algoritmo escolhido a partir dos dados, produzindo a função de predição f(x).”
“A predição propriamente dita com o modelo construído, a partir da inserção de novas observações que não fizeram parte do conjunto de dados de treinamento” (Lemberger et al, 2015, p. 111).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quais são os três tipos de tarefas de aprendizado de máquina mencionados no texto?

A

“Quanto aos tipos de tarefas de aprendizagem de máquina, pode-se listar três: classificação, agrupamentos e regras de associação” (Amaral, 2016, p. 87).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qual é a diferença entre aprendizado supervisionado e não supervisionado?

A

“Um aprendizado supervisionado considera as classes as quais as amostras são definidas previamente, e um aprendizado não supervisionado não tem uma classe prévia das amostras” (Amaral, 2016, p. 87).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quais são os dois padrões de processos utilizados na mineração de dados?

A

Dois padrões de processos podem ser utilizados na mineração de dados: o CRISP-DM – Cross Industry Standard Process for Data Mining – e o KDD Knowledge-Discovery in Databases (Amaral, 2016, p. 84).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que significa CRISP-DM?

A

CRISP-DM traduz-se para Processo Padrão Genérico para Mineração de Dados. É o mais conhecido e adotado, prevendo seis fases (Amaral, 2016, p. 85-86).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais são as seis fases do CRISP-DM?

A

As seis fases do CRISP-DM são:
Entendimento do negócio: “Inicialmente, deve-se compreender as características do negócio onde a mineração de dados será utilizada. Consiste numa etapa chave para o sucesso de todo o processo” (Amaral, 2016, p. 85).
Entendimento dos dados: “Após o entendimento do negócio, a fase a seguir se ocupa dos dados necessários à mineração em termos de alguns elementos: estrutura, relacionamentos, qualidade, quantidade e acesso aos dados” (Amaral, 2016, p. 85).
Preparação dos dados: “A aplicação de qualquer algoritmo de aprendizado de máquina requer que os dados estejam devidamente organizados, selecionados e limpos. A preparação ainda envolve tarefas como discretização (os dados são transformados em nominais) e a normalização (dados bem comportados, dentro de uma faixa determinada)” (Amaral, 2016, p. 85).
Modelagem: “O produto da tarefa de aprendizado de máquina é um modelo. Este modelo será utilizado para classificar novas amostras, dados que não foram alimentados ao modelo durante a fase de treinamento” (Amaral, 2016, p. 85-86).
Avaliação: “O modelo é testado quanto ao seu desempenho, a partir de critérios a serem satisfeitos” (Amaral, 2016, p. 86).
Implementação: “O processo de mineração é implantado, fazendo parte dos processos da organização” (Amaral, 2016, p. 86).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

O que é KDD e quais são suas fases?

A

KDD, traduzido como “descoberta de conhecimento em banco de dados”, provém da área da gestão do conhecimento e está dividido em cinco fases:
Entendimento do Negócio: semelhante ao entendimento do negócio visto no padrão anterior.
Pré-processamento: equivalente ao entendimento dos dados no processo CRISP-DM.
Transformação: semelhante à preparação dos dados no modelo anterior.
Mineração de Dados: equivalente à fase de modelagem do CRISP-DM.
Interpretação e avaliação: equivalente às fases de avaliação e implementação do CRISP-DM.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qual a importância do cientista de dados no processo de mineração de dados?

A

O processo de mineração de dados tem como protagonista o cientista de dados. O cientista de dados é uma profissão recente, que surgiu há alguns anos com o conceito de “Big Data” e cujos contornos ainda são bastante vagos. Muitos debates acontecem sobre o leque de habilidades que o caracterizam, sobre a diferença com os perfis dos estatísticos “clássicos”, seu lugar na organização e sua vida cotidiana. Essa profissão apareceu em um contexto de profunda evolução tecnológica, maior disponibilidade e baixo custo de poder computacional e explosão das fontes de dados disponíveis (Lemberger et al., 2015, p. 73).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Quais são as três dimensões das competências do cientista de dados?

A

Contribuem de forma significativa para o contexto das competências do cientista de dados três dimensões (Lemberger et al., 2015, p. 74):
Dimensão matemática / estatística: “O conhecimento de estatística e algoritmos de aprendizado de máquina é essencial. O cientista de dados deve ser capaz de entender um conceito como o nível de significância de um teste, corrigir vieses, calcular probabilidades etc.” (Lemberger et al., 2015, p. 74).
Dimensão tecnológica / informática: “A explosão de volumes de dados e a disponibilidade de inúmeras estruturas de código aberto destinadas a operar transformações e enriquecimentos complexos em larga escala em dados, leva à necessidade de usar uma gama de tecnologias e linguagens de programação muito mais amplas do que no passado” (Lemberger et al., 2015, p. 74).
Dimensão empresarial: “Compreender seu trabalho, analisar os desafios comerciais de seu setor e de sua empresa fazem parte de suas responsabilidades” (Lemberger et al., 2015, p. 74).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quais são as seis fases do workflow de um cientista de dados?

A

O workflow referente às tarefas de um cientista de dados pode ser descrito em seis fases (Lemberger et al., 2015, p. 81-87):
Imaginar um produto ou serviço: “Envolve passar de uma descrição informal de uma necessidade ou oportunidade de negócios para uma formulação mais rigorosa capaz de ser implementada em um modelo preditivo” (Lemberger et al., 2015, p. 81).
Coleta dos dados: “A coleta de dados é uma fase que varia consideravelmente de um projeto para outro” (Lemberger et al., 2015, p. 83).
Preparação: “Depois que os dados forem recuperados das várias fontes, eles ainda precisarão ser utilizados pelos algoritmos de aprendizado” (Lemberger et al., 2015, p. 84).
Modelagem: “A modelagem geralmente ocorre iterativamente com várias tentativas e erros” (Lemberger et al., 2015, p. 85).
Visualização: “A visualização dos dados será seu melhor trunfo para tornar palpáveis as intuições e conclusões que ele extrai de suas análises estatísticas” (Lemberger et al., 2015, p. 86).
Otimização: “A otimização de um sistema preditivo ocorre naturalmente de maneira iterativa. As abordagens ágeis são todas indicadas aqui” (Lemberger et al., 2015, p. 87).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

O que é classificação em aprendizado de máquina?

A

A classificação é uma tarefa de aprendizado de máquina aplicada quando a classe é um dado nominal e ocorre de forma supervisionada. Isso significa que já existe um conjunto de dados previamente classificados (Amaral, 2016, p. 88).

20
Q

Como é utilizado o aprendizado de máquina em análise de crédito?

A

Em análise de crédito, pode-se dispor de um cadastro que informe os clientes que foram bons ou maus pagadores. Com base nessas informações, o cientista de dados busca construir um modelo que possa auxiliar na previsão do comportamento de novos clientes (Amaral, 2016, p. 88).

20
Q

Onde os cientistas de dados podem encontrar bancos de dados para validação de algoritmos de classificação?

A

Os cientistas de dados podem acessar bancos de dados disponíveis na Web, open source, de diferentes contextos de aplicação, como o UCI Machine Learning Repository (Disponível em: https://archive.ics.uci.edu/ml/datasets.php. Acesso em: 4 mar. 2020).

21
Q

Quantos conjuntos de dados o UCI Machine Learning Repository possuía até março de 2020?

A

Até março de 2020, o UCI Machine Learning Repository contava com 488 diferentes conjuntos de dados (Amaral, 2016, p. 88).

22
Q

O que é o processo de hold out na construção de um modelo de aprendizado de máquina?

A

O processo de hold out é uma técnica onde os dados são divididos de forma aleatória em dois grupos: o grupo de treinamento (70% dos dados) e o grupo de teste (30% dos dados). Os dados de treinamento são usados para construir o modelo, e os dados de teste são usados para verificar a precisão do modelo (Amaral, 2016, p. 91).

23
Q

O que é validação cruzada (cross validation)?

A

A validação cruzada é uma técnica onde as amostras são utilizadas várias vezes nos grupos de treinamento e teste, sendo trocadas de forma a repetir um determinado número de vezes (geralmente 10 vezes). Esse número de interações é conhecido como partições ou folds (Amaral, 2016, p. 91).

24
Q

O que é uma matriz de confusão e quais são seus componentes?

A

A matriz de confusão é uma tabela utilizada para avaliar o desempenho de um modelo de classificação, mostrando o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos. Por exemplo, em um modelo para classificação com dois valores possíveis, ela gera quatro índices: verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos (Amaral, 2016, p. 95).

25
Q

Quais são os indicadores utilizados para verificar a eficiência de um modelo de classificação?

A

Os indicadores utilizados são:
Precisão: TP / (TP + FP)
Recall: TP / (TP + FN)
Acurácia: (TP + TN) / (TP + FP + TN + FN) (Amaral, 2016, p. 9).

26
Q

O que é overfitting e como ele afeta um modelo de aprendizado de máquina?

A

Overfitting ocorre quando o modelo fica superadaptado ao conjunto de treinamento, resultando em um ótimo desempenho no treinamento, mas um péssimo desempenho na fase de testes. Isso significa que o modelo não se generaliza bem para dados novos (Amaral, 2016, p. 95).

27
Q

O que é a maldição da dimensionalidade e como ela pode ser evitada?

A

A maldição da dimensionalidade se refere ao alto número de atributos presentes em um modelo, induzindo-o a não funcionar corretamente. Ela pode ser evitada utilizando técnicas de seleção de atributos ou transformando os dados para gerar um novo conjunto de atributos, como com a técnica de análise de componentes principais (Amaral, 2016, p. 95).

28
Q

Quais são alguns exemplos de algoritmos para classificação de dados?

A

Alguns exemplos de algoritmos para classificação de dados são:
Classificadores Bayesianos: Naive Bayes
Redes Neurais Artificiais: Multilayer Perceptron
Árvores de Decisão: J48, C-Tree
Máquina de Vetores de Suporte (SVM) (Amaral, 2016, p. 101-104).

29
Q

Como a regressão difere da classificação em aprendizado de máquina?

A

Na regressão, a classe é substituída por um atributo numérico e busca-se um relacionamento matemático entre os atributos e o valor esperado. A correlação é medida para indicar a variação em uma faixa de -1 a 1 (Amaral, 2016, p. 105).

30
Q

O que é análise por agrupamentos (ou análise de conglomerados)?

A

A análise por agrupamentos busca reunir objetos com base nas suas características, classificando-os de acordo com suas similaridades. O grupo resultante deve exibir alto grau de homogeneidade interna e alta heterogeneidade externa (Polmann, 2017, p. 325).

31
Q

Como a análise por agrupamentos difere da classificação?

A

A análise por agrupamentos é uma tarefa de mineração de dados não supervisionada, pois não há classes atribuídas a priori, enquanto a classificação é supervisionada e utiliza dados previamente classificados (Amaral, 2016, p. 108).

32
Q

Quais são exemplos de aplicações de tarefas de agrupamento?

A

Exemplos incluem a identificação de grupos de clientes para campanhas, agrupamento de clientes de seguradoras que são indenizados com mais frequência, identificação de fraudes e classificação de instâncias sem classes conhecidas (Amaral, 2016, p. 108).

33
Q

O que são agrupamentos particionais?

A

Agrupamentos particionais dividem as instâncias em grupos únicos, podendo ser baseados em protótipos (centroides ou medoids) ou em densidade (Amaral, 2016, p. 108).

34
Q

O que é o algoritmo K-Means?

A

O K-Means é um algoritmo de agrupamento baseado em protótipos com centroides. O número de centroides é definido pelo usuário e todas as instâncias são agrupadas. É um algoritmo não determinístico, com pontos de início definidos aleatoriamente (Amaral, 2016, p. 109).

35
Q

Como funciona o algoritmo DBSCAN?

A

O DBSCAN é um algoritmo baseado em densidade que define automaticamente o número de grupos e pode deixar elementos não classificados, considerados como ruídos (Amaral, 2016, p. 110).

36
Q

O que é um agrupamento hierárquico?

A

Agrupamento hierárquico permite que um elemento tenha grupos pais e subgrupos filhos, formando uma estrutura hierárquica. São representados por diagramas conhecidos como dendogramas (Amaral, 2016, p. 110).

37
Q

Para que servem regras de associação?

A

Regras de associação são utilizadas para encontrar associações entre diferentes objetos em um conjunto de dados, identificando padrões frequentes em bancos de dados de transações ou qualquer outro repositório de informações (Amaral, 2016, p. 110).

38
Q

O que são regras de associação no contexto de análise de dados?

A

Regras de associação são utilizadas para encontrar associações entre diferentes objetos em um conjunto de dados, identificando padrões frequentes em bancos de dados de transações, bancos de dados relacionais ou outros repositórios de informações (Amaral, 2016, p. 114).

39
Q

Qual é um exemplo comum de uso de regras de associação?

A

Um uso comum é a análise de cesta de compras, onde o algoritmo minera as transações para encontrar associações entre os itens comprados. Por exemplo, se uma pessoa compra pão e leite, o algoritmo pode encontrar a associação entre esses itens (Amaral, 2016, p. 114).

40
Q

Como são representadas as regras de associação?

A

As regras de associação são representadas como A -> B, indicando que quem compra o item A tende a comprar também o item B.

41
Q

Quais são as métricas usadas para avaliar a relevância das associações?

A

As métricas principais são suporte e confiança. Suporte refere-se à frequência com que os itens aparecem juntos em todas as transações, enquanto confiança indica a probabilidade de encontrar o item B nas transações que contêm o item A (Amaral, 2016, p. 114).

42
Q

O que é o suporte em regras de associação?

A

Suporte é a proporção de transações que contêm os itens da regra. Por exemplo, se a regra é Cerveja -> Fraldas e aparece em 3 de 5 transações, o suporte é de 60% (Amaral, 2016, p. 114).

43
Q

O que é a confiança em regras de associação?

A

Confiança é a proporção de transações com o item A que também contêm o item B. Por exemplo, se todos os clientes que compram cerveja também compram fraldas, a confiança da regra Cerveja -> Fraldas é de 100% (Amaral, 2016, p. 114).

44
Q

Como funciona o algoritmo Apriori?

A

O algoritmo Apriori é utilizado para descobrir regras de associação, recebendo como parâmetros o suporte e a confiança mínimos esperados. Ele gera todas as regras possíveis e filtra aquelas que não atendem aos critérios estabelecidos, mostrando apenas as mais relevantes (Amaral, 2016, p. 114).