Aula 3 Flashcards
Qual é a ideia chave por trás do conceito de aprendizado de máquina?
“A noção chave por trás do conceito de aprendizado de máquina é a predição. Prever o futuro é um dos sonhos mais antigos da humanidade” (Lemberger et al, 2015, p. 108).
Qual é a definição de aprendizado de máquina computacional fornecida por Amaral (2016)?
“O aprendizado de máquina computacional se refere à aplicação de técnicas computacionais na busca de padrões que porventura estejam ocultos em um conjunto de dados” (Amaral, 2016, p. 81).
Como Turing contribuiu para o campo da Inteligência Artificial em 1950?
“Ainda em 1950, Turing já havia considerado em realmente se ter máquinas inteligentes, as quais pudessem ser ensinadas” (Russel; Norvig, 2004, p. 51).
O que o aprendizado de máquina usa para construir uma função de predição?
“Machine learning, como mencionado no original em inglês, é um conjunto de ferramentas estatísticas ou geométricas e de algoritmos que permitem a automatização da construção de uma função de predição a partir de um conjunto de observações chamados de conjunto de treinamento” (Lemberger et al, 2015, p. 110).
Quais são alguns dos usos comuns do aprendizado de máquina no âmbito empresarial?
“Detecção de comportamentos de fraude em transações financeiras online.”
“Estimar uma taxa de conversão em um site comercial com base no número de cliques em determinadas páginas.”
“Prever os riscos de insolvência de um cliente com base em seus recursos e perfil socioprofissional.”
“Antecipar intenções de encerrar um serviço com base nas atividades de um assinante.”
“Descobrir as preferências de um cliente que queremos manter para sugerir produtos e serviços adequados aos seus gostos e necessidades” (Lemberger et al, 2015, p. 108).
Qual é a diferença entre predição e compreensão no contexto de aprendizado de máquina?
“Predição é diferente de compreensão. […] No entanto, a ciência não para por aí, pois tem a ambição não apenas de prever, mas também de entender o fenômeno observado, por meio de um modelo explicativo” (Lemberger et al, 2015, p. 108).
Quais são os dois tipos de variáveis usadas em aprendizado de máquina para descrever cada observação passada de um fenômeno?
“Cada observação passada de um fenômeno é descrita usando dois tipos de variáveis: variáveis preditivas (ou atributos ou parâmetros), das quais esperamos poder fazer previsões. […] E as variáveis alvo, cujo valor queremos prever para eventos ainda não observados” (Lemberger et al, 2015, p. 109).
Como se define um modelo de aprendizado de máquina?
“Um modelo de aprendizado de máquina é um processo algorítmico específico que permite a construção de uma função de predição f a partir de um conjunto de dados de aprendizado” (Lemberger et al, 2015, p. 110).
Quais são as três fases distintas na construção de um modelo de aprendizado de máquina?
“A seleção do algoritmo de aprendizado de máquina a partir de uma biblioteca de algoritmos disponíveis.”
“O treinamento do algoritmo escolhido a partir dos dados, produzindo a função de predição f(x).”
“A predição propriamente dita com o modelo construído, a partir da inserção de novas observações que não fizeram parte do conjunto de dados de treinamento” (Lemberger et al, 2015, p. 111).
Quais são os três tipos de tarefas de aprendizado de máquina mencionados no texto?
“Quanto aos tipos de tarefas de aprendizagem de máquina, pode-se listar três: classificação, agrupamentos e regras de associação” (Amaral, 2016, p. 87).
Qual é a diferença entre aprendizado supervisionado e não supervisionado?
“Um aprendizado supervisionado considera as classes as quais as amostras são definidas previamente, e um aprendizado não supervisionado não tem uma classe prévia das amostras” (Amaral, 2016, p. 87).
Quais são os dois padrões de processos utilizados na mineração de dados?
Dois padrões de processos podem ser utilizados na mineração de dados: o CRISP-DM – Cross Industry Standard Process for Data Mining – e o KDD Knowledge-Discovery in Databases (Amaral, 2016, p. 84).
O que significa CRISP-DM?
CRISP-DM traduz-se para Processo Padrão Genérico para Mineração de Dados. É o mais conhecido e adotado, prevendo seis fases (Amaral, 2016, p. 85-86).
Quais são as seis fases do CRISP-DM?
As seis fases do CRISP-DM são:
Entendimento do negócio: “Inicialmente, deve-se compreender as características do negócio onde a mineração de dados será utilizada. Consiste numa etapa chave para o sucesso de todo o processo” (Amaral, 2016, p. 85).
Entendimento dos dados: “Após o entendimento do negócio, a fase a seguir se ocupa dos dados necessários à mineração em termos de alguns elementos: estrutura, relacionamentos, qualidade, quantidade e acesso aos dados” (Amaral, 2016, p. 85).
Preparação dos dados: “A aplicação de qualquer algoritmo de aprendizado de máquina requer que os dados estejam devidamente organizados, selecionados e limpos. A preparação ainda envolve tarefas como discretização (os dados são transformados em nominais) e a normalização (dados bem comportados, dentro de uma faixa determinada)” (Amaral, 2016, p. 85).
Modelagem: “O produto da tarefa de aprendizado de máquina é um modelo. Este modelo será utilizado para classificar novas amostras, dados que não foram alimentados ao modelo durante a fase de treinamento” (Amaral, 2016, p. 85-86).
Avaliação: “O modelo é testado quanto ao seu desempenho, a partir de critérios a serem satisfeitos” (Amaral, 2016, p. 86).
Implementação: “O processo de mineração é implantado, fazendo parte dos processos da organização” (Amaral, 2016, p. 86).
O que é KDD e quais são suas fases?
KDD, traduzido como “descoberta de conhecimento em banco de dados”, provém da área da gestão do conhecimento e está dividido em cinco fases:
Entendimento do Negócio: semelhante ao entendimento do negócio visto no padrão anterior.
Pré-processamento: equivalente ao entendimento dos dados no processo CRISP-DM.
Transformação: semelhante à preparação dos dados no modelo anterior.
Mineração de Dados: equivalente à fase de modelagem do CRISP-DM.
Interpretação e avaliação: equivalente às fases de avaliação e implementação do CRISP-DM.
Qual a importância do cientista de dados no processo de mineração de dados?
O processo de mineração de dados tem como protagonista o cientista de dados. O cientista de dados é uma profissão recente, que surgiu há alguns anos com o conceito de “Big Data” e cujos contornos ainda são bastante vagos. Muitos debates acontecem sobre o leque de habilidades que o caracterizam, sobre a diferença com os perfis dos estatísticos “clássicos”, seu lugar na organização e sua vida cotidiana. Essa profissão apareceu em um contexto de profunda evolução tecnológica, maior disponibilidade e baixo custo de poder computacional e explosão das fontes de dados disponíveis (Lemberger et al., 2015, p. 73).
Quais são as três dimensões das competências do cientista de dados?
Contribuem de forma significativa para o contexto das competências do cientista de dados três dimensões (Lemberger et al., 2015, p. 74):
Dimensão matemática / estatística: “O conhecimento de estatística e algoritmos de aprendizado de máquina é essencial. O cientista de dados deve ser capaz de entender um conceito como o nível de significância de um teste, corrigir vieses, calcular probabilidades etc.” (Lemberger et al., 2015, p. 74).
Dimensão tecnológica / informática: “A explosão de volumes de dados e a disponibilidade de inúmeras estruturas de código aberto destinadas a operar transformações e enriquecimentos complexos em larga escala em dados, leva à necessidade de usar uma gama de tecnologias e linguagens de programação muito mais amplas do que no passado” (Lemberger et al., 2015, p. 74).
Dimensão empresarial: “Compreender seu trabalho, analisar os desafios comerciais de seu setor e de sua empresa fazem parte de suas responsabilidades” (Lemberger et al., 2015, p. 74).
Quais são as seis fases do workflow de um cientista de dados?
O workflow referente às tarefas de um cientista de dados pode ser descrito em seis fases (Lemberger et al., 2015, p. 81-87):
Imaginar um produto ou serviço: “Envolve passar de uma descrição informal de uma necessidade ou oportunidade de negócios para uma formulação mais rigorosa capaz de ser implementada em um modelo preditivo” (Lemberger et al., 2015, p. 81).
Coleta dos dados: “A coleta de dados é uma fase que varia consideravelmente de um projeto para outro” (Lemberger et al., 2015, p. 83).
Preparação: “Depois que os dados forem recuperados das várias fontes, eles ainda precisarão ser utilizados pelos algoritmos de aprendizado” (Lemberger et al., 2015, p. 84).
Modelagem: “A modelagem geralmente ocorre iterativamente com várias tentativas e erros” (Lemberger et al., 2015, p. 85).
Visualização: “A visualização dos dados será seu melhor trunfo para tornar palpáveis as intuições e conclusões que ele extrai de suas análises estatísticas” (Lemberger et al., 2015, p. 86).
Otimização: “A otimização de um sistema preditivo ocorre naturalmente de maneira iterativa. As abordagens ágeis são todas indicadas aqui” (Lemberger et al., 2015, p. 87).