Machine Learning Flashcards
Quando surgiu o termo “Inteligência Artificial”?
Com John McCarthy em 1956.
Qual a diferença entre “artificial intelligence”, “machine learning” e “deep learning”?
A inteligência artificial trata de programas que podem sentir, raciocinar, agir e se adaptar a fim de imitar a inteligência humana por meio de diversas técnicas.
O aprendizado de máquina trata de algoritmos cujo desempenho melhoram à medida que eles são expostos a mais dados no decorrer do tempo.
O Aprendizado de Máquina (Machine Learning) é a ciência e a arte de programar computadores para que eles possam aprender com os dados, computadores tem a capacidade de aprender sem ser explicitamente programado.
O que é programação tradicional?
É aquele processo manual de escrever um conjunto de regras em uma sequência de passos – também chamado de algoritmo – utilizando uma linguagem de programação para que o computador as execute sobre um conjunto de dados de entrada a fim de produzir um conjunto de resultados de saída.
Quanto mais exemplos de resultados você oferece a máquina, mais o algoritmo é treinado, mais regras são aprendidas e mais ajustado se torna o modelo.
Esse processo é chamado de:
treinamento.
Qual a etapa que vem após a etapa de treinamento? Descreva.
Etapa de inferência. Se utiliza uma programação bem próxima à programação tradicional com regras aprendidas na etapa anterior e novos dados para gerar inferir resultados. A inferência trabalha com probabilidades e não com afirmação. Ela vai dizer se determinado algoritmo tem baixa ou alta probabilidade.
Quem “treina” os algoritmos?
O cientista de dados.
Qual a fase mais custosa, a de treinamento ou a de inferência?
A de treinamento porque será colocado a maior quantidade de dados possíveis.
CERTO OU ERRADO
A máquina pode aprender com seus erros e fazer inferência sobre dados.
CERTO!
O modelo (treinado) é um objeto computacional que efetivamente transforma uma observação (variáveis independentes) em uma (1) utilizando um (2), (3) e (4).
O modelo (treinado) é um objeto computacional que efetivamente transforma uma observação (variáveis independentes) em uma previsão utilizando um algoritmo específico, instanciado e treinado.
O que é o Responsible IA (Inteligência Artificial Responsável)?
Uma abordagem para o desenvolvimento e uso de sistemas de Inteligência Artificial.
Quais os impactos que o Responsible IA leva em consideração?
Éticos, sociais e ambientais.
Quais os objetivos da Responsible IA?
1) Garantir que os sistemas de IA sejam desenvolvidos e utilizados de forma ética e legalmente responsável, respeitando os direitos e privacidade das pessoas e minimizando os impactos negativos sobre a sociedade.
2) Promover a transparência e explicabilidade das decisões tomadas por sistemas de IA, permitindo que as pessoas entendam como as decisões foram tomadas e possam contestá-las se necessário.
3) Promover a equidade e inclusão, considerando aspectos sociais e garantindo que os sistemas de IA não discriminem ou prejudiquem grupos ou indivíduos e promovam a diversidade e a inclusão na IA.
4) Garantir a segurança e confiabilidade dos sistemas de IA, minimizando o risco de prejuízos para as pessoas ou a sociedade em geral.
Qual a diferença entre IA Responsável e IA Explicável?
IA Explicável refere-se à capacidade de explicar como uma decisão foi tomada pelo modelo de IA para os usuários entenderem como foram feitas as tomadas de decisão.
Quais os princípios e práticas da IA responsável?
Não há uma consolidação ainda. Mas são algumas das consideradas por grandes organizações:
- Transparência
- Explicabilidade ou Interpretabilidade
- Privacidade/Segurança
- Responsabilização
- Inclusividade/diversidade
- Justiça/equidade
- Confiabilidade/uso seguro
Os dados, o sistema e os modelos de negócios de IA devem ser transparentes e há um mecanismo que pode ajudar a alcançar isso.
Que mecanismo é esse?
Mecanismo de rastreabilidade.
O que é a Explicabilidade em IA Responsável?
Como e por que a IA chegou a determinada conclusão, tornando a tomada de decisão mais transparente e compreensível e explicada para pessoas não conhecedoras.
A explicabilidade é especialmente importante em áreas onde as decisões da IA têm implicações significativas para os indivíduos em determinadas áreas.
Como essa falta de explicabilidade pode afetar pode afetar a confiança na IA?
A falta de explicabilidade em áreas como justiça, crédito, saúde, financeira, por exemplo, pode levar a decisões injustas ou discriminatórias.
CERTO OU ERRADO
A explicabilidade é considerada fundamental da Responsabilidade AI.
CERTO!
Apesar de grande parte da doutrina considerar Explicabilidade e Interpretabilidade sinônimos, há uma parcela que as diferenciam. Explique.
A interpretabilidade tem relação com a facilidade de se estabelecer uma relação de causa e efeito nas predições, ou seja, a capacidade de predizer o que vai acontecer em função dos dados e parâmetros fornecidos como entradas.
A explicabilidade pode denotar a medida em que o funcionamento do modelo em si pode ser explicado para pessoas não especialistas, ou ao menos as previsões geradas pelo modelo podem ser explicadas.
O que é a Privacidade na IA Responsável?
Se refere à proteção dos dados pessoais e sensíveis dos usuários que são coletados e processados pelos sistemas de inteligência artificial.
Quais os tipos de Privacidadade que uma entidade de IA pode adotar?
- Criptografia
- Controles de acesso rigorosos
- Adoção de práticas de segurança cibernética robustas.
CERTO OU ERRADO
A implementação de recursos de IA pode conter a escolha de privacidade por parte dos usuários, que podem escolher quais dados desejam compartilhar com a IA e em que condições.
CERTO!
CERTO OU ERRADO
As organizações pode ocultar aos usuários como seus dados serão usados e como a IA tomará decisões com base nesses dados.
ERRADO! Quebra o princípio da Privacidade e Segurança. A IA deve ser CLARA quanto ao uso dos dados e como esses dados serão usados.
A segurança da informação e a privacidade devem ser levadas em conta em que fases do ciclo de vida das soluções de IA?
TODAS AS FASES!!
A Responsabilização também pode ser chamada de:
Accountability, Auditabilidade, Prestação de Contas…
O que é a Renponsabilização em IA Responsável?
A capacidade de responsabilizar algoritmos e sistemas de inteligência artificial por suas decisões e ações. Inclui também a responsabilidade pelos impactos sociais e ambientais dos sistemas de IA, bem como a implementação de medidas para minimizar esses impactos negativos.
O que diz a Inclusividade/Diversidade na IA Responsável?
Que a IA deve ser implementada de forma a não distinguir as pessoas de acordo com suas características, sexo, idade, gênero e etc.
Como a Inclusividade/Diversidade pode ser importante no na acessibilidade?
Com o fornecimento de opções para interfaces de usuário alternativas (Ex: texto em áudio ou legendas em vídeo) e treinando algoritmos para reconhecer e lidar com diferentes formas de fala e comunicação.
CERTO OU ERRADO
A Inclusividade promove a equidade e a justiça social na aplicação de tecnologias de IA e ajuda a criar soluções mais efetivas e amplamente aceitas pela sociedade.
CERTO!
Ao que refere-se a Justica/Equidade em uma IA Responsável?
Garantia de que os sistemas de IA não discriminem indivíduos ou grupos com base em suas características protegidas ou outros fatores, evitando preconceitos.
Qual a diferença entre Justica/Equidade e Inclusividade/Diversidade?
A Inclusividade é o meio para se chegar à Justiça. A Justiça é a efetivação da inclusividade, promovendo tratamento igual para todos.
Em suma: a inclusão é a entrada ou causa e a justiça é a saída ou consequência.
A Confiabilidade e Uso Seguro em IA Responsável nos diz que as aplicações de IA devem ser:
robustas e confiáveis.
Qual a diferenciação entre Confiabilidade e Uso Seguro?
A confiabilidade refere-se à capacidade de um sistema de IA para desempenhar consistentemente e com precisão a tarefa para a qual foi projetado, em diferentes condições e ao longo do tempo.
O uso seguro, por outro lado, refere-se à capacidade de um sistema de IA para evitar danos ou lesões aos usuários, partes interessadas ou ao ambiente.
Quais os tipos de aprendizado de máquina?
- Supervisionado
- Não supervisionado
- Semi-supervisionado
- Por reforço
Explique o aprendizado de máquina supervisionado.
Se baseia em expectativa de saídas de dados a partir de dados de entrada inseridos manualmente por um especialista ou supervisor. O supervisor/especialista conhece os rótulos ou valores (dados de saída) para cada exemplo, então insere dados de entrada para que a saída seja a mais satisfatória possível. O supervisor/especialista vai corrigindo os erros a partir das respostas que os dados de entrada dão.
CERTO OU ERRADO
Nos dados supervisionados, a saída desejada para cada exemplo de entrada já é conhecida, isto é, os dados de saída são previamente rotulados.
CERTO! São previamente rotulados pelo supervisor ou especialista que já conhece os dados de saída.
Como é chamado o trabalho em que o supervisor/especialista rotula previamente os dados de saída?
Tarefa de previsão.
Qual o tipo de abordagem mais comum do aprendizado de máquina?
O aprendizado supervisionado.
CERTO OU ERRADO
Os problemas de aprendizado supervisionado geralmente tratam de uma variável quantitativa ou qualitativa.
CERTO!
Qual o nome da tarefa em que os rótulos se referem a um conjunto infinito de valores numéricos contínuos?
Tarefa de regressão.
ex: dados de entrada = menor ou maior que 100
Qual o nome da tarefa em que os rótulos se referem a um conjunto finito e não ordenado de valores categóricos?
Tarefa de classificação.
ex: dados de entrada = bonito ou feio, branco ou preto…
Quais os modelos supervisionados mais conhecidos?
- Árvores de decisão
- regressão linear
- regressão logística
- redes neurais
- K-Nearest Neighbors (KNN),
- Support Vector Machines (SVM)
Explique sobre o aprendizado de máquina não supervisionado.
O algoritmo busca um padrão de nos dados sem a utilização de um supervisor ou especialista para atribuir um valor de saída previamente. O intuito é pegar dados desconhecidos e encontrar estruturas desconhecidos para o cientista de dados. Os algoritmos encontram o padrão de forma autônoma.
CERTO OU ERRADO
No aprendizado não supervisionado, se utiliza rótulos/categorias para as amostras de treinamento.
ERRADO! Isso é no aprendizado supervisionado. No aprendizado não supervisionado, não se utiliza rótulos/categorias (dados de saída) para as amostras de treinamentos.
Qual o nome da tarefa em que o algoritmo identifica as semelhanças nos dados apresentados e reage com base na presença ou ausência dessas tais semelhanças?
Tarefa de descrição.
CERTO OU ERRADO
A ideia do aprendizado não supervisionado é prever os dados de saída.
ERRADO! A ideia do aprendizado não supervisionado é ORGANIZAR os dados ou DESCREVE-LOS.
Existe realmente uma chance de o algoritmo do aprendizado não supervisionado gerar categorias completamente diferentes do que você esperava. Existem dois grandes sub-grupos de aprendizado não-supervisionado.
Quais são?
- Agrupamento (Clustering)
- Regras de Associação (Association Rules)
O que faz o sub-grupo agrupamento (clustering)?
Estabelece regras capazes de verificar como determinados elementos em um conjunto estão intimamente associados.
Ex: Em um supermercado, sempre que uma pessoa compra pão, ela também compra leite. Então o agrupamento cria essa associação.
Quais os principais modelos do agrupamento (clustering)?
- Apriori
- FP-Growth
- Eclat.
O que faz o sub-grupo “associação de regras”?
Ele busca padrões em um conjunto de dados e os transforma em conjuntos, comparam os dados de um mesmo grupo e verificam se são homogêneos ou semelhantes.
Quais os principais modelos de associação de regras?
- k-Means
- Agrupamento Hierárquico.
Explique sobre o aprendizado semi supervisionado.
Ele está entre o supervisionado e o não supervisionado. Utiliza-se tanto dados rotulados quanto dados não rotulados, sendo pouca quantidade de dados rotulados e uma grande quantidade de dados não rotulados. Pode ser aplicado com a duas tarefas do supervisionado (regressão e classificação) e as duas tarefas do não supervisionado (agrupamento e associação de regras).
Explique sobre o aprendizado por reforço.
Consiste num conjunto de técnicas que utilizam tentativas e erros para definir interações ótimas de como interagir o ambiente ou agente. A meta é punir a ação considerada negativa e beneficiar a ação considerada positiva.
No que consiste o tarefa/técnica de classificação?
É uma tarefa do aprendizado supervisionado que permite classificar dados em grupos (dados de entrada) para facilitar a análise, utilizado para prever comportamento futuro ou para descobrir padrões (dados de saídas pré definidos).
O que são features para a tarefa de classificação?
São dados ou características utilizadas pelo supervisor ou especialista que caracterizam de forma útil aquilo que desejamos classificar.
Ex: envergadura e massa, peso e altura…
O que é a matriz de confusão (ou matriz de erro)?
É uma tabela utilizada para avaliar a qualidade de um modelo que mostra as frequências de classificação para cada classificador/rótulo do modelo.
Há cinco tipos de métricas para calcular a precisão da coleta de dados para o aprendizado de máquina. Quais são?
- Acurácia
- Sensibilidade
- Especificidade
- Precisão
- F1-Score
Explique sobre a métrica de acurácia.
É a mais simples das métricas, que visa verificar a quantidade de acertos dentro do total de previsões.
Fórmula: (VP + VN) ÷ (VP + FP + VN + FN)
*Leia-se: valor positivo + valor negativo ÷ valor positivo + falso positivo + valor negativo + falso negativo
Explique sobre a métrica de sensibilidade.
Avalia a capacidade do classificador de detectar com sucesso resultados positivo. Pode ser chamado de revocação ou recall.
Fórmula: VP ÷ (VP + FN)
leia-se: valor positivo ÷ valor positivo + falso negativo
Explique sobre a métrica de especificidade.
Avalia a capacidade do classificador de detectar com sucesso resultados negativos.
Fórmula: VN ÷ (VN + FP)
leia-se: valor negativo ÷ valor negativo + falso positivo
Explique sobre a métrica de precisão.
Mensurar a proporção de previsões positivas corretas sobre a soma de todos os valores positivos.
Fórmula: VP ÷ (VP + FP)
leia-se: valor positivo ÷ valor positivo + falso positivo
Explique sobre a métrica de F1-Score.
Média harmônica calculada com base na precisão e na sensibilidade, ou seja, é uma medida derivada dessas outras medidas. Tenta condensar em uma única medida um pouco da precisão e um pouco da sensibilidade.
Fórmula: (Precisão x Recall) ÷ (Precisão + Recall) x 2
Qual a métrica que responde a pergunta abaixo?
“Dentre os valores realmente negativos, quantos o modelo acertou (previu corretamente como negativo)?”
Especificidade.
Qual a métrica que responde a pergunta abaixo?
“Dentre os valores previstos como positivos, quantos o modelo acertou (previu corretamente como positivo)?”
Precisão.
Qual a métrica que responde a pergunta abaixo?
“Dentre todas as previsões realizadas, quantas o modelo acertou?”
Acurácia.
Qual a métrica que responde a pergunta abaixo?
“Dentre os valores realmente positivos, quantos o modelo acertou (previu corretamente como positivo)?”
Sensibilidade (recall).
Em que situação é recomendado o uso da métrica de precisão?
Situações em que falsos-positivos são mais prejudiciais que os falsos-negativos.
Em que situação é recomendado o uso da métrica de recall (sensibilidade)?
Situações em que falsos-negativos são mais prejudiciais que os falsos-positivos.
Do que se trata a técnica de agrupamento?
Uma técnica para identificar grupo de dados multivalorados para descobrir padrões e a relação entre os dados e os transformar em subconjuntos, de modo que todos os elementos do subconjunto possuam características em comum.
Como também pode ser chamado a técnica de agrupamento?
Clustering.
Qual a diferença entre classificação e clustering (agrupamento)?
A classificação é um algoritmo supervisionado, ou seja, precisa de algum supervisor/especialista para realizar esse agrupamento, ou seja, cada objeto da base possui a classe correspondente à qual pertence previamente definida.
O clustering é um algoritmo não supervisionado, não necessitando de interferência externa.
Do que se trata a técnica “Regras de Associação”?
São algoritmos não supervisionados, utilizados para descobrir relação entre variáveis de um conjunto de dados, descrevendo padrões que ocorrem com frequência para prever ocorrência futuras.
Ex: carrinho de supermercado da imagem
Como funciona o formato da Regra de Associação?
É um formato X → Y (antecedente para o consequente). Basicamente, o algoritmo associa que ocorrendo X, é provável que ocorra Y.
Ex: o algoritmo verifica que o cliente comprou cerveja, gelo e carne (X) e pode ser que ele associe e sugira carvão, sal grosso (Y)…
Quais os dois conceitos centrais (ou medidas de interesse) em mineração de regras de associação?
- Suporte/prevalência
- confiança/força
O que a medida de interesse de suporte/prevalência busca na mineração de regras de associação?
A frequência com que um conjunto de itens específicos ocorrem no banco de dados, isto é, o percentual de transações que contém todos os itens do conjunto.
Ex: a quantidade de vezes em que os itens são comprados separadamente e se calcula a proporção. Em 10 compras, tiveram 4 cervejas, 6 gelos e 2 carvões não necessariamente juntos.
O que a medida de interesse de confiança/força busca na mineração de regras de associação?
A probabilidade de que exista uma relação entre itens, a quantidade de vezes que eles aparecem simultaneamente.
Ex: a quantidade de vezes que cerveja, gelo e carne são comprados juntos!
O que são Modelos de Regressão?
São modelos estatísticos utilizado para verificar a relação entre uma variável dependente para um conjunto de dados ou variáveis independentes.
Para que normalmente é usado o Modelo de Regressão?
Para fazer previsões sobre valores futuros da variável dependente. É um tipo de modelo preditivo.
O que é o modelo preditivo?
É o modelo responsável por relacionar dados de entrada (também chamados de variáveis independentes) com o resultado esperado (variáveis dependentes ou variável alvo contínua).
Em suma: São uma função matemática que, quando aplicada a uma massa de dados, é capaz de identificar padrões e oferecer uma previsão do que pode ocorrer.
Quais são os dois modelos de regressão mais conhecidos?
Regressão linear e a regressão logística
CERTO OU ERRADO
Regressão é uma técnica para investigar a relação entre variáveis ou features independentes e uma variável ou resultado dependente.
CERTO!
Do que se trata a regressão linear?
Ferramenta estatística para quantificar a relação entre variável específica e um resultado esperado, controlando o efeito de uma variável enquanto as outras se mantém constantes.
Qual a metodologia utilizada pela Regressão Linear e o que faz essa metodologia?
Mínimos Quadrados Ordinários (MQO) e ela traça uma reta a partir da estatística e faz o valor do residual ao quadrado. Residual é a diferença entre a reta e o ponto fora dela, conforme imagem.
CERTO OU ERRADO
Os mínimos quadrados ordinários nos dão a melhor descrição de uma relação linear entre duas variáveis.
CERTO!
CERTO OU ERRADO
O resultado do mínimo quadrado ordinário é uma reta.
ERRADO! É uma equação que é descrita pela reta.
RESUMO DE REGRESSÃO LINEAR
y = a + bx
onde y é o peso em quilos; a é o intercepto, isto é, ponto em que a reta intercepta o eixo y (valor de y quando x = 0); b é a inclinação da reta; e x é a altura em centímetros.
Do que se trata a regressão logística?
É um algoritmo supervisionado que, a partir de um conjunto de dados, permite prever os valores de uma variável categórica a partir de uma série de variáveis explicativa contínuas ou binárias, mas geralmente binárias.
CERTO OU ERRADO
Uma das limitações da regressão logística é de trabalhar apenas com dados categóricos.
ERRADO! A regressão logística trabalha apenas com dados quantitativos para prever dados categóricos (qualitativos).
Para qual finalidade é a regressão logística?
Para classificação de dados.
CERTO OU ERRADO
A utilização da regressão logística se dá com categorias de dois valores.
CERTO! A regressão logística é com dois valores (binárias). Ou seja, só pode haver dois valores como: baixo ou alto, masculino ou feminino, preto ou branco…
O que é a Função Sigmoide?
É uma função de ativação, utilizada na regressão logística,
que recebe como entrada um número real [-∞, +∞] retornado por uma função de regressão linear e sempre retorna um número entre [0,1].
O que são redes neurais feed-foward?
Tipo mais comum de redes neurais, são redes neurais artificiais que “caminham” em apenas uma direção, da entrada para a saída.
Como é organizado a rede neural feed-foward?
Os neurônios são organizados em camadas e o sinal se propaga de uma camada para outra. Cada neurônio recebe uma entrada da camada anterior e essa camada faz soma ponderada das entradas (chamada carga elétrica total) e passa o resultado para a próxima camada.
como o próprio nome diz, alimentar a frente
Para quais tarefas de aprendizado é utilizado a rede neural feed-foward?
Para as tarefas de aprendizado supervisionado.
PARA FIXAR
Neurônio Artificial
Temos um conjunto de n entradas (e₁, e₂, e₃ ,…, eₙ) que são multiplicadas por pesos específicos associados a cada entrada (p₁, p₂, p₃,…, pₙ). Cada um desses pesos é livremente ajustável de forma independente dos demais. Em seguida, nós realizamos a soma de cada entrada multiplicada por seu respectivo peso associado. E o próximo passo é somar tudo isso com uma entrada especial denominada viés ou bias (b).
O peso de uma entrada na rede neural representa o que?
A sua força ou influência no resultado.
O que é um viés (bias) em uma rede neural?
É um valor que pode ser ajustado para aumentar ou diminuir a força do sinal ao adicionar um valor positivo/negativo com o intuito de regular o formato/curvatura da função e ajustá-la ao propósito desejado.
Qual o objetivo de uma função de ativação em uma rede neural?
Transformar o formato de reta (de uma função linear) em um formato não linear, tornando a função mais flexível/adaptável para tarefas complexas.