Aula3 Flashcards

Question 1

Q

ROLE OF MACHINE LEARNING IN SECURITY

Answer

A

Programas de computadores que permitem de alguma maneira otimizar o processo/desempenho usando experiências passadas. As experiências passadas servem para guiar a própria aprendizagem do computador. Mas nem todas as situações obrigam a ter conhecimento de machine learning ou obrigam a aplicação de algoritmos de machine learning, pois, o próprio Excel ou outros modelos mais elementares permitem responder. A aprendizagem é sobretudo necessária quando o conhecimento humano ainda não existe (por exemplo navegar em Marte).

Question 2

Q

O que é a Aprendizagem máquina

Answer

A

A aprendizagem máquina é a programação de computadores para otimizar um critério de desempenho usando dados de exemplo ou experiências anteriores. Não há necessidade de, por exemplo, “aprender” a calcular a folha salarial.

Question 3

Q

A Aprendizagem máquina é utilizada quando?

Answer

A

A aprendizagem é usada/pode ajudar quando:
* A experiência humana não existe (navegar em Marte).
* Quando os humanos são incapazes de explicar os seus conhecimentos (reconhecimento de voz).
* Mudanças de soluções ao longo do tempo (roteamento em uma rede de computadores).
* Quando a solução precisa ser adaptada a casos particulares (biometria do utilizador).

Question 4

Q

Que três termos podem definir o Machine Learning?

Answer

A

Em geral, uma tarefa de machine learning pode ser definida formalmente em termos de três elementos:
* A experiência E, as tarefas T e o elemento de desempenho P.

Diz-se que um programa de computador cujo objetivo é aprender baseado numa experiência E (tem que existir uma experiência previa), que permita de alguma maneira ter classes de tarefas T, e permite medir o desempenho P, e através do processo de medição da execução das respetivas tarefas consegue-se melhorar a experiencia sucessivamente, ou seja, a máquina vai aprendendo ao longo do tempo.

Question 5

Q

Abordagem Machine Learning

Answer

A

Os resultados são input (ver imagem abaixo) e são importantes porque através dos resultados é possível treinar o computador, e esse computador vai construir o programa que permite chegar a resultados progressivamente melhores.

Question 6

Q

Avanços do Machine Learning

Answer

A

O machine learning está a avançar a passos largos devido:
* Grandes e bons conjuntos de estruturas de dados
* Poder/processo de computação
* Progresso em algoritmos (os algoritmos são cada vez melhores)

Question 7

Q

Aplicações do ML

Answer

A

Muitas aplicações interessantes:
* Comercial (explorado pelo tecido empresarial)
* Científico (explorado pelas universidades e centros de investigação)

Relacionado com a inteligência artificial: No entanto, a IA é diferente de aprendizagem máquina (machine learning).

Question 8

Q

Quem surgiu primeiro: ML ou AI?

Answer

A

Nota: Surgiu primeiro o AI e só depois o machine learning. Existem modelos de AI que não estão relacionados com machine learning. Há um conjunto de técnicas que não são inspirados no machine learning). Há técnicas que são baseadas no comportamento animal sendo referente a AI e não ao machine learning. O AI é muito maior que o machine learning.

Question 9

Q

Ataques proativos vs Ataques reativos (distinção entre ambos)

Answer

A

Tanto as medidas reativas como as proativas são extremamente importantes (complementam-se). Devemos ter uma combinação de ambos, contudo quanto mais proativo melhor, pois, menores são os riscos para a organização.

Question 10

Q

Ataque reativo

Answer

A

Um ataque reativo necessita primeiro que exista um potencial atacante e existe um classificador. O potencial atacante analisa indiretamente o classificador, onde explora as possíveis vulnerabilidades para desenvolver e lançar o ataque. Do lado da empresa (do classificador) tem que analisar os resultados do ataque e tem que propor medidas reativas para mitigar os ataques.

Question 11

Q

Ataque proativos

Answer

A

Parte de um modelo distinto, em vez de ter um adversário temos um designer de classificador na mesma, onde estimamos um conjunto de modelos, estimamos o modelo do potencial atacante. Para isso construímos um dataset e realizamos testes de penetração para avaliar o seu impacto no sistema, e depois propomos medidas, onde estas são proativas enquanto que as outras são reativas.

Question 12

Q

potencias ataques no ML

Answer

A

Perspetiva da influência dos seus classificadores
Perspetiva da violação da segurança
Perspetiva do objetivo do atacante

Question 13

Q

Perspetiva da influência dos seus classificadores

Answer

A

Ataque causal – o objetivo do ataque está explicito.
Ataque exploratório – o atacante tenta lançar o ataque para procurar as vulnerabilidades do sistema.

Question 14

Q

Na perspetiva da violação da segurança

Answer

A

Ataque ao nível da integridade
Ataque ao nível da disponibilidade
Ataque ao nível da violação da privacidade

Question 15

Q

Na perspetiva do objetivo do atacante

Answer

A

Pode ser um ataque direcionado a uma dada área
Ataque indiscriminado à organização

Question 16

Q

Fluxo do ML

Answer

A

A escolha um algoritmo.
Treinar o algoritmo, para isso necessitamos sempre dos dados de teste (training data).
Precisamos de ter um mecanismo de avaliação. Para realizar esta avaliação é necessário ter conhecimentos de estatística.

Question 17

Q

Como aplicar um algoritmo de machine learning

Answer

A

Primeiro temos que ter dados de origem. Contudo desses dados de origem, nem todos vão entrar no modelo, vai haver uma seleção aleatória de linhas (dados) e vamos classificá-los em 2 grandes grupos: os dados do treino e os dados de teste. O algoritmo irá aprender com os dados de treino e depois irá verificar se realmente os dados de treino que ele tem, estão de acordo com o que ele espera atingir, que é o testing data. É uma comparação do que correu bem e o que correu menos bem.

Question 18

Q

Como podemos obter dados de teste

Answer

A

Em projetos open source (há vários).
Na internet.
Através da inteligência artificial, criar mecanismos de geração de dados, onde os próprios dados são gerados automaticamente (isto acontece em alguns casos quando não há dados reais).

Question 19

Q

Técnicas/modelos - REGRESSÃO

Answer

A

Podem ser utilizados para pintar automaticamente imagens a preto e branco ou ao contrário.

Question 20

Q

Técnicas/modelos - CLASSIFICAÇÃO

Answer

A

Reconhecimento de objetos, que é modelo de classificação.

Question 21

Q

Técnicas/modelos - REINFORCEMENT LEARNING

Answer

A

Modelo de aprendizagem por reforço (iremos provavelmente utilizar este modelo para o projeto final). Utilizados em jogos, nós treinamos o computador para ele aprender a jogar (Break out).

Question 22

Q

Técnicas/modelos - CLUSTERING

Answer

A

Baseado no k-Means. Os clusters são muito usados no google maps, e o objetivo é identificar determinadas propriedades, como por exemplo um centro histórico, uma situação de transito automóvel, um dado tipo de comercio, etc.

Question 23

Q

Algoritmos mais conhecidos - REGRESSION

Answer

A

Ridge regression, Support Vector Machines, Random Forest, Multilayer Neural Networks, Deep Neural Networks,…

Question 24

Q

Algoritmos mais conhecidos - CLASSIFICATION

Answer

A

Naive Base, Support Vector Machines, Random Forest, Multilayer Neural Networks, Deep Neural Networks,…

Question 25

Q

Algoritmos mais conhecidos - CLUSTERING

Answer

A

k-Means, Hierarchical Clustering,…

Question 26

Q

Aplicações de ML

Answer

A

Tem imensas aplicações praticas, nomeadamente:
* Na área do retalho para tentar perceber qual é a probabilidade de compra, quem compra determinado artigo numa loja se compra ou não outro, em CRM’s.
* Financeiro na deteção de fraude.
* Produção, na área de robótica, de controlos, etc.
* Na área da medicina, telecomunicações (identificação de spam).
* Bioinformatica.
* Web mining como por exemplo motores de busca.

Question 27

Q

Problemas do ML

Answer

A

De acordo com a consultora Gartner 85% dos projetos em ML correm mal.
Problemas éticos como por exemplo a Amazon em que os trabalhadores foram despedidos pela inteligência artificial automaticamente. O machine learning pode servir como suporte à decisão, mas não substituto.

Question 28

Q

Razões para que as coisas corram mal

Answer

A

Desconhecimento do negócio, o machine learning dá métricas e inputs importantes, mas que têm que ser interpretados à luz do negócio.
Resolver o problema errado, por não descobrir em concreto o problema.
Não ter acesso aos dados, logo não há modelos de treino que resolvam.
Não ter os dados certos (dados errados/inconsistentes, não terem qualidade que é um atributo essencial).
Ter demasiados dados.
Contratação das pessoas erradas (pessoas sem competências necessárias).
Ferramentas não adequadas.
Não ter o modelo ideal (algoritmo errado, logo os resultados também serão errados).
Não ter as competências (técnicas) alinhadas com a tecnologia. Existência de vários algoritmos e nem sempre há o tempo necessário para o explorar, pois, pode ser tempo perdido.

Question 29

Q

Tipos de Aprendizagem

Answer

A

Association
Supervised Learning
- Classification
- Regression
Unsupervised Learning
Reinforcement Learning

Question 30

Q

Modelo de aprendizagem por associação (Association)

Answer

A

Encontra relações entre variáveis num grande conjunto de dados
Objetivo: descobrir e mapear dados dependentes do outro para produzir o máximo lucro
Exemplo: mineração de uso da web
Algoritmos comummente utilizados:
* Algoritmo de Apriori
* Eclat
* Algoritmo de crescimento de FP

Exemplo prático: Probabilidade de ter comprado um produto x, se tiver comprado outro y. Traz uma vantagem competitiva para a organização, permite posicionar os produtos de acordo com a pretensão da empresa. Ou seja, ou colocar os produtos perto uns dos outros para a venda cruzada, ou então posicionar em extremos opostos para “obrigar” o cliente a percorrer a loja toda.

Question 31

Q

Modelo de aprendizagem por supervisão - Classificação e Regressão (Classification e Regression)

Answer

A

Prever o comportamento para novos inputs. Tenho um modelo de treinamento, e eu tenho um input que não existe e quero prever. Deixamos o algoritmo aprender e depois dizemos se o que ele aprendeu está certo ou errado.
* Modelo de extração do conhecimento.
* Modelo baseado na compressão.
* Modelos baseados na deteção de outliers (exemplo notas de 0 a 20, e há notas de 21, é importante para detetar eventuais erros).

Question 32

Q

Modelos de aprendizagem não supervisionados (Unsupervised Learning)

Answer

A

Vai aprendendo com base nos respetivos inputs que são dados. Não existem outputs, não há resultados, vai gradualmente aprendendo. Vai utilizando técnicas de clustering agrupando elementos similares, e é usado na segmentação de clientes num software CRM, na conversão de imagens e na área da bioinformática.

Question 33

Q

Modelo de aprendizagem por reforço (Reinforcement learning)

Answer

A

Temos uma política de aprendizagem que é uma sequência, não há apenas um output, mas uma sequência de outputs. Não existe um modelo supervisionado, onde não se diz se as coisas estão certas ou erradas, mas há um delayed reward, isto significa que damos uma recompensa à máquina, mas não é imediata, mas sim dada depois de determinada ação. E a recompensa é maior ou menor consoante a qualidade da resposta.
Utilizado na atribuição de crédito, jogos, robots, e vários agentes que contribuem para a sua aprendizagem.

Question 34

Q

Auxílio do machine learning na área da segurança

Answer

A

Deteção e prevenção de ataques desconhecidos (o ml pode aprender com eles).
Análise em larga escala (utilizado por exemplo elementos de big data).
Abordagens inteligentes (abordagens que aprendem, e não abordagens estáticas).
O machine learning pode ajudar naquelas 4 categorias (supervisionados, não supervisionados, associação e reforço).

Question 35

Q

Processo de treino e proteção

Answer

A

Fase de treino
Temos executáveis aplicados ao malware (software comum e software malicioso), há um modelo/algoritmo de treino (vai aprendendo com ambos) e vai tendo um modelo preditivo. Sem modelo de treino não há machine learning.

Fase de proteção
Execução de um executável (não sabemos se é malicioso ou não), há um processamento com base no modelo de previsão, depois há a sua execução e diz se é malicioso ou não.

Question 36

Q

Vantagens

Answer

A

Identificação de padrões.
Não há intervenção humana (há alguma/pouca intervenção humana para verificar se está a classificar bem ou não).
Modelo de melhoria continua, se o modelo estiver treinado e continuar a ser treinado, espera-se que vá melhorando.
Modelo que trabalha sobre múltiplas dimensões e múltiplas variações dos dados, depende muito dos dados de treino, pois, esses dados são críticos.
Grande área de aplicações.

Question 37

Q

Problemas do machine learning

Answer

A

Os dados. Como acedemos aos dados: pode ser na internet, projetos open source, podemos criar dados em laboratório, dados reais (por exemplo neste projeto final podemos ter que ir recolher dados às escolas). Em suma, precisamos que o algoritmo aprenda.
Consumidor de tempo e recursos, pode ser necessário 3 meses, 6 meses, etc.
Interpretar os resultados.
Erro de construção do modelo. Há elevadas probabilidades de erros graves ou não, o que compromete a qualidade do modelo.

Question 38

Q

Bloqueador de spam

Answer

A

Pré processamento que implica uma segmentação.
Extração das propriedades (medir recursos e propriedades). Perceber quais são os atributos e qual a sua relevância para perceber se é spam ou uma mensagem válida.
Classificação para tomar a decisão, que devolve o resultado a dizer se é spam ou mensagem válida.