04 - MACHINE LEARNING COM PYTHON - UND I e II - DT Flashcards

1
Q

1) Quais os Algoritmos, estudados na UND-I, que são algoritmos somente regressão linear?

A

1- make_regression (criar massa de dados)
2 - LinearRegression
3 - Ridge
4 - Lasso
5 - ElasticNet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

2) Quais são os algoritmos de validação cruzada Quais são seus tipos?

A

É para plicar a Validação Cruzada.
- KFold (Regressão linear).
- StratifiedKFold (regressão logística).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

3) Quais os algoritmos que fazem a calibração automática dos parâmetros?

A

1 - RandomizedSearchCV e GridSearchCV

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

4) Quais dos algoritmos que fazem a calibração automática dos parâmetros são randomizados e totais?

A

1 - RandomizedSearchCV (de forma aleatória e randomizada, não pega todos os dados).
2 - GridSearchCV (colocando em testes todos os dados para os parâmetros).
Aplica-se para problemas de classificação e regressão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

5) Quais os Algoritmos, estudados na UND-I, que são para resolver somente problema de regressão Logística (Classificação)?

A

1 - LogisticRegression
2 - *** confusion_matrix (roc_curve e roc_auc_score) (para análise de resultado)
3 - KNeighborsClassifier - KNN
4 - TEOREMA DE NAIVE BAYES - NB )
4.1 - MultinomialNB –> Quando os dados das variáveis preditoras (features) SÃO DISCRETOS (nº inteiros)
4.2 - BernoulliNB —> Quando os dados das variáveis preditoras SÃO DISCRETOS E BINÁRIOS (0 ou 1, são as features que tem este valor, não confunda com os valores das classes do target).
4.3 - GaussianNB —> Quando os dados das variáveis preditoras SÃO CONTÍNUOS (nº reais), devemos utilizar a função GaussianNB.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

6) Qual é o algoritmo da árvore de decisão? E para a sua exibição gráfica?

A

1 - DecisionTreeClassifier (para classificação)
2 - graphviz (gráfico)
3 - DecisionTreeRegressor (para regressão)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

7) Qual algoritmo você obrigatoriamente necessita normalizar os dados?

A

1 - KNN
2 - KMeans (clusterização)
3 - Redução de Dimensionalidade PCA
4 - SVM - Support Vector Machine.
5 - Sistema de Recomendação

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

8) Quais os algoritmos para se fazer a normalização?

A

1 - MinMaxScaler
2 - StandardScaler
3 - MaxAbsScaler
4 - normalize

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

9) Quais as técnicas para Feature Selection?

A

1 - Correlação (df = nome do dataset) –> print (df.corr(method = ‘pearson’))

2 - SelectKBest + chi2 (Qui-Quadrado) para a regressão logística de nº só positivos.

3 - SelectKBest + f-classif para a regressão logística de nº positivos e negativos.

4 - RFE para a regressão linear.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

10) Qual o algoritmo que serve para equalizar os valores dos algoritmos entre o professor e o aluno?

A

random_state=10 (escolhe número qualquer)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

11 - Em ML, qual é o valor ideal para “bias” (ou viés em português) e “variância” em diferente data sets?

A

O que você busca no ML é ter uma baixa bias e uma baixa variância em diferente data sets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

12 - Existem três métodos comumente utilizados que auxiliam na baixa bias e uma baixa variância. Quais são?

A

1 – Regularização –> (Ridge, Lasso e ElasticNet - lição 03 a 24)
2 – AdaBoostClassifier / AdaBoostRegressor –> (ADABOOST - lição 94 a 98)
3 – BaggingClassifier / BaggingRegressor –> ( BAGGING - lição104-107)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

13 - Desenhe um gráfico representando as curva de treino e teste da:
h3 –> overfitting (superajuste)
h2 –> underfitting (subajuste)
h1 –> valor médio de bias e variância.

A

Lição 02 - 2 – VIÉS (BIAS) E VARIANÇA

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

14 - Desenhe um gráfico que explique que modelos muitos simples têm alto erro na predição, tanto para os dados de teste e de treino. A medida que você vai deixando complexo o seu modelo, para se ajustar aos dados de treino, tem possibilidade de ir se aproximando do overfitting. Informe no gráfico o seu ponto de equilíbrio, Bias e Variancia.

A

O segredo é o meio termo entre acerto e complexidade.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

15 - Desenhe um gráfico que explique a Bias X a Variância

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

16 - O que é “Bias” e “Variância”? Qual sua relação?

A

O conceito de viés (bias) e variância são os dois componentes do erro de um modelo de Machine Learning.

1 - Bias (se lê /baias/, ou viés em português):
O bias pode ser descrito como a diferença entre as previsões do modelo e os valores verdadeiros, ou seja, é uma medida de quão bem o modelo se ajusta aos dados. Um modelo com alto bias tende a fazer previsões incorretas ou simplistas, enquanto um modelo com baixo bias tende a fazer previsões mais precisas e complexas.
O bias está relacionado à capacidade do modelo de capturar a relação verdadeira entre as variáveis. Um modelo com alto bias pode ser muito simples para capturar a complexidade dos dados e, portanto, subestimar ou superestimar a relação entre as variáveis. Por outro lado, um modelo com baixo bias pode ser muito complexo para os dados, levando a overfitting.

2 - Variância:
Um modelo com alta variância pode ser muito complexo para os dados de treinamento, levando a overfitting, ou seja, o modelo se ajusta muito bem aos dados de treinamento, mas tem uma performance ruim em dados novos. Isso significa que o modelo não generaliza bem, ou seja, não é capaz de fazer previsões precisas em dados que não foram usados para treiná-lo.

Por outro lado, um modelo com baixa variância pode ser muito simples para os dados de treinamento, levando a underfitting, ou seja, o modelo não se ajusta bem aos dados de treinamento e, portanto, tem um desempenho ruim tanto em dados de treinamento quanto em dados novos.

3 - Relação entre Bias e Variância:
A relação entre bias e variância pode ser descrita como um trade-off. Um modelo com alta complexidade tende a ter baixa bias e alta variância, enquanto um modelo com baixa complexidade tende a ter alta bias e baixa variância. O objetivo é encontrar um equilíbrio entre bias e variância para obter o melhor desempenho do modelo.

Portanto, a variância não é a diferença entre a bias de treino e a bias de teste, mas sim uma medida da sensibilidade do modelo às variações nos dados de treinamento. E é importante notar que a variância pode afetar tanto o desempenho do modelo em dados de treinamento quanto em dados de teste.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

17 - Através de um gráfico, explique como se calcula a variância, para comparação de desempenho entre dois modelos

A
  1. No gráfico: pontos verdes dados de treino, pontos azuis dados de teste. A variância também pode ser feita da seguinte forma. Calcula a distância dos pontos azuis da reta de cadamodelo (modelo 1 e 2) e depois eleve os valores das distâncias de cada ponto ao quadrado e soma-se todos os valores de cada reta. Aquele que tiver a menor variância é o melhor modelo (1 ou 2).
    1. Na reta do modelo 1, nos pontos azuis, dados de teste, dá para perceber que se aproximam mais da reta do modelo 1. Logo o modelo 1 tem uma menor variança em comaparação com o modelo 2.
18
Q

18 - No geral, quais as recomendações para a quantidade de NaN em um dataset? Onde se deve focar sua atenção com referência aos dados faltantes? Comente.

A

Os dados faltantes devem ser analisados por cada coluna. Não verifique os dados faltantes nas linhas e sim foque os dados faltante por cada coluna.
1 - 5%, no máximo –> você tem liberdade de aplicar qualquer das técnicas de lidar com os dados faltantes. Poderá ser excluída as linhas (observações) dos dados faltantes, substituir pela média, pela mediana. O percentual de 5% não vai alterar, de forma significante, o resultado de seu modelo.
2 - 10% a 15% –> Na prática, quando há 10% ou 15% de dados faltantes, costuma substituir os dados pela média ou mediana
3 - 30% para mais –> considerado uma quantidade alta de dados faltantes, podendo causar uma alteração relevante para teu modelo.
4 - 60% para mais –> Acima de 60%, é considerado uma coisa anômalo, devendo ser considerado, a remoção (delete) total desta variável (coluna).

** Acima temos as recomendações padrões, mas não são uma regra fixa, pois tudo vai depender do caso prático em que se está trabalhando.
**
O problema maior será quando a variável é importante e existe muitos dados faltantes nele.
** Portanto, antes de decidir qual técnica será aplicada nos dados faltantes, deve-se investigar antes, a importância, o peso, da variável em seu modelo.
**
Quando estiver 10% a 15% deve ser testado com a mediana, com a média, rodando o modelo e ver qual atinge melhor performance.
*** Existe também casos em que a quantidade de dados são astronômicas, com mais de 1 milhão. Neste caso, os subconjuntos que sobram, quando se exclui linhas, já são o suficiente para alimentar o modelo para ele aprender. Também, neste caso, é outra análise que deve ser feita.

19
Q

19 - O que é correlação?

A
  1. Correlação é uma medida de quanto as coisas andam juntas ou andam separadas. Se as duas coisas andam juntas (subindo ou descendo), a correlação é positiva. Se as duas coisas andam em sentidos opostos, a correlação é negativa.
    02.	Estas medidas de correlação podem ser normalizadas, ou seja, deixar esta medida entre o intervalo dos números 1 e 0.
20
Q

20 - O que é Variáveis Discretas e Variáveis Contínuas? Quais distribuições de probabilidades são usadas para cada variável?

A
  • ** VARIÁVEIS DISCRETAS: quando o conjunto de resultados possíveis é finito ou enumerável. Exemplo: número de filhos, alunos numa escola etc. Usadas nas distribuições de Probabilidades de Bernoulli, Poisson e Binomial.
    **
    VARIÁVEIS CONTÍNUAS: quando os valores são expressos como intervalo ou união de números reais. Exemplo: peso, massa, altura, pressão sistólica, idade, nível de açúcar no sangue etc. Usadas nas distribuições de Probabilidades de Uniforme, Normal de Probabilidade, Normal de Padrão.
21
Q

21 - Que tipo de variável se é usado para o Coeficiente da Correlação de Pearson? qual sua relação com o Coeficiente de Determinação R2?

A

*** O COEFICIENTE DA CORRELAÇÃO DE PEARSON é para as variáveis quantitativas. É a medida de associação linear. O coeficiente da correlação de Pearson é representado pela letra “r” em minúsculo (também representado pelo símbolo p ). Quando se eleva o “r” ao quadrado (R2) nasce o coeficiente de determinação R2.

22
Q

22 - Como se deve interpretar os valores do Coeficiente da Correlação de Pearson?

A
23
Q

23 - Quais análises temos que fazer sobre os pontos fora da curva? Como pode identificar os pontos outliers?

A

1 – Primeira análise. Seria bom excluir todos os valores outliers? Isso depende de cada caso.
A - Depende do algoritmo que estamos usando.

Se for um algoritmo do tipo regressão linear, ou outro qualquer, que vai multiplicar pesos vezes as variáveis (análise combinatória), os pontos outliers podem influência muito para pior o nosso modelo ML. Portanto, para os algoritmos que se utilizam de um método de cálculo semelhante ao de regressão linear, é interessante considerar o contexto destes outlier para o modelo de negócio de seu cliente e verificar se tem a possibilidade de excluir, sem prejudicar a predição de seu objetivo. Sempre devemos usar o bom senso para verificar se excluímos ou não os outliers. É muito importante pensar e entender cada variável do seu dataset.

Para os algoritmos, semelhante ao da Árvore de Decisão (DT), neste caso, este algoritmo é muito robusto em relação aos pontos outliers, ou seja, ele não vai influenciar no resultado, porque a DT somente vai dividir os valores em classes, e os outliers está em um grupo destas classes. 

Mesmo fazendo as análises, você deve testar seu mole com os outliers e sem os outliers, para verificar qual deles se aproximam mais da realidade, de seus dados de teste. Estes testes fazem parte da fase do pré-processamento.

Para a análises dos pontos outliers podemos rodar o gráfico boxplot importado do pacote matplotlib.

24
Q

24 - Para os valores de chi2 abaixo (Qui-Quadrado) seleciona a melhor Feature?

Para χ2a = 18,96

Para X2b = 0,023

Para X2c = 4,348

A

1 - Com os valores calculados, a interpretação correta é que a variável X2a é a mais relevante para calcular sua variável target. Já a variável X2b é a menos relevante para calcular sua variável target, quase que insignificante. Assim, as duas mais relevantes são: X2a e X2c

25
Q

25 - Com relação ao estudo da técnica Feature Selection, Qui-Quadrado, por que o maior valor para o chi2 (χ2 –> não é x, é a letra grega chi) é a mais relevante?

A

O qui-quadrado mede a diferença entre a distribuição esperada (1ª observação) da distribuição observada (2ª observação) das variáveis categóricas. Quanto maior a diferença, maior é o valor de chi2 e maior é a probabilidade de que a relação entre as variáveis não seja por acaso.

26
Q

26 - Dentro da técnica Feature Selection, valor do chi2 (Qui-Quadrado), por que a quanto maior a diferença, entre a 1ª observação e a 2ª observação, maior é a probabilidade de que a relação entre as variáveis não seja por acaso?

A

Quando as observações das variáveis categóricas seguem a distribuição esperada (a 1ª), isto indica que não há uma relação entre as variáveis e que a correlação é puramente aleatória. Por outro lado, se houver uma diferença significativa entre a distribuição esperada (a 1ª) e a distribuição observada (a 2ª), isso indica que há uma relação entre as variáveis e que a correlação não é aleatória. Quanto maior a diferença, maior é a probabilidade de que a relação entre as variáveis não seja por acaso. Em outras palavras, o qui-quadrado é uma medida de quanto as observações diferem da distribuição esperada se não houvesse relação entre as variáveis. Quanto maior a diferença, maior é o valor de chi2 e menor é a probabilidade de que a relação seja por acaso, ou seja, maior é a probabilidade de que a relação entre as variáveis seja real e não aleatória.

27
Q

27 - O que é Suavização de Laplace?

A

A Suavização de Laplace é para resolver o problema da probabilidade zero nas funções (NB – TEOREMA DE NAIVE BAYES) MultinomialNB e BernoulliNB. Se multiplicar uma probabilidade zero, em sua fórmula, vai zerar todas as probabilidade multiplicada por ela. Não é porque não existe uma das probabilidades em uma das variáveis que nas outras variáveis, probabilidades, não exista também.

28
Q

28 - Qual o algoritmo que é obrigatório realizar a sua normalização antes de rodar o modelo?

A

1 - KNN
2 - KMeans (clusterização)
3 - Redução de Dimensionalidade PCA
4 - SVM - Support Vector Machine.
5 - Sistema de Recomendação - surprise

29
Q

29 - No algoritmo de clusterização KMeans, de seus 5 principais parâmetros e explique-os?

A

1 - max_iter: número de interações desejado (número de correções feito, de aferição dos centroides, na separação dos cluster)
2 - init: números de vezes que se vai repetir as interações (max_iter).
3 - tol: tol de tolerância. Calibra o deslocamento do centroide, que vai ser considerado como modelo estável. Quando o modelo ver que o deslocamento do centroide está menor do parâmetro fornecido, ele entende que o modelo está estável.
4 - n_clusters: é o número de clusters(k).
5 - int: é a ativação do K-Means++
(lição79-DT)

30
Q

30 - Exemplifica 3 situações de aplicabilidade do método “predict”?

A

lição 37,77 3 81

31
Q

31 - No algoritmo de redução de dimensionalidade, PCA, qual a ordem da análise de dados

A

1 - Importa o Pandas
2 - Importa o dataset
3 - separa os dados em preditoras (x) e target (y)
4 - Normaliza os dados preditoras (x_norm)
5 - Modela o algoritmo PCA e dá um fit., transformando o x_norm em x_pca.
6 - Aplica train_test_split no x_pca e y
7 - Escolhe um algoritmo de ML, modela e dá um fit(com o x_treino, y_treino)
8 - Imprima o resultado (score = modelo.score(x_teste, y_teste)

Esses componentes principais podem ser usados como entradas para algoritmos de classificação ou regressão

(lição - 84)

32
Q

32 - Em Python, dentro da família sklearn, o que faz o parâmetro shuffle?

A

Na biblioteca scikit-learn (sklearn) do Python, o parâmetro “shuffle” é usado em algoritmos de aprendizado de máquina para embaralhar (aleatorizar) os dados de treinamento antes de cada época (iteração) do treinamento.

Por padrão, a maioria dos algoritmos de aprendizado de máquina no sklearn não embaralham os dados antes de cada época, o que pode ser problemático em alguns casos. Quando os dados são organizados de maneira sistemática, como em uma ordem crescente ou decrescente de acordo com alguma característica, o algoritmo pode aprender apenas a ordem dos dados, em vez de aprender a relação entre as características e o resultado. Além disso, se houver uma tendência nos dados, como uma variação sazonal ou uma tendência linear, o modelo pode acabar aprendendo essa tendência e não o relacionamento real entre as características e o resultado.

Ao definir o parâmetro “shuffle” como True, o conjunto de dados de treinamento será embaralhado aleatoriamente antes de cada época. Isso ajuda a garantir que o modelo não aprenda apenas a ordem dos dados e a tendência dos dados, mas sim a relação entre as características e o resultado. É importante notar que, em alguns casos, como séries temporais, pode não ser adequado embaralhar os dados, pois a ordem dos dados é importante para a modelagem.

Regenerate response ChatGPT

33
Q

Como se comporta o parâmetro “shuffle” nos comandos:
1 - Train_Test_split
2 - StratifiedKFold e
3 - Kfold

A

1 - shuffle=True” quer dizer para mandar embaralhar os dados.
2 - Este embaralhamento ocorre antes do treino, e isso faz com que o algoritmo aprenda mais.
3 - Tira o viés dos dados de teste no embaralhamento.
4 - O Train_Test_split seu padrão já é “shuffle=True”.
5 - O StratifiedKFold não é padrão True.
6 -Kfold não é padrão True.

34
Q

34 - Ensemble é uma técnica que envolve a combinação de vários modelos de aprendizado de máquina para melhorar o desempenho geral do modelo. Quais as duas abordagens principais para o ensemble? Explique-as!

A

Ensemble
Existem duas abordagens principais para o ensemble: o Bagging e o Boosting.

1 - Bagging
Bagging é uma técnica de ensemble que envolve a construção de vários modelos independentes, onde cada modelo é treinado em um conjunto de dados diferente. Esses conjuntos de dados são criados a partir do conjunto de treinamento original, selecionando aleatoriamente exemplos com substituição. O resultado final é obtido pela média das previsões de cada modelo. A ideia é que a variância do modelo geral seja reduzida, já que cada modelo é treinado em um conjunto de dados diferente e, portanto, está sujeito a diferentes fontes de variação.

No scikit-learn, a classe BaggingClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe BaggingRegressor é usada para algoritmos de regressão.

from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesClassifier

2.1 - Boosting
O Boosting é outra técnica de ensemble que envolve a construção de vários modelos sequenciais, onde cada modelo é treinado para corrigir os erros do modelo anterior. O primeiro modelo é treinado no conjunto de dados original, enquanto os modelos subsequentes são treinados em uma versão modificada do conjunto de dados, onde os exemplos que foram classificados incorretamente pelo modelo anterior recebem mais peso. O resultado final é uma combinação ponderada das previsões de cada modelo. A ideia é que os modelos subsequentes se concentrem nas áreas em que os modelos anteriores falharam.

No scikit-learn, a classe GradientBoostingClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe GradientBoostingRegressor é usada para algoritmos de regressão.

2.2 - Boosting
O Boosting é uma técnica de ensemble que combina vários modelos de aprendizado de máquina para melhorar a precisão geral do modelo. O Boosting é uma técnica sequencial que ajusta o modelo iterativamente em cada iteração. Em cada iteração, o modelo atual é treinado no conjunto de dados original, com ênfase nos exemplos classificados incorretamente pelo modelo anterior. O resultado final é uma combinação ponderada dos modelos treinados em cada iteração. O objetivo do Boosting é melhorar a precisão geral do modelo, ajustando-o iterativamente para que se concentre nos exemplos difíceis.

No scikit-learn, a classe AdaBoostClassifier é usada para implementar essa técnica para algoritmos de classificação, enquanto a classe AdaBoostRegressor é usada para algoritmos de regressão.

AGRADIENTBOOST

Regenerate response

ChatGPT Feb 13 Version. Free Research Previ

35
Q

35 - Destro do tema do “Sistema de Recomendação”, o que é Cold Start? Como lidar com ele?

A
  1. Cold Start (partida a frio) é um termo usado no campo do aprendizado de máquina para descrever a situação em que uma máquina ou algoritmo de aprendizado de máquina é exposto a um conjunto de dados ou um problema que ele nunca viu antes. Isso pode ocorrer quando uma nova máquina está sendo implementada, ou quando um modelo de aprendizado de máquina está sendo aplicado a um novo conjunto de dados ou problema. Exemplo, um usuário do Netiflix acabou de criar sua conta
  2. Existem algumas técnicas para lidar com o problema do cold start, como:
    1 - Utilizar dados de treinamento prévios de fontes semelhantes, se disponíveis.
    2 - Utilizar técnicas de aprendizado sem supervisionado para explorar os dados e extrair características úteis.
    3 - Utilizar técnicas de transfer learning, onde um modelo pré-treinado é adaptado ao novo
36
Q

36 - Destro do tema do “Sistema de Recomendação”, o que é Filtragem baseada em conteúdo? Quais suas vantagens e desvantagens?

A
  1. Esta filtragem consiste basicamente em trazer recomendações com base nas características dos produtos e ou serviços. Exemplo da Netflix. A recomendação da Netflix será baseada nas características dos filmes já anteriormente assistido. Se tem o costume de assistir filmes de ação, ele vai recomendar filmes de ação. São as caraterísticas (features) dos produtos consumidos que é levado em conta nesta filtragem.
    02.	Vantagens. Não necessita muitos dados para se começar a fazer as recomendações. Com poucos filmes assistidos, já é possível recomendar um filme semelhante as que foram assistidos. 
    
    03.	Desvantagens. Transforma o consumo do cliente em uma bolha (bolha de recomendação). Não vai sugerir ideias fora da caixa. Exemplo do site da Amazon. Cliente comprou jogos de vídeo game. Neste tipo de filtragem, iria sugerir o mesmo tipo de jogo para o cliente.  Isso seria uma limitação. Caso usasse uma filtragem colaborativa, neste caso, ela iria oferecer também uma placa de vídeo para quem gosta de jogar aquele tipo de jogo. Ou um teclado ou joystick.
37
Q

37 - Destro do tema do “Sistema de Recomendação”, o que é Filtragem Colaborativa? Quais suas vantagens e desvantagens?

A
  1. Não tem o foco nas características dos produtos consumidos. Seu foco é nas interações do usuário com os conteúdos, em vez das características dos produtos em si. Não se limita a trazer o produto, mas as preferências dos outros usuários (que consomem o mesmo produto).
    02.	Exemplo da Netflix. As pessoas que consomem o filme X, o que elas têm em comum? Que tipo de pessoa que consome o filme X? Este grupo, consome também o filme Y? Se sim, vamos recomendar o filme Y para os membros do grupo X que ainda não assistiram o filme Y. Seria informações cruzadas entres as preferências de pessoas com as mesmas características, com o mesmo perfil. Por esta razão que se chama sistema de colaboração.
    
    03.	Vantagens. Não fica limitado em uma esfera das características dos produtos. A filtragem colaborativa pode oferecer filme que nem o cliente pensou em ver ou saberia de sua existência. As pessoas não sabem totalmente o que elas querem. 
     
    
    04.	Na Amazon, em alguns casos, este tipo de recomendação é responsável por 60% de suas vendas.
    
    05.	Desvantagens. A quantidade de filme é muito vasta. O cliente vai assistir dezenas até centenas, mas não vai assistir tudo. Isso faz com que o dataset, onde as linhas são os usuários e as colunas os produtos, apresente muitos dados missing (NaN). A matriz será muito grande e o custo computacional também vai ser. Precisa de muitos dados do usuário para trazer algo relevante para ele. Precisa que o cliente interaja bem com a plataforma.
38
Q

38 - Quais os métodos matemáticos usado no Sistema de Recomendação?

A

1 - Método Cosine Distance (Método Distância Cosseno) / Similarity

2 - Método Matrix Factorization (Fatoração Matricial) / SVD++

39
Q

39 - Quais os algoritmos estudados na Und. I e II, usados para problema de classificação?

A

NOSSOS ALGORITMOS DE CLASSIFICAÇÃO:
1 - LogisticRegression.
2 - KNeighborsClassifier - KNN.
3 - TEOREMA DE NAIVE BAYES.
4 - DecisionTreeClassifier.
5 - RandomForestClassifier.(Ensemble - Bagging)
6 - ExtraTreesClassifier.(Ensemble - Bagging)
7 - AdaBoostClassifier.(Ensemble - Boosting)
8 - GradientBoostingClassifier.(Ensemble - Boosting)
9 - BaggingClassifier.(Ensemble - Bagging)
10 - SVM (SVC).

40
Q

40 - Quais os algoritmos estudados na Und. I e II, usados para problema de regressão?

A

1- make_regression (criar massa de dados)
2 - LinearRegression
3 - Ridge
4 - Lasso
5 - ElasticNet
6 - DecisionTreeRegressor.
7 - RandomForestRegressor.(Ensemble - Bagging)
8 - ExtraTreesRegressor.(Ensemble - Bagging)
9 - AdaBoostRegressor.(Ensemble - Boosting)
10 - GradientBoostingRegressor.(Ensemble - Boosting)
11 - BaggingRegressor.(Ensemble - Bagging)
12 - SVM (SVR).

41
Q

41 - Qual o algoritmo de Clusterização? Pra qual problema de negócio é usado este algoritmo?

A

from sklearn.cluster import KMeans

42
Q

42 - Qual o algoritmo para aplicar a redução da dimensionalidade

A

Principal Component Analysis – PCA – REDUÇÃO DE DIMENSIONALIDADE