04 - MACHINE LEARNING COM PYTHON - UND I e II - DT Flashcards
1) Quais os Algoritmos, estudados na UND-I, que são algoritmos somente regressão linear?
1- make_regression (criar massa de dados)
2 - LinearRegression
3 - Ridge
4 - Lasso
5 - ElasticNet
2) Quais são os algoritmos de validação cruzada Quais são seus tipos?
É para plicar a Validação Cruzada.
- KFold (Regressão linear).
- StratifiedKFold (regressão logística).
3) Quais os algoritmos que fazem a calibração automática dos parâmetros?
1 - RandomizedSearchCV e GridSearchCV
4) Quais dos algoritmos que fazem a calibração automática dos parâmetros são randomizados e totais?
1 - RandomizedSearchCV (de forma aleatória e randomizada, não pega todos os dados).
2 - GridSearchCV (colocando em testes todos os dados para os parâmetros).
Aplica-se para problemas de classificação e regressão.
5) Quais os Algoritmos, estudados na UND-I, que são para resolver somente problema de regressão Logística (Classificação)?
1 - LogisticRegression
2 - *** confusion_matrix (roc_curve e roc_auc_score) (para análise de resultado)
3 - KNeighborsClassifier - KNN
4 - TEOREMA DE NAIVE BAYES - NB )
4.1 - MultinomialNB –> Quando os dados das variáveis preditoras (features) SÃO DISCRETOS (nº inteiros)
4.2 - BernoulliNB —> Quando os dados das variáveis preditoras SÃO DISCRETOS E BINÁRIOS (0 ou 1, são as features que tem este valor, não confunda com os valores das classes do target).
4.3 - GaussianNB —> Quando os dados das variáveis preditoras SÃO CONTÍNUOS (nº reais), devemos utilizar a função GaussianNB.
6) Qual é o algoritmo da árvore de decisão? E para a sua exibição gráfica?
1 - DecisionTreeClassifier (para classificação)
2 - graphviz (gráfico)
3 - DecisionTreeRegressor (para regressão)
7) Qual algoritmo você obrigatoriamente necessita normalizar os dados?
1 - KNN
2 - KMeans (clusterização)
3 - Redução de Dimensionalidade PCA
4 - SVM - Support Vector Machine.
5 - Sistema de Recomendação
8) Quais os algoritmos para se fazer a normalização?
1 - MinMaxScaler
2 - StandardScaler
3 - MaxAbsScaler
4 - normalize
9) Quais as técnicas para Feature Selection?
1 - Correlação (df = nome do dataset) –> print (df.corr(method = ‘pearson’))
2 - SelectKBest + chi2 (Qui-Quadrado) para a regressão logística de nº só positivos.
3 - SelectKBest + f-classif para a regressão logística de nº positivos e negativos.
4 - RFE para a regressão linear.
10) Qual o algoritmo que serve para equalizar os valores dos algoritmos entre o professor e o aluno?
random_state=10 (escolhe número qualquer)
11 - Em ML, qual é o valor ideal para “bias” (ou viés em português) e “variância” em diferente data sets?
O que você busca no ML é ter uma baixa bias e uma baixa variância em diferente data sets
12 - Existem três métodos comumente utilizados que auxiliam na baixa bias e uma baixa variância. Quais são?
1 – Regularização –> (Ridge, Lasso e ElasticNet - lição 03 a 24)
2 – AdaBoostClassifier / AdaBoostRegressor –> (ADABOOST - lição 94 a 98)
3 – BaggingClassifier / BaggingRegressor –> ( BAGGING - lição104-107)
13 - Desenhe um gráfico representando as curva de treino e teste da:
h3 –> overfitting (superajuste)
h2 –> underfitting (subajuste)
h1 –> valor médio de bias e variância.
Lição 02 - 2 – VIÉS (BIAS) E VARIANÇA
14 - Desenhe um gráfico que explique que modelos muitos simples têm alto erro na predição, tanto para os dados de teste e de treino. A medida que você vai deixando complexo o seu modelo, para se ajustar aos dados de treino, tem possibilidade de ir se aproximando do overfitting. Informe no gráfico o seu ponto de equilíbrio, Bias e Variancia.
O segredo é o meio termo entre acerto e complexidade.
15 - Desenhe um gráfico que explique a Bias X a Variância
16 - O que é “Bias” e “Variância”? Qual sua relação?
O conceito de viés (bias) e variância são os dois componentes do erro de um modelo de Machine Learning.
1 - Bias (se lê /baias/, ou viés em português):
O bias pode ser descrito como a diferença entre as previsões do modelo e os valores verdadeiros, ou seja, é uma medida de quão bem o modelo se ajusta aos dados. Um modelo com alto bias tende a fazer previsões incorretas ou simplistas, enquanto um modelo com baixo bias tende a fazer previsões mais precisas e complexas.
O bias está relacionado à capacidade do modelo de capturar a relação verdadeira entre as variáveis. Um modelo com alto bias pode ser muito simples para capturar a complexidade dos dados e, portanto, subestimar ou superestimar a relação entre as variáveis. Por outro lado, um modelo com baixo bias pode ser muito complexo para os dados, levando a overfitting.
2 - Variância:
Um modelo com alta variância pode ser muito complexo para os dados de treinamento, levando a overfitting, ou seja, o modelo se ajusta muito bem aos dados de treinamento, mas tem uma performance ruim em dados novos. Isso significa que o modelo não generaliza bem, ou seja, não é capaz de fazer previsões precisas em dados que não foram usados para treiná-lo.
Por outro lado, um modelo com baixa variância pode ser muito simples para os dados de treinamento, levando a underfitting, ou seja, o modelo não se ajusta bem aos dados de treinamento e, portanto, tem um desempenho ruim tanto em dados de treinamento quanto em dados novos.
3 - Relação entre Bias e Variância:
A relação entre bias e variância pode ser descrita como um trade-off. Um modelo com alta complexidade tende a ter baixa bias e alta variância, enquanto um modelo com baixa complexidade tende a ter alta bias e baixa variância. O objetivo é encontrar um equilíbrio entre bias e variância para obter o melhor desempenho do modelo.
Portanto, a variância não é a diferença entre a bias de treino e a bias de teste, mas sim uma medida da sensibilidade do modelo às variações nos dados de treinamento. E é importante notar que a variância pode afetar tanto o desempenho do modelo em dados de treinamento quanto em dados de teste.