ML Courses (basic level) Flashcards
тянуть,
вытащить
pull,
pull out
польза
utility [ютилити]
мера качества модели
measure of model quality
точность модели
model accuracy
удобство
convenience
узел,
листовые узлы
node,
leaf nodes [лиф ноудс]
глубокое дерево,
мелкое дерево
deep tree,
shallow tree
Это проваливает (не в состоянии) охватить все различия в сырых данных
It fails to capture as many distinctions in the raw data
complicated (усложненный)
sophisticated [сэфистикейтэд]
Это может привести к лучшей производительности
It can lead to better performance
Рандомный лес обеспечивает гораздо большую предсказательную точность, чем одиночное древо решений
The Random Forest provides much better predictive accuracy than a single decision tree
ключевые выводы (сущ из глагола take)
key takeaways
настраивать
to tune
статистическая техника (как метод)
statistical technique [тэкнИк]
Признаки, ось X
Метка, ось y
features,
label
снижаться, расти. Например функция растет, падает
to decrease, to increase
Уравнение линейной регрессии и что это
Linear regression equation helps to find the relationship between x [экс] and y [уай] by fitting a straight [стрэйт] line that best represents the data
Коэффициент наклона
slope coefficient [коэфишэнт]
умноженный на
multiplied by
ускорение, ускорить
acceleration [аксэлэрэйшэн],
to accelerate
быть более устойчивым к выбросам
be more robust to outliers
синоним to tune (настраивать, регулировать)
to adjust
прилагательное: постепенно, с повторениями с повторением итераций
iteratively
Градиентный спуск и что это
Gradient descent is a mathematical technique that iteratively finds the best weights and bias that produce the model with the lowest loss
Модель сошлась (типо стала рабочей и тд)
The model has converged
Сходимость (модели на пример)
model convergence [конвёрджэнс]
Функции потерь для линейных моделей всегда создают выпуклую поверхность
The loss functions for linear models always produce a convex surface
свойство
property
Как результат, в результате
as a result
выпуклость функции потерь
convexity of loss function
Кривая потерь и что она показывает
The loss curve [кёрв] illustrate how loss changes over iterations during training
Что такое скорость обучения модели и какова цель при выборе скорости
Learning rate is a floating point number, that you set, and that influences how quickly the model converges.
The goal is to pick a learning rate that’s not too high and not too low, so that the model converges quickly
Размер выборки для обновления весов. И объяснить что это.
Batch Size is a hyperparameter that defines how many examples the model processes before updating its weights and bias.
Что такое гиперпараметры и параметры. Key Differences
Hyperparameters are values, you choose before training (learning rate, batch size, epochs, etc.).
Parameters are values the model learns during training (weights, bias)
Две распространненные техники определения бача, для градиентного спуска. И их объяснение.
There are two common gradient descent techniques:
- Stochastic [стокхастик] Gradient Descent (SGD)
- uses only one example per iteration (batch size = 1)
- Works with enough iterations but introduces noise (fluctuations in loss)
- Stochastic means that the single example is chosen randomly - Mini-Batch Stochastic Gradient Descent (Mini-Batch SGD)
- A compromise between full-batch and SGD
- Uses a small subset(подмножество) of example per batch (1<batch size<dataset size)
- averages gradients across the batch before updating weights, reducing noise
Определение маленького и большого размера батча
- Small batch size (1-32) behaves like SGD, more noise, but learns faster.
- Large batch size (128+) behaves like full-batch gradient descent, more stable but requires more memory.
Что такое эпоха?
The Epoch [ипок] is a hyperparameter, that is one full pass though the entire training dataset. One epoch is not enough for the model to learn meaningful patterns (значимые закономерности)
Что такое логистическая регрессия?
Logistic regression is a powerful technique for estimating probabilities. It‘s commonly used in classification problems where the output needs to be a probability between 0 and 1.
How does logistic regression work?
It takes an input (features) and applies (применять) a sigmoid function to transform it into a probability.
What is Sigmoid Function?
The sigmoid function ensures (provides) that the model’s output is always between 0 and 1, making it suitable [suitable] (fitting, corresponding) for probability estimation.
Обучение модели логистической регрессии, два основных отличение от линейной
Training Logistic Regression Models is the same process as training linear regression models, with two key distinctions:
- Log [лог] Loss as the loss function.
- Regularisation [рэгуларайзэйшн] to prevent overfitting.
Почему мы используем log loss для logistic regression?
Squared loss works well for a linear model where the rate of change (темп изменения) is constant.
However, the rate of change of a logistic regression model is not constant. The sigmoid curve is s-shaped rather than linear.
Точность положительных предсказаний
precision
Что такое классификация?
Classification is the task of predicting witch of a set of classes (к какому из множества классов) an example belongs to
Порог классификации
The classification threshold [трэшолд] is used to convert a probability estimate into a definitive class. (окончательный класс)
1) если предсказанное значение выше порога
2) если предсказанное значение ниже порога
1) If the predicted probability is above the threshold. Then the example is assigned to the positive class.
2) If the predicted probability is below the threshold. Then the example is assigned to the negative class.
Более высокий и более низкий порог
The choice of classification threshold significantly (существенно) impacts the model’s performance.
A higher threshold increases precision (повышает точность) but may lower recall (меньше полнота класса)
A lower threshold increases recall but may lower precision
Для чего используется «матрица путаницы»?
A confusion matrix [мэйтрикс] is used to evaluate the performance of a binary classifier
Как матрица путаницы делит предсказания
A confusion matrix compares the model’s predictions with the actual ground truth, breaking them down into four possible outcomes:
True positive, true negative and false positive, false negative
Метрики гипотетической идеальной модели классификации
A hypothetical [хайпотэтикал] perfect classification model should have 0 False Positive and 0 False Negative predictions.
If a model achieves this, the performance metrics would be:
Accuracy (точность всех предсказаний) is equal 1
Recall (полнота правильных примеров) is equal 1
False Positive Rate (количество ложных примеров) is equal 0
Precision (точность положительных предсказаний) is equal 1
Что такое Receiver-operating characteristic (ROC) curve?
ROC [ароси] curve shows how a model’s TPR [типиар] and FPR [эфпиар] change across thresholds (в зависимости от пороговых значений)
Что обозначает area under the ROC curve?
AUC [эй б си] measures the overall performance of a classifier.
От чего зависит оптимальный порог классификации?
The optimal threshold depends on the trade-off (компромисс) between false positives and false negatives