Инструменты

Вопросы по классическому ML

Содержание Показать
  1. Основы машинного обучения
    1. Какие основные задачи ML (машинного обучения) ты знаешь?
    2. Какие основные типы задач машинного обучения существуют (с учителем, без учителя, с подкреплением)?
    3. Что такое алгоритмы без учителя в машинном обучении?
    4. Дайте определение классификации.
    5. Что такое обобщающая способность модели?
    6. Что такое параметры и гиперпараметры модели и в чем их различие?
    7. Что такое проклятие размерности и как оно влияет на обучение?
    8. В чем заключается Bias-Variance Tradeoff (компромисс смещения и разброса)?
    9. Что такое ансамбли моделей и почему они часто работают лучше базовых моделей?
    10. Что такое Bias-Variance Decomposition и какой тип ансамблирования что оптимизирует?
  2. Предобработка данных и признаки
    1. На каких признаках можно обучать модели, какие они бывают?
    2. Что такое стандартизация (этап предобработки), зачем её делать и что это такое?
    3. Как обрабатывать пропуски?
    4. Какие методы отбора признаков существуют?
    5. Это хорошо или плохо, если в датасете очень много признаков?
    6. Как понять, что признаков много?
    7. Почему большое количество признаков — это плохо (помимо того, что модель не улавливает закономерность)?
    8. Как можно бороться с большим объёмом признаков, как их сократить?
    9. Какие методы поиска выбросов вы знаете?
    10. Что такое дисбаланс классов и почему это плохо?
    11. Как можно сбалансировать выборку, какие есть методы (under sampling, oversampling)?
    12. Что делать, если в данных есть дисбаланс классов? И как с ним бороться (Upsampling, Downsampling, SMOTE)?
    13. Какие схемы многоклассовой классификации существуют?
    14. Какие методы отбора признаков (feature selection) вы знаете (Filter, Wrapper, Embedded)?
    15. Как оценивать важность признаков (feature importance)?
    16. Что такое permutations importance?
    17. Какие существуют методы сокращения размерности?
    18. Опишите метод главных компонент (PCA).
    19. Каковы предположения (assumptions) линейной регрессии?
    20. Почему перед деревьями не нужно делать масштабирование признаков?
    21. Почему в метрических моделях обязательно делать масштабирование признаков?
    22. Почему перед обучением линейных моделей важна нормализация/стандартизация данных?
    23. Приведите методы преобразования ненормального распределения к нормальному.
    24. Как оценить важность признаков в дереве?
    25. Popularity bias, как бороться?
  3. Категориальные переменные
    1. Какие методы вы используете для преобразования категориальных переменных?
    2. Какие методы кодирования категориальных признаков вы знаете (One-Hot, Target Encoding)?
    3. Каковы различия между методами кодирования категориальных переменных, такими как One-hot-encoder, Label Encoder, Helmert Encoder, Frequency Encoder и Target Encoder?
  4. Переобучение и недообучение
    1. Что такое переобучение: это хорошо или плохо, и как можно с этим бороться?
    2. Что такое переобучение (overfitting), как его заметить и какими способами с ним бороться?
    3. Что такое недообучение (underfitting) и как с ним бороться?
    4. Как заподозрить переобучение у линейной модели?
    5. Почему дерево так легко переобучается?
    6. Как глубина дерева влияет на результат (недообучение/переобучение)?
    7. Как можно регуляризировать дерево?
    8. Можно ли переобучить бэггинг и можно ли переобучить бустинг?
    9. Какое воздействие на возможное переобучение оказывает добавление еще одного дерева в случайный лес или в градиентный бустинг?
    10. Может ли градиентый бустинг переобучиться с увеличением количества деревьев?
  5. Кросс-валидация
    1. Что такое кросс-валидация?
    2. Когда рекомендуется использовать кросс-валидацию?
    3. Какие бывают способы кросс-валидации (методы разбиения)?
    4. Как работает кросс-валидация и какие её виды вы знаете (K-Fold, Stratified, Leave-one-out)?
    5. Чем тестовая выборка отличается от валидационной?
    6. Как проводить кросс-валидацию для временных рядов и какая у них особенность?
  6. Линейные модели
    1. Что такое линейные модели и как они устроены?
    2. Как работает линейная регрессия?
    3. В чём отличие линейной регрессии от логистической?
    4. Какие есть плюсы и минусы у линейных моделей?
    5. Как можно интерпретировать линейные модели?
    6. Что такое мультиколлинеарность, почему она вредна и как её победить?
    7. Что такое регуляризация и в чём её особенности?
    8. Расскажите о принципе работы линейной регрессии, её преимуществах, функции потерь, используемой для линейной регрессии, и проблемах, связанных с большими значениями весовых коэффициентов.
    9. В чём основная проблема линейной регрессии в машинном обучении?
    10. Зачем в линейных моделях нужен коэффициент смещения (Bias/Intercept)?
    11. Каковы основные подходы к обучению линейной регрессии (аналитический метод и градиентный спуск)?
    12. Аналитическая регрессия что это такое, как решать?
    13. Какова вычислительная сложность процесса обращения матрицы в аналитическом решении?
    14. Что представляет собой Теорема Гаусса-Маркова?
    15. Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?
    16. Почему некоторые предпочитают использовать линейную регрессию вместо деревьев решений?
    17. В каком случае линейная регрессия будет лучше бустинга?
    18. МНК и регуляризация, как она тут работает?
    19. Что такое регуляризация (L1, L2, Elastic Net) и как она влияет на веса модели?
    20. Почему L1-регуляризация (Lasso) зануляет признаки, а L2 (Ridge) — нет (геометрическая интерпретация)?
    21. Какие есть еще линейные модели кроме лин. и лог. регрессий?
  7. Логистическая регрессия
    1. Как работает логистическая регрессия и для каких задач она применяется?
    2. Чем логистическая регрессия отличается от линейной регрессии?
    3. Почему логистическая регрессия, а не логистическая классификация?
    4. Что такое функция сигмоиды и как она интерпретируется?
    5. Что такое отступ (margin) и логит (logit) в логистической регрессии?
    6. Написать формулу логистической регрессии. Что такое логит, как она разделяет классы?
    7. Как выводится и как выглядит функция потерь Log-Loss?
    8. Расскажите о принципе работы логистической регрессии и о функции потерь, используемой для нее.
    9. Формула логрега, как обучается. Как проверить статзначимость коэффициентов?
    10. Что такое Softmax функция и как она используется в многоклассовой логистической регрессии?
    11. Что такое Log Loss (лог-лосс)?
  8. Деревья решений
    1. Как строится алгоритм решающего дерева?
    2. Какие есть критерии сплитинга (разбиения) для классификации и регрессии?
    3. Какие есть критерии остановки (как понять, что нужно остановиться)?
    4. В чём разница между классификацией и регрессией в деревьях?
    5. Какие есть плюсы и минусы решающих деревьев?
    6. Как строится дерево решений (жадный алгоритм, Information Gain, критерий Джини, Энтропия)?
    7. Что представляет собой концепция энтропии в контексте деревьев решений, и стремится ли дерево минимизировать или максимизировать ее значение в процессе построения?
    8. Какая метрика оптимизируется в регрессионном дереве при выборе разбиения для нового узла?
    9. Что лежит в листьях дерева?
    10. Как получается ответ целевой переменной в дереве решений?
    11. Может ли дерево решений показывать вероятность?
    12. Какие существуют критерии остановки и методы регуляризации деревьев (глубина, количество объектов в листе, прунинг)?
    13. На каком условии останавливается построение дерева решений, другими словами, как определяется критерий завершения построения дерева?
    14. За что отвечает L2 регуляризация в дереве?
    15. В чём разница между случайным лесом и деревом решений в машинном обучении?
  9. Ансамбли
    1. Что такое бэггинг (bagging)?
    2. Что такое бустинг (boosting)?
    3. Что такое стекинг (stacking)?
    4. Случайный лес (Random Forest): что это такое и где там случайность?
    5. Что такое градиентный бустинг, почему он так называется и где там градиент?
    6. Почему в качестве базовых алгоритмов в бустинге никогда не используются линейные модели?
    7. Где деревья глубже: в бэггинге или в бустинге?
    8. Что будет, если сделать первое дерево очень глубоким в случае бэггинга, и что будет в случае бустинга?
    9. Что будет, если убрать первое дерево (в бэггинге и в бустинге)?
    10. Чем отличаются деревья (и подходы) в библиотеках LightGBM, XGBoost и CatBoost?
    11. Как работает Bagging (бэггинг) и почему он снижает дисперсию?
    12. За счет каких двух случайностей Random Forest становится устойчивым?
    13. Каковы плюсы и минусы использования метода случайного леса?
    14. Какой глубины деревья используются в методе случайного леса?
    15. Как происходит подбор подмножества признаков для дерева случайного леса - один раз перед построением дерева или на каждом разбиении?
    16. Какие изменения происходят при добавлении дерева в случайный лес?
    17. Какие изменения происходят при увеличении глубины деревьев в случайном лесе?
    18. Как можно объяснить концепцию разложения на смещение и разброс (bias-variance decomposition) в методе случайного леса (Random Forest)?
    19. Что будет с метрикой качества если убрать одно случайное дерево из случайного леса и бустинга?
    20. Ваши коллеги обратили ваше внимание на то, что модель случайного леса, обученная на строго положительных значениях, теперь выдает отрицательные результаты. Какие возможные причины этой проблемы и как ее можно решить?
    21. Как работает Gradient Boosting (градиентный бустинг) и на что он обучается (антиградиент функции потерь)?
    22. В чем смысл обучения на антиградиенте?
    23. Как именно получается итоговый ответ при градиентном бустинге?
    24. Какие есть преимущества и недостатки у градиентного бустинга?
    25. Чем принципиально отличаются случайный лес и градиентный бустинг?
    26. Что произойдет, если удалить первое дерево из случайного леса и из бустинга?
    27. Как изменится величина метрики ошибки, такой как MAE, если удалить первое дерево из ансамбля бустинга? А если удалить последнее?
    28. Почему бессмысленно строить бустинг над линейными моделями?
    29. Когда бустинг менее эффективен, чем линейная регрессия?
    30. Что такое AdaBoost и в чем его отличие от Gradient Boosting?
    31. В чем разница в построении деревьев между XGBoost, CatBoost и LightGBM?
    32. Какие основные параметры в бустинге по Вашему опыту надо тюнить, чтобы алгоритм работал как следует? На примере CatBoost.
    33. Как работает Feature Subsampling в ансамблях и зачем оно нужно?
    34. Что такое Shrinkage (Learning Rate) в градиентном бустинге и как оно влияет на модель?
    35. Какой глубины деревья используются в градиентном бустинге?
    36. В чем разница между методами Stacking и Blending?
    37. Уменьшает ли ансамбль стекинга смещение модели?
    38. Как реализовать Voting Classifier и какие типы voting существуют (hard, soft)?
    39. Есть три модели (бустинг, логистическая регрессия и случайный лес) на какие критерии следует обратить внимание при выборе модели?
  10. Метрические модели (KNN)
    1. Что такое метрические модели?
    2. Расскажи про алгоритм KNN (k-nearest neighbors) и как определяются ближайшие соседи.
    3. Какова скорость обучения и скорость предсказания в KNN?
    4. Какие способы посчитать расстояние существуют (евклидово, манхэттенское, косинусное)?
    5. Какие есть плюсы и минусы метрических моделей?
    6. Если датасет очень большой, как можно ускорить работу KNN?
    7. Где можно применять метрические модели?
    8. Какие методы классификации вы знаете?
    9. Каковы различия между алгоритмами k-Nearest Neighbors (kNN) и k-Means?
    10. Какова алгоритмическая сложность k-Nearest Neighbors (kNN)?
    11. kNN, какие у него плюсы минусы и какие существуют модификации (часто хотят услышать именно про ANN - approximate nearest neighbour).
  11. Кластеризация
    1. Что такое кластеризация?
    2. Что такое кластеризация и какие задачи она решает?
    3. В чём разница между Soft и Hard кластеризацией?
    4. Какие методы кластеризации вы знаете?
    5. Для чего может использоваться кластеризация?
    6. Что такое метод K-Means (К-средних) и как он работает?
    7. Какие могут быть проблемы при случайном выборе центров кластеров?
    8. Как можно ускорить алгоритм K-Means?
    9. Что такое иерархическая агломеративная кластеризация?
    10. Как посчитать расстояние между кластерами?
    11. Что такое дендрограмма?
    12. Какие есть критерии остановки для кластеризации?
    13. Как работает алгоритм DBSCAN?
    14. Какие плюсы и минусы у алгоритма DBSCAN?
    15. Какие метрики существуют для оценки качества кластеризации (с разметкой и без)?
    16. Как выбрать оптимальное количество кластеров?
    17. Сравните методы класстеризации.
  12. Метрики оценки
    1. Какие метрики регрессии ты знаешь (MAE, MSE, RMSE, R²)?
    2. Есть ли случаи, когда метрики, работающие с абсолютными ошибками, могут быть плохи (MAPE)?
    3. Какие метрики классификации ты знаешь (Accuracy, Precision, Recall)?
    4. Можно ли как-то комбинировать Precision и Recall (F-мера)?
    5. Какие ещё метрики классификации знаешь (ROC-AUC)?
    6. Есть ли какие-то минусы у метрики ROC-AUC?
    7. Какие бывают метрики в случае с многоклассовой классификацией (микро- и макро-усреднение)?
    8. Есть ли случаи, когда метрика должна быть асимметричной?
    9. Какие метрики используются для задач регрессии (MSE, MAE, RMSE, R2, MAPE, RMSLE)?
    10. Чем MAE лучше MSE в условиях наличия выбросов?
    11. Что такое Confusion Matrix и как из нее вычисляются базовые метрики?
    12. Расскажите про Confusion Matrix.
    13. Что такое метрики Precision (точность) и Recall (полнота)? Приведите примеры, когда важна одна из них.
    14. Как считается F1-score и почему используется именно гармоническое среднее?
    15. Напишите формулу для метрик Recall и F1
    16. Что такое Accuracy и в каких случаях она может быть misleading (например, при дисбалансе)?
    17. Что такое ROC-AUC и какова его вероятностная интерпретация (ранжирование пар)?
    18. Расскажите о метрике ROC-AUC. Что означает значение 0.5 ROC-AUC?
    19. Чем PR-AUC отличается от ROC-AUC и в каких случаях он предпочтительнее (дисбаланс классов)?
    20. В чем разница между микро- и макро-усреднением метрик для многоклассовой классификации?
    21. Что такое Cohen's Kappa и когда его использовать вместо Accuracy?
    22. Что такое Log Loss как метрика и как она связана с вероятностями?
    23. Что такое асимметричные метрики?
    24. Как работают Calibration Curves и почему они важны для оценки вероятностей модели?
    25. Что такое Brier Score и как он измеряет калибровку модели?
    26. Что такое MAPE?
    27. Какие есть метрики бинарной классификации? Как они считаются с точки зрения матрицы ошибок?
    28. Метрики классификации и их интерпретация.
    29. Когда применять метрику accuracy вместо loss в машинном обучении?
    30. Какие метрики вы применяли для оценки результатов классификации и кластеризации?
    31. Приведите метрики для прогнозирования временных рядов.
    32. Метрики качества рекомендаций. Помимо классических спросил еще про diversity, новизну контента.
    33. Вычислить кумулятивную сумму для определенной метрики по месяцам.
    34. Какая из трех моделей классификации будет иметь более высокую предсказательную способность, если метрика AUC-ROC для каждой модели составляет 0.51, 0.65 и 0.88 соответственно?
    35. Что произойдёт с графиком если мы возведём все предсказания в квадрат?
    36. Что будет с графиком и метрикой если к предикту добавить константу?
    37. Как строится ROC-AUC?
    38. Как изменится ROC-AUC, если мы продублируем в выборке единицы 4 раза, а нули 7 раз?
    39. Как вообще интерпретировать PR-AUC или ROC-AUC?
    40. Что произойдёт с ROC-AUC если помножить предсказания на константу?
    41. Расскажите про PR-кривую и как она строится.
  13. Функции потерь
    1. Какие функции потерь для классификации вы знаете?
    2. Какие функции потерь для регрессии вы знаете?
    3. Почему нельзя использовать среднеквадратичную ошибку (MSE) в задачах классификации?
    4. В чем разница между средним абсолютным отклонением (MAE) и средней абсолютной процентной ошибкой (MAPE), и какая из них более понятна для бизнеса?
    5. Что такое кросс-энтропия?
    6. Что такое метод максимального правдоподобия (ММП)?
    7. Разница между триплетом и контрастив лосс?
  14. Оптимизация и гиперпараметры
    1. Что такое методы оптимизации в машинном обучении?
    2. Как работает Grid Search и Random Search для подбора гиперпараметров, и в чем их различия?
    3. Что такое Bayesian Optimization для подбора гиперпараметров и когда его использовать?
    4. Как применяют оптимизацию по числам Фибоначчи?
    5. Что такое градиент?
    6. Если у вас есть выбор между градиентным спуском (GD) и стохастическим градиентным спуском (SGD), что лучше сработает?
    7. Как сделать, чтобы при каждом запуске кода, модель, обучаемая при помощи градиентного спуска, сходилась к одной и той же точке?
    8. Как делается один шаг градиентного спуска для обновления весов?
    9. В чем различия между стохастическим, мини-батч и полным градиентным спуском?
  15. NLP и векторизация текста
    1. Основные методы векторизации текстовых данных.
    2. Написать TF-IDF функцию.
    3. Расскажи про модификацию TF-IDF под названием BM25: как она работает?
    4. Плюсы/минусы TF-IDF, Bag of words.
  16. Другие модели и концепции
    1. Как обучают треплетам?
    2. Можете ли вы объяснить основную идею метода опорных векторов (SVM)?
    3. Какие техники с точки зрения проверки качества моделей используете (в Scikit-Learn)?
    4. Как работает Pipeline из Scikit-Learn?
    5. Для чего используется метод взвешенных оценок (WOE), каковы его преимущества? Какие задачи он помогает решить, и почему нельзя просто использовать возраст напрямую в логистической регрессии?

Основы машинного обучения

Какие основные задачи ML (машинного обучения) ты знаешь?

Какие основные типы задач машинного обучения существуют (с учителем, без учителя, с подкреплением)?

Основные типы задач машинного обучения делятся на три большие категории:

  1. Обучение с учителем (Supervised Learning) Самый распространённый тип. Есть размеченные данные: каждому объекту соответствует правильный ответ (метка, target).Основные подтипы задач:
    • Классификация (Classification) Предсказываем категорию / класс / метку Примеры: спам / не спам, кошка / собака / птица, болен / здоров, 0–9 (цифры), churn / не churn Метрики: accuracy, precision, recall, F1, ROC-AUC, PR-AUC, logloss
    • Регрессия (Regression) Предсказываем непрерывную величину Примеры: цена квартиры, температура завтра, объём продаж, рейтинг фильма Метрики: MAE, MSE, RMSE, MAPE, R²
  2. Обучение без учителя (Unsupervised Learning) Меток нет вообще. Алгоритм ищет структуру в данных самостоятельно.Основные подтипы задач:
    • Кластеризация (Clustering) Группировка похожих объектов Примеры: сегментация клиентов, тематическое моделирование, поиск похожих изображений Популярные алгоритмы: K-Means, DBSCAN, HDBSCAN, Agglomerative, Gaussian Mixture Models Метрики качества (внутренние): Silhouette, Davies-Bouldin, Calinski-Harabasz
    • Снижение размерности (Dimensionality Reduction) Уменьшение количества признаков с сохранением важной информации Примеры: визуализация данных, ускорение обучения, удаление шума Алгоритмы: PCA, t-SNE, UMAP, Autoencoders, LDA
    • Обнаружение аномалий (Anomaly / Outlier Detection) Поиск необычных, редких объектов Примеры: мошенничество, поломки оборудования, дефекты на производстве Алгоритмы: Isolation Forest, One-Class SVM, Autoencoders, LOF
    • Поиск ассоциативных правил (Association Rules) Пример: анализ рынка (market basket analysis) → «если купили хлеб и масло → часто берут молоко»
  3. Обучение с подкреплением (Reinforcement Learning) Агент учится, взаимодействуя со средой через действия и получая награду / штраф.Ключевые понятия:
    • Agent, Environment, State, Action, Reward
    • Policy (стратегия), Value function, Q-function
    Основные типы задач:
    • Игры (Go, шахматы, Dota 2, StarCraft)
    • Управление роботами
    • Оптимизация рекламы (рекомендательные системы с RL)
    • Автономное вождение
    • Персонализированные рекомендации в реальном времени
    Популярные подходы:
    • Q-Learning, SARSA
    • Deep Q-Network (DQN)
    • Policy Gradient методы (REINFORCE, PPO, A2C/A3C)
    • Actor-Critic
    • RLHF (Reinforcement Learning from Human Feedback) — сейчас очень актуально (ChatGPT, LLaMA и др.)

Краткая таблица для запоминания:

Тип обученияЕсть метки?ЦельПримеры задач
С учителемДаПредсказывать метку по признакамКлассификация, регрессия
Без учителяНетНайти структуру / закономерностиКластеризация, снижение размерности, аномалии
С подкреплениемНет (есть награда)Научиться принимать решенияИгры, роботы, управление, RLHF

Что такое алгоритмы без учителя в машинном обучении?

Дайте определение классификации.

Что такое обобщающая способность модели?

Что такое параметры и гиперпараметры модели и в чем их различие?

Что такое проклятие размерности и как оно влияет на обучение?

В чем заключается Bias-Variance Tradeoff (компромисс смещения и разброса)?

Что такое ансамбли моделей и почему они часто работают лучше базовых моделей?

Что такое Bias-Variance Decomposition и какой тип ансамблирования что оптимизирует?

Предобработка данных и признаки

На каких признаках можно обучать модели, какие они бывают?

Что такое стандартизация (этап предобработки), зачем её делать и что это такое?

Как обрабатывать пропуски?

Какие методы отбора признаков существуют?

Это хорошо или плохо, если в датасете очень много признаков?

Как понять, что признаков много?

Почему большое количество признаков — это плохо (помимо того, что модель не улавливает закономерность)?

Как можно бороться с большим объёмом признаков, как их сократить?

Какие методы поиска выбросов вы знаете?

Что такое дисбаланс классов и почему это плохо?

Как можно сбалансировать выборку, какие есть методы (under sampling, oversampling)?

Что делать, если в данных есть дисбаланс классов? И как с ним бороться (Upsampling, Downsampling, SMOTE)?

Какие схемы многоклассовой классификации существуют?

Какие методы отбора признаков (feature selection) вы знаете (Filter, Wrapper, Embedded)?

Как оценивать важность признаков (feature importance)?

Что такое permutations importance?

Какие существуют методы сокращения размерности?

Опишите метод главных компонент (PCA).

Каковы предположения (assumptions) линейной регрессии?

Почему перед деревьями не нужно делать масштабирование признаков?

Почему в метрических моделях обязательно делать масштабирование признаков?

Почему перед обучением линейных моделей важна нормализация/стандартизация данных?

Приведите методы преобразования ненормального распределения к нормальному.

Как оценить важность признаков в дереве?

Popularity bias, как бороться?

Категориальные переменные

Какие методы вы используете для преобразования категориальных переменных?

Какие методы кодирования категориальных признаков вы знаете (One-Hot, Target Encoding)?

Каковы различия между методами кодирования категориальных переменных, такими как One-hot-encoder, Label Encoder, Helmert Encoder, Frequency Encoder и Target Encoder?

Переобучение и недообучение

Что такое переобучение: это хорошо или плохо, и как можно с этим бороться?

Что такое переобучение (overfitting), как его заметить и какими способами с ним бороться?

Что такое недообучение (underfitting) и как с ним бороться?

Как заподозрить переобучение у линейной модели?

Почему дерево так легко переобучается?

Как глубина дерева влияет на результат (недообучение/переобучение)?

Как можно регуляризировать дерево?

Можно ли переобучить бэггинг и можно ли переобучить бустинг?

Какое воздействие на возможное переобучение оказывает добавление еще одного дерева в случайный лес или в градиентный бустинг?

Может ли градиентый бустинг переобучиться с увеличением количества деревьев?

Кросс-валидация

Что такое кросс-валидация?

Когда рекомендуется использовать кросс-валидацию?

Какие бывают способы кросс-валидации (методы разбиения)?

Как работает кросс-валидация и какие её виды вы знаете (K-Fold, Stratified, Leave-one-out)?

Чем тестовая выборка отличается от валидационной?

Как проводить кросс-валидацию для временных рядов и какая у них особенность?

Линейные модели

Что такое линейные модели и как они устроены?

Как работает линейная регрессия?

В чём отличие линейной регрессии от логистической?

Какие есть плюсы и минусы у линейных моделей?

Как можно интерпретировать линейные модели?

Что такое мультиколлинеарность, почему она вредна и как её победить?

Что такое регуляризация и в чём её особенности?

Расскажите о принципе работы линейной регрессии, её преимуществах, функции потерь, используемой для линейной регрессии, и проблемах, связанных с большими значениями весовых коэффициентов.

В чём основная проблема линейной регрессии в машинном обучении?

Зачем в линейных моделях нужен коэффициент смещения (Bias/Intercept)?

Каковы основные подходы к обучению линейной регрессии (аналитический метод и градиентный спуск)?

Аналитическая регрессия что это такое, как решать?

Какова вычислительная сложность процесса обращения матрицы в аналитическом решении?

Что представляет собой Теорема Гаусса-Маркова?

Почему у линейной регрессии функция потерь именно квадратичная, а не кубическая, с четвертой или пятой степенью?

Почему некоторые предпочитают использовать линейную регрессию вместо деревьев решений?

В каком случае линейная регрессия будет лучше бустинга?

МНК и регуляризация, как она тут работает?

Что такое регуляризация (L1, L2, Elastic Net) и как она влияет на веса модели?

Почему L1-регуляризация (Lasso) зануляет признаки, а L2 (Ridge) — нет (геометрическая интерпретация)?

Какие есть еще линейные модели кроме лин. и лог. регрессий?

Логистическая регрессия

Как работает логистическая регрессия и для каких задач она применяется?

Чем логистическая регрессия отличается от линейной регрессии?

Почему логистическая регрессия, а не логистическая классификация?

Что такое функция сигмоиды и как она интерпретируется?

Что такое отступ (margin) и логит (logit) в логистической регрессии?

Написать формулу логистической регрессии. Что такое логит, как она разделяет классы?

Как выводится и как выглядит функция потерь Log-Loss?

Расскажите о принципе работы логистической регрессии и о функции потерь, используемой для нее.

Формула логрега, как обучается. Как проверить статзначимость коэффициентов?

Что такое Softmax функция и как она используется в многоклассовой логистической регрессии?

Что такое Log Loss (лог-лосс)?

Деревья решений

Как строится алгоритм решающего дерева?

Какие есть критерии сплитинга (разбиения) для классификации и регрессии?

Какие есть критерии остановки (как понять, что нужно остановиться)?

В чём разница между классификацией и регрессией в деревьях?

Какие есть плюсы и минусы решающих деревьев?

Как строится дерево решений (жадный алгоритм, Information Gain, критерий Джини, Энтропия)?

Что представляет собой концепция энтропии в контексте деревьев решений, и стремится ли дерево минимизировать или максимизировать ее значение в процессе построения?

Какая метрика оптимизируется в регрессионном дереве при выборе разбиения для нового узла?

Что лежит в листьях дерева?

Как получается ответ целевой переменной в дереве решений?

Может ли дерево решений показывать вероятность?

Какие существуют критерии остановки и методы регуляризации деревьев (глубина, количество объектов в листе, прунинг)?

На каком условии останавливается построение дерева решений, другими словами, как определяется критерий завершения построения дерева?

За что отвечает L2 регуляризация в дереве?

В чём разница между случайным лесом и деревом решений в машинном обучении?

Ансамбли

Что такое бэггинг (bagging)?

Что такое бустинг (boosting)?

Что такое стекинг (stacking)?

Случайный лес (Random Forest): что это такое и где там случайность?

Что такое градиентный бустинг, почему он так называется и где там градиент?

Почему в качестве базовых алгоритмов в бустинге никогда не используются линейные модели?

Где деревья глубже: в бэггинге или в бустинге?

Что будет, если сделать первое дерево очень глубоким в случае бэггинга, и что будет в случае бустинга?

Что будет, если убрать первое дерево (в бэггинге и в бустинге)?

Чем отличаются деревья (и подходы) в библиотеках LightGBM, XGBoost и CatBoost?

Как работает Bagging (бэггинг) и почему он снижает дисперсию?

За счет каких двух случайностей Random Forest становится устойчивым?

Каковы плюсы и минусы использования метода случайного леса?

Какой глубины деревья используются в методе случайного леса?

Как происходит подбор подмножества признаков для дерева случайного леса - один раз перед построением дерева или на каждом разбиении?

Какие изменения происходят при добавлении дерева в случайный лес?

Какие изменения происходят при увеличении глубины деревьев в случайном лесе?

Как можно объяснить концепцию разложения на смещение и разброс (bias-variance decomposition) в методе случайного леса (Random Forest)?

Что будет с метрикой качества если убрать одно случайное дерево из случайного леса и бустинга?

Ваши коллеги обратили ваше внимание на то, что модель случайного леса, обученная на строго положительных значениях, теперь выдает отрицательные результаты. Какие возможные причины этой проблемы и как ее можно решить?

Как работает Gradient Boosting (градиентный бустинг) и на что он обучается (антиградиент функции потерь)?

В чем смысл обучения на антиградиенте?

Как именно получается итоговый ответ при градиентном бустинге?

Какие есть преимущества и недостатки у градиентного бустинга?

Чем принципиально отличаются случайный лес и градиентный бустинг?

Что произойдет, если удалить первое дерево из случайного леса и из бустинга?

Как изменится величина метрики ошибки, такой как MAE, если удалить первое дерево из ансамбля бустинга? А если удалить последнее?

Почему бессмысленно строить бустинг над линейными моделями?

Когда бустинг менее эффективен, чем линейная регрессия?

Что такое AdaBoost и в чем его отличие от Gradient Boosting?

В чем разница в построении деревьев между XGBoost, CatBoost и LightGBM?

Какие основные параметры в бустинге по Вашему опыту надо тюнить, чтобы алгоритм работал как следует? На примере CatBoost.

Как работает Feature Subsampling в ансамблях и зачем оно нужно?

Что такое Shrinkage (Learning Rate) в градиентном бустинге и как оно влияет на модель?

Какой глубины деревья используются в градиентном бустинге?

В чем разница между методами Stacking и Blending?

Уменьшает ли ансамбль стекинга смещение модели?

Как реализовать Voting Classifier и какие типы voting существуют (hard, soft)?

Есть три модели (бустинг, логистическая регрессия и случайный лес) на какие критерии следует обратить внимание при выборе модели?

Метрические модели (KNN)

Что такое метрические модели?

Расскажи про алгоритм KNN (k-nearest neighbors) и как определяются ближайшие соседи.

Какова скорость обучения и скорость предсказания в KNN?

Какие способы посчитать расстояние существуют (евклидово, манхэттенское, косинусное)?

Какие есть плюсы и минусы метрических моделей?

Если датасет очень большой, как можно ускорить работу KNN?

Где можно применять метрические модели?

Какие методы классификации вы знаете?

Каковы различия между алгоритмами k-Nearest Neighbors (kNN) и k-Means?

Какова алгоритмическая сложность k-Nearest Neighbors (kNN)?

kNN, какие у него плюсы минусы и какие существуют модификации (часто хотят услышать именно про ANN - approximate nearest neighbour).

Кластеризация

Что такое кластеризация?

Что такое кластеризация и какие задачи она решает?

В чём разница между Soft и Hard кластеризацией?

Какие методы кластеризации вы знаете?

Для чего может использоваться кластеризация?

Что такое метод K-Means (К-средних) и как он работает?

Какие могут быть проблемы при случайном выборе центров кластеров?

Как можно ускорить алгоритм K-Means?

Что такое иерархическая агломеративная кластеризация?

Как посчитать расстояние между кластерами?

Что такое дендрограмма?

Какие есть критерии остановки для кластеризации?

Как работает алгоритм DBSCAN?

Какие плюсы и минусы у алгоритма DBSCAN?

Какие метрики существуют для оценки качества кластеризации (с разметкой и без)?

Как выбрать оптимальное количество кластеров?

Сравните методы класстеризации.

Метрики оценки

Какие метрики регрессии ты знаешь (MAE, MSE, RMSE, R²)?

Есть ли случаи, когда метрики, работающие с абсолютными ошибками, могут быть плохи (MAPE)?

Какие метрики классификации ты знаешь (Accuracy, Precision, Recall)?

Можно ли как-то комбинировать Precision и Recall (F-мера)?

Какие ещё метрики классификации знаешь (ROC-AUC)?

Есть ли какие-то минусы у метрики ROC-AUC?

Какие бывают метрики в случае с многоклассовой классификацией (микро- и макро-усреднение)?

Есть ли случаи, когда метрика должна быть асимметричной?

Какие метрики используются для задач регрессии (MSE, MAE, RMSE, R2, MAPE, RMSLE)?

Чем MAE лучше MSE в условиях наличия выбросов?

Что такое Confusion Matrix и как из нее вычисляются базовые метрики?

Расскажите про Confusion Matrix.

Что такое метрики Precision (точность) и Recall (полнота)? Приведите примеры, когда важна одна из них.

Как считается F1-score и почему используется именно гармоническое среднее?

Напишите формулу для метрик Recall и F1

Что такое Accuracy и в каких случаях она может быть misleading (например, при дисбалансе)?

Что такое ROC-AUC и какова его вероятностная интерпретация (ранжирование пар)?

Расскажите о метрике ROC-AUC. Что означает значение 0.5 ROC-AUC?

Чем PR-AUC отличается от ROC-AUC и в каких случаях он предпочтительнее (дисбаланс классов)?

В чем разница между микро- и макро-усреднением метрик для многоклассовой классификации?

Что такое Cohen's Kappa и когда его использовать вместо Accuracy?

Что такое Log Loss как метрика и как она связана с вероятностями?

Что такое асимметричные метрики?

Как работают Calibration Curves и почему они важны для оценки вероятностей модели?

Что такое Brier Score и как он измеряет калибровку модели?

Что такое MAPE?

Какие есть метрики бинарной классификации? Как они считаются с точки зрения матрицы ошибок?

Метрики классификации и их интерпретация.

Когда применять метрику accuracy вместо loss в машинном обучении?

Какие метрики вы применяли для оценки результатов классификации и кластеризации?

Приведите метрики для прогнозирования временных рядов.

Метрики качества рекомендаций. Помимо классических спросил еще про diversity, новизну контента.

Вычислить кумулятивную сумму для определенной метрики по месяцам.

Какая из трех моделей классификации будет иметь более высокую предсказательную способность, если метрика AUC-ROC для каждой модели составляет 0.51, 0.65 и 0.88 соответственно?

Что произойдёт с графиком если мы возведём все предсказания в квадрат?

Что будет с графиком и метрикой если к предикту добавить константу?

Как строится ROC-AUC?

Как изменится ROC-AUC, если мы продублируем в выборке единицы 4 раза, а нули 7 раз?

Как вообще интерпретировать PR-AUC или ROC-AUC?

Что произойдёт с ROC-AUC если помножить предсказания на константу?

Расскажите про PR-кривую и как она строится.

Функции потерь

Какие функции потерь для классификации вы знаете?

Какие функции потерь для регрессии вы знаете?

Почему нельзя использовать среднеквадратичную ошибку (MSE) в задачах классификации?

В чем разница между средним абсолютным отклонением (MAE) и средней абсолютной процентной ошибкой (MAPE), и какая из них более понятна для бизнеса?

Что такое кросс-энтропия?

Что такое метод максимального правдоподобия (ММП)?

Разница между триплетом и контрастив лосс?

Оптимизация и гиперпараметры

Что такое методы оптимизации в машинном обучении?

Как работает Grid Search и Random Search для подбора гиперпараметров, и в чем их различия?

Что такое Bayesian Optimization для подбора гиперпараметров и когда его использовать?

Как применяют оптимизацию по числам Фибоначчи?

Что такое градиент?

Если у вас есть выбор между градиентным спуском (GD) и стохастическим градиентным спуском (SGD), что лучше сработает?

Как сделать, чтобы при каждом запуске кода, модель, обучаемая при помощи градиентного спуска, сходилась к одной и той же точке?

Как делается один шаг градиентного спуска для обновления весов?

В чем различия между стохастическим, мини-батч и полным градиентным спуском?

NLP и векторизация текста

Основные методы векторизации текстовых данных.

Написать TF-IDF функцию.

Расскажи про модификацию TF-IDF под названием BM25: как она работает?

Плюсы/минусы TF-IDF, Bag of words.

Другие модели и концепции

Как обучают треплетам?

Можете ли вы объяснить основную идею метода опорных векторов (SVM)?

Какие техники с точки зрения проверки качества моделей используете (в Scikit-Learn)?

Как работает Pipeline из Scikit-Learn?

Для чего используется метод взвешенных оценок (WOE), каковы его преимущества? Какие задачи он помогает решить, и почему нельзя просто использовать возраст напрямую в логистической регрессии?

Комментарии
Пред.
Линейная регрессия

Линейная регрессия

Содержание Показать Кратко о том, как это работаетПростая линейная регрессия с

Вам также может понравиться
помощник
Сохранить в заметки
Спросить у нейросети
Вопросы по классическому ML
Комментарий: