Задача 🎯
Провести исследование с целью построения модели машинного обучения, которая поможет прогнозировать уход клиентов из «Бета-Банка» в ближайшее время.
Результаты исследования позволят маркетологам сохранить текущих клиентов, т.к. это дешевле, чем привлекать новых.
- Изучить данные.
- Подготовить данные.
- Исследовать баланс классов, обучить модель без учёта дисбаланса.
- Улучшить качество модели, учитывая дисбаланс классов. Обучить разные модели и найти лучшую.
- Протестировать лучшую модель.
- Проверить гипотезы.
- Написать общий вывод.
Значение метрики F1-мера должно быть доведено до 0.59.
В ходе проведения исследования необходимо проверить несколько гипотез:
- Гипотеза 1: лучшая модель на валидационной выборке — модель случайного леса;
- Гипотеза 2: значение метрики F1-мера лучшей модели больше 0.59;
- Гипотеза 3: значение метрики AUC-ROC повышается с ростом значения F1-меры;
- Гипотеза 4: лучшая модель чаще ошибается, прогнозируя клиентов, которые ушли из банка.
Данные 📊
Входные данные: исторические данные о поведении клиентов и расторжении договоров с банком.
Используемые библиотеки 🧰
На нашем волшебном пути мы воспользуемся магией следующих инструментов:
— 🐼 pandas
— 🔢 numpy
— 📊 matplotlib
— 🌈 seaborn
— 🧠 sklearn