Задача 🎯
Провести исследование с целью построения модели машинного обучения, которая поможет классифицировать комментарии на позитивные и негативные.
Результаты исследования позволят магазину искать токсичные комментарии и отправлять их на модерацию.
Входные данные: набор данных с разметкой о токсичности правок.
Решим поставленную в проекте задачу с помощью библиотеки NLTK.
- Изучить данные.
- Подготовить данные.
- Лемматизировать данные.
- Построить и обучить модели.
- Протестировать лучшую модель.
- Написать общий вывод.
Построим модель со значением метрики качества F1 не меньше 0.75.
Данные 📊
Входные данные: набор данных с разметкой о токсичности правок.
Используемые библиотеки 🧰
На нашем волшебном пути мы воспользуемся магией следующих инструментов:
— 🐼 pandas
— 🔢 numpy
— 📊 matplotlib
— 🌈 seaborn
—🧠 sklearn