Анонс решения соревнования по машинному обучению Toxic Comment Classification Challenge

Toxic Comments


  • Соревнование по выявлению оскорблений.
  • Специалисты нашей компании участвовали в соревновании.
  • Заняли 10 место из 4551 команд.

Описание конкурса

Toxic Comment Classification Challenge
Решение соревнования по машинному обучению на тему детекции оскорбительных комментариев.

Вести диалог с оппонентом, который не разделяет вашу позицию, может быть весьма трудным делом. В интернете же многие люди перестают контролировать себя, свои слова и отказываются от восприятия мнений, отличных от их собственных. Различные платформы борются за корректное ведение диалогов, и как результат многие сообщества ограничивают или полностью закрывают комментарии пользователей.

Команда Conversation AI, исследовательская инициатива, основанная Jigsaw и Google (как часть Alphabet), работают над инструментами, помогающими улучшить онлайн-диалоги. Одной из областей деятельности является изучение негативных паттернов поведения в интернете, таких как токсичные комментарии (то есть комментарии, которые являются грубыми, неуважительными или иным образом проявляющие агрессию к оппоненту). Они создали ряд общедоступных моделей, также API для этих моделей, для общедоступного пользования. В перечень их разработок уже входит модель для детекции оскорбительных текстов. Но текущие модели по-прежнему совершают ошибки и они не позволяют пользователям выбирать типы оскорбления, в изучаемых текстах (например, некоторые платформы могут быть хорошими с ненормативной лексикой, но не с другими видами токсического содержимого).

В этом соревновании нам предлагалось создать модель, которая способна обнаруживать различные типы токсичности, такие как: угрозы, непристойность, оскорбления, ненависть, лучше чем текущие модели Perspective. Был выдан размеченный датасет из комментариев на страницах правок Википедии.

Команда
Наша команда состояла из 6 человек и по окончанию соревнования мы заняли 10 место из более 4500 человек:


Описание решения
Каркас базового решения выложен на github.


Ссылки
Более подробное описание выложим после проведения разбора решения от моей команды в Яндексе 7 апреля.

Трансляция будет вестись на youtube канале Тренировки ML.

Комментарии

Популярные сообщения из этого блога

Подготовка данных для алгоритмов машинного обучения

Выбор метрики в машинном обучении

Задачи сегментации изображения с помощью нейронной сети Unet