Анонс решения соревнования по машинному обучению Toxic Comment Classification Challenge

Автор: Andrey - марта 27, 2018

Соревнование по выявлению оскорблений.
Специалисты нашей компании участвовали в соревновании.
Заняли 10 место из 4551 команд.

Описание конкурса

Toxic Comment Classification Challenge
Решение соревнования по машинному обучению на тему детекции оскорбительных комментариев.

Вести диалог с оппонентом, который не разделяет вашу позицию, может быть весьма трудным делом. В интернете же многие люди перестают контролировать себя, свои слова и отказываются от восприятия мнений, отличных от их собственных. Различные платформы борются за корректное ведение диалогов, и как результат многие сообщества ограничивают или полностью закрывают комментарии пользователей.

Команда Conversation AI, исследовательская инициатива, основанная Jigsaw и Google (как часть Alphabet), работают над инструментами, помогающими улучшить онлайн-диалоги. Одной из областей деятельности является изучение негативных паттернов поведения в интернете, таких как токсичные комментарии (то есть комментарии, которые являются грубыми, неуважительными или иным образом проявляющие агрессию к оппоненту). Они создали ряд общедоступных моделей, также API для этих моделей, для общедоступного пользования. В перечень их разработок уже входит модель для детекции оскорбительных текстов. Но текущие модели по-прежнему совершают ошибки и они не позволяют пользователям выбирать типы оскорбления, в изучаемых текстах (например, некоторые платформы могут быть хорошими с ненормативной лексикой, но не с другими видами токсического содержимого).

В этом соревновании нам предлагалось создать модель, которая способна обнаруживать различные типы токсичности, такие как: угрозы, непристойность, оскорбления, ненависть, лучше чем текущие модели Perspective. Был выдан размеченный датасет из комментариев на страницах правок Википедии.

Команда

Наша команда состояла из 6 человек и по окончанию соревнования мы заняли 10 место из более 4500 человек:

Описание решения

Каркас базового решения выложен на github.

Ссылки

Более подробное описание выложим после проведения разбора решения от моей команды в Яндексе 7 апреля.

Трансляция будет вестись на youtube канале Тренировки ML.

Поиск по этому блогу

Big Data. Machine Learning. Data Science.

Анонс решения соревнования по машинному обучению Toxic Comment Classification Challenge

Описание конкурса

Комментарии

Отправить комментарий

Популярные сообщения из этого блога

Подготовка данных для алгоритмов машинного обучения

Выбор метрики в машинном обучении

Обзор библиотеки PyQtGraph на языке python для интерактивной визуализации графиков