"Вы выполняли проекты в нашей отрасли?"

Это вопрос задают практически все клиенты, которые обращаются в Даталитику для разработки решений на основе машинного обучения и искусственного интеллекта. Естественно, что клиенты обеспокоены, сможем мы ли быстро вникнуть в специфику их бизнеса и определить наиболее важные факторы. У клиентов закрадываются сомнения, что без отраслевых знаний нам удастся реализовать что-то действительно ценное.

И в этом есть рациональное зерно. Уникальные данные и задачи клиента накладывают отпечаток на принципы и подходы к моделированию. Однако часто встречаются ситуации, когда 2 клиента из разных отраслей преследуют свои уникальные цели, но с точи зрения технической реализации их задачи практически идентичны. Отличным примером являются задачи по распознаванию изображений.

***

На этой неделе завершился конкурс на Каггл, в котором наш ведущий дата-сайнтист, Андрей Кирясов, со своим индивидуальным решением занял второе место (из 1500 команд) и стал Каггл грандмастером. В этом конкурсе нужно было распознать на снимках со спутников облака четырех видов и определить их границы.
С первых трех сабмитов Андрей оказался в топе - на третьем месте.

"Как так? Магия?!" - удивитесь Вы.
"Совсем немного!" - ответим мы.







В основу решения лег код, который Андрей использовал в 2х других конкурсах по компьютерному зрению: определение границ дефектов на листе стали и определению пневмоторакса на рентгенограмме. С одной стороны, все задачи из разных отраслей: экология, металлургия, медицина. Они преследуют абсолютно разные цели - вылечить человека, выявить брак на производстве или изучить климатические особенности в том или ином регионе земного шара. Кажется, что задачи не связаны.

Однако по своей технике они очень похожи друг на друга.
1. Исходными данными являются размеченные изображения.
2. На всех картинках необходимо распознать границы тех или иных объектов. Облака, дефекты или воздух в плевральной области - машине не важно. Главное, чтобы граница на снимке была визуально различимой.
2. Более того, объекты на изображении могут быть разных видов. Например, облака необходимо было разделить на 4 типа (по их внешнему виду). Аналогично, на 4 типа нужно было разделить и дефекты на прокатном листе стали.
5. Даже для оценки качества моделей в конкурсах применялась одна и та же метрика - Dice. Таким образом, задачи из абсолютно разных бизнес-сфер сводятся к решению одинаковой технической постановки - к многоклассовой сегментации объектов на изображении.

Поэтому Андрей применил код из прошлого соревнования - вместо изображений стали залил снимки облаков и практически сразу же оказался в топе. С некоторыми его приемами вы можете ознакомиться на страницах соревнования.

***

Но я не о них, а о сомнениях заказчика, который стремится выбрать исполнителя с опытом в реализации проектов в своей отрасли. Как видите, не всегда наличие такого опыта определяет успех модели. Креативный подход к применению старых наработок на новых данных для нового кейса часто дает гораздо больший эффект, чем глубокое знание бизнес-специфики.
Согласны с этим утверждением или сомневаетесь?

Комментарии

Популярные сообщения из этого блога

Подготовка данных для алгоритмов машинного обучения

Выбор метрики в машинном обучении

Обзор библиотеки PyQtGraph на языке python для интерактивной визуализации графиков