Сообщения

Описание задачи и решения соревнования Kaggle Understanding Clouds from Satellite Images

Изображение
Не так давно, в конце 2019 года, я принял участие в данном соревновании и занял в нем второе  место. В этой статье я расскажу про задачу и опишу методы ее решения.   Итак, Институт метеорологии Макса Планка и лаборатория динамической метеорологии из  Франции, совместно с Kaggle организовали соревнование по распознаванию типов облаков.  Более 60 волонтеров, по предоставленной инструкции, разметили около 10000 спутниковых  снимков и на них выделили 4 типа облаков. В соревновании участникам предлагалось  построить алгоритм машинного обучения, который автоматизирует обнаружение облачных  паттернов путем обучения по данным, размеченным человеком.  Соревнование имело достаточно низкий порог вхождения (здесь не было датасетов в 600 Гб  и миллионов картинок). К тому же, у меня уже был определенный опыт решения задач по  сегментации. А три лучшие команды имели возможность получить призовой фонд  в размере 10 000 долларов. В общем я просто не мог не принять участие. Те

Команда компании Даталитика стала призёром TenderHack

Изображение
В  прошедшие выходные – 25 и 26 января в московском  коворкинге GrowUp  состоялось первое соревнование  серии хакатонов  Tender Hack  от Портала поставщиков ( zakupki.mos.ru) .  Мы решили принять участие в этом двухдневном марафоне, и от нашей компании выступала  команда ДипДип в составе Кирясова Андрея, Маторина Владислава и Орловой Натальи. Для всех нас это было первое участие в соревновании такого формата. Среди задач хакатона была свободная номинация, по условиям которой можно было предложить любое решение, которое на наш взгляд улучшит работу Портала. Наша команда решила выступать в этой номинации и предложить рекомендательный сервис, который  поможет покупателю выставить оптимальные параметры котировочной сессии. Для этого мы исследовали эластичность цены по объему закупки. За время хакатона была разработана модель машинного обучения, предсказывающая цену сделки по заданной торговой единице и объему партии, а также было проведено моделирование Монте-Карло для определения стат

"Вы выполняли проекты в нашей отрасли?"

Изображение
Это вопрос задают практически все клиенты, которые обращаются в Даталитику для разработки решений на основе машинного обучения и искусственного интеллекта. Естественно, что клиенты обеспокоены, сможем мы ли быстро вникнуть в специфику их бизнеса и определить наиболее важные факторы. У клиентов закрадываются сомнения, что без отраслевых знаний нам удастся реализовать что-то действительно ценное. И в этом есть рациональное зерно. Уникальные данные и задачи клиента накладывают отпечаток на принципы и подходы к моделированию. Однако часто встречаются ситуации, когда 2 клиента из разных отраслей преследуют свои уникальные цели, но с точи зрения технической реализации их задачи практически идентичны. Отличным примером являются задачи по распознаванию изображений. *** На этой неделе завершился конкурс на Каггл, в котором наш ведущий дата-сайнтист, Андрей Кирясов , со своим индивидуальным решением занял второе место (из 1500 команд) и стал Каггл грандмастером. В этом конкурсе нужно бы