Тест на настоящего Data Scientist: знание всего


В области Data Science часто можно попасть на собеседование, где вас будут тестировать абстрактными вопросами, ответы на которые весьма отдаленно оценивают вас как хорошего кандидата. Страдают этим, как правило, вчерашние выпускники или интервьюеры, которые в ходе собеседования решают какие-то другие задачи, например, показать, какие они умные или самоутвердится перед руководством.

Мне приходится проводить много собеседований в сфере Data Science. Так как в Даталитике мы ищем по-настоящему крутых сотрудников, чтобы отделять талантливых кандидатов от средних, приходится искать варианты нестандартных задач. С одной стороны, емкие, а с другой - чтобы у соискателя оставалось легкое и приятное впечатление от собеседования.

Задачку ниже я первый раз озвучил на одном из выступлений чуть более года назад, но как сейчас помню удивленные лица слушателей, которые транслировали: картинки — это, конечно, прикольно, но как решить - непонятно.

Теперь попробовать можете и вы :)

Итак, задача: Выберите наиболее подходящий порядок картинок для следующей последовательности терминов: XGBoost, Linear regression, Kaggle, Confusion Matrix.


Варианты ответов:
  1. A, B, C, D
  2. C, B, A, D
  3. C, B, D, A
  4. A, B, D, C
Нажми здесь, чтобы узнать правильный ответ
Начнем с самого простого, картинка с беременным мужчиной (False Positive) из представленных вариантов относится к Confusion Matrix (Матрица ошибок). Юмористы могут увидеть в ней kaggle - "не верь ничему, в соревновании все окажется не так, как учили".

Попробуем сгруппировать предложенные варианты:
  • XGBoost - метод.
  • Linear regression - семейство методов.
  • Kaggle - платформа для соревнования.
  • Confusion Matrix - термин.

XGBoost и Linear regression относятся к популярным методам и, если подумать про отношения между ними, то большинство скажет, что XGBoost дает лучше результат, т.е. круче. Если в оставшихся трех картинках искать пару с похожим отношением, это автомобиль и вертолет.

Методом исключения kaggle это картинка с башней из кубиков, которая символизирует популярную технику стекинг.

Итого правильный ответ: 2. C, B, A, D.

Для скептиков, что вилами по воде писано, решение может быть основано и на эрудиции, так пара картинок автомобиль-вертолет взята из популярной статьи про XGBoost, а башня из кубиков - мем в очень известном в узких кругах сообществе.

И конечно же в формулировке задачи есть важный акцент  "Выберите наиболее подходящий порядок", задачи, которые могут иметь несколько решений, куда интереснее задач с одним железобетонно правильным ответом. Подобные вопросы подразумевают открытый ответ и диалог для обсуждения хода мыслей соискателя, в процессе которого последний может продемонстрировать свою эрудицию и интеллект.

Какие еще встречаются интерпретации? Башня из кубиков может ассоциироваться с XGBoost, там как он сам является композицией деревьев, тогда вертолет это Kaggle, как что-то современное, но возникает проблема с отнесением регрессии.

Если у вас есть альтернативные решения, пишите в комментарии.

Комментарии

Популярные сообщения из этого блога

Подготовка данных для алгоритмов машинного обучения

Выбор метрики в машинном обучении

Задачи сегментации изображения с помощью нейронной сети Unet