Выбор метрики в машинном обучении

Как выбрать метрики для валидации результата Machine Learning

Главные шаги по выбору метрики

Следует заметить, что метрика, которую мы оптимизируем и метрика, по которой определяем качество модели, - как правило, разные. Ниже рассмотрим метрики, которые мы в том или ином виде можем оптимизировать непосредственно в модели. За метрики, которыми мы оцениваем результат работы модели, можно принять исходные бизнес-метрики.

Понимание бизнес задачи

Из исходных предпосылок нужно выделить, какого типа задачу мы решаем. Основные типы задач:

Классификация. Ваш алгоритм будет предсказывать тип данных из заданного множества. Например говорить да/нет/не уверен.
Регрессия. Алгоритм будет предсказывать какие-либо числа. Например, завтрашнюю температуру.
Ранжирование. Модель будет предсказывать порядок элементов. Например, нам дали учебный класс и мы должны проранжировать учеников по росту, то есть, упорядочить их от самого высокого, до самого низкого.

Мы решаем задачу нахождения математическая метрики, которая при этом будет оптимизировать и исходную бизнес-задачу. Ниже представлены базовые метрики, с которых следует начинать.

Классификация

Confusion Matrix

Представлена в виде таблицы, которая используется для описания точности классификатора.

Некоторые примеры:
False Positive (FP) при обнаружении спама относит хорошее письмо к спаму.
False Negative (FN) при медицинском тестировании может ложно сообщить, что заболевание отсутствует, в случае когда оно присутствует.

Accuracy Metric

Эту метрику можно назвать базовой. Она измеряет количество верно классифицированных объектов относительно общего количества всех объектов.

Имейте в виду, что accuracy имеет некоторые недостатки: она не идеальна для несбалансированных классов, где может быть много экземпляров одного класса и мало другого.

Recall/Sensitivity Metric

Сколько объектов наша модель смогла правильно классифицировать с позитивной меткой из всего множества позитивных.

Precision Metric

Сколько из всех объектов, которые классифицируются как положительные, действительно являются положительными, относительно общего количества полученных от модели позитивных меток.

F1 score

Сочетание precision и recall, дает некоторый компромисс между ними двумя, оценка F1 достигает своего наилучшего значения в 1 и худшее в 0.

Регрессия

Mean Absolute Error (MAE)

Метрика измеряет среднюю сумму абсолютной разницы между фактическим значением и прогнозируемым значением.

Mean Squared Error (MSE)

Измеряет среднюю сумму квадратной разности между фактическим значением и прогнозируемым значением для всех точек данных. Выполняется возведение во вторую степень, поэтому отрицательные значения не компенсируют положительными. А также в силу свойств этой метрики, усиливается влияние ошибок, по квадратуре от исходного значения. Это значит, что если в в исходных измерениях мы ошиблись на 1, то метрика покажет 1, 2-4, 3-9 и так далее. Чем меньше MSE, тем точнее наше предсказание. Оптимум достигается в точке 0, то есть мы идеально предсказываем.

По сравнению с средней абсолютной ошибкой, MSE имеет некоторые преимущества:
Она подчеркивает большие ошибки над меньших ошибках.
Является дифференцируемым, что позволяет более эффективно использовать для поиска минимальных или максимальных значений с помощью математических методов.

Root Mean Squared Error (RMSE)

Это корень от квадрата ошибки. Ее легко интерпретировать, поскольку он имеет те же единицы, что и исходные значения (в отличие от MSE). Также она оперирует меньшими величинами по абсолютному значению, что может быть полезно для вычисления на компьютере.

Ранжирование

Простая метрика

Лучшее предсказанное vs человеческая оценка (Best Predicted vs Human, BPH):
Берут наивысший по релевантности элемент из отранжированного алгоритмом, затем сравнивают с человеческой оценкой. Эта метрика возвращает бинарный вектор совпадения или же несовпадения оценки алгоритма по сравнению с человеческой.

Kendall’s tau

Измеряет корреляцию между двумя списками проранжированных элементов путем подсчета согласованных и несогласованных парных сравнений: для каждого экземпляра даны две оценки ранга (машинное предсказание и предсказание человека). Сначала они разлагаются на парные сравнения - рассматривается знак отношения между текущим рангом и остальными. Согласованной парой считается ситуация, когда знак сравнения соответствует соответствующему парному сравнению с человеческой аннотацией. В противном случае результат учитывается как несогласованная пара. Следовательно, tau вычисляется по формуле

Со значениями от минус один до единицы. Чем ближе |τ| значения к единице, тем лучше рейтинг. В частности, когда значения приближаются к минус единице, рейтинг так же хорош, но порядок его элементов следует брать в обратном порядке. Это типично для оценочных показателей, которые присваивают более высокие баллы лучшим переводам, тогда как оценки людей обычно присваивают более низкие ранги лучшим. Значение нуля указывает на отсутствие корреляции.

Ссылки на дополнительные материалы:

https://ufal.mff.cuni.cz/pbml/100/art-avramidis.pdf
https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/
https://www.quora.com/How-do-I-choose-error-metrics-for-machine-learning-algorithm
https://www.analyticsvidhya.com/blog/2016/02/7-important-model-evaluation-error-metrics/

Поиск по этому блогу

Big Data. Machine Learning. Data Science.