Roc-кривая и матрица путаницы как эффективное средство для оптимизации классификаторов машинного обучения

Владимир Михайлович Горяев; Владимир Данзанович Бурлыков; Сергей Николаевич Прошкин; Владимир Викторович Лиджи-Горяев; Елена Николаевна Джахнаева

Авторы

Горяев Владимир Михайлович Калмыцкий государственный университет им. Б. Б. Городовикова
Бурлыков Владимир Данзанович Калмыцкий государственный университет им. Б. Б. Городовикова
Прошкин Сергей Николаевич Калмыцкий государственный университет им. Б. Б. Городовикова
Лиджи-Горяев Владимир Викторович Калмыцкий государственный университет им. Б. Б. Городовикова
Джахнаева Елена Николаевна Калмыцкий государственный университет им. Б. Б. Городовикова

Ключевые слова:

машинное обучение, классификаторы, метод ближайших соседей, логическая регрессия, кривая ROC, матрица путаницы

Аннотация

Модель классификации машинного обучения может использоваться для прямого прогнозирования фактического класса точки данных или прогнозирования вероятности ее принадлежности к разным классам. Вероятность дает нам больше контроля над результатом. Можно определить свой собственный порог для интерпретации результата классификатора, что, как правило, лучше, чем просто создание совершенно новой модели. Установка различных пороговых значений для классификации положительных классов для точек данных непреднамеренно изменяет чувствительность и специфичность модели, а один из этих порогов, вероятно, и даст лучший результат. Для определения оптимального порога генерируются графики с некоторыми параметрами модели. Важным инструментом для процесса оптимизации классификации являются метрики оценки. Параметры кривой характеристики оператора приемника (ROC) являются метрикой оценки для такого рода задач. Для понимания такого графика генерируют матрицу путаницы (ошибок) для каждой точки, соответствующей порогу, что позволяет рассуждать о производительности классификатора. Для данного исследования было использовано подмножество набора данных Lending Club. Выполнена оценка прогноза, где точность модели составила 96%, отзыв составил 92%, а показатель f1 был равен 94%. Алгоритм KNN показал результат лучше, чем регрессия, с показателем AUC 0.93 и коэффициентом Gini=1.

Roc-кривая и матрица путаницы как эффективное средство для оптимизации классификаторов машинного обучения

Авторы

Ключевые слова:

Аннотация

Загрузки

Опубликован

Выпуск

Раздел

Информация