Введем несколько новых определений.
Модель в машинном обучении это класс алгоритмов, решающих поставленную задачу.
Переобучение это явление, при котором алгоритм слишком приспособлен для данных, на которых он обучался. Переобучение имеет место при выборе слишком сложных моделей.
Недообучение это явление, обратное переобучению, при котором алгоритм не полностью использует предоставленные ему для обучения данные. Недообучение имеет место при выборе недостаточно сложных моделей.
Выбор модели
При решении задачи машинного обучения нам важно выбрать такую модель, чтобы алгоритм решал задачу без переобучения или недообучения (Это особенно актуально для обучения с учителем). Кроме того, нам необходимо выбрать как будут представлены данные. Большая часть объектов, представленных в машинном обучении, представляется в виде векторов или матриц, компоненты которых называются признаками, а пространство объектов — признаковым пространством. В некоторых задачах значения объектов неизвестны, а известна только некоторая взаимосвязь между ними.
Классические задачи машинного обучения
Задача классификации (Обучение с учителем)
Нам дано некоторое множество объектов X и конечное множество номеров классов Y. Известно, что существует неизвестная целевая зависимость ƒ*:X→Y, значения которой известны только на объектах обучающей выборки. Задача заключается в построении алгоритма, способного классифицировать произвольный объект x∈X.
В задаче классификации могут быть следующие типы входных данных:
- Признаковые описания (Каждый объект описывается каким-либо набором признаков — характеристик)
- Матрица расстояний (Для каждого объекта известно расстояние от него до всех других объектов)
- Временной ряд (Последовательность измерений во времени)
Любые сложные входные данные, такие как графы, изображения, видеозаписи, запросы к БД и т.п приводятся к перечисленным трем.
В качестве реальных примеров задачи классификации можно привести:
- Распознавание образов (лиц). Классы — личности.
- Распознавание рукописного текста. Классы — символы.
- Определение спама в электронной почте. Классы — спам, не спам.
- Кредитный скоринг (В упрощенном варианте). Классы — платежеспособен, не платежеспособен.
Задача восстановления регрессии (Обучение с учителем)
Нам дано некоторое множество объектов X и множество номеров классов Y. Причем |Y|=|R|, где R — множество действительных чисел. Известно, что существует неизвестная целевая зависимость ƒ*:X→Y, значения которой известны только на объектах обучающей выборки. Задача заключается в построении алгоритма, способного классифицировать произвольный объект x∈X.
Можно с некоторым допущением сказать, что задача восстановления регрессии это задача классификации с множеством классов R. Очень многие задачи классификации несложным образом модифицируются под восстановление регрессии.
В качестве реальных примеров задачи восстановления регрессии можно привести:
- Кредитный скоринг. Оценка максимальной суммы кредита.
- Продажи. Оценка объемов продаж.
Задача прогнозирования (Обучение с учителем)
Нам дано множество X, являющееся временным рядом (т.е множество множество некоторых значений функции во времени). Задача заключается в нахождении значений функции за пределами данных, имеющихся в X.
Задача прогнозирования может решаться методами решения задач классификации и восстановления регрессии и является самой популярной задачей машинного обучения.
В качестве реальных примеров задачи прогнозирования можно привести:
- Сейсмопредсказания. Прогнозирование времени следующего землетрясения на определенной территории.
- Изменение стоимости. Прогнозирование стоимости какого-либо продукта в определенный промежуток времени.
- Нагрузка на call-центр. Прогнозирование количества телефонных звонков клиентов компании.
Задача кластеризации (Обучение без учителя)
Нам дано некоторое множество объектов X. Задача заключается в построении алгоритма, способного относить произвольный объект x∈X к некоторому кластеру. Кластером мы будем называть аналог класса в задаче классификации с той разницей, что кластеры изначально неизвестны.
Кластеры, как правило, обладают следующими свойствами:
- Непересекаемость (Никакие два кластера не имеют общих элементов)
- Компактность (В нашем случае, под компактностью достаточно понимать, как конечность каждого кластера)
- Связность (Никакой кластер невозможно разбить на два непустых непересекающихся открытых подмножества)
В качестве реальных примеров задачи кластеризации можно привести:
- Группировка текстов. Кластеры — тематики текстов.
- Разделение людей по психотипу. Кластеры — психотипы.
- Любая задача классификации без обучающей выборки.
Задача поиска ассоциативных правил (Обучение без учителя)
Нам дано некоторое множество объектов X. Задача заключается в построении алгоритма, способного находить взаимосвязи между элементами X.
В качестве реальных примеров задачи поиска ассоциативных правил можно привести:
- Анализ рыночных корзин. Об этом хорошо рассказано в этом хабратопике
- Анализ поведения пользователя. Отличающиеся от большинства элементы будут подозреваемыми во вторжении.
Задача сокращения размерности данных (Обучение без учителя)
Нам дано некоторое множество объектов X, представляющее собой декартово произведение Y×Y×…×Y. Задача заключается в сокращении размерности множества X с минимальной потерей качества данных.
Практическая польза данной задачи очевидна. С данными больших размерностей трудно работать. Решение задачи позволяет повысить эффективность работы с ними.
Задача ранжирования (Обучение без учителя или частичное обучение)
Нам дана пара (запрос, объект). Задача заключается в определении релевантности объекта запросу.
Обычно, задача ранжирования решается статистически, но существуют и обучаемые методы.
В качестве реальных примеров задачи ранжирования можно привести:
- Ранжирование поисковых запросов пользователя
- Ранжирование в системах коллаборативной фильтрации
В качестве заключения
Итак, к данному моменту мы разобрали историю появления машинного обучения, основные понятия, типы обучения и модели данных. Узнали, что такое переобучение, недообучение и рассмотрели основные его задачи. В следующей статье мы рассмотрим конкретные методы решения задачи классификации. Обещаю, что в ней будет больше картинок и конкретных примеров.
Для удобства, в конце каждой статьи находится список ссылок на остальные.
1. История и введение.
2. Пере/недо-обучение и классические задачи.
И еще, я хотел бы уяснить для себя важный момент, параллельно испытав новомодную функцию хабра.
ссылка на оригинал статьи http://habrahabr.ru/post/164211/
Добавить комментарий