Урок 1 Знакомство с машинным обучением
Скачать 1.57 Mb.
|
Урок 1 «Знакомство с машинным обучением» 1.1. Знакомство с машинным обучением Приветствуем Вас на курсе «обучение на размеченных данных». Это второй курс специализации «Машинное обучение и анализ данных», в котором начинается знакомство собственно с машинным обучением. Централь- ной темой этого курса является обучение с учителем. На самом деле эта тема была уже затронута в прошлом курсе, когда речь шла про интерполяцию. Интерполяция — задача восстановления функции по нескольким точкам, в которых известны ее значения. Обучение с учителем — тоже восстановление общей закономерности по конечному числу примеров. Хотя постановки задач похожи, у них есть много отличий в том, как они решаются и какие требования выдвигаются к решению. Эти различия будут обсуждаться в данном курсе. 1.1.1. Пример: понравится ли фильм пользователю Для начала будет рассмотрен не очень сложный пример, на котором можно понять, в чем заключается суть обучения с учителем и машинного обучения. Пусть есть некоторый сайт, посвященный кино, на который можно зайти, найти страницу нужного фильма, прочитать информацию про него: когда он снят, кто в нем играет и какой бюджет у этого фильма, а также, возможно, купить его и посмотреть. Пусть есть некоторые пользователи, которые находят страницу нужного фильма, читают и задаются вопросом «смотреть или нет?». Необходимо понять, понравится ли пользователю фильм, если выдать ему рекомендацию о фильме. Есть несколько подходов к решению: • Подход первый, самый глупый — дать пользователю посмотреть этот фильм. • Второй подход — дать случайный ответ и показать случайную рекомендацию. В обоих случаях поль- зователь может быть разочарован фильмом и он будет недоволен сайтом. • Третий подход — пригласить психолога-киномана, чтобы разрешить ситуацию. Этот человек оценит пользователя, оценит фильм и поймет, понравится ли этот фильм этому пользователю, сопоставив информацию. Этот подход довольно сложный. Скорее всего таких специалистов не очень много, и будет сложно отмасштабировать это решение на миллионы пользователей сайта. Но на самом деле это не нужно. Существует множество примеров — ситуаций, когда другие пользователи заходили на страницы фильмов, принимали решение посмотреть фильм и далее ставили оценку, по которой можно понять, понравился им фильм или нет. Задача машинного обучения состоит в восстановлении общей закономерности из информации в этих примерах. 1.1.2. Основные обозначения В рамках данного курса будут использоваться следующие обозначения: x — объект, X — пространство объ- ектов, y = y(x) — ответ на объекте x, Y — пространство ответов. Объектом называется то, для чего нужно сделать предсказание. В данном примере объектом является пара (пользователь, фильм). Пространство объектов — это множество всех возможных объектов, для ко- 1 торых может потребоваться делать предсказание. В данном примере это множество всех возможных пар (пользователь, фильм). Ответом будет называться то, что нужно предсказать. В данном случае ответ — понравится пользова- телю фильм или нет. Пространство ответов, то есть множество всех возможных ответов, состоит из двух возможных элементов: -1 (пользователю фильм не понравился) и +1 (понравился). Признаковым описанием объекта называется совокупность всех признаков: x = (x 1 , x 2 , . . . , x d ). Признак - это число, характеризующее объект. Признаковое описание является d-мерным вектором. 1.1.3. Выборка, алгоритм обучения Центральным понятием машинного обучения является обучающая выборка X = (x i , y i ) ` i=1 . Это те самые при- меры, на основе которых будет строиться общая закономерность. Отдельная задача — получение обучающей выборки. В вышеупомянутом случае y i - это оценка фильма пользователем. Предсказание будет делаться на основе некоторой модели (алгоритма) a(x), которая представляет из себя функцию из пространства X в пространство Y. Эта функция должна быть легко реализуема на компьюте- ре, чтобы ее можно было использовать в системах машинного обучения. Примером такой модели является линейный алгоритм: a(x) = sign(w 0 + w 1 x 1 + . . . + w d x d ). Операция взятия знака sign берется ввиду того, что пространство Y состоит из двух элементов. Не все алгоритмы подходят для решения задачи. Например константный алгоритм a(x) = 1 не подходит. Это довольно бесполезный алгоритм, который вряд ли принесет пользу сайту. Поэтому вводится некоторая характеристика качества работы алгоритма — функционал ошибки. Q(a, X) — ошибка алгоритма a на выборке X. Например, функционал ошибки может быть долей неправильных ответов. Следует особо отметить, что Q называется функционалом ошибки, а не функцией. Это связано с тем, что первым его аргументом является функция. Задача обучения состоит в подборе такого алгоритма a, для которого достигается минимум функционала ошибки. Лучший в этом смысле алгоритм выбирается из некоторого семейства A алгоритмов. 1.1.4. Решающие пни Простейшим примером семейства алгоритмов являются решающие пни: A = x j < t |∀j, t . Здесь квадратные скобки соответствуют так называемой нотации Айверсона. Если логическое выражение внутри этих скобок — истина, то значение скобок равно 1, в ином случае — нулю. Алгоритм работает следующим образом. Если значение определенного признака x j меньше некоторого порогового значения t, то данный алгоритм возвращает ответ 0 (фильм не понравится), в ином случае — +1 (пользователю фильм понравится). Решающие пни могут быть использованы для построения сложных композиций алгоритмов. 1.2. Обучение на размеченных данных 1.2.1. Постановка задачи В этом разделе речь пойдет о том, какие бывают типы задач при обучении на размеченных данных, или обучении с учителем. Общая постановка задачи обучения с учителем следующая. Для обучающей выбор- ки X = (x i , y i ) ` i=1 нужно найти такой алгоритм a ∈ A, на котором будет достигаться минимум функционала ошибки: Q(a, X) → min a∈A В зависимости от множества возможных ответов Y, задачи делятся на несколько типов. 2 1.2.2. Задача бинарной классификации В задаче бинарной классификации пространство ответов состоит из двух ответов Y = {0, 1}. Множество объектов, которые имеют один ответ, называется классом. Говорят, что нужно относить объекты к одному из двух классов, другими словами, классифицировать эти объекты. Рис. 1.1: Задача бинарной классификации Примеры задач бинарной классификации: • Понравится ли пользователю фильм? • Вернет ли клиент кредит? 1.2.3. Задача многоклассовой классификации Классов может быть больше, чем два. В таком случае имеет место задача многоклассовой классификации. Рис. 1.2: Задача многоклассовой классификации Примеры задач многоклассовой классификации: • Из какого сорта винограда сделано вино? • Какая тема статьи? • Машина какого типа изображена на фотографии: мотоцикл, легковая или грузовая машина? 3 1.2.4. Задача регрессии Когда y является вещественной переменной, говорят о задаче регрессии. Рис. 1.3: Задача регрессии Примеры задач регрессии: • Предсказание температуры на завтра. • Прогнозирование выручки магазина за год. • Оценка возраста человека по его фото. 1.2.5. Задача ранжирования Еще одним примером задачи обучения с учителем является задача ранжирования. Эта задача довольно тяжелая, и речь о ней в данном курсе не пойдет, но знать о ней полезно. Мы сталкиваемся с ней каждый день, когда ищем что-либо в интернете. После того, как мы ввели запрос, происходит ранжирование страниц по релевантности их запросу, то есть для каждой страницы оценивается ее релевантность в виде числа, а затем страницы сортируются по убыванию релевантности. Задача состоит в предсказании релевантности для пары (запрос, страница). 1.3. Обучение без учителя В этом разделе мы обсудим, какие бывают постановки задач машинного обучения, кроме обучения с учителем. Обучением с учителем называются такие задачи, в которых есть и объекты, и истинные ответы на них. И нужно по этим парам восстановить общую зависимость. Задача обучения без учителя — это такая задача, в которой есть только объекты, а ответов нет. Также бывают «промежуточные» постановки. В случае ча- стичного обучения есть объекты, некоторые из которых с ответами. В случае активного обучения получение ответа обычно очень дорого, поэтому алгоритм должен сначала решить, для каких объектов нужно узнать ответ, чтобы лучше всего обучиться. Рассмотрим несколько примеров постановки задач без учителя. 1.3.1. Задача кластеризации Первый пример — задача кластеризации. Дано множество объектов. Необходимо найти группы похожих объектов. Есть две основные проблемы: не известно количество кластеров и не известны истинные кластеры, которые нужно выделять. Поэтому задача решается очень тяжело — здесь невозможно оценить качество решения. Этим и отличается задача классификации — там тоже нужно делить объекты на группы, но в классификации группы, а точнее классы, фиксированы, и известны примеры объектов из разных групп. 4 Рис. 1.4: Задача кластеризации Примеры задач кластеризации: • Сегментация пользователей (интернет-магазина или оператора связи) • Поиск схожих пользователей в социальных сетях • Поиск генов с похожими профилями экспрессии 1.3.2. Задача визуализации Второй пример — задача визуализации: необходимо нарисовать многомерную (а конкретно, d-мерную) вы- борку так, чтобы изображение наглядно показывало структуру объектов. Рис. 1.5: Задача визуализации Примером задачи визуализации является задача визуализации набора данных MNIST. Этот набор данных был получен в результате оцифровки рукописных начертаний цифр. Каждый скан цифры характеризуется 5 вектором признаков - яркостей отдельных пикселей. Необходимо таким образом отобразить этот набор данных на плоскость, чтобы разные цифры оказались в разных ее областях. 1.3.3. Поиск аномалий Третий пример задачи обучения без учителя — поиск аномалий. Необходимо обнаружить, что данный объект не похож на все остальные, то есть является аномальным. При обучении есть примеры только обычных, не аномальных, объектов. А примеров аномальных объектов либо нет вообще, либо настолько мало, что невозможно воспользоваться классическими методами обучения с учителем (методами бинарной классификации). При этом задача очень важная. Например, к такому типу задач относится: • Определение поломки в системах самолета (по показателям сотен датчиков) • Определение поломки интернет—сайта • Выявление проблем в модели машинного обучения. Все упомянутые задачи не будут обсуждаться в рамках данного курса. Им будет посвящен следующий курс — «Поиск структуры в данных». 1.4. Признаки в машинном обучении В этом разделе речь пойдет о признаках в машинном обучении. Существует несколько классов, или типов признаков. И у всех свои особенности — их нужно по-разному обрабатывать и по-разному учитывать в алго- ритмах машинного обучения. В данном разделе будет обсуждаться используемая терминология, о самих же особенностях речь пойдет в следующих уроках. Признаки описывают объект в доступной и понятной для компьютера форме. Множество значений j-го признака будет обозначаться D j 1.4.1. Бинарные признаки Первый тип признаков — бинарные признаки. Они принимают два значения: D j = {0, 1} . К таковым отно- сятся: • Выше ли доход клиента среднего дохода по городу? • Цвет фрукта — зеленый? Если ответ на вопрос да — признак полагается равным 1, если ответ на вопрос нет — то равным 0. 1.4.2. Вещественные признаки Более сложный класс признаков — вещественные признаки. В этом случае D j = R. Примерами таких при- знаков являются: • Возраст • Площадь квартиры • Количество звонков в call-центр Множество значений последнего указанного признака, строго говоря, является множеством натуральных чисел N, а не R, но такие признаки тоже считают вещественными. 1.4.3. Категориальные признаки Следующий класс признаков — категориальные признаки. В этом случае D j — неупорядоченное множество. Отличительная особенность категориальных признаков — невозможность сравнения «больше-меньше» зна- чений признака. К таковым признакам относятся: • Цвет глаз • Город • Образование (В некоторых задачах может быть введен осмысленный порядок) Категориальные признаки очень трудны в обращении — до сих пор появляются способы учета этих признаков в тех или иных методах машинного обучения. 6 1.4.4. Порядковые признаки Частным случаем категориальных признаков являются порядковые признаки. В этом случае D j — упорядо- ченное множество. Примеры: • Роль в фильме (Первый план, второй план, массовка) • Тип населенного пункта (упорядочены по населенности) • Образование Хотя и порядковые, и вещественные признаки упорядочены, они отличаются тем, что в случае порядковых признаков «расстояние» между двумя значениями признака не имеет смысла. Например, отличие значения 3 от значения 2 может быть не таким существенным, как отличие 1 от 0. 1.4.5. Множествозначные признаки Множествозначный признак — это такой признак, значением которого на объекте является подмножество некоторого множества. Пример: • Какие фильмы посмотрел пользователь • Какие слова входят в текст 1.4.6. Распределение признака Далее речь пойдет о проблемах, с которыми можно столкнуться при работе с признаками. Первая из них — существование выбросов. Выбросом называется такой объект, значение признака на котором отличается от значения признака на большинстве объектов. Рис. 1.6: Пример выброса Наличие выбросов представляет сложность для алгоритмов машинного обучения, которые будут пытаться учесть и их тоже. Поскольку выбросы описываются совершенно другим законом, чем основное множество объектов, выбросы обычно исключают из данных, чтобы не мешать алгоритму машинного обучения искать закономерности в данных. Проблема может быть и в том, как распределен признак. Не всегда признак имеет такое распределение, которое позволяет ответить на требуемый вопрос. Например, может быть слишком мало данных о клиентах из небольшого города, так как собрать достаточную статистику не представлялось возможным. 7 Урок 4 Метрики качества 4.1. Метрики качества в задачах регрессии 4.1.1. Применение метрик качества в машинном обучении Метрики качества могут использоваться: • Для задания функционала ошибки (используется при обучении). • Для подбора гиперпараметров (используется при измерении качества на кросс-валидации). В том числе можно использовать другую метрику, которая отличается от метрики, с помощью которой построен функционал ошибки. • Для оценивания итоговой модели: пригодна ли модель для решения задачи. Далее мы рассмотрим, какие метрики можно использовать в задачах регрессии. 4.1.2. Среднеквадратичная ошибка Первая метрика, о которой уже шла речь — среднеквадратичная ошибка: M SE(a, X) = 1 ` ` X i=1 (a(x i ) − y i ) 2 Такой функционал легко оптимизировать, используя, например, метод градиентного спуска. Этот функционал сильно штрафует за большие ошибки, так как отклонения возводятся в квадрат. Это приводит к тому, что штраф на выбросе будет очень сильным, и алгоритм будет настраиваться на выбросы. Другими словами, алгоритм будет настраиваться на такие объекты, на которые не имеет смысл настраивать- ся. 4.1.3. Средняя абсолютная ошибка Похожий на предыдущий функционал качества — средняя абсолютная ошибка: M AE(a, X) = 1 ` ` X i=1 |a(x i ) − y i | . Этот функционал сложнее минимизировать, так как у модуля производная не существует в нуле. Но у такого функционала больше устойчивость к выбросам, так как штраф за сильное отклонение гораздо меньше. 4.1.4. Коэффициент детерминации Коэффициент детерминации R 2 (a, X) : R 2 (a, X) = 1 − P ` i=1 a(x i ) − y i 2 P ` i=1 (y i − ¯ y) , ¯ y = 1 ` ` X i=1 y i , 1 позволяет интерпретировать значение среднеквадратичной ошибки. Этот коэффициент показывает, какую долю дисперсии (разнообразия ответов) во всем целевом векторе y модель смогла объяснить. Для разумных моделей коэффициент детерминации лежит в следующих пределах: 0 ≤ R 2 ≤ 1, причем случай R 2 = 1 соответствует случаю идеальной модели, R 2 = 0 — модели на уровне оптимальной «константной», а R 2 < 0 — модели хуже «константной» (такие алгоритмы никогда не нужно рассматривать). Оптимальным константым алгоритмом называется такой алгоритм, который возвращает всегда среднее зна- чение ответов ¯y для объектов обучающей выборки. 4.1.5. Несимметричные потери До этого рассматривались симметричные модели, то есть такие, которые штрафуют как за недопрогноз, так и за перепрогноз. Но существуют такие задачи, в которых эти ошибки имеют разную цену. Пусть, например, требуется оценить спрос на ноутбуки. В этом случае заниженный прогноз приведет к потере лояльности покупателей и потенциальной прибыли (будет закуплено недостаточное количество ноут- буков), а завышенный — только к не очень большим дополнительным расходам на хранение непроданных ноутбуков. Чтобы учесть это, функция потерь должна быть несимметричной и сильнее штрафовать за недо- прогноз, чем за перепрогноз. 4.1.6. Квантильная ошибка В таких случаях хорошо подходит квантильная ошибка или квантильная функция потерь: ρ τ (a, X) = 1 ` ` X i=1 (τ − 1) y i < a(x i ) + τ y i ≥ a(x i ) (y i − a(x i )) . τ − 1 τ Рис. 4.1: График квантильной функции потерь Параметр τ ∈ [0, 1] определяет то, за что нужно штрафовать сильнее — за недопрогноз или перепрогноз. Если τ ближе к 1, штраф будет больше за недопрогноз, а если, наоборот, ближе к 0 — за перепрогноз. |