ЭССЕ. Обучение с учителем

Название	Обучение с учителем
Дата	03.10.2019
Размер	24.29 Kb.
Формат файла
Имя файла	ЭССЕ.docx
Тип	Документы #88473

Введение

Машинное обучение – подход, который стремится не конкретно решить задачу, а проанализировать или решить уже решенные задачи, вывести из них определенное правило и применять в будущих случаях. Методы машинного обучения основываются на статистике, теории вероятности, численных методах, методах оптимизации и теории графов. Проблема машинного обучения заключается в том, что не существует моделей и способов их обучения универсальных для всех задач. Из-за этого методы обучения делятся на отдельные классы, которые также решают отдельные классы задач. Методы обучения делятся на три вида:

- обучение с учителем;

- обучение без учителя;

- обучение с подкреплением.

1. Обучение с учителем

Обучение с учителем - вид машинного обучения нейронной сети, при котором нейронная сеть обучается по принципу "стимул-реакция". При данном подходе помимо множества объектов существует

множество реакций (откликов). Между объектами и откликами существует зависимость, которая изначально неизвестна. Задачей обучения с учителем является точное сопоставление объекта необходимому отклику.

В процессе обучения набор пар "стимул-реакция" называется "обучающей выборкой". Учителем в данной ситуации может выступать как сама выборка, так и человек.

Схема модели обучения с учителем представлена на рисунке (Схема обучения.jpg).

Задачи при данном подходе:

- задачи регрессии, аппроксимации (множество ответов бесконечно или является собственными числами/векторами);

- задачи классификации и распознавания (множество ответов конечно);

- задачи прогнозирования (ответы указаывают на поведение процесса в будущем).

1.1 Коррекция ошибки

Данное правило применяется в однослойном или многослойном перцептроне. Перцептрон – это одна из первых нейросетевых моделей, предложенная Френком Розенблаттом в 1957 году.

В последствии, она была реализована в 1960 году в виде ЭВМ "Марк-1". Перцептрон содержит S-слой, который представляет сенсоры или рецепторы.

В физическом смысле, S-слой – это сетчатка глаза. Такие рецепторы могут находятся в состояниях покоя или возбуждения.

Данные из S-слоя передаются на A-слой. Это ассоциативный слой, ему на вход передается набор S-элементов. A-элемент возбуждается только тогда, когда ему подается на вход.

Достаточное количество возбужденных S-элементов. Сигнал A-слоев передается на сумматор R. R-элемент подсчитывает количество элементов, умноженное на веса.

Обучение состоит в подборе весов между A-элементами и R-элементами. Остальные веса подбираются наугад.

Многослойный перцептрон – перцептрон с дополнительными A-элементами.

Обучение данной нейросети происходит по правилу коррекции ошибки.

[По Круглову, с.354] Для каждого входного примера задан требуемый выход d, отличный от реального выхода y. Обучение, при использовании данного подхода, состоит в использовании разницы (d-y) для модификации весов с целью уменьшения коэффициента ошибки. Обучение выполняется только в случае ошибочного результата. При появлении ошибки знак вес пересчитывается, а знак меняется на противоположный.

Правильность данного метода доказана теоремой сходимости перцептрона.

Розенблатт, Блок, Джозеф и другие авторы данной теоремы доказали, что элементарный перцептрон, обучаемый по методу коррекции ошибки, всегда приведет к достижению решение за полиномиальное время.

При этом, достижение результата не зависит от начальных весовых коэффициентов, а также наличия, либо отсутствия квантования.

Основная теорема сходимости:

«Даны элементарный перцептрон, пространство стимулов W и некоторая классификация C(W), для которой известно, что решение существует. Предположим, что все стимулы из W появляются в любой последовательности, но при условии, что каждый стимул появляется повторно через некоторый конечный интервал времени. Тогда процесс обучения с коррекцией ошибок (с квантованием или без квантования подкрепления), начинающийся с произвольного исходного состояния, всегда приведёт к достижению решения для C(W) в течение конечного промежутка времени. При этом все входные сигналы к R - элементам достигнут значения, по крайней мере равного некоторой произвольной величине d >= 0».

Для достижения положительно результата необходимо 2 условия:

1. каждый стимул должен возбуждать хотя бы один A-элемент;

2. не должно существовать никакой подпоследовательности стимулов, содержащей по меньшей мере по одному стимулу каждого класса, которая приводила бы к одинаковому коэффициенту смещения для каждого А-элемента в множестве А-элементов, реагирующих на эту подпоследовательность.

Данное правило применяется для задач классификации, аппроксимации, предсказания и управления.

1.2 Правило Больцмана

Правило Больцмана является стохастическим правилом обучения, обусловленным аналогией с правилами термодинамики. В результате его выполнения осуществляется настройка весовых коэффициентов нейронов в соответствии с требуемым распределением вероятностей. Обучение правилу Больцмана может рассматриваться как отдельный случай коррекции по ошибке, в котором под ошибкой понимается расхождение корреляций состояний в двух режимах.

Данное правило применяется в рекуррентных нейронных сетях для задач классификации образов.

Для обучения с учителем с дискретным временем, каждый (дискретный) шаг времени на входные узлы подаются данные, а прочие узлы завершают свою активацию, и выходные сигналы готовятся для передачи нейроном следующего уровня. Если, например, сеть отвечает за распознавание речи, в результате на выходные узлы поступают уже метки (распознанные слова).

Алгоритм обучения Больцмана имеет стохастический характер, что способствует поиску абсолютного минимума целевой функции и выхода системы из состояния локального минимума целевой функции. Способность находить абсолютный минимум целевой функции обеспечила широкое применение машины Больцмана для решения задач классификации образов. Подразумевается, что в такой сети применяются симметричные синаптические связи. Можно выделить два режима функционирования машины Больцмана:

- скованное состояние, в котором все видимые нейроны находятся в состояниях, определенных внешней средой;

- свободное состояние, в котором все нейроны могут свободно функционировать;

В процессе функционирования сети выбирается один из свободных нейронов и его состояние изменяется с определенной вероятностью.

Процедура обучения для такой сети состоит из следующих шагов:

1.вычислить закрепленные вероятности:

a. придать входным и выходным нейронам значения обучающего вектора;

b. предоставить сети возможность искать равновесие;

c. запомнить выходные значения (состояния) для всех нейронов;

d. повторить шаги от, а до с для всех обучающих векторов;

e. вычислить вероятность, то есть по всему множеству обучающих векторов вычислить вероятность того, что состояния обоих нейронов равны единице.

2. вычислить незакрепленные вероятности:

a. предоставить сети возможность «свободного движения» без закрепления входов или выходов, начав со случайного состояния;

b. повторить предыдущий много раз, запоминая состояния всех нейронов;

c. вычислить вероятность (P_ij), то есть вероятность того, что состояния обоих нейронов равны единице.

3. скорректировать веса.

Обученная в соответствии с алгоритмом Больцмана нейронная сеть обладает способностью к дополнению входных образов. То есть, если входной вектор с неполной информацией поступает на вход сети, сеть дополнит недостающую информацию.

Основным недостатком алгоритма обучения Больцмана является большая длительность процесса обучения.

1.3 Правило Хебба

Правило Хебба является самым известным алгоритмом обучения нейронных сетей. Если нейроны с обеих сторон синапса возбуждаются одновременно и регулярно, то сила синаптической связи возрастает. Изменение синаптического веса возрастает только от активности связных этим синапсом нейронов.

Обучающее правило Хебба применяется при линейном дискриминантном анализе в многослойных нейронных сетях прямого распространения.

Задачи:

- анализ данных;

- классификация образов;

1.4 Метод соревнования.

В отличие от правила Хебба, выходные нейроны соревнуются между собой. Выходной нейронной с максимальным коээфициентом является "победителем", а остальные нейроны переходят в неактивное состояние.

Во время обучения модифицируются только веса победителя в сторону увеличения близости к данному входному примеру.

Метод соревнования используется для следующих задач:

1. категоризация внутри класса;

2. сжатие данных;

3. распознавание образов.

При этом могут использоваться следующие алгоритмы обучения:

1. векторное квантование;

2. ART-map.

2. Обучение без учителя

Обучение без учителя – вид машинного обучения, при котором система обучается выполнять поставленную задачу без вмешательства эксперта. Данный подход применяется, когда имеются некоторые множества объектов и у них требуется обнаружить внутренние зависимости, взаимосвязи с другими объектами. Данный подход применяется для решения следующих задач:

- кластеризация – определенный тип задач, при котором поданные на вход группы объектов требуется разбить на непересекающиеся подмножества, называемые кластеры. Таким образом, что объекты из одного кластера были схожи между собой и отличимыми от объектов из другого кластера;

- поиск правил ассоциации – правила вида "если...то...", например, "Если футболист забил гол в свои ворота, то он не будет праздновать его";

- заполнение пропущенных значений – заполнение пропущенных значений в различных множествах, используя их средние характеристики;

- сокращение размерности – минимизация потери информации с уменьшением размерности обозначающих ее символов;

- визуализация данных – представление многомерных данных в виде двумерном пространстве.

Существует множество методов обучения без учителя, рассмотрим только некоторые из них: Сеть Кохонена, Самоорганизующаяся сеть Кохонена, Метод k-средних, Иерархическая кластеризация, Метод главных компонент, Многомерное шкалирование.

2.1 Сеть Кохонена

Сеть Кохонена – класс нейронных сетей, которые обучаются как без учителя, так и с учителем, основным элементом которой является слой Кохонена. Он состоит из адаптивных линейных сумматоров. Выходные сигналы из него обрабатываются по правилу "Победитель получает все". Наибольший сигнал становится равным единице, остальные превращаются в ноль. Существует классификация, которая опирается на настройку входных весов сумматоров:

- сети векторного квантования сигналов (Метод К-средних)

- самоорганизующиеся карты Кохонена

2.1.1 Самоорганизующаяся карта Кохонена

Самоорганизующаяся карта Кохонена – нейроная сеть, обучаемая без учителя, которая решает задачи кластеризации, визуализации, прогнозирования и моделирования. Сама карта представляет из себя набор нейронов. Каждый нейрон характеризуется двумя характеристиками: вектор веса – m, который имеют ту же размерность, что и входные данные, второй – вектор r, представляющий собой координаты узла на карте. Изначально, взяв в расчеты размерность исходных данных, определенным образом строится первоначальный вариант карты. С каждой итерацией векторы нейронов приближаются к значениям на входных данных. Для каждой итерации выбирается наиболее похожий с входными данными нейрон, и еще больше приближается к ним, его соседи в зависимости от их расстояния к данному нейрону также изменяются. Таким образом, если в множестве входных векторов несколько были схожи, значит они будут расположены в одном или двух близких нейронах. Обучение заканчивается после определенного количества итераций или после преодоления заранее определенной допустимой погрешности. Таким образом карты Кохонена относят входные данные к отдельным кластерам и переносят многомерные данные в двумерное пространство. В результате работы алгоритма получается три карты:

1. карта входа нейронов – визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты;

2. карты выходов нейронов – визуализирует модель взаимного расположения входных примеров;

3. специальная карта – карта кластеров, которая была получена в результате выполнения алгоритма самоорганизующейся карты Кохонена

Данная модель имеет ряд преимуществ:

- устойчивость к зашумленным данным;

- быстрое и неуправляемое обучение;

- возможность упрощения многомерных входных данных с помощью визуализации;

Также у данной модели есть несколько недостатков:

- кластеризация возможна только, если заранее известно количество кластеров;

- окончательный результат работы нейронных сетей зависит от начальных установок сети.

2.1.2 Метод K-средних

Метод К-средних – наиболее популярный метод полной кластеризации. Данный алгоритм стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров. Данный алгоритм разбивает множество элементов векторного пространства на заранее известное число кластеров К. Основная идея метода в том, что на каждой итерации мы считаем заново центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в зависимости от того, какой из новых центров кластеров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения внутри кластерного расстояния. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множества конечно, а на каждом шаге суммарное квадратичное отклонение V уменьшается, поэтому зацикливание невозможно.

Данная модель используется в машинном зрении, а именно в сверточных нейронных сетях, там она используется для подсчета ядра свертки.

Данная модель обладает рядом недостатков:

- не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов;

- результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен;

- число кластеров надо знать заранее.

2.2 Метод главных компонент

Метод главных компонент позволяет уменьшить размер данных при этом потеряв наименьшее количество информации. В основу этого метода положено решение четырех задач:

1. аппроксимировать данные линейными многообразиями меньшей размерности;

2. найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное отклонение от среднего значения максимально;

3. найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичные расстояния между точками максимальны;

4. для данной многомерной случайной величины построить такое ортогональное преобразование координат, в результате которого корреляции между отдельными координатами обратятся в нуль.

Несмотря на то, что данный метод используется во многих случаях уменьшения размерности данных, он также имеет некоторые недостатки:

- не всегда получается уменьшить размер данных для желаемой точности;

- при сложной иерархичности также не будет уменьшен их размер.

2.3 Многомерное шкалирование

Многомерное шкалирование – метод анализа и визуализации данных с помощью расположения точек, соответствующих изучаемым (шкалируемым) объектам, в пространстве меньшей размерности чем пространство признаков объектов.

Области применения

- поиск скрытых переменных, объясняющих полученную из опыта структуру попарных расстояний между изучаемыми явлениями;

- проверка гипотез о расположении изучаемых явлений в пространстве скрытых переменных;

- сжатие полученного опытным путём массива данных путём использования небольшого числа скрытых переменных;

- наглядное представление данных.

3. Обучение с подкреплением

Обучение с подкреплением – метод машинного обучения, при котором испытуемая система обучается взаимодействовать с экспериментальной средой. При этом подкрепляющие отклики ей дает не человек, как учитель, а экспериментальная среда. Система воздействует на среду и наоборот. Данную конструкцию рассматривают как единое целое. Розенблатт делал попытки классификации систем с подкреплением и предложил следующее определение:

"Системой подкрепления называется любой набор правил, на основании которых можно изменять с течением времени матрицу взаимодействия (или состояние памяти) перцептрона." Он выделил две группы систем:

- Альфа-система с подкреплением – система в которой веса всех активных связей изменяются на одинаковую величину;

- Гамма-система с подкреплением – это правило изменения весовых коэффициентов некоторого элемента, при котором веса всех активных связей сначала изменяются на равную величину, а затем из их всех весов связей вычитается другая величина, равная полному изменению весов всех активных связей, деленному на число всех связей.

Данный вид обучения является самым сложным из всех изложенных выше.

4. Проблема переобучениях

Переобучение – проблема машинного обучения, при которой результаты на тестовой выборке существенно хуже, чем на обучающей. Причиной этого является избыточная сложность модели либо обнаружение в обучающей выборке закономерностей, которые отсутствуют в тестовой выборке. При переобучении модель может запомнить все обучающие данные и если в тестовой выборке будет такой же объект, то система даст верный результат, но в противном случае, она даст случайный ответ.

Для устранения проблемы переобучения существуют специальные методы:

- регуляризация;

- перекрестная проверка;

- вербализация нейронных сетей;

- априорная вероятность;

- байесовское сравнение моделей.

Рассмотрим регуляризацию и перекрестную проверку.

Регуляризация - метод устранения переобучения модели, при котором к исходным данным добавляются некоторые некорректные признаки, с целью предотвратить переобучение. Данная модель постоянно имеет вид штрафа за сложность.

Переобучение в большинстве случаев проявляется в том, что в получающихся многочленах слишком большие коэффициенты. Соответственно, и бороться с этим можно довольно естественным способом: нужно просто добавить в целевую функцию штраф, который бы наказывал модель за слишком большие коэффициенты.

Перекрестная проверка – метод устранения переобучения модели, который заключается в следующем: данные разбиваются на k частей, k-1 часть используется для обучения остальные данные используются для проверки, в следующем шаге будет k-2 данных использовано для обучения и остальное для тестирования, после всех этапов составляется оценка эффективности моделей, из которых выбирается наилучшая модель.

5. Вывод

Несмотря на существование таких методов обучения, как обучение без учителя, машина все равно сама не способна обучаться. Для этого человек должен находить, проверять и подбирать специальным образом данные, которые впоследствии будут использованы для обучения. Машина не способна сама находить данные с полного нуля, так как при их отсутствии не понимает, какую задачу она должна решить и зачем она это делает.