Главная страница

машинное обучение. А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга


Скачать 1.05 Mb.
НазваниеА. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга
Анкормашинное обучение
Дата20.10.2022
Размер1.05 Mb.
Формат файлаpdf
Имя файлаmachine_learning_vol1 (1).pdf
ТипКнига
#744850
страница3 из 8
1   2   3   4   5   6   7   8
∙ в качестве начального значения 𝑤 в (2.13) можно брать не ¯
0, а любой вектор, рекомендуется брать в качестве начального вектор
(︂ ⟨𝑥
1
, 𝑦⟩
||𝑥
1
||
2
, . . . ,
⟨𝑥
𝑛
, 𝑦⟩
||𝑥
𝑛
||
2
)︂
,
где вектора 𝑥
1
, . . . , 𝑥
𝑛
, 𝑦, определяются следующим образом: если 𝑆
имеет вид {(𝑥
𝑖
, 𝑦
𝑥
𝑖
) | 𝑖 = 1, . . . , 𝑙}, и ∀ 𝑖 = 1, . . . , 𝑙 𝑥
𝑖
= (𝑥
1
𝑖
, . . . , 𝑥
𝑛
𝑖
),
то
∀ 𝑗 = 1, . . . , 𝑛 𝑥
𝑗
= (𝑥
𝑗
1
, . . . , 𝑥
𝑗
𝑙
),
𝑦 = (𝑦
𝑥
1
, . . . , 𝑦
𝑥
𝑙
)
(это оптимальный выбор, если ⟨𝑥
𝑖
, 𝑥
𝑗
⟩ близко к 0 при 𝑖 ̸= 𝑗),
∙ действие 𝑤 := 𝑤 + 𝑥𝑦 можно заменить на 𝑤 := 𝑤 + 𝑥𝑦𝜂, где 𝜂 –
фиксированное положительное число.
2.3
Метод градиентного спуска
2.3.1
Понятие градиентного спуска
Как было отмечено в пункте 1.2.3, если задача ML заключается в нахож- дении по обучающей выборке 𝑆 = {(𝑥
𝑖
, 𝑦
𝑥
𝑖
) | 𝑖 = 1, . . . 𝑙} такого параметра
𝑤, который минимизирует функцию риска
𝑄(𝑎
𝑆
) =
1
𝑙
𝑙
∑︁
𝑖=1
ℒ(𝑎(𝑥
𝑖
, 𝑤), 𝑥
𝑖
),
(2.23)
то в том случае, когда функция (2.23) дифференцируема по 𝑤, для на- хождения искомого параметра 𝑤 можно использовать метод градиент- ного спуска. Данный метод заключается в итеративном построении по- следовательных приближений к искомому значению параметра 𝑤 путем небольших изменений этого параметра. Эти изменения выбираются та- кими, чтобы на каждой итерации новое значение 𝑤 как можно сильнее уменьшало бы функцию (2.23).
Метод градиентного спуска не всегда обеспечивает нахождение па- раметра 𝑤, минимизирующего функцию (2.23) (параметр с таким свой- ством называется глобальным минимумом). Иногда с помощью этого метода можно найти лишь локальный минимум, т.е. такое значение
𝑤, которое невозможно улучшить путем небольших изменений.
23

2.3.2
Описание метода градиентного спуска
Метод градиентного спуска (МГС) предназначен для поиска мини- мумов дифференцируемых функций нескольких переменных, и заклю- чается в следующем.
Пусть задана дифференцируемая функция 𝑄 от 𝑛 переменных:
𝑄 : 𝑊 → R,
где 𝑊 ⊆ R
𝑛
– открытое множество.
Для нахождения такого 𝑤 ∈ 𝑊 , значение функции 𝑄 на котором было бы как можно меньшим, производятся следующие действия:
1. выбирается первое приближение 𝑤
(0)
∈ 𝑊 к искомому значению 𝑤,
2. выбирается число 𝛿 > 0,
3. среди всех точек, входящих в 𝛿–окрестность точки 𝑤
(0)
выбирает- ся такая точка 𝑤
(1)
∈ 𝑊 (являющаяся следующим приближением к искомому значению 𝑤), значение функции 𝑄 на которой было бы как можно меньшим, если же значения 𝑄 во всех точках 𝛿–
окрестности 𝑤
(0)
примерно одинаковы, то работа завершается,
4. предыдущие два действия повторяются, только в качестве 𝑤
(0)
те- перь рассматривается точка 𝑤
(1)
, в результате выполнения этих действий строится новое приближение 𝑤
(2)
, и т.д.
Таким образом, данный алгоритм строит последовательность точек
𝑤
(0)
, 𝑤
(1)
, . . ., 𝑤
(𝑘)
, 𝑤
(𝑘+1)
, . . ., в которой переход от каждой точки 𝑤
(𝑘)
к следующей точке 𝑤
(𝑘+1)
производится в соответствии с действием 3.
Рассмотрим более подробно вопрос о том, как следует выбрать точ- ку 𝑤
(𝑘+1)
в действии 3, чтобы значение 𝑄(𝑤
(𝑘+1)
) было бы как можно меньшим. Будем искать 𝑤
(𝑘+1)
в виде
𝑤
(𝑘+1)
= 𝑤
(𝑘)
+ ∆𝑤.
Как известно из математического анализа, ∀ 𝜀 > 0 ∃ 𝛿 > 0: значения функции 𝑄 в 𝛿–окрестности точки 𝑤
(𝑘)
можно представить (с точностью до 𝜀) линейной формой, т.е. для каждого вектора ∆𝑤 ∈ R
𝑛
, такого, что
||∆𝑤|| ≤ 𝛿, верно соотношение
𝑄(𝑤
(𝑘+1)
) = 𝑄(𝑤
(𝑘)
+ ∆𝑤) ≈
𝜀
𝑄(𝑤
(𝑘)
) + 𝑎
1
∆𝑤
1
+ . . . + 𝑎
𝑛
∆𝑤
𝑛
,
(2.24)
где ∆𝑤
1
, . . . , ∆𝑤
𝑛
– компоненты вектора ∆𝑤, и ∀ 𝑥, 𝑦 ∈ R запись 𝑥 ≈
𝜀
𝑦
обозначает утверждение |𝑥 − 𝑦| < 𝜀.
24

Вектор (𝑎
1
, . . . , , 𝑎
𝑛
) с компонентами из (2.24) обозначается записью
∇𝑄(𝑤
(𝑘)
) и называется градиентом функции 𝑄 в точке 𝑤
(𝑘)
, его компо- ненты 𝑎
1
, . . ., 𝑎
𝑛
обозначаются соответственно записями
𝜕𝑄
𝜕𝑤
1
(𝑤
(𝑘)
), . . . ,
𝜕𝑄
𝜕𝑤
𝑛
(𝑤
(𝑘)
).
Соотношение (2.24) можно записать, используя обозначение для ска- лярного произведения векторов:
𝑄(𝑤
(𝑘+1)
) = 𝑄(𝑤
(𝑘)
+ ∆𝑤) ≈
𝜀
𝑄(𝑤
(𝑘)
) + ⟨∇𝑄(𝑤
(𝑘)
), ∆𝑤⟩,
откуда видно, что выбор точки 𝑤
(𝑘+1)
из 𝛿–окрестности точки 𝑤
(𝑘)
, так,
чтобы значение 𝑄(𝑤
(𝑘+1)
) (с точностью до 𝜀) было бы как можно меньше,
сводится к выбору вектора ∆𝑤 ∈ R
𝑛
, такого, что ||∆𝑤|| ≤ 𝛿, и значение
⟨∇𝑄(𝑤
(𝑘)
), ∆𝑤⟩
(2.25)
было бы как можно меньше.
Рассмотрим задачу выбора такого вектора ∆𝑤 в общем виде. Пусть
𝑎, 𝑏 – пара ненулевых векторов из линейного пространства со скалярным произведением ⟨ ⟩. Исследуем вопрос о том, как при фиксированном век- торе 𝑎 выбрать вектор 𝑏 с ограничением ||𝑏|| ≤ 𝛿, чтобы скалярное про- изведение ⟨𝑎, 𝑏⟩ принимало наименьшее возможное значение.
Обозначим записью cos(𝑎, 𝑏) число
⟨𝑎,𝑏⟩
||𝑎|| ||𝑏||
. Таким образом,
⟨𝑎, 𝑏⟩ = ||𝑎|| ||𝑏|| cos(𝑎, 𝑏).
(2.26)
Согласно неравенству Коши-Буняковского, верны неравенства
⟨𝑎, 𝑏⟩ ≤ ||𝑎|| ||𝑏||
и
⟨−𝑎, 𝑏⟩ ≤ ||−𝑎|| ||𝑏||,
второе из которых равносильно неравенству −||𝑎|| ||𝑏|| ≤ ⟨𝑎, 𝑏⟩, поэтому
−1 ≤ cos(𝑎, 𝑏) ≤ 1.
Докажем, что
{︂ cos(𝑎, 𝑏) = 1
⇔ ∃ 𝑡 > 0 : 𝑏 = 𝑎𝑡,
cos(𝑎, 𝑏) = −1 ⇔ ∃ 𝑡 > 0 : 𝑏 = −𝑎𝑡.
∙ Если ∃ 𝑡 > 0 : 𝑏 = 𝑎𝑡, cos(𝑎, 𝑏) =
⟨𝑎,𝑏⟩
||𝑎|| ||𝑏||
=
⟨𝑎,𝑎𝑡⟩
||𝑎|| ||𝑎𝑡||
=
⟨𝑎,𝑎⟩ 𝑡
||𝑎|| ||𝑎|| 𝑡
= 1.
∙ Если ∃ 𝑡 > 0 : 𝑏 = −𝑎𝑡, то cos(𝑎, 𝑏) =
⟨𝑎,𝑏⟩
||𝑎|| ||𝑏||
=
⟨𝑎,−𝑎𝑡⟩
||𝑎|| ||−𝑎𝑡||
=
⟨𝑎,𝑎⟩ (−𝑡)
||𝑎|| ||𝑎|| 𝑡
= −1.
25

∙ Если же два предыдущих случая не имеют место, то ∀ 𝑡 ∈ R вектор
𝑎𝑡 + 𝑏 не является нулевым, поэтому
∀ 𝑡 ∈ R
||𝑎𝑡 + 𝑏|| > 0,
т.е. квадратный трехчлен в (2.15) принимает только положитель- ные значения, откуда следует, что его дискриминант (2.16) отрица- телен, т.е. ⟨𝑎, 𝑏⟩
2
− ||𝑎||
2
||𝑏||
2
< 0, поэтому | cos(𝑎, 𝑏)| ̸= 1.
Из приведенных рассуждений следует, что (2.26) принимает наимень- шее возможное значение в том случае, когда
∙ cos(𝑎, 𝑏) = −1 (т.е. 𝑏 = −𝑎𝑡, где 𝑡 > 0), и
∙ ||𝑏|| принимает наибольшее возможное значение (т.е. ||𝑏|| = 𝛿).
Таким образом, решением задачи является вектор 𝑏 = −𝑎
𝛿
||𝑎||
Если под 𝑎 и 𝑏 понимаются вектора ∇𝑄(𝑤
(𝑘)
) и ∆𝑤 соответственно,
то заключаем, что искомый вектор ∆𝑤 должен иметь вид
∆𝑤 = −∇𝑄(𝑤
(𝑘)
)𝜂,
(2.27)
где 𝜂 – некоторое небольшое положительное число, называемое темпом обучения. Обычно данное число не вычисляется аналитически, а под- бирается в процессе работы алгоритма, с использованием некоторых эв- ристических соображений, среди которых м.б. следующие:
∙ если 𝜂 слишком мало, то алгоритм может работать слишком долго
(т.к. число итераций в процессе работы будет слишком большим),
∙ если 𝜂 слишком велико, то алгоритм может работать неустойчиво,
где под устойчивостью работы алгоритма понимается сходимость последовательности 𝑤
(0)
, 𝑤
(1)
, 𝑤
(2)
, . . ..
Как правило, значение 𝜂 не является фиксированным, а постоянно кор- ректируется в процессе работы алгоритма: сначала оно выбирается неболь- шим, затем постепенно увеличивается до максимального значения, при котором алгоритм все еще работает устойчиво, в случае возникновения неустойчивости значение 𝜂 уменьшается, и т.д.
Как было отмечено в описании действия 3, работа алгоритма завер- шается в том случае когда значения минимизируемой функции 𝑄 во всех точках окрестности текущего приближения 𝑤
(𝑘)
к искомому значению примерно (с точностью до 𝜀) одинаковы. Нетрудно видеть, что данная
26
ситуация эквивалентна тому, что компоненты градиента ∇𝑄(𝑤
(𝑘)
) при- мерно (с точностью до 𝜀) равны нулю. Таким образом, условие заверше- ния работы алгоритма градиентного спуска выражается соотношением
∇𝑄(𝑤
(𝑘)
) ≈
𝜀
(0, . . . , 0).
Как было отмечено выше, найденный вектор 𝑤
(𝑘)
, на котором завер- шается работа данного алгоритма, может быть лишь локальным мини- мумом функции 𝑄. Он будет глобальным минимумом функции 𝑄, если
∙ удачно выбрано начальное приближение 𝑤
(0)
, или
∙ функция 𝑄 является выпуклой, т.е. ∀ 𝑤, 𝑤

∈ 𝑊, ∀ 𝛼 ∈ [0, 1]
𝛼𝑤 + (1 − 𝛼)𝑤

∈ 𝑊,
𝑄(𝛼𝑤 + (1 − 𝛼)𝑤

) ≤ 𝛼𝑄(𝑤) + (1 − 𝛼)𝑄(𝑤

).
Докажем, что если 𝑄 выпукла, и в точке ˆ
𝑤 ∈ 𝑊 верно соотношение
∇𝑄( ˆ
𝑤) = (0, . . . , 0),
(2.28)
то 𝑄( ˆ
𝑤) = min
𝑤∈𝑊
𝑄(𝑤).
Пусть это неверно, т.е. ∃ 𝑤 ∈ 𝑊 : 𝑄(𝑤) < 𝑄( ˆ
𝑤), тогда ∀ 𝛼 ∈ [0, 1]
𝑄( ˆ
𝑤 + 𝛼(𝑤 − ˆ
𝑤)) = 𝑄(𝛼𝑤 + (1 − 𝛼) ˆ
𝑤) ≤
≤ 𝛼𝑄(𝑤) + (1 − 𝛼)𝑄( ˆ
𝑤) = 𝑄( ˆ
𝑤) − 𝛼(𝑄( ˆ
𝑤) − 𝑄(𝑤))
(2.29)
Как известно из математического анализа, из (2.28) следует, что
𝑄( ˆ
𝑤 + 𝛼(𝑤 − ˆ
𝑤)) − 𝑄( ˆ
𝑤) = 𝑜(𝛼),
т.е. lim
𝛼→0
𝑄( ^
𝑤+𝛼(𝑤− ^
𝑤))−𝑄( ^
𝑤)
𝛼
= 0. Но согласно (2.29), этот предел меньше чем
−(𝑄( ˆ
𝑤) − 𝑄(𝑤)) < 0.
Таким образом, в рассматриваемой ситуации результат работы МГС
(если он достигается) – глобальный минимум 𝑄.
2.3.3
Модификации метода градиентного спуска
Метод стохастического градиента
В том случае, когда обучающая выборка 𝑆 имеет большой размер, при- менение МГС может вызвать большие вычислительные сложности, т.к.
27
на каждой итерации необходимо вычислять градиент ∇𝑄(𝑤
(𝑘)
), который зависит от всех элементов обучающей выборки 𝑆:
∀ 𝑖 = 1, . . . , 𝑛
𝜕𝑄
𝜕𝑤
𝑖
(𝑤
(𝑘)
) =
1
𝑙
𝑙
∑︁
𝑗=1
𝜕ℒ(𝑎(𝑥
𝑗
, 𝑤
(𝑘)
), 𝑥
𝑗
)
𝜕𝑤
𝑖
Для ускорения процесса обучения иногда вместо правила (2.27) ис- пользуется правило
∆𝑤 = −∇ℒ(𝑎(𝑥
𝑗
, 𝑤
(0)
), 𝑥
𝑗
)𝜂,
(2.30)
где число 𝑗 ∈ {1, . . . , 𝑙} на каждой итерации процесса обучения выби- рается случайно. Соответствующий метод обучения (с правилом (2.30)
вместо (2.27)) называется методом стохастического градиента.
Одной из актуальных проблем является управление выбором 𝑗 в (2.30)
на каждой итерации процесса обучения, так, чтобы сходимость 𝑤
(𝑘)
к оп- тимальному параметру была бы как можно более быстрой.
Регуляризация
Одной из нежелательных ситуаций во время обучения является чрез- мерный рост ||𝑤
(𝑘)
||. Данная ситуация может возникнуть, например, в следующем случае: предсказательная модель 𝑎 : 𝑋 × 𝑊 → 𝑌 имеет вид
𝑎(𝑥, 𝑤) = 𝑠𝑖𝑔𝑛(⟨𝑥, 𝑤⟩),
где 𝑥 ∈ 𝑋 ⊆ R
𝑛
,
и ∃ 𝑢 ∈ R
𝑛
: ∀ 𝑥 ∈ 𝑋 ⟨𝑥, 𝑢⟩ = 0.
Нетрудно видеть, что в этом случае
∀ 𝛾 ∈ R 𝑎(𝑥, 𝑤 + 𝛾𝑢) = 𝑠𝑖𝑔𝑛(⟨𝑥, 𝑤 + 𝛾𝑢⟩) = 𝑠𝑖𝑔𝑛(⟨𝑥, 𝑤⟩) = 𝑎(𝑥, 𝑤)
откуда следует, что если минимальное значение риска будет достигаться на ˆ
𝑤, то такое же значение риска будет достигаться на ˆ
𝑤 + 𝛾𝑢 (∀ 𝛾 ∈ R),
т.е. параметр 𝑤, минимизирующий риск, м.б. как угодно большим.
Для борьбы с чрезмерным увеличением ||𝑤
(𝑘)
|| используется метод,
называемый регуляризацией. Суть данного метода заключается в мо- дификации минимизируемой функции: она может иметь, например, вид
𝑄(𝑎
𝑆
) +
𝜏
2
||𝑤||
2
,
где 𝜏 – некоторое положительное число. В этом случае (2.27) заменяется на правило
∆𝑤 = −∇𝑄(𝑤
(0)
)𝜂 − 𝑤𝜏 𝜂.
(2.31)
Можно модифицировать не минимизируемую функцию, а функцию потерь: вместо ℒ рассматривать ˜

def
= ℒ +
𝜏
2
||𝑤||
2
, в этом случае (2.27) тоже заменяется на (2.31).
28

2.4
Метод обратного распространения ошиб- ки для обучения нейронных сетей
2.4.1
Идея метода
Излагаемый в этом параграфе метод обратного распространения ошибки (error back propagation), или более коротко – метод об- ратного распространения (МОР), используется при обучении мно- гослойных нейронных сетей (МНС). Данный метод является модифи- кацией метода градиентного спуска. Впервые МОР был описан в 1974
г. А. И. Галушкиным, а также независимо и одновременно Полом Дж.
Вербосом.
Идея МОР состоит в распространении сигналов ошибки от выходов
МНС к ее входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Опишем эту идею более подробно.
Напомним, что компонентами МНС являются нейроны,
∙ на вход нейрона поступает кортеж чисел вида (𝑥
1
, . . . , 𝑥
𝑛
) ∈ R
𝑛
,
∙ на выходе нейрон выдает число 𝑎
def
= 𝜎
(︁
⟨𝑥, 𝑤⟩ − 𝑤
0
)︁
, где 𝜎 – функция активации.
Структуру МНС можно представить диаграммой вида
(2.32)
(на данной диаграмме изображена МНС с двумя слоями).
При заданной совокупности 𝑤 значений весовых коэффициентов 𝑤
𝑖𝑗
эта МНС определяет функцию 𝑎
𝑤
, отображающую каждый входной век- тор 𝑥 ∈ R
𝑛
в выходной вектор 𝑎
𝑤
(𝑥) ∈ R
𝑀
. Если задана обучающая
29
выборка 𝑆 ⊆ R
𝑛
× R
𝑀
, то ошибкой данной МНС на паре (𝑥, 𝑦) ∈ 𝑆
называется число
𝑄(𝑥, 𝑦, 𝑤) =
1 2
||𝑎
𝑤
(𝑥) − 𝑦||
2
(2.33)
Задача алгоритма МОР заключается в нахождении такой совокуп- ности 𝑤 весовых коэффициентов данной МНС, которые делают ошиб- ки (2.33) как можно меньше. Алгоритм МОР решает эту задачу путем выполнения нескольких итераций, каждая из которых состоит из двух частей:
∙ выбор пары (𝑥, 𝑦) ∈ 𝑆,
∙ нахождение ошибки (2.33) на выбранной паре (𝑥, 𝑦) при текущем наборе весовых коэффициентов 𝑤 путем вычисления в «прямом направлении» (слева направо) выходов всех нейронов,
∙ коррекция весовых коэффициентов 𝑤
𝑖𝑗
путем вычисления в «об- ратном направлении» (сначала корректируются весовые коэффи- циенты последнего слоя, затем - предпоследнего, и т.д.).
2.4.2
Описание метода
Описание МОР будет изложено на примере двуслойной сети вида (2.32)
(для МНС с б´
ольшим числом слоев метод выглядит аналогично).
Для возможности применения МОР функция активации 𝜎 должна быть дифференцируемой. Например, в качестве такой 𝜎 может исполь- зоваться сигмоида:
𝜎(𝑥) =
1 1 + 𝑒
−𝑥
(2.34)
График этой функции имеет вид
Данная функция стремится к 1 при 𝑥 → ∞ и к 0 при 𝑥 → −∞, ее график центрально симметричен относительно точки (0, 0.5).
30

Ниже будет использоваться легко проверяемое соотношение
𝜎

(𝑥) = 𝜎(𝑥)(1 − 𝜎(𝑥)).
Мы будем предполагать, что в рассматриваемой МНС функция акти- вации одинакова для всех входящих в нее нейронов, и имеет вид (2.34).
Алгоритм МОР имеет следующий вид:
1. Инициализация весов МНС небольшими случайными значениями.
2. Делаем итерации (до тех пор пока 𝑄 не стабилизируется), каждая итерация заключается в вычислении по текущему набору 𝑤 весо- вых коэффициентов нового набора 𝑤

, который будет текущим в следующей итерации, и имеет следующий вид:
∙ случайно выбираем (𝑥, 𝑦) ∈ 𝑆, 𝑥 = (𝑥
1
, . . . , 𝑥
𝑛
), 𝑦 = (𝑦
1
, . . . , 𝑦
𝑀
),
∙ прямой ход: вычисляем выходы всех нейронов, и
𝑄(𝑥, 𝑦, 𝑤) :=
1 2
𝑀
∑︁
𝑚=1
(𝑎
𝑚
− 𝑦
𝑚
)
2
∀ 𝑚 = 1, . . . , 𝑀
𝜕𝑄
𝜕𝑎
𝑚
= 𝑎
𝑚
− 𝑦
𝑚
=: 𝜉
𝑚
,
∙ обратный ход (модификация весов в направлении −∇):
𝑤

ℎ𝑚
:= 𝑤
ℎ𝑚

𝜕𝑄
𝜕𝑤
ℎ𝑚
𝜂,
𝑤

𝑗ℎ
:= 𝑤
𝑗ℎ

𝜕𝑄
𝜕𝑤
𝑗ℎ
𝜂,
где 𝜂 ∈ (0, 1) – подбираемый параметр (темп обучения), и част- ные производные
𝜕𝑄
𝜕𝑤
ℎ𝑚
,
𝜕𝑄
𝜕𝑤
𝑗ℎ
вычисляются следующим образом:
пусть 𝑢
1
, . . . , 𝑢
𝐻
– выходы первого слоя, тогда ∀ 𝑚 = 1, . . . , 𝑚,
∀ ℎ = 1, . . . , 𝐻, ∀ 𝑗 = 1, . . . , 𝑛
𝑎
𝑚
= 𝜎
(︁
𝐻
∑︀
ℎ=1
𝑤
ℎ𝑚
𝑢

− 𝑤
0𝑚
)︁
,
𝜕𝑄
𝜕𝑤
ℎ𝑚
=
𝜕𝑄
𝜕𝑎
𝑚
𝜕𝑎
𝑚
𝜕𝑤
ℎ𝑚
= 𝜉
𝑚
𝜎

(︁
𝐻
∑︀
ℎ=1
𝑤
ℎ𝑚
𝑢

− 𝑤
0𝑚
)︁
𝑢

=
= 𝜉
𝑚
𝑎
𝑚
(1 − 𝑎
𝑚
)𝑢

,
𝜕𝑄
𝜕𝑤
0𝑚
=
𝜕𝑄
𝜕𝑎
𝑚
𝜕𝑎
𝑚
𝜕𝑤
0𝑚
= 𝜉
𝑚
𝜎

(︁
𝐻
∑︀
ℎ=1
𝑤
ℎ𝑚
𝑢

− 𝑤
0𝑚
)︁
(−1) =
= −𝜉
𝑚
𝑎
𝑚
(1 − 𝑎
𝑚
),
31

𝑢

= 𝜎
(︁
𝑛
∑︀
𝑗=1
𝑤
𝑗ℎ
𝑥
𝑗
− 𝑤
0ℎ
)︁
,
𝜕𝑄
𝜕𝑢

=
𝑀
∑︀
𝑚=1
𝜕𝑄
𝜕𝑎
𝑚
𝜕𝑎
𝑚
𝜕𝑢

=
𝑀
∑︀
𝑚=1
𝜉
𝑚
𝜎

(︁
𝐻
∑︀
ℎ=1
𝑤
ℎ𝑚
𝑢

− 𝑤
0𝑚
)︁
𝑤
ℎ𝑚
=
=
𝑀
∑︀
𝑚=1
𝜉
𝑚
𝑎
𝑚
(1 − 𝑎
𝑚
)𝑤
ℎ𝑚
=: 𝜁

,
𝜕𝑄
𝜕𝑤
𝑗ℎ
=
𝜕𝑄
𝜕𝑢

𝜕𝑢

𝜕𝑤
𝑗ℎ
= 𝜁

𝜎

(︁
𝑛
∑︀
𝑗=1
𝑤
𝑗ℎ
𝑥
𝑗
− 𝑤
0ℎ
)︁
𝑥
𝑗
=
= 𝜁

𝑢

(1 − 𝑢

)𝑥
𝑗
,
𝜕𝑄
𝜕𝑤
0ℎ
=
𝜕𝑄
𝜕𝑢

𝜕𝑢

𝜕𝑤
0ℎ
= 𝜁

𝜎

(︁
𝑛
∑︀
𝑗=1
𝑤
𝑗ℎ
𝑥
𝑗
− 𝑤
0ℎ
)︁
(−1) =
= −𝜁

𝑢

(1 − 𝑢

).
2.4.3
Достоинства и недостатки метода
Основые достоинства МОР:
∙ низкая сложность,
∙ легко реализуется на параллельных архитектурах,
∙ универсальность (пригоден для любых конфигураций МНС).
Основные недостатки МОР заключаются в следующем.
∙ Неопределенно долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, она мо- жет и вообще не обучиться.
∙ В процессе обучения сети значения весов могут в результате кор- рекции стать очень большими величинами. Это может привести к тому, что большинство нейронов будут функционировать при очень больших значениях весовых коэффициентов, в области, где про- изводная функции активации очень мала. Так как обратно рас- пространяемая в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может стать парализованным.
∙ Нет гарантии того, что получаемый в результате обучения локаль- ный минимум является хорошим решением задачи обучения.
Для улучшения сходимости алгоритма обратного распространения можно использовать, например, следующие приемы:
32

∙ нормализация входных значений: вектор 𝑥 в каждой паре (𝑥, 𝑦) ∈ 𝑆
заменяется на ˜
𝑥, определяемый следующим образом:
∀ 𝑖 = 1, . . . , 𝑛 ˜
𝑥
𝑖
:=
𝑥
𝑖
− 𝑥
𝑖
1   2   3   4   5   6   7   8


написать администратору сайта