машинное обучение. А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга

Название	А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга
Анкор	машинное обучение
Дата	20.10.2022
Размер	1.05 Mb.
Формат файла
Имя файла	machine_learning_vol1 (1).pdf
Тип	Книга #744850
страница	8 из 8

1 2 3 4 5 6 7 8

𝑎(𝑥)
𝑝(𝑥, 𝑎(𝑥)) достигает макси- мального значения, что по определению 𝑦
𝑥
возможно при 𝑎(𝑥) = 𝑦
𝑥
Отметим, что функция (2.107), совпадает с функцией
𝑎(𝑥) = arg max
𝑦∈𝑌
𝜆
𝑦
𝑝(𝑦)𝑝(𝑥|𝑦),
(2.109)
где 𝑝(𝑥|𝑦) =
𝑝(𝑥,𝑦)
𝑝(𝑦)
– вероятность появления объекта 𝑥 в обучащей выбор- ке, при условии, что ответом на этот объект является 𝑦. Значение 𝑝(𝑥|𝑦)
можно понимать как приблизительную долю (или частоту появления)
пары (𝑥, 𝑦) в подвыборке 𝑆
𝑦
, где
𝑆
𝑦
= {(𝑥, 𝑦
𝑥
) ∈ 𝑆 | 𝑦
𝑥
= 𝑦}.
(2.110)
В ряде случаев вместо (2.109) более удобно использовать формулу
𝑎(𝑥) = arg max
𝑦∈𝑌
ln
(︁
𝜆
𝑦
𝑝(𝑦)𝑝(𝑥|𝑦)
)︁
,
(2.111)
которая, как нетрудно видеть, определяет ту же функцию, что и (2.109).
71

2.9.3
Построение АФ по обучающей выборке
Пусть задана некоторая ДВМО, причем
∙ распределение (2.102) неизвестно, и
∙ функция потерь (2.104) известна и удовлетворяет условиям теоре- мы 7.
Также задана некоторая обучающая выборка 𝑆 ⊆ 𝑋 ×𝑌 , построенная в соответствии с этой ДВМО.
Требуется построить 𝑎
𝑆
вида (2.109), где вместо неизвестных истин- ных значений вероятностей 𝑝(𝑦) и 𝑝(𝑥|𝑦) должны быть использованы оценки ˆ
𝑝(𝑦) и ˆ
𝑝(𝑥|𝑦) этих вероятностей, вычисленные по 𝑆.
В качестве оценки ˆ
𝑝(𝑦) можно взять, например,
|𝑆
𝑦
|
|𝑆|
Для вычисления оценки ˆ
𝑝(𝑥|𝑦) обозначим записью 𝑥
1
, . . . , 𝑥
𝑚
после- довательность первых компонентов пар, входящих в 𝑆
𝑦
, и полагаем
ˆ
𝑝(𝑥|𝑦)
def
=
1
𝑚
𝑚
∑︁
𝑖=1
[[𝑥
𝑖
= 𝑥]].
2.9.4
Непрерывная вероятностная модель обучения
Во многих задачах машинного обучения множеством объектов 𝑋 яв- ляется R или R
𝑛
. Для данного случая можно определить аналог рас- смотренного выше понятия ДВМО, который называется непрерывной вероятностной моделью обучения (НВМО). В НВМО вместо по- нятия вероятностного распределения используется понятие плотности вероятности (обычно называемой просто плотностью), которая пред- ставляет собой функцию 𝑝 вида
𝑝 : 𝑋 × 𝑌 → [0, 1],
имеющую излагаемый ниже смысл. Для каждой пары (𝑥, 𝑦) ∈ 𝑋 × 𝑌
значение 𝑝 на паре (𝑥, 𝑦) будем обозначать записью 𝑝(𝑥|𝑦).
Предполагается, что
∙ на множестве 𝑋 задана мера Лебега 𝜇,
∙ ∀ 𝑦 ∈ 𝑌 функция вида 𝑋 → R
≥0
, отображающая каждый 𝑥 ∈ 𝑋 в
𝑝(𝑥|𝑦), предполагается интегрируемой по Лебегу, и
∫︁
𝑋
𝑝(𝑥|𝑦)𝑑𝜇 = 1.
(2.112)
72

Для каждого измеримого подмножества 𝑋
′
⊆ 𝑋 и каждого 𝑦 ∈ 𝑌 ин- теграл
∫︀
𝑋
′
𝑝(𝑥|𝑦)𝑑𝜇 интерпретируется как вероятность появления в обу- чающей выборке 𝑆 пары с первой компонентой из множества 𝑋
′
, при условии, что вторая компонента этой пары равна 𝑦. Так же, как и в
ДВМО, мы предполагаем, что все пары в 𝑆 появляются независимо друг от друга. Если выборка 𝑆 большая, то число
∫︀
𝑋
′
𝑝(𝑥|𝑦)𝑑𝜇 можно пони- мать как приблизительную
∙ долю тех пар (𝑥, 𝑦) в 𝑆
𝑦
(см. (2.110)), у которых 𝑥 ∈ 𝑋
′
, или
∙ частоту появления в 𝑆
𝑦
пар с первой компонентой из 𝑋
′
Множество 𝑌 ответов предполагается конечным или счетным.
Одной из компонентов НВМО является распределение (обозначаемое тем же символом 𝑝) на 𝑌 . ∀ 𝑦 ∈ 𝑌 число 𝑝(𝑦) имеет тот же смысл, что и в ДВМО.
Как и выше, в НВМО можно
∙ определить понятие риска, соответствующего функции 𝑎 : 𝑋 → 𝑌 ,
∙ и доказать, что если функция потерь (2.104) известна и удовлетво- ряет условиям теоремы 7, то оптимальная АФ имеет вид (2.109),
где 𝑝(𝑥|𝑦) понимается как плотность в точке 𝑥.
Таким образом, если
∙ задана некоторая НВМО, причем
– плотность 𝑝(𝑥|𝑦) либо неизвестна, либо известна лишь частич- но (например, известно, что она имеет вид 𝜙(𝑥, 𝜃), где функция
𝜙 известна, а 𝜃 – неизвестный параметр), и
– функция потерь (2.104) известна и удовлетворяет условиям теоремы 7,
∙ и задана некоторая обучающая выборка 𝑆 ⊆ 𝑋 × 𝑌 , построенная в соответствии с этой НВМО,
то оптимальную АФ 𝑎
𝑆
можно искать в виде (2.109), где вместо неизвест- ных истинных значений вероятностей 𝑝(𝑦) и 𝑝(𝑥|𝑦) используются оценки
ˆ
𝑝(𝑦) и ˆ
𝑝(𝑥|𝑦) этих вероятностей, вычисленные по 𝑆,
Как и выше, в качестве оценки ˆ
𝑝(𝑦) можно взять
|𝑆
𝑦
|
|𝑆|
Ниже излагаются различные варианты вычисления оценки ˆ
𝑝(𝑥|𝑦), в зависимости от вида множества объектов 𝑋 и предположений о классе функций, в котором содержится функция 𝑝(𝑥|𝑦) : 𝑋 → [0, 1].
73

Обозначим записью 𝑋
𝑆
𝑦
множество первых компонентов пар, входя- щих в 𝑆
𝑦
. Элементы 𝑋
𝑆
𝑦
будем обозначать записями 𝑥
1
, . . ., 𝑥
𝑚
Рассмотрим различные виды, которые может иметь множество 𝑋.
1. 𝑋 = R.
∙ Согласно определению плотности, при небольшом числе ℎ > 0
произведение 𝑝(𝑥) · 2ℎ приблизительно равно количеству точек из 𝑋
𝑆
𝑦
, попавших в отрезок [𝑥 − ℎ, 𝑥 + ℎ].
Поэтому ˆ
𝑝(𝑥|𝑦) можно определить как долю точек из 𝑋
𝑆
𝑦
, ле- жащих внутри отрезка [𝑥 − ℎ, 𝑥 + ℎ]:
ˆ
𝑝(𝑥|𝑦) =
1 2𝑚ℎ
𝑚
∑︁
𝑖=1
[[|𝑥 − 𝑥
𝑖
| < ℎ]].
(2.113)
∙ Другой вид оценки 𝑝(𝑥|𝑦) – оценка Парзена-Розенблатта:
ˆ
𝑝(𝑥|𝑦) =
1
𝑚ℎ
𝑚
∑︁
𝑖=1
𝐾
(︁
𝑥 − 𝑥
𝑖
ℎ
)︁
(2.114)
где 𝐾(𝑧) – четная функция, называемая ядром, такая, что
∫︁
+∞
−∞
𝐾(𝑧) 𝑑𝑧 = 1,
и ℎ – параметр, называемый шириной окна, небольшое по- ложительное число.
АФ, построенную в соответствии с приведенным выше определени- ем, будем обозначать записью 𝑎
ℎ
𝑆
, явно указывая ширину окна ℎ.
Оптимальным является такое ℎ, которое минимизирует риск
∑︁
(𝑥,𝑦
𝑥
)∈𝑆
[[𝑎
ℎ
𝑆∖{(𝑥,𝑦
𝑥
)}
(𝑥) ̸= 𝑦
𝑥
]].
(2.115)
2. 𝑋 – метрическое пространство, т.е. на 𝑋 задана метрика 𝜌.
В этом случае м.б. использована следующая оценка ˆ
𝑝(𝑥|𝑦):
ˆ
𝑝(𝑥|𝑦) =
1
𝑚𝑉 (ℎ)
𝑚
∑︁
𝑖=1
𝐾
(︁
𝜌(𝑥, 𝑥
𝑖
)
ℎ
)︁
(2.116)
где 𝐾, ℎ – параметры, имеющие тот же смысл, что и аналогичные параметры выше (ядро и ширина окна, соответственно), и 𝑉 (ℎ) –
74

нормирующий множитель, предназначенный для того, чтобы (2.116)
было плотностью, т.е. удовлетворяло условию (2.112).
Если распределение объектов в пространстве 𝑋 сильно неравно- мерно, то лучше использовать переменную ширину окна, опреде- ляемую в каждой точке 𝑥 ∈ 𝑋 как расстояние от 𝑥 до (𝑘 + 1)-го соседа, где оптимальное значение 𝑘 м.б. найдено из условия, ана- логичного условию (2.115).
3. 𝑋 = R
𝑛
∙ Если нет никаких предположений о том, какой вид может иметь плотность 𝑝(𝑥|𝑦), то можно использовать оценку
ˆ
𝑝(𝑥|𝑦) =
1
𝑚
𝑚
∑︁
𝑖=1
𝑛
∏︁
𝑗=1 1
ℎ
𝑗
𝐾
(︁
𝑥
0𝑗
− 𝑥
𝑖𝑗
ℎ
𝑗
)︁
,
где
– ∀ 𝑖 = 1, . . . , 𝑚
𝑥
𝑖
= (𝑥
𝑖1
, . . . , 𝑥
𝑖𝑛
), 𝑥 = (𝑥
01
, . . . , 𝑥
0𝑛
), и
– 𝐾, ℎ
1
, . . . , ℎ
𝑛
– параметры, имеющие тот же смысл, что и аналогичные параметры в предыдущем пункте (т.е. 𝐾 –
ядро, и ℎ
1
, . . . , ℎ
𝑛
– ширины окон, соответствующих каж- дому из признаков).
∙ Если известно, что 𝑝(𝑥|𝑦) имеет гауссов вид
𝒩 (𝑥; 𝜇, Σ) = (2𝜋)
−
𝑛
2
|Σ|
−
1 2
𝑒
−
1 2
(𝑥−𝜇)
⊤
Σ
−1
(𝑥−𝜇)
(⊤ обозначает транспонирование),
(2.117)
где 𝜇 и Σ – неизвестные параметры:
– 𝜇 ∈ R
𝑛
,
– Σ – симметричная, невырожденная, положительно опреде- ленная матрица порядка 𝑛, называемая ковариационной матрицей,
то нахождение оценки ˆ
𝑝(𝑥|𝑦) сводится к нахождению оценок ˆ
𝜇
и ˆ
Σ, которые м.б. вычислены по правилам
ˆ
𝜇 =
1
𝑚
𝑚
∑︁
𝑖=1
𝑥
𝑖
;
ˆ
Σ =
1
𝑚 − 1
𝑚
∑︁
𝑖=1
(𝑥
𝑖
− ˆ
𝜇)(𝑥
𝑖
− ˆ
𝜇)
⊤
Некоторое обоснование данных правил заключается в том, что
75

– 𝜇 совпадает с мат. ожиданием 𝐸𝑥 случайной величины 𝑥
с плотностью (2.117), т.е. с интегралом
∫︀
R
𝑛
𝑥𝒩 (𝑥; 𝜇, Σ)𝑑𝑥,
– Σ совпадает с мат. ожиданием 𝐸(𝑥 − 𝜇)(𝑥 − 𝜇)
⊤
∙ Если ∀ 𝑦 ∈ 𝑌
𝑝(𝑥|𝑦) имеет вид (2.117), и известно, что кова- риационные матрицы в (2.117) одинаковы для всех 𝑦 ∈ 𝑌 , то оценка ˆ
Σ этих матриц м.б. вычислена по формуле
ˆ
Σ =
1
|𝑆| − |𝑌 |
∑︁
(𝑥,𝑦
𝑥
)∈𝑆
(𝑥 − ˆ
𝜇
𝑦
𝑥
)(𝑥 − ˆ
𝜇
𝑦
𝑥
)
⊤
В данном случае АФ, вычисленную по формуле (2.111), можно записать (опуская сложение с константой в arg max
𝑦∈𝑌
(. . .)) в виде
𝑎(𝑥) = arg max
𝑦∈𝑌
(︁
ln(𝜆
𝑦
𝑝(𝑦)) −
1 2
(𝑥 − ˆ
𝜇
𝑦
)
⊤
ˆ
Σ
−1
(𝑥 − ˆ
𝜇
𝑦
)
)︁
=
= arg max
𝑦∈𝑌
(︁
ln(𝜆
𝑦
𝑝(𝑦)) −
1 2
ˆ
𝜇
⊤
𝑦
ˆ
Σ
−1
ˆ
𝜇
𝑦
+ 𝑥
⊤
ˆ
Σ
−1
ˆ
𝜇
𝑦
)︁
=
= arg max
𝑦∈𝑌
(𝑥
⊤
𝛼
𝑦
+ 𝛽
𝑦
),
(2.118)
где 𝛼
𝑦
= ˆ
Σ
−1
ˆ
𝜇
𝑦
, 𝛽
𝑦
= ln(𝜆
𝑦
𝑝(𝑦)) −
1 2
ˆ
𝜇
⊤
𝑦
ˆ
Σ
−1
ˆ
𝜇
𝑦
АФ (2.118) называется линейным дискриминантом Фишера.
После вычисления оценки ˆ
𝑝(𝑥|𝑦)
∙ те объекты из 𝑆
𝑦
, для которых значение ˆ
𝑝(𝑥|𝑦) мало, рассматрива- ются как выбросы,
∙ соответствующие пары (𝑥, 𝑦
𝑥
) удаляются из 𝑆,
∙ после чего оценка ˆ
𝑝(𝑥|𝑦) перевычисляется.
2.9.5
EM-алгоритм
EM-алгоритм предназначен для вычисления оценки ˆ
𝑝(𝑥|𝑦), в предполо- жении, что плотность 𝑝(𝑥|𝑦) является смесью плотностей вида 𝜙(𝑥, 𝜃
𝑗
),
где 𝑗 = 1, . . . , 𝑘, и функция 𝜙 предполагается известной, т.е.
𝑝(𝑥|𝑦) =
𝑘
∑︁
𝑗=1
𝑤
𝑗
𝜙(𝑥, 𝜃
𝑗
),
(2.119)
76

где 𝑤
1
, . . . , 𝑤
𝑘
, 𝜃
1
, . . . , 𝜃
𝑘
– неизвестные параметры, причем
∀ 𝑗 = 1, . . . , 𝑘 𝑤
𝑗
∈ R
≥0
,
𝑘
∑︁
𝑗=1
𝑤
𝑗
= 1.
(2.120)
Обозначим символом Θ вектор параметров, входящих в (2.119), т.е.
Θ = (𝑤
1
, . . . , 𝑤
𝑘
, 𝜃
1
, . . . , 𝜃
𝑘
).
Нахождение оценки ˆ
𝑝(𝑥|𝑦) сводится к нахождению вектора ˆ
Θ оценок всех параметров, входящих в Θ.
Для решения данной задачи раздельно рассматриваются случаи, ко- гда число 𝑘 компонентов смеси известно, и когда это число неизвестно.
Число 𝑘 компонентов смеси известно
В данном случае строится последовательность ˆ
Θ
(1)
, ˆ
Θ
(2)
, . . . приближе- ний к искомому вектору оценок параметров ˆ
Θ. Алгоритм
∙ использует матрицу 𝐺 = (𝑔
𝑖𝑗
)
𝑚×𝑘
скрытых (hidden) переменных, и
∙ заключается в итерационном повторении двух шагов:
– E-шаг: вычисление 𝐺 по текущему приближению ˆ
Θ
(𝑠)
,
– М-шаг: вычисление следующего приближения ˆ
Θ
(𝑠+1)
по теку- щим матрице 𝐺 и вектору ˆ
Θ
(𝑠)
Одним из входных данных алгоритма является небольшое положи- тельное число 𝛿, используемое в критерии остановки.
Первое приближение ˆ
Θ
(1)
выбирается произвольно (или исходя из каких-либо соображений), с условием (2.120).
𝑠–я итерация (где 𝑠 ≥ 1) имеет вид:
E-шаг (expectation) :
∀ 𝑖 = 1, . . . , 𝑚, ∀ 𝑗 = 1, . . . , 𝑘
𝑔
𝑖𝑗
=
𝑤
𝑗
𝜙(𝑥
𝑖
,𝜃
𝑗
)
𝑝(𝑥
𝑖
)
, где
∙ 𝑤
𝑗
и 𝜃
𝑗
– компоненты текущего приближения ˆ
Θ
(𝑠)
,
∙ 𝑝(𝑥
𝑖
) =
𝑘
∑︀
𝑗=1
𝑤
𝑗
𝜙(𝑥
𝑖
, 𝜃
𝑗
).
Если 𝑠 ≥ 2, и max
𝑖,𝑗
|𝑔
𝑖𝑗
−𝑔
′
𝑖𝑗
| < 𝛿, где 𝑔
′
𝑖𝑗
– соответствующая компонен- та матрицы 𝐺, вычисленной на предыдущей итерации, то алгоритм заканчивает свою работу, его результатом является ˆ
Θ
(𝑠)
77

M-шаг (maximization) :
Целью данного шага является решение оптимизационной задачи
𝑚
∏︁
𝑖=1
𝑝(𝑥
𝑖
) → max
Θ
,
(где 𝑝(𝑥
𝑖
) =
𝑘
∑︀
𝑗=1
𝑤
𝑗
𝜙(𝑥
𝑖
, 𝜃
𝑗
)) при ограничении
𝑘
∑︀
𝑗=1
𝑤
𝑗
= 1 (данная за- дача называется задачей максимизации правдоподобия), ко- торая эквивалентна оптимизационной задаче ln
𝑚
∏︁
𝑖=1
𝑝(𝑥
𝑖
) =
𝑚
∑︁
𝑖=1
ln 𝑝(𝑥
𝑖
) → max
Θ
при указанном выше ограничении.
Функция Лагранжа этой оптимизационной задачи имеет вид
𝐿 =
𝑚
∑︁
𝑖=1
ln 𝑝(𝑥
𝑖
) − 𝜆
(︁
𝑘
∑︁
𝑗=1
𝑤
𝑗
− 1
)︁
Одним из необходимых условий оптимальности является соотно- шение
𝜕𝐿
𝜕𝑤
𝑗
=
𝑚
∑︁
𝑖=1
𝜙(𝑥
𝑖
, 𝜃
𝑗
)
𝑝(𝑥
𝑖
)
− 𝜆 = 0,
∀ 𝑗 = 1, . . . , 𝑘.
(2.121)
Из (2.121) следуют равенства
𝑤
𝑗
𝑚
∑︁
𝑖=1
𝜙(𝑥
𝑖
, 𝜃
𝑗
)
𝑝(𝑥
𝑖
)
= 𝑤
𝑗
𝜆
(∀ 𝑗 = 1, . . . , 𝑘),
(2.122)
просуммировав которые по 𝑗, получаем равенство
𝑘
∑︁
𝑗=1
𝑤
𝑗
𝑚
∑︁
𝑖=1
𝜙(𝑥
𝑖
, 𝜃
𝑗
)
𝑝(𝑥
𝑖
)
=
𝑘
∑︁
𝑗=1
𝑤
𝑗
𝜆,
из которого следует равенство
𝑚
∑︁
𝑖=1
𝑘
∑︁
𝑗=1
𝑤
𝑗
𝜙(𝑥
𝑖
, 𝜃
𝑗
)
𝑝(𝑥
𝑖
)
= 𝜆
𝑘
∑︁
𝑗=1
𝑤
𝑗
= 𝜆.
(2.123)
78

Левая часть (2.123) равна сумме 𝑚 единиц, т.е. 𝑚, поэтому 𝜆 = 𝑚.
Подставляя в (2.122) 𝜆 = 𝑚, и вспоминая определение 𝑔
𝑖𝑗
, получаем равенства
𝑚
∑︀
𝑖=1
𝑔
𝑖𝑗
= 𝑤
𝑗
𝑚
(∀ 𝑗 = 1, . . . , 𝑘), т.е.
𝑤
𝑗
=
1
𝑚
𝑚
∑︁
𝑖=1
𝑔
𝑖𝑗
,
∀ 𝑗 = 1, . . . , 𝑘.
(2.124)
Неравенства 𝑤
𝑗
≥ 0 будут выполнены на каждой итерации, т.к. они выполнены для ˆ
Θ
(1)
Другие необходимые условия оптимальности имеют вид
𝜕𝐿
𝜕𝜃
𝑗
=
𝑚
∑︀
𝑖=1
𝑤
𝑗
𝑝(𝑥
𝑖
)
𝜕
𝜕𝜃
𝑗
𝜙(𝑥
𝑖
, 𝜃
𝑗
) =
=
𝑚
∑︀
𝑖=1
𝑤
𝑗
𝜙(𝑥
𝑖
,𝜃
𝑗
)
𝑝(𝑥
𝑖
)
𝜕
𝜕𝜃
𝑗
ln 𝜙(𝑥
𝑖
, 𝜃
𝑗
) =
=
𝑚
∑︀
𝑖=1
𝑔
𝑖𝑗
𝜕
𝜕𝜃
𝑗
ln 𝜙(𝑥
𝑖
, 𝜃
𝑗
) =
=
𝜕
𝜕𝜃
𝑗
𝑚
∑︀
𝑖=1
𝑔
𝑖𝑗
ln 𝜙(𝑥
𝑖
, 𝜃
𝑗
) = 0
(∀ 𝑗 = 1, . . . , 𝑘).
(2.125)
Последнее равенство в (2.125) эквивалентно соотношению
𝜃
𝑗
= arg max
𝜃
𝑚
∑︁
𝑖=1
𝑔
𝑖𝑗
ln 𝜙(𝑥
𝑖
, 𝜃)
(∀ 𝑗 = 1, . . . , 𝑘).
(2.126)
Соотношения (2.124) и (2.126) являются теми правилами, в соответ- ствии с которыми вычисляются соответствующие компоненты вектора
ˆ
Θ
(𝑠+1)
Если 𝜙(𝑥, 𝜃
𝑗
) имеет гауссов вид, т.е. 𝜙(𝑥, 𝜃
𝑗
) = 𝒩 (𝑥, 𝜇
𝑗
, Σ
𝑗
), то значе- ние параметра 𝜃
𝑗
= (𝜇
𝑗
, Σ
𝑗
), удовлетворяющее условию (2.126), можно выразить в явном виде:
𝜇
𝑗
=
1
𝑚𝑤
𝑗
𝑚
∑︀
𝑖=1
𝑔
𝑖𝑗
𝑥
𝑖
,
Σ
𝑗
=
1
𝑚𝑤
𝑗
𝑚
∑︀
𝑖=1
𝑔
𝑖𝑗
(𝑥
𝑖
− 𝜇
𝑗
)(𝑥
𝑖
− 𝜇
𝑗
)
⊤
Число компонентов смеси неизвестно
В данном случае компоненты смеси строятся в процессе обучения.
Параметры алгоритма:
∙ 𝑅 – максимально допустимый разброс значений 𝑝(𝑥
𝑖
),
79

∙ 𝑚
0
– минимальная длина выборки, по которой можно восстановить плотность,
∙ 𝛿 – параметр критерия остановки.
Сначала строится первая компонента: 𝑘 := 1, 𝑤
1
:= 1, и
𝜃
1
:= arg max
𝜃
𝑚
∑︁
𝑖=1
ln 𝜙(𝑥
𝑖
, 𝜃).
Затем выполняется цикл по 𝑘 (начиная с 𝑘 = 2), тело этого цикла состоит из следующих действий:
1. Строится множество 𝑈 := {𝑥
𝑖
∈ 𝑆
𝑦
: 𝑝(𝑥
𝑖
) <
1
𝑅
max
𝑗
𝑝(𝑥
𝑗
)},
(𝑈 = объекты, не подходящие ни к одной из компонентов).
2. Если |𝑈 | < 𝑚
0
, то работа алгоритма завершается.
(В данном случае объекты из 𝑈 рассматриваются как выбросы.)
3. Иначе добавляется новая (𝑘-я) компонента с параметрами
𝑤
𝑘
:=
1
𝑚
|𝑈 |,
𝜃
𝑘
:= arg max
𝜃
∑︀
𝑥
𝑖
∈𝑈
ln 𝜙(𝑥
𝑖
, 𝜃),
∀ 𝑗 = 1, . . . , 𝑘 − 1
𝑤
𝑗
:= 𝑤
𝑗
(1 − 𝑤
𝑘
).
4. Для уточнения построенного в предыдущем действии вектора пара- метров Θ запускается EM-алгоритм на 𝑆
𝑦
c 𝑘 компонентами смеси и параметром остановки 𝛿.
80

Литература
[1] Вьюгин В.В. Математические основы машинного обучения и про- гнозирования. Москва, издательство МЦНМО, 2018. 384 с.
[2] Ветров Д.П., Кропотов Д.А. Алгоритмы выбора моделей и построе- ния коллективных решений в задачах классификации, основанные на принципе устойчивости. Москва, URSS, 2006. 112 с.
[3] Информационно-аналитический ресурс по машинному обучению http://www.machinelearning.ru/
[4] Воронцов К. В., Математические методы обучения по прецедентам
(теория обучения машин).
http://www.machinelearning.ru/wiki/images/6/6d/
Voron-ML-1.pdf
[5] F. Rosenblatt. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6):386.
(1958)
[6] A. Novikoff. On convergence proofs on perceptrons. In Proceedings of the Symposium on the Mathematical Theory of Automata, volume 12,
pages 615–622. (1962)
[7] M. Mohri and A. Rostamizadeh. Perceptron Mistake Bounds. (2013)
https://arxiv.org/pdf/1305.0208.pdf
[8] В. Н. Вапник, А. Я. Червоненкис. Теория распознавания образов.
Статистические проблемы обучения. М., Наука. (1974)
[9] Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потен- циальных функций в теории обучения машин. - М.: Наука, 1970. -
320 с.
[10] Головко В. А. Нейронные сети: обучение, организация и примене- ние. - М.: ИПР- ЖР, 2001.
81

[11] Загоруйко Н. Г. Прикладные методы анализа данных и знаний. -
Новосибирск: ИМ СО РАН, 1999.
[12] Лапко А. В., Ченцов С. В., Крохов С. И., Фельдман Л. А. Обу- чающиеся системы обработки информации и принятия решений.
Непараметрический подход. - Новосибирск: Наука, 1996.
[13] Нейроинформатика / А. Н. Горбань, В. Л. Дунин-Барковский, А.
Н. Кирдин, Е. М. Миркес, А. Ю. Новоходько, Д. А. Россиев, С. А.
Терехов и др. - Новосибирск: Наука, 1998. - 296 с.
[14] Хардле В. Прикладная непараметрическая регрессия. - М.: Мир,
1993.
[15] Bishop C. M. Pattern Recognition and Machine Learning. - Springer,
Series: Information Science and Statistics, 2006. - 740 pp.
[16] Burges C. J. C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery. - 1998. - Vol. 2,
no. 2. - Pp. 121–167.
http://citeseer.ist.psu.edu/burges98tutorial.html
[17] Murphy Kevin P. Machine Learning: A Probabilistic Perspective. The
MIT Press, 2012, 1104 с.
[18] Хайкин С. Нейронные сети. Полный курс. Вильямс, 2018, 1104 с.
[19] Николенко С., Кадурин А., Архангельская Е. Глубокое обучение.
Погружение в мир нейронных сетей, Питер, 2018. 480 с.
[20] Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. ДМК
Пресс, 2017, 652 с.
[21] Лесковец Ю., Раджараман А., Ульман Д. Анализ больших наборов данных. ДМК Пресс, 2016, 498 с.
[22] Kung S.Y. Kernel Methods and Machine Learning, Cambridge
University Press, 2014, 578 с.
[23] Skansi S. Introduction to Deep Learning: From Logical Calculus to
Artificial Intelligence. Springer, 2018. 191 c.
[24] Smith J. Machine Learning Systems. Manning Publications Co., 2018.
253 c.
82

[25] Мюллер А., Гвидо С. Введение в машинное обучение с помощью
Python, Москва, 2017. 393 с.
[26] Флах П. Машинное обучение. Наука и искусство построения алго- ритмов, которые извлекают знания из данных. ДМК Пресс, 2015.
402 с.
[27] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical
Learning. Springer, 2014. 739 p.
[28] Мерков А. Б. Распознавание образов. Введение в методы статисти- ческого обучения. 2011. 256 с.
[29] Мерков А. Б. Распознавание образов. Построение и обучение веро- ятностных моделей. 2014. 238 с.
[30] Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. 2016. 302 с.
[31] Barber D. Bayesian Reasoning and Machine Learning. Cambridge
University Press, 2012.
[32] Mackay
D.J.C.
Information
Theory,
Inference,
and
Learning
Algorithms. Cambridge University Press, 2003.
[33] Wainwright M.J., Jordan M.I. Graphical Models, Exponential Families,
and Variational Inference. Foundations and Trends in Machine
Learning, NOWPress, 2008.
[34] Koller D., Friedman N. Probabilistic Graphical Models: Principles and
Techniques. The MIT Press, 2009.
83

1 2 3 4 5 6 7 8