Главная страница

машинное обучение. А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга


Скачать 1.05 Mb.
НазваниеА. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга
Анкормашинное обучение
Дата20.10.2022
Размер1.05 Mb.
Формат файлаpdf
Имя файлаmachine_learning_vol1 (1).pdf
ТипКнига
#744850
страница7 из 8
1   2   3   4   5   6   7   8
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝜕𝑄
𝜕 ˜
𝑤
𝑗
= 0.
(2.91)
Учитывая определение функции 𝑄, перепишем (2.91) в виде
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝜕𝑄
𝜕 ˜
𝑤
𝑗
=
𝑙
∑︁
𝑖=1 2(⟨˜
𝑥
𝑖
, ˜
𝑤⟩ − 𝑦
𝑖
)(˜
𝑥
𝑖
)
𝑗
= 0
(2.92)
Поскольку ∀ 𝑖 = 1, . . . , 𝑙, ∀ 𝑗 = 1, . . . , 𝑛 + 1 (˜
𝑥
𝑖
)
𝑗
есть элемент 𝑋
𝑖𝑗
матрицы 𝑋, то соотношения (2.92) можно переписать в виде
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝑙
∑︁
𝑖=1
⟨˜
𝑥
𝑖
, ˜
𝑤⟩𝑋
𝑖𝑗
=
𝑙
∑︁
𝑖=1
𝑦
𝑖
𝑋
𝑖𝑗
(2.93)
Обозначим записью 𝑋

матрицу, транспонированную к 𝑋, т.е.
∀ 𝑗 = 1, . . . , 𝑛 + 1, ∀ 𝑖 = 1, . . . , 𝑙
𝑋

𝑗𝑖
= 𝑋
𝑖𝑗
,
и перепишем (2.93) в виде
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝑙
∑︁
𝑖=1
𝑋

𝑗𝑖
⟨˜
𝑥
𝑖
, ˜
𝑤⟩ =
𝑙
∑︁
𝑖=1
𝑋

𝑗𝑖
𝑦
𝑖
(2.94)
∀ 𝑖 = 1, . . . , 𝑙
⟨˜
𝑥
𝑖
, ˜
𝑤⟩ есть 𝑖–й элемент столбца 𝑋 ˜
𝑤, обозначим его записью (𝑋 ˜
𝑤)
𝑖
. Нетрудно видеть, что ∀ 𝑗 = 1, . . . , 𝑛 + 1
∙ левая сумма в (2.94), т.е.
𝑙
∑︀
𝑖=1
𝑋

𝑗𝑖
(𝑋 ˜
𝑤)
𝑖
, есть 𝑗–й элемент столбца
𝑋

(𝑋 ˜
𝑤), и
∙ правая сумма в (2.94) есть 𝑗–й элемент столбца 𝑋

𝑌 .
61

Таким образом, столбцы 𝑋

𝑋 ˜
𝑤 и 𝑋

𝑌 совпадают, т.е. искомый век- тор ˜
𝑤 является решением уравнения
𝑋

𝑋 ˜
𝑤 = 𝑋

𝑌.
(2.95)
Нетрудно доказать, что данное уравнение всегда имеет решение.
Если матрица 𝑋

𝑋 невырождена, то уравнение (2.95) имеет един- ственное решение
˜
𝑤 = (𝑋

𝑋)
−1
𝑋

𝑌,
а если она вырождена, то решение уравнения (2.95) м.б. неединственным.
Так может произойти, например, если число 𝑙 пар в обучающей выборке
𝑆 меньше 𝑛. В этом случае вместо задачи (2.90) разумнее решать задачу
𝑄( ˜
𝑤) = ||𝑋 ˜
𝑤 − 𝑌 ||
2
+ 𝑐|| ˜
𝑤||
2
→ min,
(2.96)
где 𝑐 – параметр, выражающий штраф за большую || ˜
𝑤||.
Данная задача называется задачей гребневой (ridge) регрессии.
Поскольку минимизируемая функция 𝑄 в (2.96) является выпуклой и дифференцируемой, то искомое решение должно обращать в 0 все част- ные производные функции 𝑄:
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝜕𝑄
𝜕 ˜
𝑤
𝑗
=
𝑙
∑︁
𝑖=1 2(⟨˜
𝑥
𝑖
, ˜
𝑤⟩ − 𝑦
𝑖
)(˜
𝑥
𝑖
)
𝑗
+ 2𝑐 ˜
𝑤
𝑗
= 0.
Это соотношение можно переписать в виде
∀ 𝑗 = 1, . . . , 𝑛 + 1
𝑙
∑︁
𝑖=1
(⟨˜
𝑥
𝑖
, ˜
𝑤⟩ − 𝑦
𝑖
)𝑋
𝑖𝑗
+ 𝑐 ˜
𝑤
𝑗
= 0.
(2.97)
Нетрудно доказать, что ∀ 𝑗 = 1, . . . , 𝑛 + 1
∙ первое слагаемое в (2.97), т.е.
𝑙
∑︀
𝑖=1
(⟨˜
𝑥
𝑖
, ˜
𝑤⟩ − 𝑦
𝑖
)𝑋
𝑖𝑗
, есть 𝑗–й элемент столбца 𝑋

𝑋 ˜
𝑤 − 𝑋

𝑌 , и
∙ слагаемое 𝑐 ˜
𝑤
𝑗
в (2.97) есть 𝑗–й элемент столбца 𝑐 ˜
𝑤.
Поэтому искомый вектор ˜
𝑤 является решением уравнения
𝑋

𝑋 ˜
𝑤 − 𝑋

𝑌 + 𝑐 ˜
𝑤 = 0

(где 0

– нулевой столбец порядка 𝑛 + 1),
которое можно переписать в виде
(𝑋

𝑋 + 𝑐𝐸) ˜
𝑤 = 𝑋

𝑌
(где 𝐸 – единичная матрица порядка 𝑛 + 1).
Нетрудно доказать, что матрица 𝑋

𝑋 + 𝑐𝐸 невырождена ∀ 𝑐 > 0.
Таким образом, решение задачи гребневой регрессии имеет вид
˜
𝑤 = (𝑋

𝑋 + 𝑐𝐸)
−1
𝑋

𝑌.
62

2.8
Метрическая модель обучения
Метрическая модель обучения связана с использованием некоторой меры близости 𝜌 на множестве объектов 𝑋, которую называют метрикой.
Метрика 𝜌 должна быть подобрана так, чтобы зависимость 𝑓 : 𝑋 → 𝑌
между объектами и ответами (которую аппроксимирует АФ 𝑎
𝑆
) была согласована с 𝜌, т.е. если объекты 𝑥 и 𝑥

близки по этой метрике, то ответы 𝑓 (𝑥) и 𝑓 (𝑥

) были бы примерно одинаковы.
Во многих задачах метрический подход существенно проще, чем рас- смотренный выше подход, основанный на описании объектов в виде век- торов значений признаков. Применение метрической модели более пред- почтительно по сравнению с другими моделями в тех случаях, когда объекты имеют сложную структуру (например, это м.б. изображения,
временные ряды, структуры белков, и т.п.).
2.8.1
Понятие метрики
Метрикой на множестве 𝑋 называется функция
𝜌 : 𝑋 × 𝑋 → R
≥0
,
удовлетворяющая условию: ∀ 𝑥, 𝑥

∈ 𝑋
{︂ 𝜌(𝑥, 𝑥

) = 0

𝑥 = 𝑦

,
𝜌(𝑥, 𝑥

) = 𝜌(𝑥

, 𝑥).
В некоторых случаях 𝜌 может также удовлетворять условию
∀ 𝑥, 𝑥

, 𝑥
′′
∈ 𝑋
𝜌(𝑥, 𝑥
′′
) ≤ 𝜌(𝑥, 𝑥

) + 𝜌(𝑥

, 𝑥
′′
)
(которое называется неравенством треугольника).
Примеры метрики:
∙ евклидова метрика на 𝑋 = R
𝑛
:
∀ 𝑥, 𝑥

∈ R
𝑛
𝜌(𝑥, 𝑥

) =




𝑛
∑︁
𝑖=1
(𝑥
𝑖
− 𝑥

𝑖
)
2
,
где 𝑥 = (𝑥
1
, . . . , 𝑥
𝑛
), 𝑥

= (𝑥

1
, . . . , 𝑥

𝑛
),
∙ взвешенная метрика на 𝑋 = R
𝑛
: предполагается, что заданы веса 𝑤
1
, . . . , 𝑤
𝑛
∈ R
≥0
и действительное число 𝑝 ≥ 1,
∀ 𝑥, 𝑥

∈ R
𝑛
𝜌(𝑥, 𝑥

) =
(︁
𝑛
∑︁
𝑖=1
𝑤
𝑖
|𝑥
𝑖
− 𝑥

𝑖
|
𝑝
)︁
1
𝑝
,
63
где 𝑥 = (𝑥
1
, . . . , 𝑥
𝑛
), 𝑥

= (𝑥

1
, . . . , 𝑥

𝑛
),
(евклидова метрика является частным случаем взвешенной метри- ки: в ней 𝑝 = 2 и ∀ 𝑖 = 1, . . . , 𝑛 𝑤
𝑖
= 1),
∙ метрика на множестве символьных строк 𝐶
*
, где 𝐶 – конечное мно- жество, элементы которого называются символами: ∀ 𝑥, 𝑥

∈ 𝐶
*
𝜌(𝑥, 𝑥

) равно наименьшему числу элементарных операций, кото- рые надо выполнить чтобы получить 𝑥

из 𝑥, где под элементар- ной операцией понимается
удаление какого-либо символа из строки, или
– вставка какого-либо символа в произвольное место строки.
2.8.2
Метод ближайших соседей
Пусть задана обучающая выборка 𝑆 ⊆ 𝑋 × 𝑌 .
Напомним, что 𝑋
𝑆
обозначает множество объектов, входящих в 𝑆:
𝑋
𝑆
def
= {𝑥 ∈ 𝑋 | ∃ 𝑦
𝑥
∈ 𝑌 : (𝑥, 𝑦
𝑥
) ∈ 𝑆}.
Если на множестве 𝑋 объектов задана метрика 𝜌, то ∀ 𝑥 ∈ 𝑋 объекты из множества 𝑋
𝑆
можно упорядочить в соответствии с их близостью к
𝑥, т.е. расположить в последовательность
𝑥
1
, . . . , 𝑥
|𝑆|
,
(2.98)
удовлетворяющую условию:
𝜌(𝑥, 𝑥
1
) ≤ . . . ≤ 𝜌(𝑥, 𝑥
|𝑆|
)
(2.99)
т.е. первым в (2.98) расположен ближайший к 𝑥 объект, затем – следую- щий по близости к 𝑥 объект, и т.д. ∀ 𝑖 = 1, . . . , 𝑙 объект 𝑥
𝑖
из последова- тельности (2.98) называется 𝑖–м ближайшим соседом к 𝑥.
Метод ближайших соседей для построения АФ 𝑎
𝑆
заключается в том, что выбираются
∙ натуральное число 𝑘 ≥ 1 (число ближайших к 𝑥 объектов, ответы на которых учитываются при вычислении ответа 𝑎
𝑆
(𝑥)),
∙ действительные числа 𝑤
1
≥ . . . ≥ 𝑤
𝑘
> 0, которые имеют смысл ве- сов, определяющих вклад ближайших 𝑘 соседей объекта 𝑥 из обу- чающей выборки 𝑆 в вычисление ответа для объекта 𝑥, например,
∀ 𝑖 = 1, . . . , 𝑘
𝑤
𝑖
=
𝑘 + 1 − 𝑖
𝑘
или 𝑤
𝑖
= 𝑞
𝑖
,
где 0 < 𝑞 < 1 – заданный параметр,
64

∀ 𝑥 ∈ 𝑋 значение 𝑎
𝑆
(𝑥) определяется как такой ответ 𝑦 ∈ 𝑌 , который максимизирует значение выражения
𝑘
∑︁
𝑖=1
[[𝑦
𝑥
𝑖
= 𝑦]]𝑤
𝑖
,
(2.100)
т.е. как такой ответ 𝑦, который наиболее характерен среди ответов на 𝑘
ближайших соседей 𝑥 из обучающей выборки 𝑆.
АФ, построенную в соответствии с приведенным выше определени- ем, будем обозначать записью 𝑎
𝑘
𝑆
, явно указывая число 𝑘 ближайших соседей. Оптимальным является такое 𝑘, которое минимизирует риск
∑︁
(𝑥,𝑦
𝑥
)∈𝑆
[[𝑎
𝑘
𝑆∖{(𝑥,𝑦
𝑥
)}
(𝑥) ̸= 𝑦
𝑥
]].
2.8.3
Метод окна Парзена
В методе окна Парзена (МОП) используется
∙ параметр ℎ > 0, называемый шириной окна, и
∙ невозрастающая функция 𝐾(𝑟) : R
≥0
→ R
≥0
, называемая ядром.
Примеры ядер, используемых в МОП: [[𝑟 ≤ 1]], (1 − 𝑟
2
)[[𝑟 ≤ 1]], 𝑒
−𝑟
2
АФ 𝑎
𝑆
, построенная по МОП, определяется почти так же, как в преды- дущем пункте, со следующем отличием: вместо выражения (2.100) ис- пользуется выражение
|𝑆|
∑︁
𝑖=1
[[𝑦
𝑥
𝑖
= 𝑦]]𝐾
(︁
𝜌(𝑥, 𝑥
𝑖
)

)︁
АФ, построенную в соответствии с приведенным выше определением,
будем обозначать записью 𝑎

𝑆
, явно указывая ширину окна ℎ. Оптималь- ным является такое ℎ, которое минимизирует риск
∑︁
(𝑥,𝑦
𝑥
)∈𝑆
[[𝑎

𝑆∖{(𝑥,𝑦
𝑥
)}
(𝑥) ̸= 𝑦
𝑥
]].
Ширина окна ℎ может быть не константой, а функцией, зависящей от количества объектов из 𝑋
𝑆
, находящихся вблизи 𝑥.
65

2.8.4
Метод потенциалов
В методе потенциалов используются следующие параметры:
∙ размеры окон ℎ
1
, . . . , ℎ
|𝑆|
> 0,
∙ порог ошибки 𝛿 ≥ 0, и
∙ ядро 𝐾(𝑟).
АФ 𝑎
𝑆
, построенная по методу потенциалов, определяется почти так же, как в пункте 2.8.2, со следующем отличием: вместо выражения (2.100)
используется выражение
|𝑆|
∑︁
𝑖=1
[[𝑦
𝑥
𝑖
= 𝑦]]𝛾
𝑖
𝐾
(︁
𝜌(𝑥, 𝑥
𝑖
)

𝑖
)︁
,
в котором 𝛾
𝑖
≥ 0 – веса, настраиваемые по следующему алгоритму:





-
𝛾 := ¯
0
-
?
'
&
$
%
|𝑆|
∑︀
𝑖=1
[[𝑎
𝑆
(𝑥
𝑖
) ̸= 𝑦
𝑥
𝑖
]] > 𝛿
-
?
0 1
𝛾
𝑖
:= 𝛾
𝑖
+ [[𝑎
𝑆
(𝑥
𝑖
) ̸= 𝑦
𝑥
𝑖
]]




@
@
где
∙ 𝛾 = (𝛾
1
, . . . , 𝛾
|𝑆|
),
∙ ¯
0 – вектор размерности |𝑆|, все компоненты которого равны 0, и
∙ при каждом выполнении оператора в правом прямоугольнике ин- декс 𝑖 выбирается равновероятно из множества {1, . . . , |𝑆|}.
При 𝑌 = {−1, +1} можно понимать
∙ объекты из 𝑋
𝑆
как положительные и отрицательные заряды,
∙ коэффициенты 𝛾
𝑖
как абсолютные величины этих зарядов,
∙ 𝐾(𝑟) как зависимость потенциала от расстояния до заряда,
∙ значение 𝑎
𝑆
(𝑥) как знак потенциала в точке 𝑥.
66

2.8.5
Метод эталонов
В этом пункте рассматривается задача построения по обучающей выбор- ке 𝑆 АФ 𝑎
𝑆
по следующему принципу:
∙ ∀ 𝑥 ∈ 𝑋 элементы множества 𝑋
𝑆
располагаются в последователь- ность 𝑥
1
, . . . , 𝑥
|𝑆|
, удовлетворяющую условию (2.99), и
∙ значение 𝑎
𝑆
(𝑥) определяется как такой ответ 𝑦 ∈ 𝑌 , который мак- симизирует значение выражения
(𝑥 ↦→
𝑆
𝑦) =
|𝑆|
∑︁
𝑖=1
[[𝑦
𝑥
𝑖
= 𝑦]] 𝑤(𝑖, 𝑥),
(2.101)
где ∀ 𝑖 = 1, . . . , |𝑆|
𝑤(𝑖, 𝑥) – заданное число, выражающее степень важности 𝑖–го ближайшего соседа 𝑥 (т.е. 𝑥
𝑖
) для вычисления 𝑎
𝑆
(𝑥).
Значение (2.101) можно интерпретировать как
∙ меру уверенности в том, что АФ 𝑎
𝑆
отображает 𝑥 именно в 𝑦, или
∙ меру близости 𝑎
𝑆
(𝑥) к 𝑦.
∀ 𝑥 ∈ 𝑋
𝑆
сопоставим объекту 𝑥 число 𝑀
𝑆
(𝑥), называемое типично- стью объекта 𝑥, и определяемое следующим образом:
𝑀
𝑆
(𝑥) = (𝑥 ↦→
𝑆
𝑦
𝑥
) − max
𝑦∈𝑌 ∖𝑦
𝑥
(𝑥 ↦→
𝑆
𝑦).
Говоря неформально, 𝑀
𝑆
(𝑥) выражает меру правдоподобия утвер- ждения о том, что значением 𝑎
𝑆
(𝑥) является именно 𝑦
𝑥
Каждому объекту 𝑥 ∈ 𝑋
𝑆
можно сопоставить один из четырех пере- числяемых ниже типов, в соответствии со значением 𝑀
𝑆
(𝑥):
∙ 𝑥 – эталон, если значение 𝑀
𝑆
(𝑥) – большое положительное,
∙ 𝑥 – периферийный (или неинформативный) объект, если 𝑀
𝑆
(𝑥)
– положительное, но не такое большое, как у эталонов,
∙ 𝑥 – пограничный объект, если 𝑀
𝑆
(𝑥) близко к 0,
∙ 𝑥 – выброс (т.е. зашумленный, или ошибочно размеченный объ- ект), если 𝑀
𝑆
(𝑥) < 0.
Для нахождения оптимальной АФ 𝑎
𝑆
рекомендуется строить её не по всей выборке 𝑆, а по ее подвыборке ˆ
𝑆, содержащей только эталоны.
ˆ
𝑆 строится при помощи излагаемого ниже алгоритма, в котором ис- пользуются следующие параметры:
67

∙ 𝛿 – порог фильтрации выбросов,
∙ 𝑙
0
– допустимая доля ошибок.
Алгоритм состоит из перечисляемых ниже действий.
∙ Из 𝑆 удаляются все пары (𝑥, 𝑦
𝑥
), такие, что 𝑀
𝑆
(𝑥) < 𝛿.
Ниже под 𝑆 понимается не исходная выборка, а результат этого удаления.
∙ ∀ 𝑦 ∈ 𝑌 в ˆ
𝑆 зачисляется такая пара (𝑥
*
, 𝑦) ∈ 𝑆, что значение 𝑀
𝑆
(𝑥
*
)
максимально среди {𝑀
𝑆
(𝑥) | 𝑥 ∈ 𝑋
𝑆
, (𝑥, 𝑦) ∈ 𝑆}.
∙ Далее выполняются итерации, состоящие из перечисляемых ниже действий. Итерации заканчиваются, если ˆ
𝑆 станет равно 𝑆.
– 𝐸 := {(𝑥, 𝑦) ∈ 𝑆 ∖ ˆ
𝑆 : 𝑀
^
𝑆
(𝑥) < 0},
– если |𝐸| < 𝑙
0
то выход,
– иначе ˆ
𝑆 := ˆ
𝑆 ∪ {(𝑥
*
, 𝑦)}, где (𝑥
*
, 𝑦) ∈ 𝐸, и значение 𝑀
^
𝑆
(𝑥
*
)
минимально среди {𝑀
^
𝑆
(𝑥) | (𝑥, 𝑦) ∈ 𝐸}.
2.9
Вероятностные модели обучения
2.9.1
Дискретная вероятностная модель обучения
В дискретной вероятностной модели обучения (ДВМО) предпо- лагается, что множество 𝑋 является конечным или счетным, на множе- стве 𝑋 ×𝑌 задано вероятностное распределение (обычно называемое просто распределением), т.е. функция 𝑝 вида
𝑝 : 𝑋 × 𝑌 → [0, 1],
(2.102)
удовлетворяющая условию
∑︀
(𝑥,𝑦)∈𝑋×𝑌
𝑝(𝑥, 𝑦) = 1.
Будем предполагать, что ∀ 𝑦 ∈ 𝑌 ∃ 𝑥 ∈ 𝑋 : 𝑝(𝑥, 𝑦) > 0.
∀ (𝑥, 𝑦) ∈ 𝑋 × 𝑌 значение 𝑝(𝑥, 𝑦) называется вероятностью появле- ния пары (𝑥, 𝑦) в обучающей выборке 𝑆.
Мы предполагаем, что все пары в 𝑆 появляются независимо друг от друга.
Если выборка 𝑆 большая, то число 𝑝(𝑥, 𝑦) можно понимать как при- близительную
∙ долю тех пар в 𝑆, которые равны (𝑥, 𝑦), или
68

∙ частоту появления пары (𝑥, 𝑦) в 𝑆.
∀ 𝑋

⊆ 𝑋, ∀ 𝑦 ∈ 𝑌 будем обозначать записью 𝑝(𝑋

, 𝑦) значение
𝑝(𝑋

, 𝑦)
def
=
∑︁
𝑥∈𝑋

𝑝(𝑥, 𝑦).
(2.103)
Это значение можно понимать как приблизительную частоту появле- ния в обучающей выборке объекта из 𝑋

с ответом 𝑦.
Если 𝑋

= 𝑋, то значение (2.103) обозначается записью 𝑝(𝑦), и по- нимается как приблизительная частота появления в обучающей выборке объекта с ответом 𝑦.
Отметим, что ДВМО концептуально отличается от рассмотренных выше моделей обучения:
∙ в рассмотренных выше моделях обучения ∀ 𝑥 ∈ 𝑋 обучающая вы- борка не может содержать пар вида (𝑥, 𝑦) и (𝑥, 𝑦

), где 𝑦 ̸= 𝑦

, т.к.
вторая компонента пары (𝑥, 𝑦) – это истинный ответ на объект 𝑥,
который определяется однозначно по 𝑥,
∙ а в ДВМО нет понятия истинного ответа на объект, в ней любой ответ на объект может появиться с некоторой вероятностью.
Одной из компонентов ДВМО является функция потерь
𝜆 : 𝑌 × 𝑌 → R
≥0
,
(2.104)
которая сопоставляет каждой паре (𝑦, 𝑦

) ∈ 𝑌 × 𝑌 потерю 𝜆
𝑦𝑦

≥ 0,
возникающую в том случае, когда на какой-либо объект дается ответ 𝑦

,
в то время когда правильным ответом на этот объект был бы 𝑦.
2.9.2
Оптимальные аппроксимирующие функции
Пусть 𝑎 – функция вида 𝑎 : 𝑋 → 𝑌 .
∀ 𝑦 ∈ 𝑌 запись 𝑎
−1
(𝑦) обозначает прообраз 𝑦 относительно 𝑎:
𝑎
−1
(𝑦) = {𝑥 ∈ 𝑋 | 𝑎(𝑥) = 𝑦}.
Риск, соответствующий функции 𝑎 : 𝑋 → 𝑌 определяется как сред- нее значение потери при использовании 𝑎 в качестве АФ:
𝑅(𝑎) =
∑︁
𝑦,𝑦

∈𝑌
𝜆
𝑦𝑦

𝑝(𝑎
−1
(𝑦

), 𝑦).
(2.105)
69

Если 𝜆
𝑦𝑦

= [[𝑦 ̸= 𝑦

]], то 𝑅(𝑎) можно интерпретировать как вероят- ность ошибки при использовании 𝑎 в качестве АФ.
Теорема 6.
Пусть заданы распределение (2.102) и функция потерь (2.104).
Минимальное значение риска (2.105) достигается на функции 𝑎, сопо- ставляющей каждому 𝑥 ∈ 𝑋 такой ответ 𝑦
𝑥
∈ 𝑌 , который минимизирует значение выражения
∑︁
𝑦∈𝑌
𝜆
𝑦𝑦
𝑥
𝑝(𝑥, 𝑦).
Доказательство.
Согласно определению значения 𝑝(𝑎
−1
(𝑦

), 𝑦),
𝑅(𝑎) =
∑︁
𝑦,𝑦

∈𝑌
𝜆
𝑦𝑦

∑︁
𝑥∈𝑎
−1
(𝑦

)
𝑝(𝑥, 𝑦) =
∑︁
𝑦

∈𝑌
∑︁
𝑥∈𝑎
−1
(𝑦

)
∑︁
𝑦∈𝑌
𝜆
𝑦𝑦

𝑝(𝑥, 𝑦).
(2.106)
Заметим, что сумма вида
∑︀
𝑦

∈𝑌
∑︀
𝑥∈𝑎
−1
(𝑦

)
. . . – это сумма вида
∑︀
𝑥∈𝑋
. . ., где выражение, изображаемое многоточием во второй сумме, получается из выражения, изображаемого многоточием в первой сумме заменой всех вхождений 𝑦

на 𝑎(𝑥). Поэтому (2.106) можно переписать в виде
𝑅(𝑎) =
∑︁
𝑥∈𝑋
∑︁
𝑦∈𝑌
𝜆
𝑦,𝑎(𝑥)
𝑝(𝑥, 𝑦),
откуда видно, что 𝑅(𝑎) достигает минимального значения в том и только в том случае, когда ∀ 𝑥 ∈ 𝑋 сумма
∑︀
𝑦∈𝑌
𝜆
𝑦,𝑎(𝑥)
𝑝(𝑥, 𝑦) достигает минималь- ного значения, что по определению 𝑦
𝑥
возможно при 𝑎(𝑥) = 𝑦
𝑥
Теорема 7.
Пусть заданы распределение (2.102) и функция потерь (2.104), при- чем
∙ ∀ 𝑦 ∈ 𝑌 𝜆
𝑦𝑦
= 0, и
∙ ∀ 𝑦, 𝑦

∈ 𝑌 , если 𝑦 ̸= 𝑦

, то значение 𝜆
𝑦𝑦

не зависит от 𝑦

(обозначим это значение 𝜆
𝑦
).
Минимальное значение риска (2.105) достигается на функции 𝑎, сопо- ставляющей каждому 𝑥 ∈ 𝑋 такой ответ 𝑦
𝑥
∈ 𝑌 , который максимизирует значение выражения 𝜆
𝑦
𝑥
𝑝(𝑥, 𝑦
𝑥
), т.е.
𝑎(𝑥) = arg max
𝑦∈𝑌
𝜆
𝑦
𝑝(𝑥, 𝑦).
(2.107)
70

Доказательство.
Согласно определению риска (2.105) и условиям теоремы,
𝑅(𝑎) =
∑︀
𝑦,𝑦

∈𝑌
𝜆
𝑦𝑦

𝑝(𝑎
−1
(𝑦

), 𝑦) =
∑︀
𝑦,𝑦

∈𝑌,𝑦̸=𝑦

𝜆
𝑦
𝑝(𝑎
−1
(𝑦

), 𝑦) =
=
∑︀
𝑦,𝑦

∈𝑌
𝜆
𝑦
𝑝(𝑎
−1
(𝑦

), 𝑦) −
∑︀
𝑦∈𝑌
𝜆
𝑦
𝑝(𝑎
−1
(𝑦), 𝑦) =
=
∑︀
𝑦∈𝑌
∑︀
𝑦

∈𝑌
∑︀
𝑥∈𝑎
−1
(𝑦

)
𝜆
𝑦
𝑝(𝑥, 𝑦) −
∑︀
𝑦∈𝑌
∑︀
𝑥∈𝑎
−1
(𝑦)
𝜆
𝑦
𝑝(𝑥, 𝑦).
(2.108)
Нетрудно видеть, что
∙ сумму
∑︀
𝑦

∈𝑌
∑︀
𝑥∈𝑎
−1
(𝑦

)
𝜆
𝑦
𝑝(𝑥, 𝑦) можно заменить на
∑︀
𝑥∈𝑋
𝜆
𝑦
𝑝(𝑥, 𝑦), и
∙ сумму
∑︀
𝑦∈𝑌
∑︀
𝑥∈𝑎
−1
(𝑦)
𝜆
𝑦
𝑝(𝑥, 𝑦) можно заменить на
∑︀
𝑥∈𝑋
𝜆
𝑎(𝑥)
𝑝(𝑥, 𝑎(𝑥)),
поэтому (2.108) можно переписать в виде
𝑅(𝑎) =
∑︀
𝑦∈𝑌
∑︀
𝑥∈𝑋
𝜆
𝑦
𝑝(𝑥, 𝑦) −
∑︀
𝑥∈𝑋
𝜆
𝑎(𝑥)
𝑝(𝑥, 𝑎(𝑥)) =
=
∑︀
𝑦∈𝑌
𝜆
𝑦
𝑝(𝑦) −
∑︀
𝑥∈𝑋
𝜆
𝑎(𝑥)
𝑝(𝑥, 𝑎(𝑥)),
откуда видно, что 𝑅(𝑎) достигает минимального значения в том и только в том случае, когда ∀ 𝑥 ∈ 𝑋 выражение 𝜆
1   2   3   4   5   6   7   8


написать администратору сайта