Главная страница

машинное обучение. А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга


Скачать 1.05 Mb.
НазваниеА. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга
Анкормашинное обучение
Дата20.10.2022
Размер1.05 Mb.
Формат файлаpdf
Имя файлаmachine_learning_vol1 (1).pdf
ТипКнига
#744850
страница5 из 8
1   2   3   4   5   6   7   8
−𝑣𝑢
0
¯
0 =
𝜋
2
,
поэтому ¯
0 ∈ 𝑃 .
Вектор, определяемый отрезком [−𝑣, 𝑢
0
], т.е. 𝑢
0
− (−𝑣) = 𝑢
0
+ 𝑣,
ортогонален 𝑃 и принадлежит 𝑍, поэтому
𝑍 = {𝑥 ∈ R
𝑚+1
| ⟨𝑢
0
+ 𝑣, 𝑥⟩ ≥ 0}
и в качестве искомого вектора 𝜆
*
можно взять 𝑢
0
+ 𝑣.
Продолжим доказательство теоремы Каруша-Куна-Таккера.
Пусть вектор 𝜆
*
, обладающий свойством (2.54), имеет вид (𝜆
*
0
, . . . , 𝜆
*
𝑚
).
1. Докажем, что ∀ 𝑖 = 0, . . . , 𝑚 𝜆
*
𝑖
≥ 0.
Поскольку Λ содержит вектора
𝜆
(0)
= (1, 0, . . . , 0)
и
𝜆
(𝑖)
= (𝜀, 0 . . . , 0, 1, 0, . . . , 0)
(∀ 𝑖 = 1, . . . , 𝑚)
где 𝜀 > 0, и единица в 𝜆
(𝑖)
стоит в позиции номер 𝑖 (мы считаем,
что первая позиция в 𝜆
(𝑖)
имеет номер 0), то из (2.54) следует, что
⟨𝜆
*
, 𝜆
(0)
⟩ = 𝜆
*
0
≥ 0
∀ 𝑖 = 1, . . . , 𝑚 ⟨𝜆
*
, 𝜆
(𝑖)
⟩ = 𝜆
*
0
𝜀 + 𝜆
*
𝑖
≥ 0
откуда, ввиду произвольности 𝜀, заключаем, что 𝜆
*
𝑖
≥ 0.
2. Докажем, что
∀ 𝑖 ∈ {1, . . . , 𝑚}
𝜆
*
𝑖
𝑔
𝑖

𝑥) = 0.
(2.56)
Т.к. ∀ 𝜀 > 0 множество Λ содержит вектор
𝜆
def
= (𝜀, 0, . . . , 0, 𝑔
𝑖

𝑥), 0, . . . , 0),
то из (2.54) следует, что ⟨𝜆
*
, 𝜆⟩ = 𝜆
*
0
𝜀 + 𝜆
*
𝑖
𝑔
𝑖

𝑥) ≥ 0, откуда, ввиду произвольности 𝜀, заключаем, что 𝜆
*
𝑖
𝑔
𝑖

𝑥) ≥ 0.
Таким образом, либо 𝜆
*
𝑖
𝑔
𝑖

𝑥) = 0, либо 𝜆
*
𝑖
𝑔
𝑖

𝑥) > 0. Однако если бы было верно неравенство 𝜆
*
𝑖
𝑔
𝑖

𝑥) > 0, то, учитывая доказанное в предыдущем пункте неравенство 𝜆
*
𝑖
≥ 0, заключаем, что 𝑔
𝑖

𝑥) > 0,
что противоречит условию 𝑔
𝑖

𝑥) ≤ 0.
42

3. Докажем, что ∀ 𝑥 ∈ R
𝑛
𝜆
*
0
𝑓 (ˆ
𝑥) +
𝑚
∑︁
𝑖=1
𝜆
*
𝑖
𝑔
𝑖

𝑥) ≤ 𝜆
*
0
𝑓 (𝑥) +
𝑚
∑︁
𝑖=1
𝜆
*
𝑖
𝑔
𝑖
(𝑥).
(2.57)
Из (2.56) следует, что левая часть (2.57) равна 𝜆
*
0
𝑓 (ˆ
𝑥).
Т.к. ∀ 𝜀 > 0 множество Λ содержит вектор
𝜆
def
= (𝑓 (𝑥) − 𝑓 (ˆ
𝑥) + 𝜀, 𝑔
1
(𝑥), . . . , 𝑔
𝑚
(𝑥)),
то из (2.54) следует, что
⟨𝜆
*
, 𝜆⟩ = 𝜆
*
0
(𝑓 (𝑥) − 𝑓 (ˆ
𝑥) + 𝜀) +
𝑚
∑︁
𝑖=1
𝜆
*
𝑖
𝑔
𝑖
(𝑥) ≥ 0,
откуда, ввиду произвольности 𝜀, следует (2.57).
4. Докажем, что 𝜆
*
0
̸= 0.
Если 𝜆
*
0
= 0, то из 𝜆
*
̸= ¯
0 следует, что ∃ 𝑖 ∈ {1, . . . , 𝑚} : 𝜆
*
𝑖
> 0.
По предположению, для некоторого 𝑥 ∈ R выполнено условие (2.44).
Для этого 𝑥 верно также (2.57), однако в данном случае левая часть
(2.57) равна 0, а правая часть (2.57) меньше 0, что невозможно.
Искомые значения ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
определяются как
𝜆
*
1
𝜆
*
0
, . . . ,
𝜆
*
𝑚
𝜆
*
0
Истинность каждого из трех соотношений в (2.47) следует из соот- ветствующих пунктов изложенного выше рассуждения.
Докажем, что если функции 𝑓, 𝑔
1
, . . . , 𝑔
𝑚
дифференцируемые, то тре- тье соотношение в (2.47) равносильно соотношению (2.48), т.е.
𝐿(ˆ
𝑥, ˆ
𝜆) = min
𝑥∈R
𝑛
𝐿(𝑥, ˆ
𝜆)

∀ 𝑖 = 1, . . . , 𝑛
𝜕𝐿
𝜕𝑥
𝑖

𝑥, ˆ
𝜆) = 0,
(2.58)
где ˆ
𝜆 = (ˆ
𝜆
1
. . . , ˆ
𝜆
𝑚
).
Импликация «⇒» в (2.58) верна потому, что ее правая часть является необходимым условием минимума дифференцируемой функции.
Обоснуем импликацию «⇐» в (2.58). Из выпуклости 𝑓, 𝑔
1
, . . . , 𝑔
𝑚
и неотрицательности ˆ
𝜆
1
, . . ., ˆ
𝜆
𝑚
следует выпуклость функции 𝑥 ↦→ 𝐿(𝑥, ˆ
𝜆):
∀ 𝑥, 𝑥

∈ R
𝑛
, ∀ 𝛼 ∈ [0, 1]
𝐿(𝛼𝑥 + (1 − 𝛼)𝑥

, ˆ
𝜆) =
= 𝑓 (𝛼𝑥 + (1 − 𝛼)𝑥

) +
𝑚
∑︀
𝑖=1
ˆ
𝜆
𝑖
𝑔
𝑖
(𝛼𝑥 + (1 − 𝛼)𝑥

) ≤
≤ 𝛼𝑓 (𝑥) + (1 − 𝛼)𝑓 (𝑥

) +
𝑚
∑︀
𝑖=1
ˆ
𝜆
𝑖
(𝛼𝑔
𝑖
(𝑥) + (1 − 𝛼)𝑔
𝑖
(𝑥

)) =
= 𝛼𝐿(𝑥, ˆ
𝜆) + (1 − 𝛼)𝐿(𝑥

, ˆ
𝜆),
43
откуда на основании такого же рассуждения, которое приведено в конце пункта 2.3.2, следует, что значение аргумента ˆ
𝑥, удовлетворяющее пра- вой части (2.58), является глобальным минимумом этой функции.
Применение метода
Применим изложенный выше метод к оптимизационной задаче (2.42) при условиях (2.41). В данном случае
∙ целевая функция 𝑓 имеет вид
||𝑤||
2 2
, и
∙ условия являются линейными неравенствами
𝑦
𝑥
(⟨𝑥, 𝑤⟩ − 𝑤
0
) − 1 ≥ 0,
где 𝑥 ∈ 𝑋
𝑆
(2.59)
Докажем, что целевая функция выпукла. Данная функция является суперпозицией трех функций: функции 𝑤 ↦→ ||𝑤||, функции 𝑥 ↦→ 𝑥
2
, и функции 𝑥 ↦→
1 2
𝑥. Эти функции выпуклы, т.к.
∙ выпуклость функции 𝑤 ↦→ ||𝑤|| следует из неравенства треуголь- ника (||𝑎 + 𝑏|| ≤ ||𝑎|| + ||𝑏||) для нормы в произвольном векторном пространстве: ∀ 𝑤, 𝑤

∈ R
𝑛
, ∀ 𝛼 ∈ [0, 1]
||𝛼𝑤 + (1 − 𝛼)𝑤

|| ≤ ||𝛼𝑤|| + ||(1 − 𝛼)𝑤

|| = 𝛼||𝑤|| + (1 − 𝛼)||𝑤

||,
∙ выпуклость функции 𝑥 ↦→ 𝑥
2
обосновывается следующим образом:
∀ 𝑥, 𝑥

∈ R, ∀ 𝛼 ∈ [0, 1] требуемое неравенство
(𝛼𝑥 + (1 − 𝛼)𝑥

)
2
≤ 𝛼𝑥
2
+ (1 − 𝛼)(𝑥

)
2
после раскрытия скобок, перегруппировки слагаемых и приведения подобных членов преобразуется в эквивалентное неравенство
𝛼
2
(𝑥 − 𝑥

)
2
≤ 𝛼(𝑥 − 𝑥

)
2
которое верно потому, что 𝛼 ∈ [0, 1],
∙ функция 𝑥 ↦→
1 2
𝑥 выпукла потому, что любая линейная функция является выпуклой.
Нетрудно доказать, что если функции 𝑓 : R
𝑛
→ R и 𝑔 : R → R выпуклы и, кроме того, 𝑔 монотонно неубывающая, то их суперпозиция (𝑔 ∘ 𝑓 )
тоже выпукла. Действительно, ∀ 𝑥, 𝑥

∈ R
𝑛
, ∀ 𝛼 ∈ [0, 1]
(𝑔 ∘ 𝑓 )(𝛼𝑥 + (1 − 𝛼)𝑥

) = 𝑔(𝑓 (𝛼𝑥 + (1 − 𝛼)𝑥

)) ≤
≤ 𝑔(𝛼𝑓 (𝑥) + (1 − 𝛼)𝑓 (𝑥

)) ≤ 𝛼𝑔(𝑓 (𝑥)) + (1 − 𝛼)𝑔(𝑓 (𝑥

)) =
= 𝛼(𝑔 ∘ 𝑓 )(𝑥) + (1 − 𝛼)(𝑔 ∘ 𝑓 )(𝑥

).
44

Поскольку функции 𝑥 ↦→ 𝑥
2
и 𝑥 ↦→
1 2
𝑥 : R → R – выпуклы и монотонно неубывающие, то, следовательно их суперпозиция с выпуклой функцией
𝑤 ↦→ ||𝑤||, т.е. функция 𝑤 ↦→
1 2
||𝑤||
2
тоже выпукла.
Функция Лагранжа для данной задачи имеет вид
𝐿 =
||𝑤||
2 2

∑︁
𝑥∈𝑋
𝑆
𝜆
𝑥
(𝑦
𝑥
(⟨𝑥, 𝑤⟩ − 𝑤
0
) − 1),
(2.60)
и соотношение (2.48) имеет следующий вид:
∀ 𝑖 = 1, . . . , 𝑛
ˆ
𝑤
𝑖

∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥
𝑖
= 0,
0 −
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
(−1) = 0,
что можно переписать в виде
ˆ
𝑤 =
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥,
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0.
(2.61)
Из теоремы 3 следует, что исходная задача сводится к задаче поиска вектора ˆ
𝑤, числа ˆ
𝑤
0
, и набора чисел ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
}, удовлетво- ряющих соотношениям в (2.61) и условию
∀ 𝑥 ∈ 𝑋
𝑆
{︂ 𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) − 1 ≥ 0
ˆ
𝜆
𝑥
(𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) − 1) = 0.
(2.62)
Теорема 4.
Задача нахождения объектов ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
}, удовле- творяющих соотношениям (2.61) и (2.62), сводится к задаче нахождения объектов ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆, минимизирующих значения выражения
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
(𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) − 1)
(2.63)
при условиях





ˆ
𝑤 =
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥,
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0,
∀ 𝑥 ∈ 𝑋
𝑆
{︂
ˆ
𝜆
𝑥
≥ 0
𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) − 1 ≥ 0.
(2.64)
Доказательство.
1. Пусть объекты ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
} удовлетворяют соотношениям (2.61) и (2.62). Тогда при их подстановке вместо со- ответствующих объектов в (2.63) и (2.64) получаем, что
45

∙ значение суммы (2.63) будет равно 0 (т.к., согласно второму равенству в (2.62), каждое слагаемое в этой сумме равно 0), и
∙ соотношения в (2.64) верны, это следует из (2.61) и (2.62).
С другой стороны, сумма (2.63) при условиях (2.64), не может быть меньше 0, т.к., согласно этим условиям, каждое ее слагаемое явля- ется произведением неотрицательных чисел.
Таким образом, объекты ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
} – решение задачи минимизации суммы (2.63) при условиях (2.64).
2. Согласно условиям (2.64), каждое слагаемое в сумме (2.63) при этих условиях неотрицательно, т.е. сумма (2.63) неотрицательна, и
∙ если минимальное значение этой суммы равно 0, то каждое слагаемое в этой сумме равно 0, т.е. объекты ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆, реша- ющие задачу минимизации (2.63) при условиях (2.64), удовле- творяют соотношениям (2.61) и (2.62), и
∙ если минимальное значение этой суммы больше 0, то тогда решение задачи нахождения ˆ
𝑤, ˆ
𝑤
0
, и ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
},
удовлетворяющих соотношениям (2.61) и (2.62), не существует
(что по предположению невозможно).
Перепишем сумму (2.63) путем раскрытия скобок, перегруппировки слагаемых и использования линейности скалярного произведения:
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
⟨𝑥, ˆ
𝑤⟩ −
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
ˆ
𝑤
0

∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
=
=
∑︀
𝑥∈𝑋
𝑆
⟨ˆ
𝜆
𝑥
𝑦
𝑥
𝑥, ˆ
𝑤⟩ − (
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
) ˆ
𝑤
0

∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
=
= ⟨
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥, ˆ
𝑤⟩ − (
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
) ˆ
𝑤
0

∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
(2.65)
Из условий (2.64) следует, что (2.65) можно переписать в виде
⟨ ˆ
𝑤, ˆ
𝑤⟩ −
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
= || ˆ
𝑤||
2

∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
(2.66)
Выражение (2.66) можно переписать, используя лишь переменные ˆ
𝜆
𝑥
:
∑︁
𝑥,𝑥

∈𝑋
𝑆
ˆ
𝜆
𝑥
ˆ
𝜆
𝑥

𝑦
𝑥
𝑦
𝑥

⟨𝑥, 𝑥

⟩ −
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
(2.67)
Таким образом, исходная задача свелась к задаче нахождения набора
ˆ
𝜆 = {ˆ
𝜆
𝑥
| 𝑥 ∈ 𝑋
𝑆
}
46
минимизирующего значение выражения (2.67), при условиях
∀ 𝑥 ∈ 𝑋
𝑆
ˆ
𝜆
𝑥
≥ 0,
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0.
Такая задача называется задачей квадратичного программиро- вания (ЗКП). Существует много алгоритмов решения этой задачи.
Искомый вектор ˆ
𝑤 вычисляется по найденному решению ˆ
𝜆 данной
ЗКП согласно первому равенству в (2.64). Для вычисления искомого ˆ
𝑤
0
выбирается такая пара 𝑥 ∈ 𝑋
𝑆
, что ˆ
𝜆
𝑥
̸= 0, в этом случае, согласно второму равенству в (2.62), должно быть верно равенство
𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) − 1 = 0,
из которого следует, что
ˆ
𝑤
0
= ⟨𝑥, ˆ
𝑤⟩ − 𝑦
𝑥
Если данная ЗКП имеет не единственное решение, то среди всех этих ре- шений выбирается такое, что число ˆ
𝑤
0
, вычисленное по этому решению,
удовлетворяет последнему неравенству в (2.64).
Обоснуем, почему ∃ 𝑥 ∈ 𝑋
𝑆
: ˆ
𝜆
𝑥
̸= 0. Если бы все числа ˆ
𝜆
𝑥
были равны
0, то ˆ
𝑤 – нулевой вектор, и из последнего неравенства в (2.64) следует,
что ∀ 𝑥 ∈ 𝑋
𝑆
− 𝑦
𝑥
ˆ
𝑤
0
− 1 ≥ 0, или −𝑦
𝑥
ˆ
𝑤
0
≥ 1. Выборка 𝑆 предполагается нетривиальной, т.е. 𝑦
𝑥
м.б. равно как 1, так и −1, откуда следует, что
ˆ
𝑤
0
≥ 1 и − ˆ
𝑤
0
≥ 1, что невозможно.
2.5.3
Построение оптимальной разделяющей гипер- плоскости по зашумленной выборке
В некоторых случаях выборка 𝑆 ⊆ R
𝑛
× {−1, 1} бывает зашумленной,
т.е. значения компонентов векторов в 𝑆, представляющих объекты, могут немного отличаться от истинных значений. Также в 𝑆 м.б. и ошибочно размеченные пары, т.е. пары (𝑥, 𝑦
𝑥
) с неверным значением 𝑦
𝑥
. Это мо- жет привести к тому, что выборка 𝑆 не будет линейно разделимой, т.е.
невозможно найти АФ 𝑎
𝑆
вида
𝑎
𝑆
(𝑥) = 𝑠𝑖𝑔𝑛
(︁
𝑛
∑︁
𝑖=1
𝑥
𝑖
𝑤
𝑖
− 𝑤
0
)︁
(2.68)
такую, что 𝑄(𝑎
𝑆
) = 0. Тем не менее, иногда в ситуации зашумленности и линейной неразделимости выборки 𝑆 все равно имеет смысл искать АФ
𝑎
𝑆
вида (2.68), допуская при этом небольшие ошибки классификации.
47

Один из подходов к построению АФ 𝑎
𝑆
такого вида называется ме- тодом наименьших квадратов, он будет рассмотрен в следующем параграфе. Данный подход заключается в том, чтобы найти АФ 𝑎
𝑆
вида
(2.68) с наименьшим значением 𝑄(𝑎
𝑆
), где
𝑄(𝑎
𝑆
) =
∑︁
𝑥∈𝑋
𝑆
(𝑎
𝑆
(𝑥) − 𝑦
𝑥
)
2
Другой подход является развитием подхода, изложенного в преды- дущем пункте. Он заключается в том, чтобы построить разделяющую полосу максимальной ширины, допуская при этом попадание некоторых объектов не в свое полупространство.
Напомним, что если границами разделяющей полосы являются ги- перплоскости, определяемые уравнениями
⟨𝑥, 𝑤⟩ − 𝑤
0
= 1,
⟨𝑥, 𝑤⟩ − 𝑤
0
= −1,
то ∀ 𝑥 ∈ 𝑋
𝑆
точка 𝑥 попадает в свое полупространство, если 𝑀
𝑥
≥ 1, где
𝑀
𝑥
def
= 𝑦
𝑥
(⟨𝑥, 𝑤⟩ − 𝑤
0
).
Для адекватного определения целевой функции введем набор 𝜉 до- полнительных переменных:
𝜉 = {𝜉
𝑥
| 𝑥 ∈ 𝑋
𝑆
},
где ∀ 𝑥 ∈ 𝑋
𝑆
значение переменной 𝜉
𝑥
будем понимать как величину ошиб- ки аппроксимации на объекте 𝑥: она должна примерно соответствовать расстоянию от 𝑥 до своего полупространства, когда 𝑥 находится не в сво- ем полупространстве (т.е. 𝑀
𝑥
< 1). Например, величину ошибки в этом случае можно определить как 1 − 𝑀
𝑥
Задача построения оптимальной разделяющей полосы в данной си- туации имеет вид минимизации целевой функции
||𝑤||
2 2
+ 𝑐
∑︁
𝑥∈𝑋
𝑆
𝜉
𝑥
(где 𝑐 – некоторая константа)
(2.69)
при условиях
∀ 𝑥 ∈ 𝑋
𝑆
𝜉
𝑥
≥ 1 − 𝑀
𝑥
,
𝜉
𝑥
≥ 0
Целевая функция (2.69) выражает следующие требования:
∙ разделяющая полоса должна быть пошире (т.е. значение ||𝑤|| долж- но быть поменьше),
∙ суммарная ошибка
∑︀
𝑥∈𝑋
𝑆
𝜉
𝑥
должна быть поменьше.
48

Константа 𝑐 позволяет регулировать баланс между требованиями
∙ максимизации ширины разделяющей полосы, и
∙ минимизации суммарной ошибки.
Обычно ее выбирают методом скользящего контроля:
∙ сначала задача решается при некотором 𝑐,
∙ затем из выборки удаляется небольшая доля объектов, имеющих наибольшую величину ошибки (такие объекты будут считаться или чрезмерно зашумленными, или ошибочно размеченными), а 𝑐 изме- няется следующим образом:
– если ширина полосы получилась слишком маленькая, то 𝑐 уме- ньшается (это приведет к увеличению ширины полосы),
– если слишком много объектов находятся далеко от своего по- лупространства, то 𝑐 увеличивается (полоса станет уже), и
∙ после этого задача решается заново (с новыми 𝑆 и 𝑐).
Возможно, придется проделать несколько таких итераций.
Функция Лагранжа для данной задачи имеет вид
𝐿 =
||𝑤||
2 2
+ 𝑐
∑︁
𝑥∈𝑋
𝑆
𝜉
𝑥

∑︁
𝑥∈𝑋
𝑆
𝜆
𝑥
(𝑀
𝑥
+ 𝜉
𝑥
− 1) −
∑︁
𝑥∈𝑋
𝑆
𝜂
𝑥
𝜉
𝑥
,
и соотношение (2.48) имеет следующий вид:
∙ ∀ 𝑖 = 1, . . . , 𝑛
𝜕𝐿
𝜕𝑤
𝑖
( ˆ
𝑤, ˆ
𝜆, ˆ
𝜉) = ˆ
𝑤
𝑖

∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥
𝑖
= 0,

𝜕𝐿
𝜕𝑤
0
( ˆ
𝑤, ˆ
𝜆, ˆ
𝜉) =
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0,
∙ ∀ 𝑥 ∈ 𝑋
𝑆
𝜕𝐿
𝜕𝜉
𝑥
( ˆ
𝑤, ˆ
𝜆, ˆ
𝜉) = 𝑐 − ˆ
𝜆
𝑥
− ˆ
𝜂
𝑥
= 0,
что можно переписать в виде









ˆ
𝑤 =
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥,
∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0,
∀ 𝑥 ∈ 𝑋
𝑆
ˆ
𝜆
𝑥
+ ˆ
𝜂
𝑥
= 𝑐.
(2.70)
49

Из теоремы Каруша-Куна-Таккера следует, что исходная задача сво- дится к задаче поиска наборов чисел
ˆ
𝜆 = {ˆ
𝜆
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
},
ˆ
𝜂 = {ˆ
𝜂
𝑥
≥ 0 | 𝑥 ∈ 𝑋
𝑆
},
а также вектора ˆ
𝑤, числа ˆ
𝑤
0
, и набора чисел {𝜉
𝑥
| 𝑥 ∈ 𝑋
𝑆
}, удовлетво- ряющих равенствам (2.70) и условию
∀ 𝑥 ∈ 𝑋
𝑆









ˆ
𝜆
𝑥
(𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) + ˆ
𝜉
𝑥
− 1) = 0
ˆ
𝜂
𝑥
ˆ
𝜉
𝑥
= 0
𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) + ˆ
𝜉
𝑥
− 1 ≥ 0
ˆ
𝜉
𝑥
≥ 0
(2.71)
Как и в предыдущем пункте, нахождение искомых наборов ˆ
𝜆 и ˆ
𝜂
сводится к задаче минимизации выражения
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
(𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
) + ˆ
𝜉
𝑥
− 1) +
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜂
𝑥
ˆ
𝜉
𝑥
которое, с учетом условий (2.70), можно переписать, используя лишь переменные ˆ
𝜆
𝑥
и ˆ
𝜉
𝑥
:
∑︁
𝑥,𝑥

∈𝑋
𝑆
ˆ
𝜆
𝑥
ˆ
𝜆
𝑥

𝑦
𝑥
𝑦
𝑥

⟨𝑥, 𝑥

⟩ −
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
+ 𝑐
∑︁
𝑥∈𝑋
𝑆
ˆ
𝜉
𝑥
(2.72)
Нетрудно установить, что исходная задача, рассматриваемая в насто- ящем пункте, сводится к задаче минимизации (2.72) с условиями







∑︀
𝑥∈𝑋
𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
= 0,
∀ 𝑥 ∈ 𝑋
𝑆
{︂ 0 ≤ ˆ
𝜆
𝑥
≤ 𝑐, ˆ
𝜉
𝑥
≥ 0,
𝑀
𝑥
+ ˆ
𝜉
𝑥
− 1 ≥ 0,
(2.73)
где 𝑀
𝑥
def
= 𝑦
𝑥
(⟨𝑥, ˆ
𝑤⟩ − ˆ
𝑤
0
),
ˆ
𝑤
def
=
∑︀
(𝑥,𝑦
𝑥
)∈𝑆
ˆ
𝜆
𝑥
𝑦
𝑥
𝑥.
Эта задача – тоже ЗКП. В результате ее решения получаются опти- мальные ˆ
𝜆, ˆ
𝜉, ˆ
𝑤
0
, по которым можно вычислить оптимальные ˆ
𝑤 и ˆ
𝜂.
Отметим некоторые особенности оптимального решения ˆ
𝜆, ˆ
𝜂, ˆ
𝜉, ˆ
𝑤, ˆ
𝑤
0
исходной задачи. ∀ 𝑥 ∈ 𝑋
𝑆
вектор 𝑥 относится к одному из трех классов,
в зависимости от значения 𝑀
𝑥
:
∙ если 𝑀
𝑥
> 1, то 𝑥 находится в своем полупространстве, но не на его границе (такой вектор называется периферийным),
50

∙ если 𝑀
𝑥
= 1, то 𝑥 находится в своем полупространстве, на его границе (такой вектор называется опорным),
1   2   3   4   5   6   7   8


написать администратору сайта