машинное обучение. А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга

Название	А. М. Миронов Московский Государственный Университет Механикоматематический факультет Кафедра математической теории интеллектуальных систем Введение Книга
Анкор	машинное обучение
Дата	20.10.2022
Размер	1.05 Mb.
Формат файла
Имя файла	machine_learning_vol1 (1).pdf
Тип	Книга #744850
страница	4 из 8

1 2 3 4 5 6 7 8

𝑚𝑖𝑛
𝑥
𝑖
𝑚𝑎𝑥
− 𝑥
𝑖
𝑚𝑖𝑛
или
˜
𝑥
𝑖
:=
𝑥
𝑖
− 𝑥
𝑖
𝑎𝑣𝑒𝑟𝑎𝑔𝑒
𝑥
𝑖
𝑎𝑣𝑠𝑞𝑢𝑎𝑟𝑒
где 𝑥
𝑖
𝑎𝑣𝑒𝑟𝑎𝑔𝑒
– среднее значение, 𝑥
𝑖
𝑎𝑣𝑠𝑞𝑢𝑎𝑟𝑒
– среднеквадратическое от- клонение (=
√
дисперсии),
∙ добавление между слоями МНС промежуточных слоев, реализу- ющих линейные преобразования: если 𝑢 и 𝑣 – вектора входов и выходов такого слоя, то реализуемое этим слоем преобразование имеет вид 𝑣 = 𝐴𝑢 + 𝑏, где 𝐴 и 𝑏 – матрица и вектор соответству- ющих размерностей, коэффициенты матрицы 𝐴 и вектора 𝑏 тоже обучаются,
∙ изменение структуры МНС: удаление части нейронов (dropout).
2.5
Метод опорных векторов
В этом параграфе излагается наиболее популярный метод машинного обучения – метод опорных векторов (Support Vector Machines,
SVM), который был создан в 70-е годы прошлого века сотрудниками
Института проблем управления АН СССР В. Н. Вапником и А. Я. Чер- воненкисом, и впервые опубликован в книге [8] (в которой он назван методом обобщенного портрета).
Данный метод предназначен для решения задач классификации и регрессионного анализа.
2.5.1
Оптимальность аппроксимирующих функций
В параграфе 2.2 рассматривалась задача нахождения по строго линейно разделимой выборке 𝑆 ⊆ R
𝑛
× {−1, 1} АФ 𝑎
𝑆
вида
𝑎
𝑆
(𝑥) = 𝑠𝑖𝑔𝑛
(︁
𝑛
∑︁
𝑖=1
𝑥
𝑖
𝑤
𝑖
− 𝑤
0
)︁
такой, что 𝑄(𝑎
𝑆
) = 0. Как было отмечено в этом параграфе, функция 𝑎
𝑆
данного вида обладает свойством 𝑄(𝑎
𝑆
) = 0 тогда и только тогда, когда гиперплоскость 𝑃 , определяемая уравнением
𝑛
∑︀
𝑖=1
𝑥
𝑖
𝑤
𝑖
− 𝑤
0
= 0, разделяет
33

множества 𝑆
+
и 𝑆
−
, т.е. 𝑆
+
и 𝑆
−
содержатся в разных полупростран- ствах, на которые 𝑃 делит R
𝑛
Можно доказать, что задача построения разделяющей гиперплоско- сти для строго линейно разделимой выборки 𝑆 имеет бесконечно много решений. Например, несколько различных решений данной задачи изоб- ражено на нижеследующем рисунке (в данном случае 𝑛 = 2):
где кружочки обозначают элементы 𝑆
+
, а квадратики - элементы 𝑆
−
Встает вопрос о том, можно ли ввести какие-либо меры оптимально- сти решений данной задачи.
В качестве одной из мер оптимальности функции 𝑎
𝑆
указанного выше вида можно рассматривать, например, расстояние
𝜌(𝑆
+
∪ 𝑆
−
, 𝑃 )
(2.35)
между 𝑆
+
∪ 𝑆
−
и 𝑃 . Напомним, что ∀ 𝐴, 𝐵 ⊆ R
𝑛
расстояние 𝜌(𝐴, 𝐵)
между 𝐴 и 𝐵 определяется как inf
𝑎∈𝐴,𝑏∈𝐵
||𝑎 − 𝑏||.
Назовем полосой, разделяющей 𝑆
+
и 𝑆
−
, и определяемой гипер- плоскостью 𝑃 , часть пространства R
𝑛
, заключенную между гиперплос- костями 𝑃
𝑆
+
и 𝑃
𝑆
−
, которые получаются параллельным переносом ги- перплоскости 𝑃 вдоль вектора нормали к ней
∙ по направлению к 𝑆
+
на расстояние 𝜌(𝑃, 𝑆
+
), и
∙ по направлению к 𝑆
−
на расстояние 𝜌(𝑃, 𝑆
−
),
соответственно. Будем обозначать эту полосу записью [𝑃
𝑆
+
, 𝑃
𝑆
−
]. Нетруд- но видеть, что во внутренней части полосы [𝑃
𝑆
+
, 𝑃
𝑆
−
] точек из 𝑆
+
и 𝑆
−
нет.
Расстояние 𝜌(𝑃
𝑆
+
, 𝑃
𝑆
−
) назовем шириной полосы [𝑃
𝑆
+
, 𝑃
𝑆
−
]. Можно доказать, что (2.35) достигает максимального значения, когда ширина
34

полосы [𝑃
𝑆
+
, 𝑃
𝑆
−
] равна 𝜌(𝑆
+
, 𝑆
−
), и 𝑃 находится посередине этой поло- сы.
Назовем гиперплоскость 𝑃 , находящуюся посередине полосы [𝑃
𝑆
+
, 𝑃
𝑆
−
]
с шириной 𝜌(𝑆
+
, 𝑆
−
), оптимальной гиперплоскостью, разделяющей выборку 𝑆. Ниже излагается метод построения такой гиперплоскости.
Кроме того, ниже вводится еще одна мера оптимальности АФ 𝑎
𝑆
, и излагается алгоритм построения функции 𝑎
𝑆
, оптимальной относительно этой меры.
2.5.2
Построение оптимальной разделяющей гипер- плоскости для строго линейно разделимой вы- борки
Описание задачи
В этом пункте мы предполагаем, что задана строго линейно разделимая выборка 𝑆, и 𝑃 – какая-либо гиперплоскость, разделяющая 𝑆
+
и 𝑆
−
По определению, определенные выше гиперплоскости 𝑃
𝑆
+
и 𝑃
𝑆
−
па- раллельны, поэтому можно считать, что их уравнения различаются лишь в свободном члене и имеют вид
⟨𝑥, 𝑣⟩ − 𝑎 = 0,
⟨𝑥, 𝑣⟩ − 𝑏 = 0,
где 𝑣 ∈ R
𝑛
, 𝑎, 𝑏 ∈ R, 𝑎 ̸= 𝑏.
(2.36)
∀ 𝜆 ∈ R ∖ {0} уравнения
⟨𝑥, 𝜆𝑣⟩ − 𝜆𝑎 = 0,
⟨𝑥, 𝜆𝑣⟩ − 𝜆𝑏 = 0
(2.37)
равносильны соответствующим уравнениям в (2.36), т.е. определяют те же самые гиперплоскости 𝑃
𝑆
+
и 𝑃
𝑆
−
. Нетрудно видеть, что если в каче- стве 𝜆 взять число
2
𝑎−𝑏
, то уравнения (2.37) будут равносильны соответ- ствующим уравнениям
⟨𝑥, 𝑤⟩ − 𝑤
0
= 1,
⟨𝑥, 𝑤⟩ − 𝑤
0
= −1,
(2.38)
где 𝑤 = 𝜆𝑣, 𝑤
0
=
𝑎+𝑏
𝑎−𝑏
. Таким образом, можно считать, что
∙ гиперплоскости 𝑃
𝑆
+
и 𝑃
𝑆
−
определяются уравнениями (2.38), и
∙ точки из 𝑆
+
и 𝑆
−
находятся в непересекающихся полупростран- ствах, определяемых 𝑃
𝑆
+
и 𝑃
𝑆
−
, т.е. удовлетворяют соотношениям
⟨𝑥, 𝑤⟩ − 𝑤
0
≥ 1
и
⟨𝑥, 𝑤⟩ − 𝑤
0
≤ −1
соответственно.
35

Вычислим ширину 𝜌 полосы [𝑃
𝑆
+
, 𝑃
𝑆
−
].
Выберем на 𝑃
𝑆
+
и 𝑃
𝑆
−
точки 𝑥
+
и 𝑥
−
соответственно. Пусть 𝑥
⊥
–
основание перпендикуляра, опущенного из точки 𝑥
+
на гиперплоскость
𝑃
𝑆
−
Искомая ширина 𝜌 равна длине катета [𝑥
+
, 𝑥
⊥
] прямоугольного тре- угольника с вершинами в точках 𝑥
+
, 𝑥
−
, 𝑥
⊥
:
𝑆
+
𝑆
−
𝑥
+
𝑥
−
𝑥
⊥

s s
s
Эту длину можно вычислить как произведение
∙ длины гипотенузы [𝑥
+
, 𝑥
−
], т.е. ||𝑥
+
− 𝑥
−
||, и
∙ косинуса угла 𝜙 = \
𝑥
−
𝑥
+
𝑥
⊥
, который выражается через скалярное произведение: cos 𝜙 =
⟨𝑥
+
−𝑥
−
,𝑥
+
−𝑥
⊥
⟩
||𝑥
+
−𝑥
−
|| ||𝑥
+
−𝑥
⊥
||
,
т.е. 𝜌 =
⟨𝑥
+
−𝑥
−
,𝑥
+
−𝑥
⊥
⟩
||𝑥
+
−𝑥
⊥
||
. Поскольку вектор 𝑥
+
− 𝑥
⊥
ортогонален к 𝑃 , то он имеет вид 𝜇𝑤 для некоторого числа 𝜇, поэтому
𝜌 =
⟨𝑥
+
− 𝑥
−
, 𝜇𝑤⟩
||𝜇𝑤||
=
𝜇
|𝜇|
⟨𝑥
+
− 𝑥
−
, 𝑤⟩
||𝑤||
= 𝜎
⟨𝑥
+
− 𝑥
−
, 𝑤⟩
||𝑤||
,
(2.39)
где 𝜎 = 1 или −1. Поскольку 𝑥
+
∈ 𝑃
𝑆
+
и 𝑥
−
∈ 𝑃
𝑆
−
, то
⟨𝑥
+
, 𝑤⟩ − 𝑤
0
= 1,
⟨𝑥
−
, 𝑤⟩ − 𝑤
0
= −1,
откуда следует, что
⟨𝑥
+
− 𝑥
−
, 𝑤⟩ = ⟨𝑥
+
, 𝑤⟩ − ⟨𝑥
−
, 𝑤⟩ = (𝑤
0
+ 1) − (𝑤
0
− 1) = 2,
(2.40)
Из (2.39) и (2.40) следует, что 𝜎 = 1, и 𝜌 =
2
||𝑤||
Таким образом, задача поиска оптимальной разделяющей гиперплос- кости для 𝑆, т.е. такой гиперплоскости 𝑃 , которая определяет полосу
[𝑆
+
𝑃
, 𝑆
−
𝑃
] максимальной ширины, сводится к следующей задаче: найти та- кие 𝑤 ∈ R
𝑛
и 𝑤
0
∈ R, чтобы
∙ значение ||𝑤|| было минимально возможным, и
36

∙ были выполнены условия
{︂ ∀ 𝑥 ∈ 𝑆
+
⟨𝑥, 𝑤⟩ − 𝑤
0
≥ 1,
∀ 𝑥 ∈ 𝑆
−
⟨𝑥, 𝑤⟩ − 𝑤
0
≤ −1,
которые можно переписать в виде
∀ 𝑥 ∈ 𝑋
𝑆
𝑦
𝑥
(⟨𝑥, 𝑤⟩ − 𝑤
0
) − 1 ≥ 0
(2.41)
где 𝑋
𝑆
def
= {𝑥 ∈ R
𝑛
| (𝑥, 𝑦
𝑥
) ∈ 𝑆}.
Если решение (𝑤, 𝑤
0
) этой задачи найдено, то оптимальная разделя- ющая гиперплоскость 𝑃 определяется уравнением ⟨𝑥, 𝑤⟩ − 𝑤
0
= 0.
Заметим, что решение данной задачи совпадает с решением задачи
||𝑤||
2 2
→ min
(2.42)
при условиях (2.41). Таким образом, мы свели задачу построения опти- мальной разделяющей гиперплоскости для строго линейно разделимой выборки к оптимизационной задаче (2.42) при условиях (2.41).
Метод решения оптимизационной задачи
В этом пункте мы рассмотрим подход к решению общей оптимизацион- ной задачи, частным случаем которой является оптимизационная задача
(2.42) при условиях (2.41).
Данная общая задача имеет следующий вид: заданы
∙ функция 𝑓 : R
𝑛
→ R (называемая целевой функцией), которая является выпуклой, т.е.
∀ 𝑥, 𝑥
′
∈ R
𝑛
, ∀ 𝛼 ∈ [0, 1]
𝑓 (𝛼𝑥 + (1 − 𝛼)𝑥
′
) ≤ 𝛼𝑓 (𝑥) + (1 − 𝛼)𝑓 (𝑥
′
),
∙ множество условий вида 𝑔
1
(𝑥) ≤ 0, . . . , 𝑔
𝑚
(𝑥) ≤ 0, где 𝑔
1
, . . . , 𝑔
𝑚
–
выпуклые функции вида R
𝑛
→ R.
Обозначим записью 𝐷
𝑔
1
,...,𝑔
𝑚
множество
𝐷
𝑔
1
,...,𝑔
𝑚
def
= {𝑥 ∈ R
𝑛
| ∀ 𝑖 = 1, . . . , 𝑚 𝑔
𝑖
(𝑥) ≤ 0}.
(2.43)
Требуется найти аргумент ˆ
𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
, на котором достигается мини- мальное значение функции 𝑓 , в предположении что минимальность рас- сматривается относительно множества 𝐷
𝑔
1
,...,𝑔
𝑚
, т.е. требуется, чтобы
𝑓 (ˆ
𝑥) =
min
𝑥∈𝐷
𝑔1,...,𝑔𝑚
𝑓 (𝑥).
37

Данную задачу можно решать с помощью теоремы Каруша-Куна-
Таккера, которую называют основной теоремой выпуклой нелинейной оптимизации. Ниже мы приводим частный случай этой теоремы.
Теорема 3 (W.Karush, 1942, H.Kuhn and A.Tucker, 1951).
Пусть заданы выпуклые функции 𝑓 , 𝑔
1
, . . . , 𝑔
𝑚
вида R
𝑛
→ R, причем
∃ 𝑥 ∈ R
𝑛
: ∀ 𝑖 = 1, . . . , 𝑚
𝑔
𝑖
(𝑥) < 0.
(2.44)
Обозначим символом 𝐿 функцию (называемую функцией Лагранжа)
𝐿 = 𝑓 (𝑥) +
𝑚
∑︁
𝑖=1
𝜆
𝑖
𝑔
𝑖
(𝑥),
(2.45)
где 𝜆
1
, . . . , 𝜆
𝑚
– переменные, называемые множителями Лагранжа.
∀ ˆ
𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
следующие утверждения эквивалентны:
𝑓 (ˆ
𝑥) =
min
𝑥∈𝐷
𝑔1,...,𝑔𝑚
𝑓 (𝑥),
(2.46)
∃ ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
∈ R :
⎧
⎪
⎨
⎪
⎩
∀ 𝑖 = 1 . . . , 𝑚
ˆ
𝜆
𝑖
≥ 0,
∀ 𝑖 = 1 . . . , 𝑚
ˆ
𝜆
𝑖
𝑔
𝑖
(ˆ
𝑥) = 0,
𝐿(ˆ
𝑥, ˆ
𝜆
1
. . . , ˆ
𝜆
𝑚
) = min
𝑥∈R
𝑛
𝐿(𝑥, ˆ
𝜆
1
. . . , ˆ
𝜆
𝑚
).
(2.47)
Если функции 𝑓, 𝑔
1
, . . . , 𝑔
𝑚
дифференцируемые, то функция Лагран- жа 𝐿 тоже будет дифференцируемой, и этом случае третье соотношение в (2.47) равносильно соотношению
∀ 𝑖 = 1, . . . , 𝑛
𝜕𝐿
𝜕𝑥
𝑖
(ˆ
𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) = 0.
(2.48)
Доказательство.
Сначала докажем, что если для точки ˆ
𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
верно утверждение
(2.47), то для нее будет верно утверждение (2.46).
Т.к. ∀ 𝑖 = 1, . . . , 𝑚, ∀ 𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
ˆ
𝜆
𝑖
𝑔
𝑖
(𝑥) ≤ 0, то
∀ 𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
𝐿(𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) = 𝑓 (𝑥) +
𝑚
∑︁
𝑖=1
ˆ
𝜆
𝑖
𝑔
𝑖
(𝑥) ≤ 𝑓 (𝑥).
(2.49)
Из второго соотношения в (2.47) следует, что
𝐿(ˆ
𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) = 𝑓 (ˆ
𝑥) +
𝑚
∑︁
𝑖=1
ˆ
𝜆
𝑖
𝑔
𝑖
(ˆ
𝑥) = 𝑓 (ˆ
𝑥) +
𝑚
∑︁
𝑖=1 0 = 𝑓 (ˆ
𝑥).
(2.50)
38

Из третьего соотношения в (2.47) следует, что
∀ 𝑥 ∈ R
𝑛
𝐿(ˆ
𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) ≤ 𝐿(𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
).
(2.51)
Из (2.49) (2.50) и (2.51) следует, что для ˆ
𝑥 верно (2.46):
∀ 𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
𝑓 (ˆ
𝑥) = 𝐿(ˆ
𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) ≤ 𝐿(𝑥, ˆ
𝜆
1
, . . . , ˆ
𝜆
𝑚
) ≤ 𝑓 (𝑥).
Теперь докажем, что если для точки ˆ
𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
верно утверждение
(2.46), то для нее будет верно утверждение (2.47).
Обозначим символом Λ множество всех векторов (𝜆
0
, . . . , 𝜆
𝑚
) ∈ R
𝑚+1
,
каждый из которых удовлетворяет следующему условию: ∃ 𝑥 ∈ R
𝑛
:
{︂ 𝜆
0
> 𝑓 (𝑥) − 𝑓 (ˆ
𝑥),
∀ 𝑖 = 1, . . . , 𝑚 𝜆
𝑖
≥ 𝑔
𝑖
(𝑥).
Очевидно что множество Λ непусто.
Нулевой вектор ¯
0 = (0, . . . , 0) не входит в Λ, т.к. иначе ∃ 𝑥 ∈ R
𝑛
:
{︂ 0 > 𝑓 (𝑥) − 𝑓 (ˆ
𝑥)
(⇒ 𝑓 (𝑥) < 𝑓 (ˆ
𝑥)),
∀ 𝑖 = 1, . . . , 𝑚 0 ≥ 𝑔
𝑖
(𝑥)
(⇒ 𝑥 ∈ 𝐷
𝑔
1
,...,𝑔
𝑚
),
т.е.
min
𝑥∈𝐷
𝑔1,...,𝑔𝑚
𝑓 (𝑥) < 𝑓 (ˆ
𝑥), что противоречит предположению (2.46).
Докажем, что множество Λ выпукло, т.е. ∀ 𝜆, 𝜆
′
∈ Λ, ∀ 𝛼 ∈ [0, 1]
𝜆
(𝛼) def
= 𝛼𝜆 + (1 − 𝛼)𝜆
′
∈ Λ.
(2.52)
Действительно, если 𝜆 и 𝜆
′
имеют вид (𝜆
0
, . . . , 𝜆
𝑚
) и (𝜆
′
0
, . . . , 𝜆
′
𝑚
) соответ- ственно, и вектора 𝑥, 𝑥
′
таковы, что
𝜆
0
> 𝑓 (𝑥) − 𝑓 (ˆ
𝑥), ∀ 𝑖 = 1, . . . , 𝑚 𝜆
𝑖
≥ 𝑔
𝑖
(𝑥)
𝜆
′
0
> 𝑓 (𝑥
′
) − 𝑓 (ˆ
𝑥), ∀ 𝑖 = 1, . . . , 𝑚 𝜆
′
𝑖
≥ 𝑔
𝑖
(𝑥
′
)
то нетрудно проверить (используя выпуклость 𝑓 , 𝑔
1
, . . ., 𝑔
𝑚
), что вектор
𝑥
(𝛼) def
= 𝛼𝑥 + (1 − 𝛼)𝑥
′
обладает свойством
{︃
𝜆
(𝛼)
0
> 𝑓 (𝑥
(𝛼)
) − 𝑓 (ˆ
𝑥),
∀ 𝑖 = 1, . . . , 𝑚 𝜆
(𝛼)
𝑖
≥ 𝑔
𝑖
(𝑥
(𝛼)
).
(2.53)
Распишем (2.53) во всех деталях:
⎧
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎩
𝜆
(𝛼)
0
= 𝛼𝜆
0
+ (1 − 𝛼)𝜆
′
0
>
> 𝛼𝑓 (𝑥) − 𝛼𝑓 (ˆ
𝑥) + (1 − 𝛼)𝑓 (𝑥
′
) − (1 − 𝛼)𝑓 (ˆ
𝑥) ≥
≥ 𝑓 (𝛼𝑥 + (1 − 𝛼)𝑥
′
) − 𝑓 (ˆ
𝑥) = 𝑓 (𝑥
(𝛼)
) − 𝑓 (ˆ
𝑥),
∀ 𝑖 = 1, . . . , 𝑚 𝜆
(𝛼)
𝑖
= 𝛼𝜆
𝑖
+ (1 − 𝛼)𝜆
′
𝑖
≥
≥ 𝛼𝑔
𝑖
(𝑥) + (1 − 𝛼)𝑔
𝑖
(𝑥
′
) ≥ 𝑔
𝑖
(𝛼𝑥 + (1 − 𝛼)𝑥
′
) = 𝑔
𝑖
(𝑥
(𝛼)
).
Таким образом, (2.52) верно.
39

Лемма об отделимости.
Множество Λ обладает свойством отделимости: ∃ 𝜆
*
∈ R
𝑚+1
:
𝜆
*
̸= ¯
0, ∀ 𝜆 ∈ Λ ⟨𝜆
*
, 𝜆⟩ ≥ 0
(2.54)
(т.е. Λ содержится в одном из полупространств, на которые де- лит пространство R
𝑚+1
гиперплоскость, определяемая уравнением
⟨𝜆
*
, 𝑥⟩ = 0).
Доказательство.
Если размерность 𝐿𝑖𝑛(Λ) линейной оболочки множества Λ (т.е. ми- нимального линейного подпространства пространства R
𝑚+1
, содер- жащего Λ) меньше чем 𝑚 + 1, то в качестве искомого вектора 𝜆
*
можно взять любой ненулевой вектор из ортогонального дополне- ния 𝐿𝑖𝑛(Λ). В этом случае (2.54) верно по причине того, что
∀ 𝜆 ∈ Λ
⟨𝜆
*
, 𝜆⟩ = 0.
Пусть размерность 𝐿𝑖𝑛(Λ) равна 𝑚 + 1. В этом случае Λ содержит линейно независимое множество из 𝑚 + 1 векторов. Обозначим век- торы, входящие в это множество, записями 𝑣
1
, . . . , 𝑣
𝑚+1
Определим ⃗
Λ
def
= {𝜉𝜆 | 𝜉 > 0, 𝜆 ∈ Λ}. Отметим, что Λ ⊆ ⃗
Λ, и ¯
0 ̸∈ ⃗
Λ.
Множество ⃗
Λ выпуклое, т.к. ∀ 𝜉, 𝜉
′
> 0, ∀ 𝜆, 𝜆
′
∈ ⃗
Λ, ∀ 𝛼 ∈ [0, 1]
𝛼(𝜉𝜆) + (1 − 𝛼)(𝜉
′
𝜆
′
) ∈ ⃗
Λ.
(2.55)
Действительно, вектор в (2.55) равен 𝜉
′′
𝜆
′′
, где
∙ 𝜉
′′
= 𝛼𝜉 + (1 − 𝛼)𝜉
′
> 0, и
∙ 𝜆
′′
=
𝛼𝜉
𝜉
′′
𝜆 +
(1−𝛼)𝜉
′
𝜉
′′
𝜆
′
∈ [𝜆, 𝜆
′
], поэтому 𝜆
′′
∈ Λ.
Докажем, что 𝑣 =
𝑚+1
∑︀
𝑖=1
𝑣
𝑖
– внутренняя точка ⃗
Λ, т.е. ∃ 𝜀 > 0: 𝜀–окре- стность 𝑈
𝜀
𝑣
def
= {𝑣
′
∈ R
𝑚+1
| ||𝑣
′
− 𝑣|| < 𝜀} вектора 𝑣 лежит в ⃗
Λ.
Обозначим символом 𝑉 множество, состоящее из всех векторов ви- да
𝑚+1
∑︀
𝑖=1
𝛼
𝑖
𝑣
𝑖
, где ∀ 𝑖 = 1, . . . , 𝑚 |𝛼
𝑖
| ≤
1 2
. Для каждого вектора 𝑥 из единичной сферы 𝑆
def
= {𝑥 ∈ R
𝑚+1
| ||𝑥|| = 1} обозначим записью 𝜀
𝑥
максимальное число, такое, что 𝜀
𝑥
𝑥 ∈ 𝑉 (такое число существует,
т.к. множество 𝑉 является ограниченным). Поскольку единичная
40

сфера в R
𝑚+1
– компакт, то непрерывная функция 𝑥 ↦→ 𝜀
𝑥
на 𝑆
достигает наименьшего значения 𝜀 > 0 на некотором элементе 𝑆.
Итак, ∀ 𝑥 ∈ 𝑆 𝜀𝑥 ∈ 𝑉 , откуда следует, что 𝑈
𝜀
¯
0
⊆ 𝑉 , поэтому
𝑈
𝜀
𝑣
= 𝑣 + 𝑈
𝜀
¯
0
⊆ 𝑣 + 𝑉 = {
𝑚+1
∑︀
𝑖=1
𝛼
𝑖
𝑣
𝑖
|
1 2
≤ 𝛼
𝑖
≤
3 2
} ⊆ ⃗
Λ.
Следовательно, каждый элемент 𝑈
𝜀
−𝑣
= −𝑣+𝑈
𝜀
¯
0
не лежит в ⃗
Λ (иначе некоторый отрезок из ⃗
Λ с концами в 𝑈
𝜀
−𝑣
и 𝑈
𝜀
𝑣
содержал бы ¯
0).
Обозначим записью ⃗
Λ
𝑐
замыкание множества ⃗
Λ, т.е. множество,
получаемое добавлением к ⃗
Λ всех его предельных точек. Нетрудно доказать, что замыкание любого выпуклого множества является выпуклым множеством. В частности, множество ⃗
Λ
𝑐
выпукло.
Поскольку 𝑈
𝜀
−𝑣
∩ ⃗
Λ = ∅, то −𝑣 не является предельной точкой мно- жества ⃗
Λ, поэтому −𝑣 ̸∈ ⃗
Λ
𝑐
Определим 𝑢
0
как такой вектор, из ⃗
Λ
𝑐
, что
𝜌(−𝑣, 𝑢
0
) = min{𝜌(−𝑣, 𝑢) | 𝑢 ∈ ⃗
Λ
𝑐
}.
где 𝜌 – евклидово расстояние между векторами. Такой вектор су- ществует. Действительно, обозначим
∙ символом 𝑅 расстояние от −𝑣 до какого-либо элемента ⃗
Λ
𝑐
, и
∙ записью 𝐵
𝑅
−𝑣
замкнутый шар с центром в −𝑣 радиуса 𝑅.
Поскольку множество 𝐵
𝑅
−𝑣
замкнуто и ограничено, то непустое мно- жество ⃗
Λ
𝑐
∩ 𝐵
𝑅
−𝑣
тоже замкнуто и ограничено, т.е. оно компактно.
Нетрудно видеть, что min{𝜌(−𝑣, 𝑢) | 𝑢 ∈ ⃗
Λ
𝑐
} = min{𝜌(−𝑣, 𝑢) | 𝑢 ∈ ⃗
Λ
𝑐
∩ 𝐵
𝑅
−𝑣
}.
Существование точки 𝑢
0
, на которой функция 𝑢 ↦→ 𝜌(−𝑣, 𝑢) на компактном множестве ⃗
Λ
𝑐
∩ 𝐵
𝑅
−𝑣
принимает наименьшее значение,
обосновывается теми же методами, которыми обосновывается ана- логичное утверждение в теореме из параграфа 2.1.
Также аналогичными методами обосновывается следующее утвер- ждение: гиперплоскость 𝑃 , проходящая через точку 𝑢
0
и ортого- нальная отрезку [−𝑣, 𝑢
0
], делит пространство R
𝑚+1
на два полу- пространства, одно из которых (обозначим его 𝑍) имеет вид
41

𝑍 = {𝑥 ∈ R
𝑚+1
| 𝑥 = 𝑢
0
или \
−𝑣𝑢
0
𝑥 ≥
𝜋
2
}
и ⃗
Λ
𝑐
⊆ 𝑍.
Докажем, что ¯
0 ∈ 𝑃 . Пусть ¯
0 ̸∈ 𝑃 . Тогда ¯
0 ̸= 𝑢
0
∈ 𝑃 . Т.к. ¯
0 ∈ ⃗
Λ
𝑐
(¯
0
– предельная точка ⃗
Λ), то \
−𝑣𝑢
0
¯
0 ≥
𝜋
2
. Поскольку 𝑢
1
def
= 2𝑢
0
∈ ⃗
Λ
𝑐
, то
\
−𝑣𝑢
0
𝑢
1
≥
𝜋
2
. Однако углы (−𝑣𝑢
0
¯
0) и (−𝑣𝑢
0
𝑢
1
) являются смежными,
сумма их величин равна 𝜋, что возможно только если \

1 2 3 4 5 6 7 8