методы спуска. Методы спуска. Методы спуска Общая схема

Название	Методы спуска Общая схема
Анкор	методы спуска
Дата	14.02.2022
Размер	40 Kb.
Формат файла
Имя файла	Методы спуска.doc
Тип	Задача #362070

Методы спуска

Общая схема

Все методы спуска решения задачи безусловной минимизации различаются либо выбором направления спуска, либо способом движения вдоль направления спуска. Это позволяет написать общую схему методов спуска.

Решается задача минимизации функции j (x) на всём пространстве E_n. Методы спуска состоят в следующей процедуре построения последовательности {x_k}.

А в качестве начального приближения выбирается любая точка x_0Î E_n. Последовательные приближения x₁, x₂, … строятся по следующей схеме:

В точке x_kвыбирают направление спуска — S_k.
Находят (k+1)-е приближение по формуле x_k+ 1 = x_k- p_k S_k.

Направление S_k выбирают таким образом, чтобы обеспечить неравенство j (x_k+1) < j (x_k), по крайней мере, для малых значений величины p_k. На вопрос, какому из способов выбора направления спуска следует отдать предпочтение при решении конкретной задачи, однозначного ответа нет.

Число p_k определяет расстояние от точки x_k до точки х_k+1. Это число называется длиной шага или просто шагом. Основная задача при выборе величины b_k — это обеспечить выполнение неравенства j (x_k+1) < j (x_k). Одним из элементарных способов выбора шага является способ удвоения шага.

Выбирают b_k = b_k-1. Если при этом j (x_k+1) < j (x_k), то либо переходят к следующей (k+2) итерации, либо выбирают b_k = 2b_k-1.

Если значение j (х) меньше его предыдущего значения, то процесс удвоения можно продолжать до тех пор, пока убывание не прекратится.

Если j (x_k+1)³ j (x_k), то выбирают b_k = 0.5b_k-1. Если j (x_k - 0.5b_k-1 S_k) < j (x_k), то полагают x_k+1 = x_k - 0.5b_k-1 S_k и переходят к следующей (k+2) итерации. Если же j (x_k - 0.5b_k-1 S_k)³ j (x_k), то выбирают b_k = 0.25b_k-1 и т. д.

Метод градиентного спуска

Одним из самых распространённых методов минимизации, связанных с вычислением градиента, является метод спуска по направлению антиградиента минимизируемой функции. В пользу такого выбора направления спуска можно привести следующие соображения. Поскольку антиградиент, то есть j’(x_k) в точке x_k указывает направление наискорейшего убывания функции, то естественным представляется сместиться из точки x_k по этому направлению.

Метод спуска, в котором S_k = j’(x_k), называется методом градиентного спуска.

Величина b_k в методе градиентного спуска традиционно вычисляется путём применения одного из методов одномерной минимизации функции y (b) = j (x_k - b j ’(x _k )), что не исключает применение и других способов отыскания b _k

Если в качестве b _k выбирают точку одномерного минимума функции y ( b )= j (x_k - b S_k) релаксационный процесс называется методом наискорейшего спуска: x_k+1 = x_k - b_k j’(x_k), b_k = arg min {y (b) = j (x_k - b S_k) | b³ 0}.

Метод покоординатного спуска

Одним из наиболее простых способов определения направления спуска является выбор в качестве S_kодного из координатных векторов ± e₁, ± e₂, …, ± e_n, вследствие чего у x_k на каждой итерации изменяется лишь один из компонентов.

Существуют многочисленные варианты покоординатного спуска. Но в любом из этих методов выбирают в качестве S_k то из двух направлений, +e_j, -e_j, которому соответствует неравенство

[j’(x_k), S_k] > 0.

В случае если

= 0, полагают x_k+1 = x_k и переходят к следующей итерации.

Опишем первый цикл метода, состоящий из n итераций.

В произвольной точке x₀ выбирают S₀ = ± e, и определяет величину b₀ способом удвоения так, чтобы было j (x₁) = j (x₀ - b₀ S₀) < j (x₀).

Затем выбирают S₁= ± e₂ и, полагая b = b₀, удвоением вычисляют b₁ и так далее. При этом на каждой итерации стремятся определение величины шага методом удвоения осуществлять с наименьшим числом вычислений значений функции j (х). Цикл заканчивается при k = n - 1, после чего начинают следующий цикл, полагая S_n = ± e₁ и т. д.

Практическое задание

На практике нам нужно было найти минимум функции z (x) = x² + y² – xy - 3y c точностью e, используя описанные выше методы.

Нахождение минимума заданной функции с помощью метода покоординатного спуска

Для нахождения минимума функции с помощью метода покоординатного спуска была использована программа, представленная ниже. Входными параметрами этой программы являются координаты начальной точки (взяли х = 10, y = 10), начальный шаг по х и по y (взяли D_х= 0.5 и D_y= 0.5), а также точность (e = 10^-5; большую точность брать не имеет смысла, поскольку во время выполнения программы накапливается ошибка и искажает данные такой точности).

Итак, взяв в качестве начальных условий эти значения, получили координаты точки минимума:

Х = 1,00000977;

Y = 1,99999931;

Z = -3,00000142.

Для получения результата программой было выполнено 24 итерации.

Нахождение минимума с помощью метода градиентного спуска

Программа, использованная для выполнения этой задачи, представлена ниже.

Поскольку входные параметры этой программы совпадают со входными параметрами задачи №1, возьмем их теми же, что и для первой задачи, чтобы, сравнив полученные результаты и количество итераций, необходимых для поиска минимума, можно было сделать какие-либо выводы о преимуществах и недостатках обеих задач из практики.

Итак, взяв те же начальные условия, получим следующие результаты:

X = 1,00000234

Y = 2,00000119

Z =-3,00000094.

Количество итераций, которое потребовалось для нахождения точки минимума равно 20. Видно, что количество итераций, потребовавшееся первой программе больше, чем количество итераций, необходимых второй программе. Это следует из того, что антиградиент указывает направление наискорейшего убывания функции.

Необходимо также добавить несколько важных моментов. Во-первых, из того, что количество итераций, потребовавшееся для нахождения минимума в первой задаче больше, чем во второй не следует тот факт, что вторая программа работает быстрее, чем первая, поскольку для второй задачи необходимо вычислять не только значение функции в какой-либо точке, но и её производной в этой точке, которая может быть более громоздка, чем сама функция. Наконец, второй метод плох ещё и потому, что для произвольной функции производную вычислить невозможно; придётся сначала аппроксимировать её, а затем искать минимум (за счёт аппроксимации значительно вырастает время и погрешность измерений).