Интеллектуальный анализ данных

Название	Интеллектуальный анализ данных
Дата	11.10.2022
Размер	7.76 Mb.
Формат файла
Имя файла	iad_iadl.pdf
Тип	Учебное пособие #726651
страница	22 из 23

1 ... 15 16 17 18 19 20 21 22 23

j
в момент времени t. Зоны близости со временем уменьшаются.
Весовым коэффициентам сети придают малые начальные значения.
Начальное число весов равно MN.
2. АЛГОРИТМ КОХОНЕНА
Инициализация
Наиболее распространены три способа задания первоначальных весов уз- лов:

Задание всех координат случайными числами.
Рис 1. Карта Кохонена
0 0 0 0 0
0
0 0 0 0 0
0
0 0 0 0 0
0
NE
j
(0
)
NE
j
(1)
NE
j
(2)
Рис.2. Зоны топологической близости

163

Присваивание вектору веса значение случайного наблюдения из входных данных.
Выбор векторов веса из линейного пространства, натянутого на главные компоненты набора входных данных
1. НС предъявляется новый входной сигнал;
2. Вычисляются евклидово расстояния до всех нейронов





1
N
0
i
2
ij i
j
,
)]
t
(
w
)
t
(
x
[
d
(1) где x i
(t) – i-й элемент входного сигнала в момент времени t, w
ij
(t) – вес свя- зи i-го элемента входного сигнала с j-ым нейроном в момент времени t.
3. Выбирается нейрон с наименьшим расстоянием d
j
4. Настраиваются весовые коэффициенты для j-го нейрона и всех нейро- нов из его зоны близости. Новые значения весов
w
ij
(t+1) = w
ij
(t) + v(t)[x
i
(t)-w
ij
(t)], (2) где v(t) – шаг обучения, изменяющийся со временем (дополнительное чис- ло меньше единицы).
1.
Переход на п. 2.
3. Особенности модели
Устойчивость к зашумленным данным, быстрое и неуправляемое обуче- ние, возможность упрощения многомерных входных данных с помощью визуали- зации.
Самоорганизующиеся карты Кохонена могут быть использованы для кла- стерного анализа только в том случае, если заранее известно число кластеров.
Важным недостатком является то, что окончательный результат работы нейронных сетей зависит от начальных установок сети. С другой стороны, ней- ронные сети теоретически могут аппроксимировать любую непрерывную функ- цию, что позволяет исследователю не принимать заранее какие-либо гипотезы относительно модели.
Контрольные вопросы
1. Для решения каких задач используется карта Кохонена?
2. Сформулируйте содержание алгоритма Кохонена.
3. Назовите особенности модели карт Кохонена
4. Недостатки и достоинства карты Кохонена.
ЛИТЕРАТУРА:
1. T. Kohonen, Self-Organizing Maps (Third Extended Edition), New York, 2001, 501 pages.
2. Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизую- щихся карт, Альпина Паблишер, 2001, 317 стр.
3. Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Крас- ноярского государственного технического университета, 2000. — 180 с.
4. Каллан Р. Основы концепции нейронных сетей / Пер. с англ. – М.: Изд. дом
«Вильямс», 2001. – 288с.

164
ЛЕКЦИЯ 21
ЭВОЛЮЦИОННОЕ МОДЕЛИРОВАНИЕ
1. Эволюционное моделирование: Постановка задачи.
В основе технологии эволюционного моделирования, предложенной в [1] и изученной в большом числе современных работ [2-12], лежит идея замены пря- мой параметрической и структурной оптимизации модели динамической системы процессом последовательной эволюции изменяющихся моделей. Эволюция ма- тематических моделей осуществляется в соответствии с принципами дарвинов- ской теории развития - изменчивостью, селекцией и отбором.
Имитация эволюционной изменчивости осуществляется на основе случай- ных вариаций параметров модели. Обычно используются три основных вида та- ких модификаций.
1. Естественная изменчивость. Данный вид изменчивости представляет со- бой относительно небольшие случайные колебания параметров модели при пе- реходе от одного поколения к другому.
2. Параметрическая мутация. Отличается от естественной изменчивости низкой вероятностью появления и крайне большим значением изменяемого пара- метра.
3. Непараметрическая мутация. Характеризуется изменением структуры модели. В простейшем случае может состоять в изменении порядка или размер- ности модели.
В результате процесса изменчивости происходит переход от группы моде-
лей-родителей (МР) к следующему поколению моделей-потомков (МП). При этом количество потомков должно значимо превосходить количество МР из пре- дыдущей генерации.
Вторым этапом (на каждой итерации) эволюционного моделирования явля- ются процессы селекции и отбора. Новое поколение моделей проверяется по эк- зогенному критерию выживаемости, определяемому качеством решения функ- циональных задач. В соответствии с этим критерием осуществляется отбор наи- более эффективных моделей, которые переходят в категорию нового поколения
МР и допускаются к очередным изменениям.
Заметим, что в процессе селекции и отбора «выживает» и формирует но- вое поколение не только наилучшая (среди предыдущего поколения) модель, а несколько моделей, в наибольшей степени удовлетворяющие критерию селекции.
Такой подход, названный принципом незаконченных решений, позволяет реали- зовать постулат системного анализа, в соответствии с которым наилучшее реше- ние формируется из последовательности шагов или элементов, не являющихся оптимальными на каждом (промежуточном) шаге итерации.
Данное отличие от традиционной схемы пошаговой оптимизации является существенным и является одним из характеристических свойств эволюционной оптимизации.
Следует заметить, что эволюционное моделирование, по сути, представля- ет собой процесс стохастической самоорганизации прикладной математической модели. При этом извне задается лишь критерии селекции. Процесс модификации моделей остается не контролируемым и формируется самой программой в соот- ветствии с принятой технологией генерации поколений. По мнению авторов дан- ного метода [1], такой подход позволяет по-новому подойти к задаче создания ис-

165 кусственного интеллекта, когда роль внешнего дополнения в теореме Геделя о неполноте будет выполнять программа, обладающая определенной свободой вы- бора.
2. Моделирование изменчивости. Выбор параметра, подлежащего моди- фикации при переходе от МР кмодели-потомку осуществляется случайным обра- зом, путем розыгрыша номеров параметров МР, подлежащих модификации. Опи- сание технологии розыгрыша существует во всех книгах, посвященных методу
Монте-Карло, начиная с [13, 14].
Естественная изменчивость обычно формируется в виде розыгрыше слу- чайной величины, подчиненной нормальному закону

ik
a

}
,
a
{
N
2
i ik

, где
ik
a
- зна- чение
i
-го параметра в предшествующей
k
-й модели, i

- среднеквадратическое отклонение (ско) вариаций
i
a
Для нестационарной динамики ско постоянно изменяется. В этом случае новое значение изменяемого параметра можно формировать на основе эмпири- ческого соотношения
]
a a
,
a a
[
u a
a ik ik ik ik ik
)
1
k
(
i









, где
]
[
u  - генератор рав- номерной случайной величины из диапазона, указанного в квадратных скобках,

- величина, определяющая степень вариабельности модифицируемого параметра
i
a
. Обычно данная величина лежит в пределах 5-10% от собственного значения изменяемого параметра. Очевидно, что в последнем случае нужно контролиро- вать принадлежности нового значения параметра диапазону допустимых измене- ний.
Параметрическая мутация отличается от естественной изменчивости низ- кой вероятностью появления (в пределах 1-5%) и крайне большим значением из- меняемого параметра

, лежащим за пределами

3
для стационарных процессов или имеющих

, превышающее 50% от значения изменяемого параметра для не- стационарных процессов.
Для моделирования непараметрической мутации, необходимо a’priori иметь банк допустимых моделей, выбор из которого реализуется на основе случайного розыгрыша. Непараметрическая мутация реализуется с еще меньшей вероятно- стью, чем параметрическая, но значительно чаще, чем в природе. Обычно веро- ятность такой мутации лежит в пределах 0.1-1%.
Заметим, что решение задачи изменчивости можно решать различными методами. В природе в большинстве случаев формирование генома потомка осуществляется путем комбинирования генов из геномов разнополых родителей .
Выбор параметров потомка осуществляется путем случайного выбора параметров от одного или другого родителя. Такой подход используется при использовании генетических алгоритмов последовательной оптимизации.
3. Особенности эволюционной оптимизации для хаотических процес-
сов
Многочисленные приложения эволюционного моделирования и связанных с ним генетических алгоритмов [15-18] позволяют находить эффективные реше- ния для нестационарных процессов, обладающих инерционностью или другими регуляризующими факторами. В отношении хаотических процессов трудно наде- яться на то, что решение, эффективное на обучающей выборке, будет хотя бы в какой-то степени осмысленным на новых данных.

166
В отличие от эволюционного моделирования, эволюционную оптимизацию управляющих стратегий не интересует степень подобия используемой математической модели. Задача состоит в выборе такой модели, которая бы обеспечивала наибольшую эффективность реализации управляющей стратегии.
Более того, сама стратегия, как совокупность решающих правил, может войти в состав изменяемых и модифицируемых категорий.
Простейшее решение состоит в формировании банка стратегий, из которого, в процессе непараметрических мутаций случайным образом выбираются наборы решающих правил, списки модифицируемых параметров, их критические значения и диапазоны изменений. Достоинством такого подхода является его реализуемость. Однако при этом ограничивается произвол машинного выбора, отсутствует возможность получения радикально новых стратегий, не предусмотренных программистом. Очевидно, что полное снятие ограничений при случайном формировании управляющих стратегий приведет к бесконечному количеству бессмысленных решающих правил.
Ожидание появления сколько-либо разумного решения потребует времени, соизмеримого с реальной биологической эволюцией. В то же время любая регуляризация, любая совокупность ограничений может закрыть доступ к неожиданным оригинальным решениям. При этом остается открытым вопрос о технологии искусственной генерации вариантов управляющих стратегий.
Эволюционная технология, как и вся вероятностно-статистическая парадигма, ориентирована на комфортную гипотезу о повторяемости опытов в неизменных или медленно меняющихся условиях. Переход к нестационарным, а тем более, хаотическим процессам неизбежно разрушает все статистические технологии, в том числе и эволюционное моделирование. Однако в природе хаоса, как правило, присутствуют некоторые регуляризующие эффекты, снижающие степень тотальной неопределенности.
Если эволюционная технология сможет выделить, хотя бы не явно, и использовать такие скрытые закономерности, то задача построения выигрышной стратегии может оказаться реализуемой.
Кроме того, применение эволюционной вычислительной схемы позволят ответить на вопрос о принципиальной допустимости той или иного класса управ- ляющих стратегий.
4. Формализованная постановка эволюционной оптимизации.
Имеется некоторая игровая стратегия
}
a
,
p
,
K
{
S
*
, определяемая критери- альными правилами
K
, критическими значениями правил принятия решений
*
p и технологическими параметрами алгоритма анализа данных
a
. Эффективность стратегии
)
S
(
Eff оценивается на основе ее применения к временным рядам на- блюдений
)
t
(
Y
, образующим в совокупности опытный полигон ретроспективных данных.
Введем два нелинейных оператора.
1. Оператор изменчивости и размножения стратегий
}
j
,
i
,
S
S
S
:
S
...,
,
S
{
S
:
)
S
(
j i
N
1
a





2. Оператор селекции и отбора
},
N
j
),
S
(
Eff
)
S
(
Eff
)
S
(
Eff
:
S
...,
,
S
{
}
S
..,
,
S
{
:
)
S
,...,
S
(
a j
N
1
N
)
1
N
1
N
1
a a
g g

















167 где
a
N
- количество «выживших» стратегий, которые допускаются для даль- нейшего размножения-модификации (индекс a – от «ancestor», «предок»);
)
N
1
(
N
N
d
a
g


- количество стратегий одного поколения, подлежащие селекции- отбору (индекс g – от «generation», «поколение»),
d
N
- количество стратегий- потомков, генерируемых в соответствии с правилами размножения-модификации на каждой итерации (индекс d– от «descendant», «потомок»).
Пусть
}
a
,
p
,
K
{
S
S
0
*
0
0
o

- конкретный вариант управляющей стратегии с заданными параметрами, принятой в качестве базовой «стратегии-родителя». То- гда технология эволюционной оптимизации сводится к циклическому повторению выполнения последовательности операторов
}
S
...,
S
{
S
)
S
,...,
S
(
}
S
,...,
S
{
)
S
(
S
a
g
g
N
,
1
0
N
1
N
1
0
o












Поскольку селекция осуществляется по критерию превосходства, опти- мальность терминального решения не гарантируется. Однако оно будет наилуч- шим из всего множества случайного перебора, формируемого в процессе реали- зации эволюционной технологии.
5. Вычислительные аспекты. Рекуррентные операции завершаются по выполнению заданного числа итераций или при превышении показателя эффек- тивности заданного порогового значения
Процесс эволюционной оптимизации является заведомо сходящимся к бо- лее эффективным стратегиям в силу самого его построения. Действительно, но- вое поколение всегда включает в свой состав и стратегии-родители, отобранные по критерию наибольшей эффективности. Таким образом, наиболее эффектив- ные стратегии в принципе не могут быть отброшены принятой процедурой селек- ции и отбора. Однако высокую скорость сходимости ожидать не приходиться в силу случайности процесса модификации. Наиболее вероятно, что скорость сходимости будет близка к скорости сходимости случайного поиска и зависит от размера формируемого поколения g
N . Можно предположить, что скорость сходимости будет выше, если количество стратегий-потомков (СП)
d
N
сделать зависимым от эффективности
стратегий-родителей
(СР), т.е.
1
k
)),
S
(
Eff
(
k
N
a d


. Иными словами, более эффективный предок может порождать большее количество потомства. Однако данное утверждение требует дополнительной проверки.
Возможны и другие методы регуляризации, направленные на увеличение скорости сходимости эволюционной оптимизации.
Функциональная структура алгоритма эволюционной оптимизации управ- ляющих стратегий приведена на рис. 1. Последовательность эволюции представ- лена схемой процесса, развивающегося снизу вверх. Вторые индексы у стратегий упущены, чтобы не загромождать и без того насыщенную схему.
Рассмотрим работу приведенного алгоритма. На первом шагу формируется некоторая базовая стратегия (прототип), структура которой выбирается случайно или исходя из имеющегося априорного опыта по управлению активами.

168
С помощью генератора изменчивости базовая стратегия-прототип видоиз- меняется, порождая
a
N
новых СР. Для этого разыгрывается тип изменения (есте- ственная изменчивость, параметрическая или непараметрическая мутация) и в зависимости от сделанного выбора осуществляется разыгрывание объекта мо- дификации и собственно величина соответствующего изменения.
В свою очередь каждая из новых стратегий является прототипом, случай- ные изменения которых порождают еще
d
N
новых стратегий-потомков.
Вся совокупность исходных стратегий образует первое поколение страте- гий, подлежащих сравнительному анализу по критерию эффективности. Каждая из стратегий первого поколения проходит процедуру тестирования путем приме- нения на множестве ретроспективных наблюдений
)}
(
),
(
{
T
t
Y
t
Y

, где
T
- размер ис- пытательного полигона данных. Сравнение эффективности сформированных стратегий осуществляется путем прямой ранжировка ряда
g
i
N
i
S
Eff
,...,
0
),
(

, по- зволяющей отобрать заданное количество
a
N
«выживших» стратегий, которые допускаются для дальнейшего «размножения» (модификации). Индекс a – от
«ancestor», «предок».
Отобранные стратегии являются родителями нового множества модифици- рованных стратегий-потомков и вместе с ними образуют второе поколение.
Селекция
Селекция
Рис. 1. Общая функциональная структура алгоритма эволюционной оптимизации управляющей стратегии
Стратегия-прототип

1 ... 15 16 17 18 19 20 21 22 23