V в координатах х-у, при- чем координата х равна четырем, а координата y – трем. Квадратный корень из суммы квадра- тов этих компонент равен пяти. Деление каждой компоненты V на пять дает вектор V с компонентами 4/5 и 3/5, где V’ указывает в том же направлении, что и V, но имеет единичную длину. На рис. 4.9 показано несколько единичных векторов. Они оканчиваются в точках еди- ничной окружности (окружности единичного радиуса), что имеет место, когда у сети лишь два ij i i К v NET 1 j = = 2 n 2 2 2 1 i i ' x x x x x + + + = 4.1
Системный анализ и принятие решений Макаров Л.М. 76 входа. В случае трех входов векторы представлялись бы стрелками, оканчивающимися на по- верхности единичной сферы. Эти представления могут быть перенесены на сети, имеющие произвольное число входов, где каждый входной вектор являетсярадиусом, оканчивающейся на поверхности единичной гиперсферы. Рис. 4.8 Единичный входной вектор При обучении слоя Кохонена на вход подается входной вектор и вычисляются его ска- лярные произведения с векторами весов, связанными со всеми нейронами Кохонена. Нейрон с максимальным значением скалярного произведения объявляется «победителем» и его веса под- страиваются. Так как скалярное произведение, является мерой сходства между входным векто- ром и вектором весов, то процесс обучения состоит в выборе нейрона Кохонена с весовым век- тором, наиболее близким к входному вектору, и дальнейшем приближении весового вектора к входному. Рис. 4.9. Двумерные единичные векторы на единичной окружности Этот процесс является самообучением, выполняемым без учителя. Сеть самоорганизует- ся таким образом, что данный нейрон Кохонена имеет максимальный выход для данного вход- ного вектора. Уравнение, описывающее процесс обучения имеет следующий вид: ) ( W W c н c W x − + = 4.2
Системный анализ и принятие решений Макаров Л.М. 77 где wн – новое значение веса, соединяющего входную компоненту х с выигравшим нейроном; wс – предыдущее значение этого веса; – коэффициент скорости обучения, который может ва- рьироваться в процессе обучения. Каждый вес, связанный с выигравшим нейроном Кохонена, изменяется пропорциональ- но разности между его величиной и величиной входа, к которому он присоединен. Направление изменения минимизирует разность между весом и его входом. Иллюстрация этой процедуры приведена на рис. 4.10 Сначала находится вектор X – Wс , для этого проводится отрезок из конца W в конец X. Затем этот вектор укорачивается умножением его на скалярную величину , меньшую едини- цы, в результате чего получается вектор изменения δ. Окончательно новый весовой вектор Wн является отрезком, направленным из начала координат в конец вектора δ. Отсюда можно ви- деть, что эффект обучения состоит во вращении весового вектора в направлении входного век- тора без существенного изменения его длины. Переменная является коэффициентом скорости обучения, который вначале обычно равен 0,7 и может постепенно уменьшаться в процессе обучения. Это позволяет делать боль- шие начальные шаги для быстрого грубого обучения и меньшие шаги при подходе к оконча- тельной величине. Рис. 4.3. Вращение весового вектора в процессе обучения Wн – вектор новых весовых коэффициентов, Wс – вектор старых весовых коэффициентов Если бы с каждым нейроном Кохонена ассоциировался один входной вектор, то слой Кохонена мог бы быть обучен с помощью одного вычисления на вес. Веса нейрона-победителя приравнивались бы к компонентам обучающего вектора ( = 1). Как правило, обучающее мно- жество включает много сходных между собой входных векторов, и сеть должна быть обучена Системный анализ и принятие решений Макаров Л.М. 78 активировать один и тот же нейрон Кохонена для каждого из них. В этом случае веса этого нейрона должны получаться усреднением входных векторов, которые должны его активиро- вать. Постепенное уменьшение величины уменьшает воздействие каждого обучающего шага, так что окончательное значение будет средней величиной от входных векторов, на которых происходит обучение. Таким образом, веса, ассоциированные с нейроном, примут значение вблизи «центра» входных векторов, для которых данный нейрон является «победителем». Рассмотрим выбор начальных значений весовых векторов. Всем весам сети перед нача- лом обучения следует придать начальные значения. Общепринятой практикой при работе с нейронными сетями является присваивание весам небольших случайных значений. При обуче- нии слоя Кохонена случайно выбранные весовые векторы следует нормализовать. Окончатель- ные значения весовых векторов после обучения совпадают с нормализованными входными векторами. Поэтому нормализация перед началом обучения приближает весовые векторы к их окончательным значениям, сокращая, таким образом, обучающий процесс. Рандомизация весов слоя Кохонена может породить серьезные проблемы при обучении, так как в результате ее весовые векторы распределяются равномерно по поверхности гиперсфе- ры. Из-за того, что входные векторы, как правило, распределены неравномерно и имеют тен- денцию группироваться на относительно малой части поверхности гиперсферы, большинство весовых векторов будут так удалены от любого входного вектора, что они никогда не будут да- вать наилучшего соответствия. Эти нейроны Кохонена будут всегда иметь нулевой выход и окажутся бесполезными. Более того, оставшихся весов, дающих наилучшие соответствия, мо- жет оказаться слишком мало, чтобы разделить входные векторы на классы, которые располо- жены близко друг к другу на поверхности гиперсферы. Допустим, что имеется несколько множеств входных векторов, все множества сходные, но должны быть разделены на различные классы. Сеть должна быть обучена активировать от- дельный нейрон Кохонена для каждого класса. Если начальная плотность весовых векторов в окрестности обучающих векторов слишком мала, то может оказаться невозможным разделить сходные классы из-за того, что не будет достаточного количества весовых векторов в интере- сующей нас окрестности, чтобы приписать по одному из них каждому классу входных векто- ров. Наоборот, если несколько входных векторов получены незначительными изменениями из одного и того же образца и должны быть объединены в один класс, то они должны включать один и тот же нейрон Кохонена. Если же плотность весовых векторов очень высока вблизи группы слегка различных входных векторов, то каждый входной вектор может активировать отдельный нейрон Кохонена. Наиболее желательное решение состоит в том, чтобы распределять весовые векторы в Системный анализ и принятие решений Макаров Л.М. 79 соответствии с плотностью входных векторов, которые должны быть разделены, помещая тем самым больше весовых векторов в окрестности большого числа входных векторов. На практике это осуществить трудно, однако существует несколько методов приближенного достижения тех же целей. Одно из решений, известное под названием метода выпуклой комбинации (convex combination method), состоит в том, что все веса приравниваются одной и той же величине: где n – число входов и, следовательно, число компонент каждого весового вектора. Благодаря этому все весовые векторы совпадают и имеют единичную длину. Каждой же компоненте вхо- да Х придается значение: где n – число входов. В начале очень мало, вследствие чего все входные векторы имеют дли- ну, близкую к n 1 , и почти совпадают с векторами весов. В процессе обучения сети посте- пенно возрастает, приближаясь к единице. Это позволяет разделять входные векторы и оконча- тельно приписывает им их истинные значения. Весовые векторы отслеживают один или не- большую группу входных векторов и в конце обучения дают требуемую картину выходов. Ме- тод выпуклой комбинации хорошо работает, но замедляет процесс обучения, так как весовые векторы подстраиваются к изменяющейся цели. Другой подход состоит в добавлении шума к входным векторам. Тем самым они подвергаются случайным изменениям, «поглощая» в конце концов весовой вектор. Этот метод также работоспособен, но еще более медленен, чем метод выпуклой комбинации. Третий метод начинает со случайных весов, но на начальной стадии обучающего про- цесса подстраивает все веса, а не только связанные с выигравшим нейроном Кохонена. Тем са- мым весовые векторы перемещаются ближе к области входных векторов. В процессе обучения коррекция весов начинает производиться лишь для ближайших к победителю нейронов Кохо- нена. Этот радиус коррекции постепенно уменьшается, так что в конце концов корректируются только веса, связанные с выигравшим нейроном Кохонена. Еще один метод наделяет каждый нейрон Кохонена «Чувством справедливости». Если он становится победителем чаще своей законной доли времени (примерно 1/k, где k – число n w i 1 = 4.2 n x i − + = 1 x i 4.2
Системный анализ и принятие решений Макаров Л.М. 80 нейронов Кохонена), он временно увеличивает свой порог, что уменьшает его шансы на выиг- рыш, давая тем самым возможность обучаться и другим нейронам. Во многих приложениях точность результата существенно зависит от распределения весов. Для сокращения времени расчетов допустимо использовать процедуру интерполяции. Рассмотрим некоторые аспекты реализации этой процедуры. Первоначально обсуждался алгоритм обучения, в котором для каждого входного вектора активировался лишь один нейрон Кохонена. Это называется методом аккредитации. Его точ- ность ограничена, так как выход полностью является функцией лишь одного нейрона Кохоне- на. В методе интерполяции целая группа нейронов Кохонена, имеющих наибольшие выхо- ды, может передавать свои выходные сигналы в слой Гроссберга. Метод интерполяции спосо- бен устанавливать более сложные соответствия и может давать более точные результаты. Статистические свойства обученной сети Метод обучения Кохонена обладает полезной и интересной способностью извлекать статисти- ческие свойства из множества входных данных. Для полностью обученной сети вероятность того, что случайно выбранный входной вектор будет ближайшим к любому заданному весово- му вектору, равна 1/k, где k – число нейронов Кохонена. Это является оптимальным распреде- лением весов на гиперсфере. Процедура выявления подобия текстового материала и формирование близких по семан- тическим признакам групп текстовых документов позволяет создавать кластеры. Понятие кла- стерного пространства можно создать посредством обращения к множеству сфер деятельности человека, где осуществляется творческая деятельность. Рассматривая творчество как процесс создания информационных материалов можно говорить о представлении знаний – позициони- ровании знаний. Процесс представление знаний порождает вопрос, возникающий в когнитоло- гии (науке о мышлении), в информатике и в исследованиях искусственного интеллекта. В ко- гнитологии он связан с тем, как люди хранят и обрабатывают информацию. В информатике — с подбором представления конкретных и обобщённых знаний, сведений и фактов для накопле- ния и обработки информации в ЭВМ. Главная задача в искусственном интеллекте (ИИ) — научиться хранить знания таким образом, чтобы программы могли осмысленно обрабатывать их и достигнуть тем подобия человеческого интеллекта. Под термином «представление знаний» чаще всего подразумеваются способы представ- ления знаний, ориентированные на автоматическую обработку современными компьютерами, и, в частности, представления, состоящие из явных объектов и из суждений или утверждений о них. Выделяя информационные концепции формирования и представления знаний, вводят Системный анализ и принятие решений Макаров Л.М. 81 понятие онтологии, как науки о формальном позиционировании некоторой области знаний, безусловно, связанной с другими областями деятельности человека. Неразрывная связь практи- ческой и творческой деятельности человека позволяет создавать определенные схемы взаимной связи этих областей, которые относят к онтологии. Обычно такая схема состоит из структуры данных, содержащей все релевантные классы объектов, их связи и правила, принятые в этой области. Принимая во внимание основные концептуальные положения, такие как структура и свойства среды, а также время формирования и развития событий в среде, в рамках информа- ционной онтологии рассматриваются проблемы представления знаний посредством специаль- ных инструментальных средств – компьютеров. Задача наилучшего позиционирования онтологий состоит в нахождении такого расслое- ния пространства на области, при котором минимизируется среднеквадратичная ошибка, воз- никающая при замене векторов выборки на позиционные вектора этих областей. В обобщенном виде этот алгоритм реализуется последовательностью процедур: 1. вектора обучающей выборки нормируются, после чего их концы попадают на поверх- ность единичной гиперсферы; 2. в местах скопления векторов по некоторому правилу выбираются несколько позицион- ных векторов; 3. для каждого вектора эталонной выборки находится ближайший позиционный вектор; 4. найденный позиционный вектор сдвигается в направлении вектора эталонной выборке на некоторое, небольшое расстояние. 5. процедуры 3-4 повторяются до тех пор, пока среднеквадратичная ошибка сети не пере- станет изменяться. Поскольку и позиционные вектора, и вектора обучающей выборки нормированы, то в п.3 в качестве меры близости можно использовать скалярное произведение векторов, что существен- но быстрее, чем подсчет квадрата разности векторов. Приведенный вариант алгоритма является, в каком-то смысле, базовым, существуют раз- личные его улучшения, позволяющие достичь более быстрого обучения. Один из них называет- ся «Метод k-средних» и используется на конечных выборках. В этом случае, шаги 3-5 выпол- няются следующим образом: 1. вектора обучающей выборки нормируются, после чего их концы попадают на поверх- ность единичной гиперсферы; 2. в местах скопления векторов по некоторому правилу выбираются несколько позицион- ных векторов; 3. для каждого позиционного вектора находятся ближайшие вектора выборки; Системный анализ и принятие решений Макаров Л.М. 82 4. позиционный вектор заменяется на средний вектор ближайших векторов выборки; 5. пункты 3-4 повторяются до тех пор, пока среднеквадратичная ошибка сети не переста- нет изменятся. Метод k средних – один из широко используемых методов формирования кластерного про- странства. Алгоритм формирования кластерного пространства разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать дисперсию на точках каждого кластера: где k - число кластеров, S i - полученные кластеры, и μ i - центры масс векторов Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кла- стеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной мет- рике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. В любом случае, в результате обучения получается разбивка онтологического простран- ства на «регионы», позиционные вектора которых являются наилучшими в среднеквадратич- ном смысле приближением всей совокупности векторов. Средняя величина дает обобщенную характеристику изучаемой совокупности по неко- торому варьирующему (изменяющемуся) признаку. Другими словами показывает типичный для данных условий уровень этого признака. Поскольку средняя величина - абстрактная вели- чина, то для характеристики структуры ряда привлекаются описательные показатели – мода и медиана. Однако в двух совокупностях средняя оценка, мода и медиана могут быть одинако- выми. При этом отдельные значения признака могут приближаться к среднему значению и ма- ло от него отличаться. Или, наоборот, отдельные значения признака могут далеко отстоять от средних значений признака и сильно от него отличаться. На этих суждениях нетрудно сделать важный вывод: в первом случае средняя будет хорошо представлять (характеризовать) всю со- вокупность, во втором случае средняя будет плохо представлять всю совокупность. Следовательно, наряду со средними величинами большое практическое и теоретическое = − = k 1 2 ) ( V i S x i i i i x
Системный анализ и принятие решений Макаров Л.М. 83 значение имеет изучение отклонений от средних значений. Оценки отклонений отдельных зна- чений от средней называют показателями вариации. Термин “вариация” происходит от латинского слова variation – изменение, различие. Однако не всякие различия принято называть вариацией. Под вариацией в статистике понима- ют такие количественные изменения величин исследуемого признака в пределах качественно однородной совокупности, которые обусловлены взаимосвязанным воздействием различных факторов. По этому принципу различают случайную и систематическую вариацию признака. В статистических исследованиях особый интерес представляет анализ систематической вариации. Изучая разброс значений некоторого параметра и характер вариации в исследуемой совокупности можно оценить насколько однородной является данная совокупность в количе- ственном отношении. В дополнении к этому можно указать, что иногда рассматривается и ка- чественное отношение, а, следовательно, отыскивается насколько характерной является исчис- ленная средняя величина. Поэтому средние характеристики необходимо дополнять показателя- ми, измеряющими отклонения от средних значений. Степень близости индивидуальных значений признака (вариант) к средней измеряется рядом абсолютных, средних и относительных статистических показателей. К ним относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклоне- ние, показатели степени вариации с порядковыми (ранговыми) характеристиками распределе- ния, показатели относительного рассеивания. Для всех показателей вариации общим является следующие: • если показатель вариации близок к нулю, то средняя арифметическая будет достаточно надежной характеристикой данной совокупности; • если же ряд распределения характеризуется значительным рассеиванием величины по- казателя вариации, то средняя арифметическая будет ненадежной и ее практическое примене- ние будет ограничено. Средние, являются обобщающими статистическими характеристиками изучаемого мас- сового явления по тому или иному варьирующему признаку и одновременно своего рода аб- стракцией. Они отражают то общее, что присуще всем единицам совокупности. При этом мо- жет случиться, что величина средней не имеет точного равенства ни с одним из конкретных встречающихся в совокупности вариантов. Поэтому наравне со средними оценками в качестве общих статистических характери- стик изучаемого признака могут быть использованы величины конкретных вариантов, занима- ющих в ранжированном ряду индивидуальных значений признака определенное положение. В статистических исследованиях в качестве вспомогательных описательных статистиче- ских характеристик распределения варьирующего признака широко применяются мода и меди- Системный анализ и принятие решений Макаров Л.М. 84 ана. Модой в статистике называется величины признака (варианта), которая чаще всего встре- чается в данной совокупности. В оценке моды принято выделять модальный интервал – интер- вал с наибольшей частотой. Медианой в статистике называется варианта, которая находится в середине вариационного ряда. Развитие идеи метода нейросетевого анализа реализуется построением карты признаков, с использованием известных методов анализа главных компонент. Главные компоненты рас- пределения облака векторов, это такие направления в пространстве, на которые проекция обла- ка векторов является наибольшей. Метод главных компонент — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Задача анализа главных компонент, имеет, как минимум, четыре базовых версии: 1. аппроксимировать данные линейными многообразиями меньшей размерности; 2. найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) макси- мален; 3. найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально; 4. для данной многомерной случайной величины построить такое ортогональное преобра- зование координат, что в результате корреляции между отдельными координатами обра- тятся в ноль. Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвертая версия опери- рует случайными величинами. Конечные множества в четвертой версии создаются как выборки из данного распределения, а решение трех первых задач — как приближение к «истинному» преобразованию. Учитывая эти ограничения, положим, что исходное множество данных конечно. Рассмот- рим аппроксимацию исходных данных линейными многообразиями. Полагаем, что задано конечное множество векторов . Для каждого k = 0,1,...,n − 1 среди всех k-мерных линейных многообразий в требуется найти такое , для которого сумма квадратов отклонений x i от L k минимальна:
Системный анализ и принятие решений Макаров Л.М. 85 где — евклидово расстояние от точки до линейного многообразия. Очевидно, что всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры βi пробегают вещественную прямую , а — ортонормированный набор векторов: где оператор представляет евклидову норму, — евклидово скалярное произведе- ние, или в координатной форме: Решение задачи аппроксимации для k = 0,1,...,n − 1 дается набором вложенных линейных многообразий , . Эти линей- ные многообразия определяются ортонормированным набором векторов , кото- рые традиционно именуют векторами главных компонент, и, вектором a 0 Вектор a 0 отыскивается, как решение задачи минимизации для L 0 : Или иначе:
Системный анализ и принятие решений Макаров Л.М. 86 Где выборочное среднее: Метод главных компонент – известен как один из способов понижения размерности, со- стоящий в переходе к новому ортогональному базису, оси которого ориентированы по направ- лениям максимальной дисперсии набора входных данных. Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси, и т.д., последняя ось имеет минимальную дисперсию из всех возможных. Такое преобразование позволяет понижать информацию путем отбрасывания координат, соответ- ствующих направлениям с минимальной дисперсией. Предполагается, что если надо отказаться от одного из базисных векторов, то лучше, если это будет тот вектор, вдоль которого набор входных данных меняется менее значительно. Можно отметить, что в основе метода главных компонент лежат следующие допущения: • размерность данных может быть эффективно понижена путем линейного преобразова- ния; • больше всего информации несут те направления, в которых дисперсия входных данных максимальна. В целом данные предположения являются верными. Однако, эти предположения далеко не всегда сопутствуют получению верных оценок. Например, если точки входного множества располагаются на поверхности гиперсферы, то никакое линейное преобразование не сможет понизить размерность и получить верные оценки. Данный постулат следует из практики при- менения данного метода. Это недостаток в равной мере свойственен всем линейным алгорит- мам и может быть преодолен за счет использования дополнительных фиктивных переменных, являющихся нелинейными функциями от элементов набора входных данных. Другой недоста- ток метода главных компонент состоит в том, что выбор направления, по которым дисперсия максимальна, не всегда максимизируют информативность.
Системный анализ и принятие решений Макаров Л.М. 87 Заключение Характер технического прогресса в последнее время, особенно в области информацион- ных технологий, а также практические успехи, сделанные в области искусственного интеллек- та, уже дали положительный ответ на вопрос о возможности создания искусственных мысля- щих систем. Современные идеи информатики значительно развили представления эпохи Фон- неймановских компьютеров и жестко заданных алгоритмов. Несомненно, терминология по- строения жестких программ, принятая в области автоматизации, постепенно трансформируется в «адаптивные вычисления», которые уже сегодня нельзя реализовать без использования пред- ставлений о нейросетевых вычислениях, реализуемым на основе известных моделей работы нейронных структур головного мозга. Можно признать, что первоначальные устремления разработчиков сервисного про- граммного обеспечения, ориентированного на повышение эффективности труда профессиона- лов, по созданию интерактивных режимов работы, обеспечили формирование общей платфор- мы реализации сложных проектов по организации диалогового режима человека с компьюте- ром. Наличие на современном рынке большого количества программных продуктов по стати- стической обработке сигналов не понижает интерес к этой проблеме, а создает известные пред- посылки развития статистических методов для применения в новых более сложных задачах. В качестве одной из актуальных проблем в области использования статистических методов ана- лиза сегодня рассматривается задача формирования концептуальных суждений об исследуемом массиве данных, представленных сигналом, в широком смысле этого термина. Развитие стати- стических воззрений на область исследования стимулируется постоянно возрастающим инфор- мационным потоком, в котором выделяются не только традиционные модели приемо- передающих устройств, устройств генерации сигналов, каналов связи, но и сообщения, пред- ставленные в формате текстовых документов. Возрастающая потребность обработки больших массивов данных требует использования известных и хорошо проверенных методов, в качестве которых рассматриваются статистические методы. В учебном пособии представлены основные принципы формирования суждений о си- стемном анализе и методах принятия решений. Выделены статистические методы анализа сиг- налов, а также современные модели и методы обработки экспериментального материала. Ис- пользование нейросетевых моделей в построении статистических конструкций алгоритмов и программ анализа данных создает известные предпосылки сближения формирования логиче- ских суждений человека и компьютера. Системный анализ и принятие решений Макаров Л.М. 88 Литература 1. Улитина Е. В., Леднева О. В., Жирнова О. Л. Статистка , М., Московская Финансово- Промышленная Академия, 2010 г. 2. Орехова С. А. Статиска , М., Эксмо, 2010 г. 3. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы, СПб., Горячая линия – Телеком 2010 г. 4. Шамис А. Л. Пути моделирования мышления. М., КомКнига. 2009 г. 5. Лэй Э. Цифровая обработка сигналов для инженеров и технических специалистов, СПб., Горячая линия – Телеком 2010 г 6. Рыжак И. С. Избранные вопросы теории цепей и обработки сигналов М., Блок-Информ- Эксперсс, 2010 г.
|