Методы кластеризации четкие и нечеткие
Скачать 267.87 Kb.
|
Альфацефей Методы кластеризации: четкие и нечеткие. Кластерный анализ – это метод разделение данных на классы объектов, в каждом из которых объекты имеют похожие свойства. Сам по себе кластерный анализ - это не конкретный алгоритм, а общая задача, которую необходимо решить с помощью различных алгоритмов. Не существует объективно «правильного» алгорит- ма кластеризации. Наиболее подходящий алгоритм кластеризации необходимо выбирать экспериментально, в зависимости от набора данных, если только не существует математической причины предпочесть один алгоритм другому. Методы кластеризации можно разделять по способу обработки данных, по способу анализа данных, по мас- штабируемости, по времени выполнения и так далее. Методы по способу анализа данных, в свою очередь, разделяют на четкие (или традиционные) и нечеткие. К четким алгоритмам относятся те алгоритмы, в кото- рых каждый объект данных принадлежит одному кластеру. К нечетким алгоритмам кластеризации относятся те, в которых каждый объект данных принадлежит более одному кластеру с определенной степенью. В 1965 году L. Zadeh [21] представил аксиоматическую структуру – нечеткое множество. Первое применение теории нечетких множеств к кластерному анализу было сделано в 1969 году E.H. Ruspini [16]. Однако только после появления работ J.C. Dunn [9] и J.C. Bezdek [4] теория нечетких множеств приобрела актуальность для кластерного анализа и теории распознавания образов. В 1993 году R. Krishnapuram и J.M. Keller в работе [11] представили возможностный алгоритм кластеризации. Из этой работы также выросла целая ветвь алгоритмов кластеризации. Методы кластеризации относятся к классу задач обучения без учителя и широко используются в теории распознавания образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, ком- пьютерной графике и машинном обучении. В данной лекции мы подробно рассмотрим некоторые четкие и нечеткие алгоритмы кластеризации и расска- жем о преимуществах и недостатках каждого. Начнем с хорошо известного ЕМ-алгоритма. 1 EM-алгоритм. EM-алгоритм – это итеративный метод нахождения оценок максимального правдоподобия параметров ста- тистической модели, когда модель зависит от скрытых ненаблюдаемых переменных. Каждая итерация ал- горитма состоит двух шагов. На шаге ожидания (expectation) вычисляется ожидаемое значение функции правдоподобия с использование текущей оценки параметров. На шаге максимизации (maximization) вычис- ляются параметры, максимизирующие ожидаемую функцию максимального правдоподобия, найденную на шаге ожидания. Впервые такое название алгоритма появилось в работе [7], хотя подобная итерационная процедура рассматривалась гораздо раньше многими авторами, например, A. G. McKendrick [14] и М. И. Шлезингером [3]. 1.1 Общее описания алгоритма. [1] Пусть 𝑋 и 𝑌 – случайные величины, принимающие значения в пространствах R 𝑛 и R 𝑚 соответственно, где 𝑛, 𝑚 ≥ 1 . Пусть 𝜃 – параметр из некоторого множества Θ произвольной природы. Плотность совместного распределения (𝑛 + 𝑚)-мерного случайного вектора (𝑋, 𝑌 ) обозначим 𝑓 𝜃 (𝑥, 𝑦), 𝑥 ∈ R 𝑛 , 𝑦 ∈ R 𝑚 , 𝜃 ∈ Θ. Условная плотность случайной величины 𝑌 при условии 𝑋 = 𝑥 определяется как 𝑓 𝜃 (𝑦|𝑥) = 𝑓 𝜃 (𝑥, 𝑦) 𝑓 𝑋 𝜃 (𝑥) , 𝑦 ∈ R 𝑚 , (1) где 𝑓 𝑋 𝜃 (𝑥) = ∫︁ R 𝑚 𝑓 𝜃 (𝑥, 𝑦)𝜇 𝑌 (𝑑𝑦) 1 Альфацефей является маргинальной плотностью случайной величины 𝑋 относительно меры 𝜇 𝑌 . Выражение (1) имеет смысл, если 𝑓 𝑋 𝜃 (𝑥) ̸= 0 . Аналогично определяется условная плотность случайной величины 𝑋 при условии 𝑌 = 𝑦 : 𝑓 𝜃 (𝑥|𝑦) = 𝑓 𝜃 (𝑥, 𝑦) 𝑓 𝑌 𝜃 (𝑦) , 𝑥 ∈ R 𝑛 (2) Выражение (2) имеет смысл, если маргинальная плотность случайной величины 𝑌 относительно меры 𝜇 𝑋 𝑓 𝑌 𝜃 (𝑦) = ∫︁ R 𝑛 𝑓 𝜃 (𝑥, 𝑦)𝜇 𝑋 (𝑑𝑥) ̸= 0. В качестве мер 𝜇 𝑥 и 𝜇 𝑌 рассматривается либо мера Лебега, либо другая считающая мера (формальный эквивалент количества элементов множества). Из соотношений (1), (2) вытекает, что 𝑓 𝜃 (𝑥, 𝑦) = 𝑓 𝜃 (𝑦|𝑥)𝑓 𝑋 𝜃 (𝑥) = 𝑓 𝜃 (𝑥|𝑦)𝑓 𝑌 𝜃 (𝑦). (3) Будем считать, что случайная величина 𝑋 имеет смысл наблюдаемых данных, в то время как скрытая (нена- блюдаемая) случайная величина 𝑌 играет вспомогательную роль. Зная совместную плотность 𝑓 𝜃 (𝑥, 𝑦) и зна- чение 𝑥 наблюдаемой величины 𝑋 можно формально определить полную функцию правдоподобия 𝐿(𝜃; 𝑥, 𝑦) = 𝑓 𝜃 (𝑥, 𝑦), 𝜃 ∈ Θ, (4) как функцию параметра 𝜃. При этом 𝐿(𝜃; 𝑥) = 𝑓 𝑋 𝜃 (𝑥), 𝜃 ∈ Θ, (5) функция правдоподобия параметра 𝜃 при неполных данных. Цель ЕМ-алгоритма – найти значения параметра 𝜃, максимизирующее функции (4) или (5) при неизвестном значении 𝑌 или, другими словами, найти оценки максимального правдоподобия параметра 𝜃. Процедура EM-алгоритма состоит из вычисления последовательности значений {𝜃 (𝑚) } , 𝑚 ≥ 1 параметра 𝜃. Если задано некоторое значение 𝜃 (𝑚) , то вычисление следующего значения 𝜃 (𝑚+1) можно разделить на два этапа. Опишем эти этапы. 1. (E-этап) Определим функцию 𝑄(𝜃, 𝜃 (𝑚) ) , как условное математическое ожидание логарифма полной функции правдоподобия при известном значении наблюдаемой компоненты 𝑋: 𝑄(𝜃, 𝜃 (𝑚) ) = 𝐸 𝜃 (𝑚) (log 𝑓 𝜃 (𝑋, 𝑌 )|𝑋). (6) В этом определении 𝜃 является аргументом, а 𝜃 (𝑚) и 𝑋 параметрами. При известном значении 𝑋 = 𝑥 символ 𝐸 𝜃 (𝑚) означает среднее значение случайной величины 𝑌 относительно условного распределения 𝑓 𝜃 (𝑚) (𝑦|𝑥) , то есть: 𝑄(𝜃, 𝜃 (𝑚) ) = ∫︁ R 𝑚 (log 𝑓 𝜃 (𝑋, 𝑌 ))𝑓 𝜃 (𝑚) (𝑦|𝑥)𝜇 𝑌 (𝑑𝑦). 2. (М-этап) На этом этапе вычисляется 𝜃 (𝑚+1) = arg max 𝜃 𝑄(𝜃, 𝜃 (𝑚) ). (7) Далее выбирается метрика 𝜌(·, ·) и фиксируется малое положительное 𝜀. Итерационный процесс оста- навливается на m-ом шаге, если 𝜌(𝜃 (𝑚) , 𝜃 (𝑚+1) ) < 𝜀 Отметим свойство монотонности EM-алгоритма, которое впервые было установлено в работе [3]. Однако этого недостаточно, чтобы утверждать, что последовательность оценок параметров, построенная ЕМ-алгоритмом, гарантировано сходится к локальному максимуму функции правдоподобия. Чтобы установить такую сходи- мость, приходится предполагать, что рассматриваемые распределения удовлетворяют дополнительным усло- виям регулярности, и, в частности, условиям гладкости (подробнее смотри в [1]). Одновременно монотонность ЕМ-алгоритма свидетельствует о его сильной зависимости от выбора начального (стартового) приближения. 2 Альфацефей 1.2 Применение EM-алгоритма к задаче разделения смесей вероятностных рас- пределений. [1] Задача поиска наиболее правдоподобных оценок параметров смесей вероятностных распределений является одним из самых популярных приложений EM-алгоритма. Предполагается, что данные в каждом кластере подчиняются определенному закону распределения. Для наглядности будем рассматривать смеси одномерных распределений. В рамках данной задачи плотность распределения наблюдаемой случайной величины 𝑋 имеет вид 𝑓 𝑋 𝜃 (𝑥) = 𝑘 ∑︁ 𝑖=1 𝑝 𝑖 𝜓 𝑖 (𝑥; 𝑡 𝑖 ), (8) где 𝑘 ≥ 1 – известное натуральное число, 𝜓 1 , . . . 𝜓 𝑘 – известные плотности распределения, 𝜃 = (𝑝 1 , . . . , 𝑝 𝑘 , 𝑡 1 , . . . , 𝑡 𝑘 ) – неизвестный параметр, причем каждое 𝑝 𝑖 ≥ 0 и 𝑝 1 + . . . + 𝑝 𝑘 = 1 , 𝑡 𝑖 , 𝑖 = 1, . . . , 𝑘, – многомерные парамет- ры. Плотности 𝜓 1 , . . . , 𝜓 𝑘 будем называть компонентами смеси (8), а 𝑝 1 , . . . , 𝑝 𝑘 – весами соответствующих компонент. Задачей разделения смеси (8) называется задача статистического оценивания параметров 𝜃 = (𝑝 1 , . . . , 𝑝 𝑘 , 𝑡 1 , . . . , 𝑡 𝑘 ) по известным реализациям случайной величины 𝑋. Предположим, что имеется независимая выборка значений 𝑥 = (𝑥 1 , . . . , 𝑥 𝑛 ) случайной величины 𝑋. В рамках модели (8) логарифм классической (неполной) функции правдоподобия параметра 𝜃 имеет вид: log 𝐿(𝜃; 𝑥) = log 𝑛 ∏︁ 𝑗=1 𝑓 𝑋 𝜃 (𝑥 𝑗 ) = 𝑛 ∑︁ 𝑗=1 log (︃ 𝑘 ∑︁ 𝑖=1 𝑝 𝑖 𝜓 𝑖 (𝑥 𝑗 ; 𝑡 𝑖 ) )︃ Непосредственный поиск точки максимума этой функции затруднителен. Однако, если мы будем трактовать наблюдения 𝑥, как неполные, то функцию правдоподобия можно записать в более удобном виде. Предположим, что наряду с наблюдаемой случайной величиной 𝑋 задана ненаблюдаемая случайная величина 𝑌 со значениями (𝑦 1 , . . . , 𝑦 𝑛 ) , где 𝑦 𝑗 ∈ {1, 2, . . . , 𝑘} содержат информацию о номерах компонент, в соответствии с которыми "генерируется" наблюдение 𝑥 = (𝑥 1 , . . . , 𝑥 𝑛 ) . Будем предполагать, что пары значений (𝑥 𝑗 , 𝑦 𝑗 ) являются стохастически независимыми реализациями пары случайных величин (𝑋, 𝑌 ). Совместную плотность случайных величин 𝑋 и 𝑌 , как и раньше, обозначим 𝑓 𝜃 (𝑥, 𝑦) . Так как дискретная случайная величина 𝑌 абсолютно непрерывна относительно считающей меры и принимает значения 𝑖 = 1, 2, . . . , 𝑘 , то ее маргинальная плотность равна 𝑓 𝑌 𝜃 (𝑖) = 𝑝 𝑖 , 𝑖 = 1, 2, . . . , 𝑘, а условная плотность случайной величины 𝑋 при фиксированном значении 𝑌 = 𝑖 равна 𝑓 𝜃 (𝑥|𝑖) = 𝜓 𝑖 (𝑥; 𝑡 𝑖 ). Поэтому, если бы значения 𝑦 = (𝑦 1 , . . . , 𝑦 𝑛 ) были известны, то логарифм полной функции правдоподобия имел бы вид: log 𝐿(𝜃; 𝑥, 𝑦) = log 𝑛 ∏︁ 𝑗=1 𝑓 𝜃 (𝑥 𝑗 , 𝑦 𝑗 ) = 𝑛 ∑︁ 𝑗=1 log 𝑓 𝜃 (𝑥 𝑗 , 𝑦 𝑗 ) = 𝑛 ∑︁ 𝑗=1 log (︀𝑓 𝜃 (𝑥 𝑗 |𝑦 𝑗 )𝑓 𝑌 𝜃 (𝑦 𝑗 ) )︀ = 𝑛 ∑︁ 𝑗=1 log 𝑝 𝑦 𝑗 + 𝑛 ∑︁ 𝑗=1 log 𝜓 𝑦 𝑗 (𝑥 𝑗 ; 𝑡 𝑦 𝑗 ). После некоторых преобразований (подробнее в [1]), условное математическое ожидание логарифма полной функции правдоподобия при фиксированных значениях 𝑥 = (𝑥 1 , . . . , 𝑥 𝑛 ) наблюдаемой случайной величины 𝑋 имеет вид: 𝑄(𝜃, 𝜃 (𝑚) ) = 𝑘 ∑︁ 𝑙=1 𝑛 ∑︁ 𝑗=1 𝑓 𝜃 (𝑙|𝑥 𝑗 ) log 𝑝 𝑙 + 𝑘 ∑︁ 𝑙=1 𝑛 ∑︁ 𝑗=1 𝑓 𝜃 (𝑙|𝑥 𝑗 ) log 𝜓 𝑙 (𝑥 𝑗 ; 𝑡 𝑙 ). (9) Для поиска максимума функции (9) по 𝜃 = (𝑝 1 , . . . , 𝑝 𝑘 , 𝑡 1 , . . . , 𝑡 𝑘 ) можно максимизировать слагаемые в правой части (9) независимо друг от друга, так как они зависят от разных параметров: первое зависит только от весов 𝑝 1 , . . . , 𝑝 𝑘 , а второе - только от параметров 𝑡 1 , . . . , 𝑡 𝑘 компонент смеси. Учитывая ограничение 𝑘 ∑︁ 𝑙=1 𝑝 𝑙 = 1, 3 Альфацефей с помощью метода неопределенных множителей Лагранжа находим значение 𝜃 = (𝑝 1 , . . . , 𝑝 𝑘 , 𝑡 1 , . . . , 𝑡 𝑘 ) , достав- ляющие максимум функции (9). Подразумевая, что значения 𝜃 (𝑚) = (𝑝 (𝑚) 1 , . . . , 𝑝 (𝑚) 𝑘 , 𝑡 (𝑚) 1 , . . . , 𝑡 (𝑚) 𝑘 ) параметра 𝜃 на 𝑚-ой итерации известны, находим 𝑝 (𝑚+1) 1 , . . . , 𝑝 (𝑚+1) 𝑘 на 𝑚 + 1-итерации ЕМ-алгоритма. Отметим, что в прикладных работах ЕМ-алгоритм чаще всего применяется к исследованию модели (8), где 𝜓 𝑖 (𝑥; 𝑡 𝑖 ) – плотность нормального распределения вероятностей. Однако, именно эта модель не удовлетворяет условиям, гарантирующим правильную работу ЕМ-алгоритма. А именно, сходимость ЕМ-алгоритма доказа- на при обязательном условии ограниченности логарифма функции правдоподобия. Для смесей нормальных распределений указанное условие, вообще говоря, не выполняется. Также наличие большого числа локальных максимумов логарифма функции правдоподобия для модели (8) с большим числом (𝑘 ≥ 2) нормальных ком- понент приводит к большой неустойчивости по отношению к начальному приближению и исходным данным. 2 Алгоритм k-средних. Алгоритм k-средних разбивает 𝑛 наблюдений на 𝑘 ≤ 𝑛 кластеров, при этом каждое наблюдение принадле- жит тому кластеру, к центру которого оно ближе всего. Термин "k-средних" впервые появился в работе [13]. Алгоритм прост в реализации, но в тоже время требует больших вычислительных ресурсов. Он похож на EM- алгоритм, применяемый для разделения смеси гауссиан. Оба они используют итеративный подход уточнения, а кластерные центры используются для моделирование данных. Однако алгоритм k-средних стремится найти не пересекающиеся кластеры, имеющие сферическую форму, в то время, как EM-алгоритм позволяет кла- стерам пересекаться и иметь любую форму, так как функции распределения, используемые в ЕМ-алгоритме, имеют дисперсию и ковариацию. Пусть задано множество наблюдений 𝑋 = (𝑥 1 , . . . , 𝑥 𝑛 ) , где 𝑥 𝑖 ∈ R 𝑑 , 𝑖 = 1, . . . , 𝑛. Требуется разбить множество наблюдений 𝑋 на 𝑘 непересекающихся кластеров 𝑆 1 , . . . , 𝑆 𝑘 , 𝑆 𝑖 ∩ 𝑆 𝑗 = ∅, 𝑖 ̸= 𝑗, ⋃︀ 𝑘 𝑖=1 𝑆 𝑖 = 𝑋 , таким образом, чтобы минимизировать сумму квадратов расстояний от каждой точки кластера до его центра (центра масс кластера), что равносильно поиску arg min 𝑠 𝑘 ∑︁ 𝑖=1 ∑︁ 𝑥∈𝑆 𝑖 ‖𝑥 − 𝜇 𝑖 ‖ 2 , (10) где 𝜇 𝑖 – центры кластеров 𝑆 𝑖 , 𝑖 = 1, . . . , 𝑘, ‖𝑥 − 𝜇 𝑖 ‖ 2 = ∑︀ 𝑥̸=𝑦∈𝑆 𝑖 (𝑥 − 𝜇 𝑖 )(𝜇 𝑖 − 𝑦) Процедура алгоритма k-средних состоит из следующих шагов. Случайным образом выбираются центры кла- стеров 𝜇 (1) 1 , . . . , 𝜇 (1) 𝑘 . Далее происходит итерация между двумя шагами. 1. Каждое наблюдение 𝑥 𝑝 присваивается тому кластеру, центр которого ближе всего к наблюдению, то есть 𝑆 (𝑡) 𝑖 = {𝑥 𝑝 : ‖𝑥 𝑝 − 𝑚 (𝑡) 𝑖 ‖ 2 ≤ ‖𝑥 𝑝 − 𝑚 (𝑡) 𝑗 ‖ 2 , для любого 𝑗 = 1 . . . , 𝑘}, где 𝑥 𝑝 присваивается только одному 𝑆 (𝑡) 𝑖 , даже если его можно отнести к двум и более кластерам. 2. Перевычисление центров кластеров для уже присвоенных различным кластерам наблюдений: 𝑚 (𝑡+1) 𝑖 = 1 |𝑆 (𝑡) 𝑖 | ∑︁ 𝑥 𝑗 ∈𝑆 (𝑡) 𝑖 𝑥 𝑗 Алгоритм останавливается, когда 𝑚 (𝑡) 𝑖 = 𝑚 (𝑡+1) 𝑖 для любого 𝑖. Заметим, что число кластеров 𝑘 необходимо знать заранее. Неправильный выбор 𝑘 может привести к плохим результатам. Поэтому перед применением алгоритма k-средних важно выполнять диагностическую проверку для определения количества кластеров в наборе данных. Также к недостатками алгоритма k-средних можно отнести зависимость от выбора исходных центров кластеров, чувствительность к шуму, а также сходимость только к локальным минимумам. При этом данный алгоритм прост в применении, поэтому часто используется в качестве этапа предварительной обработки. 4 Альфацефей 3 Алгоритм нечеткой кластеризации (FCM). Алгоритмом нечеткой кластеризацией (FCM) называется кластеризация, в которой каждое из 𝑛 наблюдений может принадлежать сразу нескольким кластерам с разной степенью принадлежности. Таким образом, дан- ные, расположенные на границах кластеров, не обязаны полностью принадлежать одному кластеру, а могут быть в составе многих кластеров со степенью частичной принадлежности от 0 до 1. В 1965 году Lotfi Zadeh [21] представил аксиоматическую структуру - нечеткое множество. Нечеткое мно- жество было задумано чтобы разобраться с проблемой распознавания образов в контексте неточно опреде- ленных категорий. Подробнее об этом в нашей первой части серии лекций по Теории возможностей. В 1969 году E.H. Ruspini [16] опубликовал статью, которая стала основой для большинства алгоритмов нечеткой кластеризации. Он впервые применил теорию нечетких множеств к кластерному анализу. Однако, только после появления работ J.C. Bezdek [4] и J.C. Dunn [9] алгоритмы нечеткой кластеризации стали важной вехой в теории кластерного анализа, так как была четко установлена актуальность теории нечетких множеств для кластерного анализа и распознавания образов. Алгоритм нечеткой кластеризации очень похож на алгоритм k-средних. Пусть задано множество наблюдений 𝑋 = (𝑥 1 , . . . , 𝑥 𝑛 ) , где 𝑥 𝑖 ∈ R 𝑑 , 𝑖 = 1, . . . , 𝑛. Требуется разбить множество наблюдений 𝑋 на 𝑐 нечетких кластеров (𝑆 1 , . . . , 𝑆 𝑐 ) с центрами (𝛽 1 , . . . , 𝛽 𝑐 ) = 𝛽 таким образом, чтобы минимизировать функцию потерь arg min (𝑈,𝛽) 𝑛 ∑︁ 𝑖=1 𝑐 ∑︁ 𝑗=1 𝑤 𝑚 𝑖𝑗 ‖𝑥 𝑖 − 𝛽 𝑗 ‖ 2 , (11) где 𝑤 𝑖𝑗 ∈ [0, 1] – степень принадлежности элемента 𝑥 𝑖 кластеру 𝑆 𝑗 с центром 𝛽 𝑗 , которая удовлетворяет ограничениям 𝑤 𝑖𝑗 ∈ [0, 1] для всех 𝑖, 𝑗, (12) 0 < 𝑛 ∑︁ 𝑗=1 𝑤 𝑖𝑗 < 𝑛 для всех 𝑖, (13) 𝑐 ∑︁ 𝑖 𝑤 𝑖𝑗 = 1 для всех 𝑗. (14) Число 𝑚 ∈ [1, +∞) в функции (11) – экспоненциальный вес, определяющий нечеткость кластеров. Из необ- ходимых условий локального экстремума получаем: 𝑤 𝑖𝑗 = 1 ∑︀ 𝑐 𝑘=1 (︁ ‖𝑥 𝑖 −𝛽 𝑗 ‖ ‖𝑥 𝑖 −𝛽 𝑘 ‖ )︁ 2 𝑚−1 , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑐, (15) 𝛽 𝑗 = ∑︀ 𝑛 𝑖=1 𝑤 𝑚 𝑖𝑗 𝑥 𝑖 ∑︀ 𝑛 𝑖=1 𝑤 𝑚 𝑖𝑗 , 𝑗 = 1, . . . , 𝑐. (16) Ограничение (14) обобщает соотношение, первоначально предложенное L.A. Zadeh [21], для определения сте- пени принадлежности любой точки 𝑥 нечеткому множеству 𝑆 и его дополнению 𝑆 ′ . А именно, дополнение 𝑆 ′ к нечеткому множеству 𝑆 определяется равенством 𝑓 𝑆 ′ (𝑥) = 1 − 𝑓 𝑆 (𝑥) , где 𝑓 𝑆 (𝑥) : 𝑋 → [0, 1] – характеристи- ческая функция нечеткого множества 𝑆, которая ставит в соответствие каждой точке из 𝑋 действительное число из отрезка [0, 1](см. первую часть лекций по теории возможностей). Из-за своего сходства с аддитив- ным законом вероятностей, соотношение (14) часто называют вероятностным ограничением. Однако, закон (14) описывает природу классифицируемого набора данных, а не статистическое предположение о случайном процессе, который генерирует набор данных. Процедура алгоритма нечеткой кластеризации состоит из следующих шагов. Случайным образом сгенериро- вать матрицу нечеткого разбиения 𝑊 (1) = {𝑤 (1) 𝑖𝑗 } , 𝑖 = 1, . . . , 𝑛, 𝑗 = 1, . . . , 𝑐. Вычислить центры кластеров по формуле (16). Далее происходит итерации между шагами. 1. Расчитать расстояние от каждого наблюдения 𝑥 𝑖 до центров кластеров 𝛽 𝑗 , то есть ‖𝑥 𝑖 − 𝛽 𝑗 ‖ ; 2. Пересчитать элементы матрицы нечеткого разбиения 𝑊 по формуле (15); 5 Альфацефей 3. Перевычислить центры кластеров по формуле (16) для новых элементов матрицы 𝑊 из пункта 2; 4. Сравнить 𝑊 (𝑡+1) с 𝑊 (𝑡) , где 𝑡 – номер итерации. Если ‖𝑊 (𝑡+1) − 𝑊 (𝑡) ‖ < 𝜀 (для заданного 𝜀), то останавливаемся, иначе – переходим на первый шаг. Число кластеров 𝑐, как и в случае алгоритма 𝑘-средних, необходимо знать заранее. Чем больше экспоненци- альный вес 𝑚, тем более "размазанной" становится конечная матрица нечеткого разбиения 𝑊 . При 𝑚 → ∞ элементы матрицы 𝑊 будут равны 1/𝑐. Это будет говорить о том, что все наблюдаемые элементы принадле- жат всем кластерам с одной и той же степенью 1/𝑐. При 𝑚 → 1 элементы матрицы 𝑊 будут сходится либо к 0, либо к 1, что говорит о четком разделении наблюдаемых элементов на кластеры, а функция минимиза- ции будет совпадать с функцией минимизации в алгоритме 𝑘-средних. Кроме того, экспоненциальный вес 𝑚 позволяет при вычислении координат центров кластеров усилить влияние объектов с большими значениями степеней принадлежности и уменьшить влияние объектов с малыми значениями степеней принадлежности. На сегодня не существует теоретически обоснованного правила выбора значения экспоненциального веса. Обычно устанавливают 𝑚 = 2. Несмотря на успехи алгоритма нечеткой кластеризации в более естественном разделении данных на кластеры, проблема чувствительности к шуму осталась. Достаточно рассмотреть простой пример. Пусть у нас есть два кластера. Если наблюдения 𝑥 𝑘 равноудалены от центров обоих кластеров, то в независимости от удаленности от этих центров, их степени принадлежности из условия (14) совпадают и равны 0.5. Поэтому шумовым точ- кам, находящимся далеко, но равноудаленно от центров двух кластеров, тем не менее может быть присвоено равное членство в обоих кластерах, тогда как кажется гораздо более естественным, чтобы такие точки имели очень низкую степень принадлежности или даже не принадлежали ни к какому-либо кластеру. К недостатками алгоритма нечеткой кластеризации также можно отнести зависимость от выбора значений степеней принадлежности 𝑤 𝑖𝑗 на начальном этапе, а также сходимость к локальным минимумам. Форма кластеров в любом алгоритме кластеризации определяется функцией, которая исследуется на мини- мум, в которой в свою очередь участвует расстояние, индуцирующее топологическую метрику в R 𝑑 . Поэтому в алгоритме нечеткой кластеризации кластеры могут принимать форму, близкую к сферической, как и в случае алгоритма k-средних. Чтобы преодолеть это ограничение алгоритмы нечеткой кластеризации пошли в своем развитии по следующим направлениям. Первое направление относится к алгоритмам, основу которых составила работа D.E. Gustafson and W.C. Kessel [10]. В ней предложено заменить норму расстояния ‖𝑥 𝑖 − 𝛽 𝑗 ‖ 2 в функции, исследуемой на минимум, на альтернативную норму ‖𝑥 𝑖 −𝛽 𝑗 ‖ 2 𝐴 𝑗 = (𝑥 𝑖 −𝛽 𝑗 ) 𝑇 𝐴 𝑗 (𝑥 𝑖 −𝛽 𝑗 ) , где 𝐴 𝑗 – симметричные положительно-определенные матрицы и det 𝐴 𝑗 = 𝜌 𝑗 , 𝜌 𝑗 > 0 . Таким образом, каждый кластер принимает форму, которая заложена в 𝐴 𝑗 . Также они признали, что необходимые условия для поиска локального минимума, имеют сходство с уравнениями максимального правдоподобия в EM-алгоритме, применяемом для разделения смеси гауссиан. Второе направление, по которому развивались нечеткие алгоритмы, появилось из работы [5], в которой нечет- кие кластеры имеют форму линии. Из этой работы выросло целое направление разных алгоритмов нечеткой кластеризации, в которых центры кластеров заменяются на более общие структуры, типа линий, плоскостей, гиперкубов и так далее. 4 Возможностный алгоритм кластеризации (PCM). R. Krishnapuram и J.M. Keller [11] предложили идею ослабления ограничения (14) путем добавления второго члена в функции (11), что позволило решить проблему с шумовыми точками. Пусть задано множество наблюдений 𝑋 = (𝑥 1 , . . . , 𝑥 𝑁 ) , где 𝑥 𝑖 ∈ R 𝑑 , 𝑖 = 1, . . . , 𝑁, 𝛽 = (𝛽 1 , . . . , 𝛽 𝐶 ) – центры кластеров, 𝑑 2 𝑖𝑗 – расстояние от точки 𝑥 𝑖 до центра 𝛽 𝑗 , а 𝑈 = {𝑢 𝑖𝑗 } – матрица размером 𝐶 × 𝑁, элементы которой являются характеристическими значениями элемента 𝑥 𝑗 по отношению к кластеру 𝑆 𝑖 . Требуется разбить множество наблюдений 𝑋 на 𝐶 нечетких кластеров 𝑆 1 , . . . , 𝑆 𝐶 , таким образом, чтобы минимизировать функцию потерь arg min (𝑈,𝛽) 𝐶 ∑︁ 𝑖=1 𝑁 ∑︁ 𝑗=1 𝑢 𝑚 𝑖𝑗 𝑑 2 𝑖𝑗 + 𝐶 ∑︁ 𝑖=1 𝜂 𝑖 𝑁 ∑︁ 𝑗=1 (1 − 𝑢 𝑖𝑗 ) 𝑚 , (17) 6 Альфацефей где 𝑚 ∈ [1, +∞) – экспоненциальный вес, 𝜂 𝑖 – подходящие положительные числа. На характеристические значения 𝑢 𝑖𝑗 взамен (12)–(14) накладываются следующие ограничения: 𝑢 𝑖𝑗 ∈ [0, 1] для всех 𝑖, 𝑗, (18) 0 < 𝑁 ∑︁ 𝑗=1 𝑢 𝑖𝑗 ≤ 𝑁 для всех 𝑖, (19) max 𝑖 𝑢 𝑖𝑗 > 0 для всех 𝑗. (20) Минимизация функции (17) предполагает, чтобы в первом слагаемом расстояние от точки 𝑥 𝑖 до центра кла- стера 𝛽 𝑗 было как можно меньше, в то время, как во втором слагаемом 𝑢 𝑖𝑗 должно быть как можно ближе к 1. Если бы в (17) отсутствовало бы второе слагаемое, то без ограничения вида (14) на 𝑢 𝑖𝑗 , минимизация функции приводила бы к тривиальному решению 𝑢 𝑖𝑗 = 0 для всех 𝑖, 𝑗. Заметим, что строки и столбцы матрицы 𝑈 = {𝑢 𝑖𝑗 } независимы друг от друга. Поэтому минимизацию функ- цию (17) можно свести к минимизации 𝐶𝑁 независимых функций 𝑢 𝑚 𝑖𝑗 𝑑 2 𝑖𝑗 + 𝜂 𝑖 (1 − 𝑢 𝑖𝑗 ) 𝑚 (21) Согласно необходимым условиям локального экстремума, получаем: 𝑢 𝑖𝑗 = 1 1 + (︁ 𝑑 2 𝑖𝑗 𝜂 𝑖 )︁ 1 𝑚−1 , 𝑖 = 1, . . . 𝐶, 𝑗 = 1, . . . , 𝑁, (22) 𝛽 𝑗 = ∑︀ 𝑁 𝑗=1 𝑢 𝑚 𝑖𝑗 𝑥 𝑗 ∑︀ 𝑁 𝑗=1 𝑢 𝑚 𝑖𝑗 , 𝑖 = 1, . . . , 𝐶. (23) Элементы матрицы 𝑈 = {𝑢 𝑖𝑗 } сильно зависит от выбора параметра 𝜂 𝑖 . Если 𝜂 𝑖 маленькое, то и 𝑢 𝑖𝑗 маленькое. Если 𝜂 𝑖 большое, то 𝑢 𝑖𝑗 также большое. Также 𝜂 𝑖 определяет степень, с которой второе слагаемое в (17) сравнимо с первым. Если оба слагаемых в (17) равновесны, то 𝜂 𝑖 должно быть порядка 𝑑 2 𝑖𝑗 . R. Krishnapuram и J.M. Keller предложили следующие соотношения для 𝜂 𝑖 ( [11], [12]): 𝜂 𝑖 = ∑︀ 𝑁 𝑗=1 𝑢 𝑚 𝑖𝑗 𝑑 2 𝑖𝑗 ∑︀ 𝑁 𝑗=1 𝑢 𝑚 𝑖𝑗 , 𝑖 = 1, . . . , 𝐶, (24) 𝜂 𝑖 = ∑︀ 𝑢 𝑖𝑗 >𝛼 𝑑 2 𝑖𝑗 ∑︀ 𝑢 𝑖𝑗 >𝛼 1 , 𝑖 = 1, . . . , 𝐶, (25) где 0 < 𝛼 < 1. Параметр 𝜂 𝑖 может быть фиксированным для всех итераций алгоритма, если кластеры имеют похожую форму. В общем случае 𝜂 𝑖 меняется в каждой итерации алгоритма, что может привести к неустой- чивости, так как необходимые условия локального экстремума получены для фиксированного 𝜂 𝑖 . Поэтому часто сначала применяют алгоритм нечеткой кластеризации для инициализации 𝑢 𝑖𝑗 , далее вычисляют 𝜂 𝑖 по формуле (24), после чего применяют возможностный алгоритм кластеризации, в котором 𝜂 𝑖 вычисляется по формуле (25). Значение 𝑚 играет важную роль в определении характеристических значений 𝑢 𝑖𝑗 . На следующем рисунке видно, что при 𝑚 → 1 характеристические значения 𝑢 𝑖𝑗 стремятся к нулю для тех точек 𝑥 𝑗 , для которых 𝑑 2 𝑖𝑗 больше, чем 𝜂 𝑖 . При 𝑚 → ∞ характеристические значения перестают стремится к нулю. Значение 𝑚 = 2 дает хорошие результаты в алгоритме нечеткой кластеризации. Однако, в возможностном алгоритме для такого значения 𝑚 характеристические функции убывают не достаточно быстро для больших значения 𝑑 2 𝑖𝑗 . Поэтому более подходящий выбор 𝑚 = 1.5 [12]. 7 Альфацефей Процедура возможностного алгоритма кластеризации выглядит следующим образом. Генерируем элементы матрицы 𝑈 = {𝑢 𝑖𝑗 } . Вычисляем кластерные центры по формуле (23). Далее происходит итерация между шагами: 1. Расcчитать расстояние 𝑑 𝑖𝑗 от каждого наблюдения 𝑥 𝑖 до центров кластеров 𝛽 𝑗 ; 2. Вычислить 𝜂 𝑖 по формуле (24) или (25); 3. Пересчитать элементы матрицы 𝑈 по формуле (22); 4. Перевычислить центры кластеров 𝛽 𝑗 по формуле (23) для новых элементов матрицы 𝑈 из пункта 3; 5. Сравнить 𝑢 (𝑡+1) 𝑖𝑗 с 𝑢 (𝑡) 𝑖𝑗 , где 𝑡 – номер итерации. Если ‖𝑢 (𝑡+1) 𝑖𝑗 − 𝑢 (𝑡) 𝑖𝑗 ‖ 2 < 𝜀 (для заданного 𝜀), то останав- ливаемся, иначе – переходим на первый шаг. Предложенный R. Krishnapuram и J.M. Keller возможностный алгоритм – это только некоторая реализация общей идеи возможностного подхода. Возможностный подход означает, что характеристическое значение точки по отношению к кластеру представляет собой возможность точки принадлежать кластеру. Так как минимизация функции (17) сводится к минимизации 𝐶𝑁 независимых функций (21) , то могут воз- никнуть совпадающие кластеры. Это проблема типична для функций, которые можно выразить, как сумму независимых функций. Причина кроется не в плохом выборе второго слагаемого в (17), а скорее в отсутствии подходящих ограничений на 𝑢 𝑖𝑗 . С одной стороны ограничение (14) в алгоритме нечеткой кластеризации слишком сильное – оно заставляет шумовые точки принадлежать одному или нескольким кластерам с доста- точно высокими степенями принадлежности. С другой стороны, ограничение (19) в возможностном алгоритме слишком слабое, так как матрица 𝑈 сильно зависит от выбора параметров 𝑚 и 𝜂 𝑖 . И хотя возможностный алгоритм кластеризации более робастный к шуму, так как шумовые точки будут принадлежать кластерам с маленькими характеристическими значениями, платить за это придется совпадающими кластерами. Чтобы преодолеть проблему чувствительности к шуму, а также проблему совпадающих кластеров, было предложено несколько алгоритмов. Например, в работе [15] была предложена возможностно-нечеткая мо- дель кластеризации (PFCM), в которой функция, исследуемая на минимум, включала и характеристические значения 𝑢 𝑖𝑗 , и степени принадлежности 𝑤 𝑖𝑗 . Однако этот алгоритм по-прежнему сталкиваются с проблемами инициализации и выбора параметров модели. Еще один алгоритм, предложенный в [23], основан на идее, что на начальном этапе все наблюдаемые данные являются центрами кластеров. Затем происходит процедура ав- томатического слияния точек специальным образом в соответствии с исходной структурой данных. При этом число кластеров находится автоматически с сохранением робастности алгоритма. Тот факт, что все точки используются в качестве начальных центров кластеров, является серьезной проблемой при масштабировании этого алгоритма для больших объемов данных и высокой размерности. Конечно, все направления по развитию алгоритмов кластеризации, основанных на теории нечетких множеств L. Zadeh, здесь описать мы не можем. Но некоторые постарались донести в простой и понятной форме. 8 Альфацефей Обзор по этой теме можно посмотреть [18]. Литература [1] В.Ю. Королев, ЕМ-алгоритм, его модификации и их применение к задаче разделения смесей вероятност- ных распределений. Теоретический обзор. ИПИ РАН Москва, 2007. [2] Ю.П. Пытьев, Возможность. Элементы теории и применения. М.: Эдиториал УРСС, 2000. [3] М. И. Шлезингер, О самопроизвольном распознавании образов. – в сб.: Читающие автоматы. “Наукова думка”, Киев, 1965. [4] J. C. Bezdek, Fuzzy Mathematics in Pattern Classification, Ph.D. thesis, Cornell Univ., Ithaca, NY, 1973. [5] J. C. Bezdek, R. Gunderson, R. Ehrlich, and T. Meloy, On the extension of fuzzy k-means algorithms for the detection of linear clusters, in Proc. IEEE Conf. Decision and Control, 1978, pp. 1438–1443. [6] A.P. Dempster, Upper and Lower Probabilities Induced by a Multivalued Mapping, Ann. Math. Statist., V.38, 1967. [7] A. P. Dempster, N. M. Laird and D. B. Rubin, Maximum Likelihood from Incomplete Data via the EM Algorithm, Journal of the Royal Statistical Society, Series B, V. 39, No. 1, 1977. [8] D. Dubois and H. Prade, Possibility Theory, Probability Theory and Multiple-valued Logics: A Clarification, Annals of Mathematics and Artificial Intelligence 32, 2001. [9] J.C. Dunn, A fuzzy relative of the ISODATA process and its use in detecting compact, well-separated clusters, J. Cybern. 3 ,1974. [10] D. E. Gustafson and W. C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, in Proc. IEEE Conf. Decision and Control, pp. 761–766. 1978. [11] R. Krishnapuram and J.M. Keller, A possibilistic approach to clustering, IEEE Trans. Fuzzy Syst. 1 (2) 1993. [12] R. Krishnapuram and J. M. Keller, The Possibilistic C-Means Algorithm: Insights and Recommendations, IEEE Trans. Fuzzy Syst. 4(3) 1996. [13] J.B. MacQueen, Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol.1: Statistics, University of California Press.,1967. [14] A. G. McKendrick, Applications of mathematics to medical problems. – Proceedings of the Edinburgh Mathematical Society, 1926, vol. 44, p. 98-130. [15] N.R. Pal, K. Pal, J. M. Keller and J. C. Bezdek, A Possibilistic Fuzzy C-Means Clustering Algorithm, IEEE Trans. Fuzzy Syst. 13(4) 2005. [16] E. H. Ruspini, A new approach to clustering, Inf. Control, vol. 15, no. 1, 1969. [17] E. H. Ruspini, On the semantics of fuzzy logic, Int. J. Approx. Reason., vol. 5, no. 1, 1991. [18] E. H. Ruspini, J. C. Bezdek and J. M. Keller, Fuzzy Clustering: A Historical Perspective, IEEE Computational Intelligence Magazine, 14(1) 2019. [19] L. J. Savage, The foundations of statistics. Dover Publication, Inc., New York, 1972. [20] G. Shafer, A mathematical theory of evidence, Princeton University Press, 1976. [21] L.A. Zadeh, Fuzzy sets, Information and Control, V.8, 1965. [22] L.A. Zadeh, Calculus of fuzzy restrictions in: L.A. Zadeh, K.S. Fu, K. Tanaka and M. Shimura, eds., Fuzzy Sets and Their Applications to Cognitive and Decision Processes, Academic Press, New York, 1975. [23] M.-S. Yang and C.-Y. Lai, A robust automatic merging possibilistic clustering method, IEEE Trans. Fuzzy Syst., 19(1) 2011. 9 |