Лабораторные по МИСПИТ. ЛР. Интеллектуальные системы
Скачать 1.43 Mb.
|
1. Для чего могут быть использованы ассоциативные правила? 2. Какова структура ассоциативного правила? Приведите приме- ры правил. 3. Какие характеристики ассоциативных правил Вы знаете? 4. Опишите процесс поиска ассоциативных правил в Deductor. 44 5. Опишите процесс поиска ассоциативных правил. Список литературы 1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии». 2. Сайт basegroup.ru. 3. Руководство пользователя ПО Deductor Academic. 45 Лабораторная работа №5. Кластеризация (самоорганизующаяся карта Кохонена) Цель работы: Научиться использовать самоорганизующиеся карты Кохонена для кластеризации данных Введение Приведём несколько определений кластеризации. Кластеризация - это группировка объектов (наблюдений, собы- тий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от прочих, которые вошли в другие кластеры. Кластеризация - группировка объектов на основе близости их свойств; каждый кластер состоит из схожих объектов. а объекты раз- ных кластеров существенно отличаются. Кластеризация – процедура, которая любому объекту ∈ ста- вит в соответствие метку кластера ∈ . Кластеризацию используют, когда отсутствуют априорные сведе- ния относительно классов, к которым можно отнести объекты иссле- дуемого набора данных, либо, когда число объектов велико, что за- трудняет их ручной анализ. Постановка задачи кластеризации сложна и неоднозначна, так как: оптимальное количество кластеров в общем случае неизвест- но; выбор меры «похожести или близости свойств объектов меж- ду собой, как и критерия качества кластеризации, часто носит субъективный характер. Самоорганизующаяся карта Кохонена (self organizing шар, SOM) позволяет представлять результаты кластеризации в виде двумерных карт, где расстояния между объектами соответствуют расстояниям между их векторами в многомерном пространстве, а сами значения признаков отображаются различными цветами и оттенками, Можно провести аналогию между SOM и обычной географической картой, где размещение объектов и расстояния между ними соответствуют их рас- положению на земной поверхности, Однако, кроме горизонтальных координат, необходимо показать и рельеф - высоту гор, холмов, а так- же глубину водоёмов. Для этого используется специальная цветовая 46 гамма. Так, высота местности отображается с помощью оттенков ко- ричневого, глубина морей и океанов - синего: чем выше или глубже объект, тем более тёмным цветом он окрашивается. Таким образом, двумерная карта позволяет представлять трёхмерные данные. Описание программного обеспечения Данная лабораторная работа должна выполняться при помощи ПО Deductor Academic 5.3. Домашнее задание студентам для подготовки к выполнения лабо- раторной работы Изучить по лекциям и учебной литературе особенности карт Ко- хонена и работы в ПО Deductor Academic 5.3. Порядок выполнения лабораторной работы Задание №1 Выполните сегментацию абонентов телекоммуникационной ком- пании. 1. Запустите Deductor. 2. Импортируйте набор данных из текстового файла «Абоненты.txt». 3. На третьем шаге импорта убедитесь, что «Разделители целой и дробной части числа» - точка, а не запятая! 4. На шестом шаге импорта настройте тип данных для полей: «Среднемесячный расход», «Средняя продолжительность раз- говора», «Доля звонков на стационарные телефоны» - веще- ственный; для всех остальных - целый. 5. Запустите мастер обработки и выберите пункт «карта Кохоне- на». 6. На первом шаге установите назначение полей. Полю «Код» присвойте назначение – «Информационное», всем остальным – «Входное». 7. На следующем шаге задайте способ разбиения исходного набора данных на обучающее и тестовое. Для решения теку- 47 щей задачи тестовое множество не нужно, поэтому укажите для обучающего множества - 100%. 8. На следующем шаге задайте размеры карты. По X - 24, по Y - 18. 9. Остальные настройки оставьте без изменений. Запустите про- цесс построения. Выполнение операции займёт некоторое время (длительность – 500 эпох). 10. В качестве способа отображения отметьте пункт «Карта Кохо- нена». 11. На следующем шаге отметьте все входные столбцы, а также пункты «Кластеры» и «Матрица ошибок квантования». Нажмите «Далее». 12. Кластеры выделились не очень чётко. Попробуйте улучшить результат. 13. Постройте дополнительную карту Кохонена, в которой мак- симальной значимостью будут обладать поля: «Возраст» и «Среднемесячный расход». Скопируйте узел «Самоорганизу- ющаяся карта [24; 18]» (ПКМ по узлу и выберите из кон- текстного меню требуемый пункт) и сделайте его перена- стройку (выделите скопированный узел и нажмите Alt+Enter). 14. На первом шаге нажмите «Настройка нормализации». Для всех полей, кроме «Возраст» и «Среднемесячный расход», установите значимость равную 30%. Все остальные настройки оставьте без изменений. 15. Запустите построение карты. 16. После завершения построения, дополнительно активируйте следующие визуализаторы: «Матрица сравнения», «Профили кластеров», «Связи кластеров». 17. Хотя количество кластеров увеличилось до 11 (было 10), но, качество разбиения несколько улучшилось (значения коэффи- циентов в матрице ошибок квантования уменьшились). 18. Проанализируйте кластеры, ответив на следующие вопросы (ответы – в отчёт): - какие кластеры обладают наименьшим разбросом значений параметров? - какие кластеры обладают наибольшим разбросом значений параметров? 19. Выявите наиболее заметные особенности каждого кластера (например, наибольшее количество SMS за месяц среди всех кластеров) и, исходя из этого, присвойте каждому кластеру 48 новое имя (например, «Бизнесмены»). Причину выбора имени для каждого кластера опишите в отчёте. 20. Сохраните полученные результаты. Матрица ошибок квантования – отображает среднее расстояние от расположения примеров до центра ячейки. Пример находится в мно- гомерном пространстве, где количество измерений равно числу вход- ных полей. Центр ячейки – точка пространства с координатами, равными весам нейрона. Матрица ошибок квантования показывает, насколько хорошо обучена нейросеть. Чем меньше среднее расстоя- ние до центра ячейки, тем ближе к ней расположены примеры, и тем лучше построена модель. Визуализатор Профили кластеров позволяет наглядно оценить ре- зультаты кластеризации и исследовать статистические характери- стики кластеров. Он доступен для обработчиков, реализующих алго- ритмы кластеризации и даёт возможность наглядно оценить сег- ментацию исходного набора данных, а также влияние на формирова- ние кластеров входных факторов. Задание №2 1. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования. 2. Запустите Deductor. 3. Разбейте данные на кластеры и, при помощи опции «Что- если», попытайтесь выявить скрытые закономерности в Вашей БД (15 штук). Результаты поместите в отчёт. Сделайте выво- ды. Содержание отчёта 1. Титульный лист. 2. Цель лабораторной работы. 3. Предметная область Вашей базы данных. 4. 15 уникальных записей из Вашей базы данных. 5. Скриншоты кластеров, матриц ошибок квантования для двух сценариев и результаты выполнения пп. 18 и 19 (задание №1). 6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2). 49 Контрольные вопросы 1. Что такое кластеризация? 2. Что такое карта Кохонена? 3. Для решения каких задач применяется карта Кохонена? 4. Кратко опишите процесс кластеризации (Кохонен). 5. Опишите процесс кластеризации (Кохонен) в Deductor. Список литературы 1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии». 2. Сайт basegroup.ru. 3. Руководство пользователя ПО Deductor Academic. 50 Лабораторная работа №6. Нейронные сети Цель работы: Научиться использовать нейронные сети для анализа данных Введение Нейронные сети (НС) представляют собой вычислительные структуры, моделирующие простые биологические процессы, анало- гичные процессам, происходящим в человеческом мозге. НС – это распределённые и параллельные системы, способные к адаптивному обучению путём реакции на положительные и отрица- тельные воздействия. В основе построения сети лежит элементарный преобразователь, называемый искусственным нейроном или просто нейроном по аналогии с его биологическим прототипом. Структуру НС можно описать следующим образом. НС состоит из нескольких слоёв: входной, внутренние (скрытые) и выходной слои. Входной слой реализует связь с входными данными, выходной – с вы- ходными. Внутренних слоёв может быть от одного и больше. В каждом слое содержится несколько нейронов. Между нейронами есть связи, называемые весами. В Deductor в основе обработчика «Нейросеть» лежит многослой- ный персептрон с двумя алгоритмами обучения. Рис. 21. Структура нейрона 51 Рис. 22. Пример нейросети НС способна имитировать какой-либо процесс. Любое изменение входов НС ведёт к изменению её выходов. Причём выходы НС однозначно зависят от её входов. Перед тем как использовать НС, её необходимо обучить. Задача обучения здесь равносильна задаче аппроксимации функции, то есть восстановление функции по отдельно взятым её точкам – таблично заданной функции. Таким образом, для обучения нужно подготовить таблицу с входными значениями и соответствующими им выходными значениями. По такой таблице НС сама находит зависимости выходных полей от входных. Далее эти зависимости можно использовать, подавая на вход НС некоторые значения. На выходе будут восстановлены зависи- мые от них значения. Причём на вход можно подавать значения, на которых НС не обучалась. Важно следующее. Обучающая выборка не должна содержать противоречий, так как НС однозначно сопоставляет выходные значе- ния входным. После обучения на вход НС необходимо подавать значе- ния из диапазона, на котором она обучалась. Например, если при обу- чении НС на один из её входов подавались значения от 0 до100, то в дальнейшем следует на этот вход подавать значения из диапазона от 0 до100. НС работают по принципу «чёрного ящика», однако, в отличие от статистических регрессионных моделей (используются для исследова- ния влияния одной или нескольких независимых переменных на зави- симую переменную), менее чувствительны к выбросам, шумам, муль- 52 тиколлинеарности (наличие линейной зависимости между независи- мыми переменными регрессионной модели) во входных признаках. Описание программного обеспечения Данная лабораторная работа должна выполняться при помощи ПО Deductor Academic 5.3. Домашнее задание студентам для подготовки к выполнения лабо- раторной работы Изучить по лекциям и учебной литературе особенности нейрон- ных сетей и работы в ПО Deductor Academic 5.3. Порядок выполнения лабораторной работы Задание №1. Оценка стоимости недвижимости Особенностью процесса оценки стоимости объекта имущества является его рыночный характер. Это означает, что процесс оценки объекта не ограничивается учётом одних только затрат на создание или приобретение оцениваемого объекта собственности - необходим учёт совокупности рыночных факторов, экономических особенностей оцениваемого объекта, а также макроэкономического и микроэконо- мического окружения. Кроме того, рынок недвижимости очень дина- мичный, поэтому требуется периодическая переоценка объектов соб- ственности. НС как универсальные аппроксиматоры позволяют строить слож- ные нелинейные регрессионные модели типа "чёрный ящик". Создание моделей для оценки стоимости недвижимости могут существенно по- высить эффективность работы организаций, занимающихся риэлтер- ской деятельностью. Целевой признак – стоимость квартиры. 1. Запустите Deductor. 2. Импортируйте набор данных из файла «Недвижимость.ddf». 3. Щёлкните левой кнопкой мыши по появившемуся пункту сце- нария. 4. Нажмите F7. 53 5. Выберите пункт «Качество данных». Все настройки мастера обработки оставьте по умолчанию. В результате откроется ви- зуализатор «Оценка качества данных». Аудит данных обнаружил несколько выбросов (выходящих за границы 3-сигма) и экстремальных значений (выходящих за границы 5-сигма). В частности, детализация показывает, что для поля «Общая площадь» есть три экстремальных значения 133 и 134 м 2 . Можно так- же предположить наличие линейной корреляции между общей и жи- лой площадью. Вообще, нейросетевые модели достаточно устойчивы к шумам, выбросам и мультиколлинеарности, поэтому предпринимать особых усилий по подготовке выборки для них обычно не требуется. Тем не менее, экстремальные значения лучше всё-таки удалить. Они точно не улучшат качество модели. 3-сигма - вероятность того, что случайная величина отклонит- ся от своего математического ожидания на большую величину, чем утроенное среднее квадратичное отклонение, практически равна ну- лю. Правило справедливо только для случайных величин, распределён- ных по нормальному закону. Например, пусть имеется выборка наблюдений за ежедневными продажами в магазине. Значения их распределены по нормальному закону с математическим ожиданием 150000 руб. и среднеквадрати- ческим отклонением 20000 руб. Тогда в соответствии с правилом 3-х сигм продажи ниже, чем 150 000 - 20 000 x 3 = 90 000, и выше, чем 150 000 + 20 000 х 3 = 210 000, являются практически невозможными событиями. Фактически это означает, что рассматривать данные объёмы продаж как потенциально возможные не имеет смысла. 6. По умолчанию предлагается ограничить найденные выбросы и экстремальные значения. Переопределите это действие: для выбросов выберете пункт «Оставить без изменения»; для экстремальных значений – «Удалять». 7. Для того чтобы эти действия были произведены, после узла «Качество данных» добавьте узел «Редактирование выбро- сов», оставив включённым флаг «Использовать информацию узла оценки качества данных». 54 8. Откройте мастер обработки и запустите нейросеть. Убедитесь, что «Стоимость» - выходное поле. Остальные настройки – без изменений. На последнем шаге («Определение способов отоб- ражения») должны быть отмечены первые три пункта. 9. При помощи построенной нейросети (визуализатора «Что- Если») выполните прогнозирование стоимости квартиры со следующими характеристиками: количество комнат – 3; район – Орджоникидзевский; планировка – Свердловский вариант; этаж – 7; площадь – 63; жилая – 41; кухня – 8; состояние – 4; наличие агентства – нет. Задание №2 1. Импортируйте набор данных из текстового файла, который вы создали в лабораторной работе №2. Убедитесь, что в файле содержится не менее 300 записей. Если записей меньше, то сдублируйте имеющиеся столько раз, сколько нужно для вы- полнения вышеуказанного требования. 2. Запустите Deductor. 3. Постройте нейросеть и, при помощи опции «Что-если», попы- тайтесь выявить скрытые закономерности в Вашей БД (15 штук). Результаты поместите в отчёт. Сделайте выводы. Содержание отчёта 1. Титульный лист. 2. Цель лабораторной работы. 3. Предметная область Вашей базы данных. 4. Скриншоты графа нейросети, диаграммы рассеяния (п.8) и что-если (п.9). 5. 15 уникальных записей из Вашей базы данных. 6. Скриншоты результатов поиска скрытых закономерностей и выводы (задание №2). Контрольные вопросы 55 1. Что такое нейронная сеть? 2. Какова структура нейросети? 3. Что такое 3-сигма? 4. Какова структура искусственного нейрона? 5. Опишите процесс построения нейросети в Deductor. Список литературы 1. Пальмов С.В. Конспект лекций по дисциплине «Интеллекту- альные системы и технологии». 2. Сайт basegroup.ru. 3. Руководство пользователя ПО Deductor Academic. 56 Лабораторная работа №7. Автокорреляция. Корреляция. Фактор- ный анализ Цель работы: Научиться использовать автокорреляцию, корреляцию и факторный анализ для исследования данных Введение Целью автокорреляционного анализа является выяснение степени статистической зависимости между различными значениями (отсчёта- ми) случайной последовательности, которую образует поле выборки данных. В процессе автокорреляционного анализа рассчитываются коэффициенты корреляции (мера взаимной зависимости) для двух зна- чений выборки, отстоящих друг от друга на определённое количество отсчётов, называемые также лагом. Совокупность коэффициентов кор- реляции по всем лагам представляет собой автокорреляционную функцию ряда (АКФ): R(k) = corr(X(t), X(t+k)), где k > 0 – целое число (лаг) По поведению АКФ можно судить о характере анализируемой последовательности и наличии периодичности (например, сезонной). Очевидно, что при k = 0, автокорреляционная функция будет мак- симальной и равной 1, т.е. значение последовательности полностью коррелировано само с собой, степень статистической взаимозависимо- сти максимальна. Действительно, если факт появления данного значе- ния имел место, то и соответствующая вероятность равна 1. По мере увеличения числа лагов, т.е. увеличения расстояния между двумя зна- чениями, для которых вычисляется коэффициент корреляции, значе- ния АКФ будут убывать из-за уменьшения статистической взаимоза- висимости между этими значениями (вероятность появления одного из них все меньше влияет на вероятность появления другого). При этом чем быстрее убывает АКФ, тем быстрее изменяется анализируемая последовательность. И наоборот, если АКФ убывает медленно, то и соответствующий процесс является относительно гладким. Если в ис- ходной выборке имеет место тренд (плавное увеличение или уменьше- ние значений ряда), то плавное изменение АКФ также будет иметь место. При наличии сезонных колебаний в исходном наборе данных, АКФ также будет иметь периодические всплески. Для применения алгоритма автокорреляции в Deductor необходи- мо выбрать поле, для которого вычисляется АКФ. В поле «Количество 57 отсчётов» требуется указать количество отсчётов, для которых будут рассчитаны значения АКФ. Корреляционный анализ применяется для оценки зависимости выходных полей, данных от входных факторов и устранения незнача- щих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (вза- имосвязаны) с выходным результатом. Такие факторы могут быть ис- ключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимо- зависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незнача- щий. Факторный анализ – это математический инструмент для пони- жения размерности пространства признаков, широко применяется в экономике, социологии, психологии. Информативность многомерного описания объекта возрастает с увеличением количества используемых признаков. Однако очень трудно сразу выбрать и существенные, и независимые друг от друга характеристики. Как правило, аналитик начинает с заведомо избыточ- ного количества признаков, и в процессе работы сталкивается с необ- ходимостью адекватной интерпретации большого объёма полученных данных и их компактной визуализации. Возникает вопрос в том, что многие признаки, вероятно, в некоторой степени дублируют друг дру- га, а вся полученная информация в целом избыточна. За связанными друг с другом (коррелирующими) переменными, по-видимому, стоит влияние некоторой скрытой переменной (фактора), с помощью кото- рой можно объяснить наблюдаемое сходство полученных оценок. Вы- деление факторов, как переменных более общего, более высокого по- рядка, позволяет по-новому взглянуть на полученные данные, заме- тить те связи между переменными, которые ранее небыли очевидны. В узле «Факторный анализ» для факторизации корреляционной матрицы используется метод главных компонент. Он сводится к выбо- ру новой ортогональной системы координат в пространстве наблюде- ний. В качестве первой главной компоненты избирают направление, вдоль которого массив данных имеет наибольший разброс. Выбор каждой главной последующей компоненты происходит так, чтобы раз- брос данных вдоль неё был максимальным, и чтобы эта главная ком- понента была ортогональна другим главным компонентам, выбранным прежде. В результате получаем несколько главных компонент, каждая следующая из которых несёт все меньше информации из исходного 58 набора. Следующим шагом является выбор наиболее информативных главных компонент, которые будут использоваться в дальнейшем ана- лизе. Посмотрим на следующий рисунок. На нём изображено дву- мерное пространство наблюдений в осях Х и Y, соответствующих двум измеряемым параметрам. Рис. 23 Как видно, разброс данных велик по обоим направлениям. Теперь повернём систему координат так, чтобы направление наибольшего разброса массива данных, то есть перейдём в систему координат оси Y соответствовало X’ – Y’. Теперь по оси X‘ дисперсия данных невели- ка, и появляется возможность отбросить это направление, перейдя к одномерному пространству. Рис. 24 В этом случае потери некоторой части информации могут ком- пенсироваться удобством работы с данными меньшей размерности. Аналогичные действия выполняются в многомерном случае: система координат последовательно вращается таким образом, чтобы каждый следующий поворот минимизировал остаточный разброс массива дан- ных. Таким образом, факторный анализ решает две главные задачи: 1. Понижение размерности числа используемых переменных за счёт их объяснения меньшим числом факторов. 2. Группировка и структурирование полученных данных. 59 Математическая модель факторного анализа имеет вид: где p – количество переменных, v i – значение i-й переменной. Коэффи- циенты w j,i называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. Таким образом, нагрузка – это корреляция между исходной переменной и фактором. Аналогичным образом: где x i – значение i-й переменной, которое выражено в виде линейной комбинации m главных факторов, количество которых меньше числа исходных признаков, и остаточным членом u i , характерным только для переменной x i ; a i,j – регрессионные коэффициенты, показывающие вклад каждого из k факторов в данную переменную. Факторы имеют две характеристики: долю объясняемой диспер- сии и нагрузки. Результат процедуры факторизации заключается в формировании матрицы факторных нагрузок. Табл.7 x i f 1 … f m x 1 w 11 w 1m x 2 w 21 w 2m x 3 w 31 w 3m … … … … x p w p1 w pm На практике аналитикам чаще всего интересен факторный анализ с ортогональным вращением осей, когда при повороте осей координат угол между факторами остаётся прямым. Цель исследователя заключа- ется в поиске простой структуры или попытке объяснить большее чис- ло переменных меньшим числом факторов. «Простота» хорошего фак- торного решения заключается в том, что каждая переменная имеет 60 наиболее простое факторное объяснение, т.е. характеризуется преоб- ладающим влиянием некоторого одного фактора, и в меньшей степени связана с другими факторами. И наоборот: один фактор должен быть специфическим образом связан с одной группой переменных и не свя- зан с другими переменными. В узле реализовано два метода вращения: варимакс и квартимакс. Варимакс – наиболее часто используемый на практике метод, цель которого – минимизировать количество переменных, имеющих высокие нагрузки на данных фактор, что способствует упрощению описания фактора за счёт группировки вокруг него только тех пере- менных, которые с ним связаны в большей степени, чем с остальными. Квартимакс противоположен варимаксу, поскольку минимизиру- ет количество факторов, необходимых для объяснения данной пере- менной. Квартимакс-вращение приводит к выделению одного из об- щих факторов с достаточно высокими нагрузками на большинство переменных. После расчёта факторных нагрузок для каждой переменной до- ступны два показателя: собственное значение и объём объясняемой дисперсии в %, а также суммарный процент дисперсии. Пример такого расчёта приведён в таблице ниже. Собственное значение фактора – это его вклад в дисперсию пере- менных, объясняемую влиянием общих факторов. Считается, что те факторы, у которых этот показатель меньше 1,0, не вносят значитель- ного вклада в объяснение результата. Второй расчётный показатель – процент объясняемой дисперсии переменных. Принято считать, что при хорошем факторном решении выбирают столько факторов, чтобы они в сумме объясняли не менее 70-75%. В отдельных случаях этот показатель может достигать 85- 90%. Факторный анализ широко используется в следующей ситуации. В очень большом исходном наборе данных есть много полей, некото- рые из которых взаимозависимы. На этом наборе данных требуется, к примеру, обучить нейронную сеть. Для того чтобы снизить время, тре- буемое на обучение сети, и требования к объёму обучающей выборки, с помощью факторного анализа осуществляют переход в новое про- странство факторов меньшей размерности. Так как большая часть ин- формативности исходных данных сохраняется в выбранных главных компонентах, то качество модели ухудшается незначительно, зато намного сокращается время обучения сети. Главной проблемой фак- торного анализа является выделение и интерпретация главных факторов. 61 Табл. 8 Фактор Собственное значение % объясняе- мой дисперсии Суммарный % объясняемой дисперсии 1 5,14 51,4 51,4 2 1,72 17,2 68,6 3 1,03 10,3 78,9 4 0,76 7,7 86,6 5 0,38 3,9 90,5 6 0,33 3,3 93,7 7 0,28 2,8 96,6 8 0,21 2,1 98,7 9 0,08 0,8 99,5 10 0,05 0,5 100,0 Настройки в Deductor В узле «Факторный анализ» помимо вида метода (варимакс, квар- тимакс, без вращения) следует выбрать число выделяемых факторов. Можно задать непосредственно число факторов в диапазоне от 1 до общего числа переменных, или задать долю дисперсии, описанной выделяемыми факторами по отношению к общей дисперсии. После расчёта факторных нагрузок количество выявленных фак- торов можно изменить, уточняя порог значимости или количество факторов. Пример Рассмотрим пример из области анализа клиентской базы теле- коммуникационной компании. В подобных задачах обычно в распоря- жении исследователя оказываются десятки и сотни переменных, опи- сывающих поведенческий профиль клиента – агрегированная структу- ра потребления клиентом продуктов/услуг компании за определённый временной период, как в количественном, так и в стоимостном выра- жении. Многие из таких переменных сильно коррелируют друг с другом, например, число звонков и стоимость звонков. Аналитику можно отобрать только часть таких переменных, опираясь на опыт и интуи- цию, а лучше воспользоваться факторным анализом для получения 62 сжатого описания всех переменных в виде нескольких главных факто- ров. Пусть даны признаки, описывающие структуру потребления услуг мобильной связи (в среднем за год) в разных аспектах: тип вызо- ва (исходящий входящий), время звонка, направление связи (фиксиро- ванная, мобильная, сообщение) и другие, всего 21 непрерывная пере- менная. Рис. 25 Рис. 26 Поставим задачу компактно описать каждого клиента, т.е. мини- мизировать число переменных. Воспользуемся узлом «Факторный анализ» и зададим: метод вращения – варимакс, число факторов – 5. 63 Рис. 27 На следующем шаге мастера убедимся, что пять фактов обеспе- чили почти 70% вклада в результат. Откроем визуализатор «Фактор- ный анализ» и установим для отображения в матрице факторных нагрузок порог значимости 0,45 (остальные значения будут скрыты). Все нагрузки становятся либо большими, либо маленькими, что упро- щает интерпретацию. Рис. 28 64 Видно, что вращение помогло объединить наши переменные в логические группы: Фактор 1 – высокие нагрузки на поведенческие характеристи- ки клиента, отвечающие за gsm-звонки. Фактор 2 – фактор, отвечающий за обычные sms-сообщения. Фактор 3 – фактор, отвечающий за активность в международ- ном направлении, включая звонки и sms. Фактор 4 – фактор, отвечающий за активность в использова- нии платных sms-сервисов. Фактор 5 – фактор, отвечающий за звонки на фиксированные средства связи. В результате после обработчика нам доступен набор данных, где каждому клиенту соответствуют значения пяти главных факторов. Та- кой набор данных можно использовать для построения какой-нибудь модели, классификации или регрессии. Описание программного обеспечения Данная лабораторная работа должна выполняться при помощи ПО Deductor Academic 5.3. Домашнее задание студентам для подготовки к выполнения лабо- раторной работы Изучить по лекциям и учебной литературе особенности проведе- ния корреляционного и факторного анализа. Задание №1. Автокорреляционный анализ (продажа товара) Есть таблица (табл. 9) продаж некоторого товара за два с неболь- шим года. Определим наличие сезонных зависимостей продаж этого товара. 1. Скопируйте таблицу в txt-файл. 2. Сохраните файл. 3. Запустите автокорреляцию. Одно из полей будет отмечено как недоступное. Просто нажмите «Далее». 65 4. Вычислите автокорреляционную функцию для поля «Объём продаж». Для оценки сезонности выберите количество отсчё- тов = 24 (два года). Табл. 9 Дата Объём продаж 01.01.2012 4795 01.02.2012 5772 01.03.2012 8259 01.04.2012 8418 01.05.2012 8064 01.06.2012 5462 01.07.2012 4142 01.08.2012 3910 01.09.2012 3450 01.10.2012 6994 01.11.2012 1999 01.12.2012 7286 01.01.2013 7355 01.02.2013 7108 01.03.2013 1876 01.04.2013 2976 01.05.2013 6365 01.06.2013 1806 01.07.2013 4774 01.08.2013 3391 01.09.2013 7824 01.10.2013 3118 01.11.2013 9404 01.12.2013 8451 01.01.2014 7820 01.02.2014 6319 01.03.2014 2954 01.04.2014 5819 01.05.2014 8815 01.06.2014 2915 01.07.2014 3575 01.08.2014 7488 01.09.2014 3183 66 5. Постройте диаграмму автокорреляции. 6. На диаграмме АКФ выглядит следующим образом (рис. 29). Как видно из рисунка, в этом наборе данных автокорреляция слабая. Это обусловлено тем, что данные, использованные в работе, были сгенерированы случайным образом. 7. Создайте свой набор данных и проделайте для него пп. 1 – 5. Рис. 29 Задание №2. Корреляционный анализ Пусть есть временные ряды (табл. 10) продаж товаров. Определи- те корреляцию «Товара 1» с остальными. 1. Скопируйте таблицу в txt-файл. 2. Сохраните файл. 3. Импортируйте информацию из файла в Deductor. 4. Нажмите «F7» и выберите узел «Корреляционный анализ». 5. Отметьте «Товар 1» как входное поле. Остальные – выходные. 6. Прочие настройки оставьте без изменений. 7. В качестве визуализатора выберите «Матрица корреляции». Как видно из рис. 30, ряд продаж для «Товар 2» имеет очень большую положительную, а «Товар 3» – отрицательную корреляцию. Из этого можно сделать вывод, что «Товар 2», возможно, является со- путствующим товаром, а «Товар 3» – заместителем «Товар 1». Корре- 67 ляция с продажами «Товар 4» с «Товар 1» является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами «Товар 1» и продажами «Товар 4». Табл. 10 Товар 1 Товар 2 Товар 3 Товар 4 10 20 15 25 12 22 12 26 14 25 9 26 13 24 10 25 14 25 9 24 14 25 9 23 12 21 12 24 10 18 14 23 16 24 9 22 13 21 9 23 17 25 7 25 Рис. 30 8. Выберите из табл. 11 (согласно варианта) нужный файл. 9. Переведите выбранный файл в формат txt. 10. Импортируйте информацию из него в Deductor. 11. Проведите корреляционный анализ. В качестве выходного по- ля выберите Result. Остальные поля – входные. Некоторые поля изначально будут отмечены как непригодные. С ними никаких действий предпринимать не нужно. 12. Сделайте выводы. 68 Табл.11 Номер в списке группы Название файла 1 или 9 или 17 или 25 AusOpen-men-2013.csv 2 или 10 или 18 или 26 AusOpen-women-2013.csv 3 или 11 или 19 или 27 FrenchOpen-men-2013.csv 4 или 12 или 20 или 28 FrenchOpen-women-2013.csv 5 или 13 или 21 или 29 USOpen-men-2013.csv 6 или 14 или 22 или 30 USOpen-women-2013.csv 7 или 15 или 23 или 31 Wimbledon-men-2013.csv 8 или 16 или 24 или 32 Wimbledon-women-2013.csv Задание №3. Факторный анализ 1. Выполните факторный анализ данных из файла, выбранного в предыдущем задании. 2. Задайте следующие настройки: а) варимакс и 5 факторов; б) квартимакс и 5 факторов; в) без вращения и 5 факторов. 3. Задайте следующие настройки: а) варимакс и 10 факторов; б) квартимакс и 10 факторов; в) без вращения и 10 факторов. 4. Задайте следующие настройки: а) варимакс и 15 факторов; б) квартимакс и 15 факторов; в) без вращения и 15 факторов. 5. Сделайте выводы об эффективности работы факторного ана- лиза при различных настройках. Содержание отчёта: 1. Титульный лист. 2. Цель лабораторной работы. 3. Номер варианта. 4. Задание №1: Результаты выполнения пунктов 6 и 7. 5. Задание №2: Результаты выполнения пунктов 7 – 12. 6. Задание №3: Результаты выполнения пунктов 2 – 5. Контрольные вопросы |