Интеллектуальный анализ данных
Скачать 7.76 Mb.
|
NB! 10 Например, таблицы для медицинской диспансеризации содержат перечень студентов, (строки), а в столбцах стоят его индивидуальные параметры – пол, да- та рождения, рост, вес, объем легких и т.п. Машинная форма хранения данных содержит полезную информацию в скрытом виде, для ее извлечения и представления в удобном виде приходится использовать специальные методы. ТехнологияData Mining изучает именно про- цессы нахождения новых знаний в базах данных. В ее основе лежат Системы баз данных; Прикладная статистика; Теория искусственного интеллекта. Data Mining переводится как "добыча" или "раскопка данных". Нередко ря- дом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases). Наиболее известная реализация технологий Data Mining – это поисковые системы в Интернете. В сфере бизнеса известны со- общения об экономическом эффекте от внедрения таких технологий, в 10-70 раз превысившем первоначальные затраты. 1.6. Закономерности Выделяют пять типов закономерностей, которые позволяют выяв- лять методы Data Mining: ассоциация, последовательность, классификация, кла- стеризация и прогнозирование. Ассоциация – это выделение различных типов связей между событиями: корреляционные связи, if-then правила и т.п. Последовательность – это ассоциация между событиями, сдвинутыми во времени. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно вы- деляют различные однородные группы данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показате- лей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. Примеры 1. В ходе расшифровки генома человека получены следующие выводы. Выделено примерно 35000 генов (17% объема), остальное – непонятные обломки. Для подавляющее большинства генов понятна их предыстория: такой ген был у рыб, у человека он развился таким-то образом. Отличие человека от шимпанзе – 11 около 350 генов, но из них 223 не имеют никакой предыстории, их происхождение непонятно. Очень хотелось бы так же изучить ДНК не из ядра, а из митохондрий, ее можно выделять из окаменевших костей, но это очень дорого. При этом можно было бы определить, когда эти новые гены попали в наследственность человека. 2. Холодная дождливая зима приводит к плохому урожаю и, одновре- менно, создает благоприятные условия для развития спорыньи – сорняка, содер- жащего наркотик ЛСД. Возникает цепочка: плохие урожаи – нарушение технологий выпечки хлеба – попадание в пищу ЛСД. В истории Европы обнаружена очень сильная корреляционная связь между этими событиями и непонятными психиче- скими эпидемиями: плясками Святого Витта, вспышками бессмысленного наси- лия, массовыми сожжениями ведьм и колдунов. В частности, такие события на- блюдались во Франции в 1793 году и в России – в 1917 и в 1928 г.г. 3. Анализ речей знаменитых ораторов – Троцкого, Гитлера, Фиделя Ка- стро и др., а также текстов, с помощью которых знахари заговаривают болезни, насылают и снимают порчу и т.п., привели к созданию специальной технологии - нейролингвистического программирования, которую теперь широко исполь- зуют в средствах массовой информации, в речах политиков, в рекламе и т.д. Вопросы для самопроверки: 1. Назовите основную цель анализа данных? 2. Приведите наиболее распространенные определения информации. 3. Приведите формализованное описание факта. 4. Что называется фактографическими данными? 5. Перечислите основные составляющие экспертной системы? 6. Назовите основные задачи, решаемые средствами ИАД? 7. Перечислите принципы анализа данных, предложенные Дж. Тьюки? 8. Назовите три уровня анализа информации. Чем они отличаются? 9. Чем отличается классификация от кластеризации? 10. Назовите различие между данными и знаниями. Литература: 1. Загоруйко Н.Г. Прикладной анализ данных и знаний. – Новосибирск : Изд-во НГУ, 1990. 2. Плэтт В. Информационная работа стратегической разведки: основные принци- пы. – М.: Изд-во иностр. лит-ры, 1958. 3. Паклин Н.Б., Орешков В.И., Бизнес-аналитика: от данных к знаниям. – СПб.: Питер, 2013. 4. Барсегян А.А. и др. Анализ данных и процессов. – СПб: БХВ-Петербург, 2009. 5. Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика, 1988. 6. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977. 7. Орлов А.И. Прикладная статистика. – М.: Экзамен, 2004. 12 ЛЕКЦИЯ 2 АНАЛИТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 1.Аналитические информационные технологии в задачах управления Эффективность функционирования любой системы в существенной, а в большинстве случаев, и определяющей степени зависит от эффективности ис- пользуемой ей системы управления. При этом особую роль управление приобре- тает при работе со сложными динамическими объектами. Заметим, что большинство реальных систем относятся именно к этой кате- гории, вопрос лишь в степени приближения к реальности тех моделей, которые используются для их описания и изучения. Так, например, даже простейшие, так называемые, элементарные частицы, в физике, или простейшие организмы в биологии – амебы, вирусы, при внимательном изучении оказываются крайне сложными объектами, характеризуемым большим числом взаимодействующих элементов. Для описания функционирования более сложных систем – человека, технологического или производственного процесса, корпорации, государства и т.п., практически всегда необходимо использовать многопараметрические модели, причем не только самих объектов, эволюционирующих во времени, но среды их взаимодействия. Традиционная модель управления по Винеру (рис. 1) включает в себя системы наблюдения и собственно управления. В последние годы особую роль приобретают вопросы автоматизации процесса выработки управляющих решений. На рис. 2 представлена та же общая схема управления с явно выделенной системой выработки управляющих решений. Автоматизированная система, ориентированная на задачу поддержки Под сложными объектами управления, в контексте изучаемого предмета, будем понимать многомерные многосвязные системы. Рис. 1. Традиционная модель управления по Винеру NB! 13 принятия решений (или СППР) обычно используется в режиме «советника» или когнитивного ассистента. Когнитивные информационные технологии ориентированы на создание качественно новых систем принятия решений, основанных на принципах искусственного интеллекта (artificial intelligence systems, AI). В настоящее время интеллектуальное управление строится, главным образом, на принципах гибридного интеллекта, когда в контуре управления ведущую роль исполняет человек, а компьютер формирует некоторые оптимизирующие рекомендации. В частности, ПЭВМ уже превратились в системы, восполняющие дефицит человеческой памяти, способности к арифметическим и логическим операциям, возможности по поиску и формированию знаний, необходимых для принятия решений. В автоматизированных СУ формирование управляющих решений произво- дится, как правило, лицом, принимающим решение (или ЛПР). В лучшем случае, в его распоряжении имеются средства OLTP – online treatment processing, а также простейшие схемы агрегации и визуализации данных. Имеется ли реальная возможность формировать эффективные правленче- ские решения в указанных условиях? Рассмотрим, в качестве примера, процесс управления реальным предпри- ятием (рис. 3). Эффективность функционирования предприятия зависит от мно- жества разнородных взаимосвязанных факторов. Эти факторы известны не пол- ностью, некоторые из них являются латентными и проявляются лишь эпизодиче- ски. Как правило, отсутствуют точные представления о влиянии факторов на объ- ем и качество производства, неизвестен характер динамических взаимозависимо- стей факторов между собой и между показателями качества выпускаемой продук- ции. Рис. 2. Общая схема управления с явно выделенной системой выработки управляющих решений 14 Вопрос: Может ли человеческий мозг справиться с задачей количественного анализа ситуации в условиях множества взаимосвязанных, неполностью извест- ных факторов влияния? Рассмотри простейший пример (рис.4) – прогноз развития линейного тренда под влиянием всего лишь двух факторов с минимальной нелинейностью (парабо- Рис. 3. Схема управления реальным предприятием Рис. 4. Развитие ситуации с 2-мя известными факторами влияния 15 лы 2-го порядка,) и точно известной функцией влияния - линейной функции с уг- лом наклона 45 0 . Попробуйте спрогнозировать динамику развития. Очевидно, что даже такая простейшая задача является для человека проблемой. Вывод: Человеческий мозг в принципе не способен к эффектив- ному количественному анализу и прогнозу развития ситуации. Это утверждение сохраняется и на других уровнях анализа данных – миро- вая динамика, экономика РФ, динамика развития предприятия, управление техно- логическими и производственными процессами, управление личной жизнью и т.п. Разумеется, не следует и забывать о фантастической способности челове- ка, несмотря ни на что, формировать в этих условиях, как правило, вполне снос- ные решения. Хотя и не всегда. Мозг обладает некоторыми интегрирующими способностями восприятия и аналоговой переработки информации. Включаются механизмы правого полуша- рия, ответственные за интуицию и т.п. В связи с этим наилучшие результаты пока что достигаются при использо- вании человеко-машинного симбиоза, ко- гда человек формирует стратегические решения, оценивает ситуацию в целом, верифицирует машинный результат и принимает окончательное решение, а ЭВМ – считает и работает в режиме «советчика» для количественного просчета ситуаций и подготовки (визуализации) данных. В связи с этим базовая структура автоматического управления претерпева- ет определенные и существенные изменения, представленные на рис. 5. В частности, базовая структура дополняется информационным хранили- щем – базой производственного опыта и автоматизированной СППР. Совокупность технических средств и методов, ориентированных на задачи автоматизированной поддержки принятия управленческих решений называется аналитическими информационными технологиями (АИТ). Основные направления АИТ включают в себя - OTLP, - OLAP, - DW, Data Mart - Data Mining. Задачи хранения данных, их оперативной модификации, информационно- поискового анализа в условиях одновременного обращения многих пользователей решают системы OLTP (Online Transactions Proceeding). Однако практика исполь- зования таких систем показала, что они плохо приспособлены к решению задач собственно анализа данных. Выход нашелся в создании специализированных подсистем - хранилищ данных [У. Инмон, 1992]. NB! Слоган IBM: «Машина должна работать, человек – думать!» NB! 16 Хранилище данных (ХД, Data Warehouse) – предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. ХД может быть как фи- зическим, так и виртуальным. Обычно данные для ХД копируются критически, очищаются и обогащаются новыми атрибутами. Витрина данных (ВД, Data Mart) – упрощенный вариант ХД, содержащий только тематически объединенные данные. ВД часто формируют как надстройки над более общим ХД. В 1993г. Е. Кодд, основоположник реляционной модели БД, предложил представление данных в виде многомерной модели гиперкуба, ребрами которого являются измерения или параметры изучаемого объекта. Эту технологию назвали OLAP (Online analytical processing), ее полное определение задается 12 правила- ми Кодда, приведенными в Приложении 1. Набор этих требований, послуживших де-факто определением OLAP, дос- таточно часто вызывает различные нарекания, например, правила 1, 2, 3, 6 явля- ются требованиями, а правила 10, 11 — неформализованными пожеланиями. Та- ким образом, перечисленные 12 требований Кодда не позволяют точно опреде- лить OLAP. В 1995 г. Кодд добавил еще шесть правил: 13. Пакетное извлечение против интерпретации — OLAP-система должна в равной степени эффективно обеспечивать доступ как к собственным, так и к внешним данным. 14. Поддержка всех моделей OLAP-анализа — OLAP-система должна под- держивать все четыре модели анализа данных, определенные Коддом: толкова- тельную, стереотипную, категориальную и умозрительную. 15. Обработка ненормализованных данных — OLAP-система должна быть интегрирована с ненормализованными источниками данных. Модификации дан- ных, выполненные в среде OLAP, не должны приводить к изменениям данных, хранимых в исходных внешних системах. Рис. 5. Схема когнитивного управления 17 16. Сохранение результатов OLAP: хранение их отдельно от исходных дан- ных — OLAP-система, работающая в режиме чтения-записи, после модификации исходных данных должна сохранять результаты отдельно друг от друга, т.е. обес- печивать безопасность всех исходных данных. 17. Исключение отсутствующих значений — OLAP-система, представляя данные пользователю, должна отбрасывать все отсутствующие значения, т.е. они должны отличаться от нулевых значений. 18. Обработка отсутствующих значений— OLAP-система должна игнори- ровать все отсутствующие значения без учета их источника. Эта особенность свя- зана с 17-м правилом. Data Mining – исследование и обнаружение машиной (алгоритмами, средст- вами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпре- тации человеком Вернемся к предприятию или любому иному объекту управления. Эффек- тивно управлять – значит научиться достоверно предсказывать, к чему приведут последствия от реализации принятого управленческого решения. Исполнение отстает от решения, эффект почти всегда задержан во време- ни по отношению к исполнению, следовательно, эффективное управление прак- тически всегда носит прогностический характер. Прогноз предназначен для оценки состояния системы в будущем. При этом предполагается, что система является динамической, т.е. развивающейся под воздействием множества факторов влияния – собственных и факторов среды. От- сюда для достоверного количественного прогноза необходимо научиться опера- тивно обнаруживать факторы влияния, скрытые зависимости и т.п. Вопрос: Что мешает формировать высокоэффективный прогноз? Преж- де всего, неполнота информации и ее недостаточная достоверность. Основные проблемы эффективного управления включают в себя решение следующих задач: Выявление значимых факторов влияния; Определение взаимосвязей факторов; Определение тенденций развития; Прогнозирование результатов; Оптимизацию решений. Решение перечисленных проблем составляет центральную задачу ИАД (DM) и поддерживающих ее АИТ. По постановке задачи разделяют на обучение с учителем (Supervised Learning) и обучение без учителя (Unsupervised Learning). Для управления по- лученными в результате анализа знаниями используются технологии Knowledge Management. 2. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ DM не имеет одного отца-основателя, его создавали тысячи математиков- прикладников, работающих в области компьютерной обработки данных. Сфера применения Data Mining ничем не ограничена – она везде, где име- ются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко 18 говоря, заинтриговали коммерческие предприятия, развертывающие системы хранения больших данных (Big Data) на основе информационных хранилищ дан- ных (Data Warehouse). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигнуть 1000% . Например, известны сообщения об эконо- мическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350$ до 750$ тыс. Известны сведения о проекте в $ 20 млн., который окупился всего за 4 месяца. Другой пример – годовая экономия $700 тыс. за счет внедрения Data Mining в сети универсамов в Великобритании. Сейчас в мире действует множество фирм, занятых в индустрии производ- ства продуктов DM, включаю такие гиганты, как Microsoft, Oracle, SAS Institute и др. В последние годы за рубежом появилось множество монографий и учебных посо- бий в данной области. DM представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов DM они могут получать ощутимые преимущества в конкурентной борьбе. Одно из возможных определений DM: Data Mining (или интеллектуальный анализ данных) – направление в об- ласти информационных и математических технологий, направленное на решение задач анализа данных в интересах повышения эффективности управляющих ре- шений. Соответственно, назначение DM состоит в решении задач в интересах сис- тем поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных. Основные задачи, решаемые средствами DM, представлены на рис. 6 Как видно из приведенного на рис. 6 списка, перечень базовых задач, ре- шаемых средствами DM, полностью совпадает со список задач, с которым стал- кивается менеджер при управлении практически любым предприятием или объек- том - ТП, финансами, коммерческой деятельностью и т.п. А именно - поиск зако- номерностей, взаимосвязей, факторов влияния, угроз, прогнозирование и поиск возможных решений. Математический инструментарий DM представлен на рис. 7. Рис. 6. Основные задачи, решаемые средствами DM 19 Как видно из представленной картинки, математический арсенал DM вклю- чает в себя почти все направления современной прикладной математики. Однако особое внимание уделяется статистическим методам обработки, обеспечиваю- щим возможность использовать накопленный статистический опыт управления предприятием, и новейшие кибернетические методы, среди которых особенно следует отметить нейросетевые технологии, генетические алгоритмы, методы эволюционного программирования и др. Важной особенностью математического инструментария DM является его реализация в виде законченных программных продуктов, как правило, коммерче- ских. В частности, в табл. 1 приведены некоторые программные продукты, отно- сящиеся к категории DM, и их ориентировочные стоимости. |