Главная страница
Навигация по странице:

  • DM классы Системы Стоимость

  • 4. Data Mining, как средство добычи знаний

  • Вопросы для самопроверки

  • Литература

  • Приложение 1. Правила Кодда для OLAP систем

  • ЛЕКЦИЯ 3 МИР МОДЕЛЕЙ и АНАЛИЗ ДАННЫХ. КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ РЕАЛЬНОСТИ 1. Введение. Математика – язык научных исследований

  • Альберт Эйнштейн

  • 2. Моделирование. Понятие модели. Классификация

  • Интеллектуальный анализ данных


    Скачать 7.76 Mb.
    НазваниеИнтеллектуальный анализ данных
    Дата11.10.2022
    Размер7.76 Mb.
    Формат файлаpdf
    Имя файлаiad_iadl.pdf
    ТипУчебное пособие
    #726651
    страница3 из 23
    1   2   3   4   5   6   7   8   9   ...   23
    3. СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЯ
    Для того, чтобы рассмотреть возможность применения DM-технологий в
    СППР рассмотрим первоначально традиционную структуру такой системы. Из схемы на рис. 8 видно, что традиционная СППР ориентирована на оперативную работу эксперта и включает в себя различные средства обеспечения OLTP анали- за.
    Развитие СППР на основе DM предполагает модификацию СППР, как это показано на рис. 9.
    Как видно из приведенной структуры, аналитическая СППР дополнительно включает в себя информационное хранилище и АРМ эксперта-аналитика, рабо- тающего с инструментами DM.
    Рис. 7. Математический инструментарий DM

    20
    Таблица 1. Программные продукты, относящиеся к категории DM
    DM классы
    Системы
    Стоимость
    Предметно- ориентированные анали- тические системы
    Скрининговые системы, ИС ЛПУ, ИС врача, ИС фельдшера, инф-справ. ИС и др
    $ 300-20000
    Статистический анализ
    SPSS,
    SAS,
    STATGRAPHICS,
    STATISTICA, STADIA
    $1000-15000
    Нейронные сети
    BrainMarker, NeuroShell, OWL
    $ 1500-8000
    Ассоциации по аналогии
    CBR, KATE Tools, Pattern Recognition
    Workbench
    $1500 -10000
    Деревья решений
    See5/C5.0,
    Clementine,
    SIPINA,
    KnowledgeSEEKER
    $1000 -10000
    Эволюционное програм- мирование
    PolyAnalyst, NeuroShell
    $1000 -5000
    Генетические алгоритмы
    GeneHunter
    $1000
    Алгоритмы ограниченного перебора
    WizWhy
    $4000
    Системы визуализации многомерных данных
    DataMiner3D
    До $1000
    Рис. 8. Структура традиционной СППР

    21
    Особое место в АИС занимают системы хранения информации (рис. 10).
    Предполагается, что вместо традиционной реляционной БД будут исполь- зоваться БД с многомерным представлением данных, образующих информацион-
    ное хранилище (DW, Data Warehouse). Локальная многомерная БД, как правило, имеющая тематическую ориентацию, получила название «витрина данных» или
    Data Mart.
    Основные принципы построения хранилищ данных были сформулированы
    Б. Инмоном и Коддом в концепции OLAP.
    Рис. 9. Структура аналитической
    СППР
    Рис. 10. Структура системы хранения информации для аналитической СППР

    22
    Существенная проблема, приведшая к многомерным структурам хранения данных, – скорость обработки аналитических запросов.
    Важный принцип построения DW – его неизменность по отношению храня- щимся в нем историческим данным.
    4. Data Mining, как средство добычи знаний
    Отметим два основных концептуальных направления в разработке алго- ритмов DM (рис. 12).
    Первое направление связано с использованием усредненного опыта. К это- му направлению можно отнести все статистические алгоритмы анализа данных.
    По существу, технология формирования и накопления устойчивых пред- ставлений об окружающем мире так или иначе связана с усредненным опытом.
    Однако в ряде случаев приходиться общаться и с уникальными ситуациями.
    Более того, каждая конкретная ситуация является уникальной и неповторимой.
    Согласно демокритовской концепции диалектической изменчивости, «все течет, все меняется». В этом случае используется концепция шаблонов или паттернов
    (patterns).
    Для того, чтобы понять или осмыслить текущую необходимо сопоставить ее с базой знаний усредненного опыта, которая хранится в памяти человека или в БД компьютера. При этом возникает необходимость в формировании меры «похоже- сти» или «близости», позволяющей для каждой ситуации выбрать из БД наиболее подходящий шаблон, позволяющий интерпретировать полученные наблюдения.
    Современные подходы к задачам управления сложными динамическими системами выдвигают ряд новых требований, часто являющиеся достаточно про- тиворечивыми. Важнейшими их них являются:
    - сверхбольшой объем данных;
    - разнородность данных;
    - глубина анализа;
    - интерпретируемость данных;
    - доступность (простота) инструментария.
    Сверхбольшой объем данных связан с проблемой больших данных Big
    Data. Человечество накопило огромные массивы цифровых данных, однако они ничего не дают без соответствующих технологий извлечения из них полезных знаний.
    Рис. 12. Основные направления Data Mining

    23
    Разнородность данных, связанное с большим количеством плохо структу- рированной информации (тексты, -аудио, -видео, рисунки и т.п.) привела к про- блеме Data Fusion – слияния данных и приведение их к формам, доступным для автоматического анализа данных.
    Интерпретируемость данных – требование, связанное с представлением данных в форме, доступной для человеческого мозга. так например, уже 4-х мер- ных данные не допускают наглядных геометрических представлений.
    Доступность инструментария предполагает, что предложенными математи- ческими моделями и технологиями могут пользоваться предметные эксперты и специалисты, не имеющие специальной математической подготовки.
    Глубина анализа данных может осуществляться на трех уровнях, представ- ленных на рис. 13. Классификатор глубины анализа включает в себя поверхност- ный, неглубокий и глубокий уровни анализа, которым отвечают, соответствено,
    OLTP-, OLAP и DM технологии.
    Глубокий анализ данных включает в себя следующие основные задачи:
    - ассоциация – выявление связей между событиями;
    - обнаружение последовательностей;
    - выявление связанных во времени событий;
    - классификация – выявление признаков групп событий;
    - кластеризация – тоже для заранее не выявленных групп событий;
    - прогнозирование.
    Сравнение OLAP и DM технологий представлено в таблице 2.
    Реализация процедуры анализа, в общем случае, представляет собой сложную многоступенчатую процедуру. По мнению западных методистов, основ- ные шаги к успеху анализа данных включают в себя:
    1.
    Четкое представление о цели;
    2.
    Сбор релевантных данных;
    3.
    Выбор методов анализа;
    4.
    Выбор программного средства;
    5.
    Выполнение анализа;
    6.
    Принятие решения.
    Рис. 13. Три уровня глубины анализа

    24
    Таблица 2. Сравнение OLAP и DM технологий
    OLAP
    DM
    - Средние показатели реализаций под влиянием различных факторов
    - Наличие аналогов и подобий в пре- дыстории изучаемого события
    - Девиации, максимальные и мини- мальные отклонения от нормы;
    - Наличие и характер взаимозависимо- стей между наборами событий;
    - Графические представления динамики агрегированных данных.
    - Прогнозирование эволюции развития ситуаций под влиянием набора взаимо- связанных факторов
    В заключение лекции приведем пример перечня задач, решаемых средст- вами DM, в интересах промышленного производства:
    - выявление скрытых закономерностей и взаимосвязей в динамики состоя- ния технологических процессов (ТП);
    - выявление наиболее значимых факторов влияния на качество функцио- нирования ТП;
    - оценка вероятности выхода показателей качества выпускаемой продук- ции и значений параметров состояния ТП за допустимые пределы;
    - прогнозирование изменения показателей качества и объемов выпуска товарной продукции в зависимости от выбора стратегии и режимов управления;
    - формирования оптимальных вариантов управления ТП.
    Вопросы для самопроверки:
    1. Как устроена общая (кибернетическая) модель управления?
    2. Приведите перечень задач, связанных с управлением реальным произ- водственным предприятием.
    3.Чем отличаются дескриптивные задачи от предсказательных?
    4. Что называется сложными объектами?
    5. Перечислите основные направления анализа данных, входящие в АИТ?
    6. Назовите основные задачи, решаемые средствами ИАД?
    7. Перечислите проблемы построения эффективного прогноза?
    8. Назовите особенности хранения информации в аналитических системах.
    9. Чем отличается когнитивное управление от традиционного?
    10. Перечислите математический инструментарий Data Mining.
    Литература:
    1. Загоруйко Н.Г. Прикладной анализ данных и знаний. – Новосибирск : Изд-во
    НГУ, 1990.
    2. Барсегян А.А. и др. Анализ данных и процессов. – СПб: БХВ-Петербург, 2009.
    3. Дюк В., Самойленко А. Data Mining: учебный курс (+CD). — СПб.: Изд. Питер,
    2001. — 368 с.

    25 4. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические ме- тоды. Программная система. Практические применения. — М.: Изд. «Фазис», 2006. —
    176 с. .
    5. Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Крас- ноярского государственного технического университета, 2000. — 180 с.
    6. Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет ин- формационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с.
    7. Ian H. Witten, Eibe Frank and Mark A. Hall. Data Mining: Practical Machine Learning
    Tools and Techniques. — 3rd Edition. — Morgan Kaufmann, 2011. — P. 664.
    Приложение 1. Правила Кодда для OLAP систем
    В 1993 году Кодд опубликовал труд под названием "OLAP для пользовате- лей-аналитиков: каким он должен быть". В нем он изложил основные концепции оперативной аналитической обработки и определил 12 правил, которым должны удовлетворять продукты, предоставляющие возможность выполнения оператив- ной аналитической обработки.
    1. Концептуальное многомерное представление. OLAP-модель должна быть многомерной в своей основе. Многомерная концептуальная схема или поль- зовательское представление облегчают моделирование и анализ так же, впрочем, как и вычисления.
    2. Прозрачность. Пользователь способен получить все необходимые дан- ные из OLAP-машины, даже не подозревая, откуда они берутся. Вне зависимости от того, является OLAP-продукт частью средств пользователя или нет, этот факт должен быть незаметен для пользователя. Если OLAP предоставляется клиент- серверными вычислениями, то этот факт также, по возможности, должен быть не- видим для пользователя. OLAP должен предоставляться в контексте истинно открытой архитектуры, позволяя пользователю, где бы он ни находился, связы- ваться при помощи аналитического инструмента с сервером. В дополнение к это- му прозрачность должна достигаться и при взаимодействии аналитического инст- румента с гомогенной и гетерогенной средами БД.
    3. Доступность. OLAP должен предоставлять свою собственную логическую
    схему для доступа в гетерогенной среде БД и выполнять соответствующие пре- образования для предоставления данных пользователю. Более того, необходимо заранее позаботиться о том, где и как, и какие типы физической организации дан- ных действительно будут использоваться. OLAP-система должна выполнять дос- туп только к действительно требующимся данным, а не применять общий принцип "кухонной воронки", который влечет ненужный ввод.
    4. Постоянная производительность при разработке отчетов. Производи-
    тельность формирования отчетов не должна существенно падать с ростом ко- личества измерений и размеров базы данных.
    5. Клиент-серверная архитектура. Требуется, чтобы продукт был не толь- ко клиент-серверным, но и чтобы серверный компонент был бы достаточно ин- теллектуальным для того, чтобы различные клиенты могли подключаться с минимумом усилий и программирования.
    6. Общая многомерность. Все измерения должны быть равноправны, каж- дое измерение должно быть эквивалентном в структуре, и в операционных воз- можностях. Правда, допускаются дополнительные операционные возможности для отдельных измерений (видимо, подразумевается время), но такие дополни- тельные функции должны быть предоставлены любому измерению. Не должно быть так, чтобы базовые структуры данных, вычислительные или отчетные форматы были более свойственны какому-то одному измерению.

    26 7. Динамическое управление разреженными матрицами. OLAP системы должны автоматически настраивать свою физическую схему в зависимости от типа модели, объемов данных и разреженности базы данных.
    8. Многопользовательская поддержка. OLAP-инструмент должен предос- тавлять возможности совместного
    доступа(запроса и дополне- ния), целостности и безопасности.
    9. Неограниченные перекрестные операции. Все виды операций должны быть дозволены для любых измерений.
    10. Интуитивная манипуляция данными. Манипулирование данными осуще- ствлялось посредством прямых действий над ячейками в режиме просмотра без использования меню и множественных операций.
    11. Гибкие возможности получения отчетов. Измерения должны быть раз- мещены в отчете так, как это нужно пользователю.
    12. Неограниченная размерность и число уровней агрегации. Исследова- ние о возможном числе необходимых измерений, требующихся в аналитической модели, показало, что одновременно может использоваться до 19 измерений. От- сюда вытекает настоятельная рекомендация, чтобы аналитический инструмент был способен одновременно предоставить как минимум 15 измерений, а предпоч- тительнее 20. Более того, каждое из общих измерений не должно быть ограниче- но по числу определяемых пользователем-аналитиком уровней агрегации и пу- тей консолидации.

    27
    ЛЕКЦИЯ 3
    МИР МОДЕЛЕЙ и АНАЛИЗ ДАННЫХ.
    КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ РЕАЛЬНОСТИ
    1. Введение. Математика – язык научных исследований
    Основой анализа данных является получение знаний. В некоторых случаях, например, при проведении академических исследования, эти знания должны об- ладать высоким уровнем общности, т.е. относиться к категории фундаменталь- ных. В свою очередь «фундаментальность» означает самый высокий, математи- ческий уровень их обоснованности. И здесь "во главе угла" встает Ее Величество
    Математика и ее прикладные ответвления – математическая статистика, теорети- ческая кибернетика, теория систем, исследование операций и т.п.
    Здесь уместно вспомнить высказывание А. Эйнштейна: "Чисто математи-
    ческие построения позволяют найти те понятия и те закономерные связи ме-
    жду ними, которые дают ключ к пониманию явлений природы".
    В мире царят закономерности, вполне описываемые математическими уравнениями. И люди настолько привыкли к этим закономерностям, что просто не хотят ни замечать их, ни удивляться самому факту их возникновения.
    Так, например, философские законы диалектики или законы эволюции жи-
    вой природы и человеческой цивилизации представляют собой настоящее чудо, поскольку их генезис (как и происхождение большинства других окружающих нас законов) по сей день остается неясным. Даже для наиболее глубоко изученных физических закономерностей первопричины гравитации, света, электрического тока и других явлений остаются нераскрытыми.
    Известный американский математик профессор нью-йоркского университе- та М. Клайн писал: "Если бы Платон... писал Библию, он, несомненно, начал бы
    ее такими словами: "Вначале Бог создал математику, а затем небо и звезды
    согласно законам математики".
    Однако и математика не всесильна. Математика в лучшем случае описы- вает структуру закономерностей, но отнюдь не гарантирует их понимание.
    Как писал Б. Рассел, "математика представляет собой собрание выво-
    дов, которые могут быть применены к чему угодно".
    Альберт Эйнштейн (1879, Ульм, Вюртемберг, Германия —1955,
    Принстон, Нью-Джерси, США) — физик-теоретик, один из основате- лей современной теоретической физики, лауреат Нобелевской пре- мии по физике 1921 года, общественный деятель-гуманист.
    Жил в Германии (1879—1893, 1914—1933), Швейцарии (1893—
    1914) и США (1933—1955). Почётный доктор около 20 ведущих уни- верситетов мира, член многих Академий наук, в том числе иностран- ный почётный член АН СССР (1926). Эйнштейн — автор более 300 научных работ по физике, а также около 150 книг и статей в области истории и философии науки, публицистики и др.

    28
    Семантика и интерпретация найденных физических и иных законов требуют их осознания на более высоком уровне - на уровне причин их происхождения и места во всеобщей картине мироздания. Строго говоря, знания современных уче- ных не так уж далеко ушли вперед в понимании первопричин фундаментальных законов по сравнению со знаниями средневековых схоластов, ссылающихся на
    Божественный промысел.
    Математика - наука очищения, она позволяет обнаружить и идентифици- ровать закономерности, замаскированные в зашумленных стохастических потоках энергии и информации. Как правило, глубокие, фундаментальные закономерности достаточно просты и допускают красивые аналитические описания. "Наш опыт
    убеждает нас, - писал А. Эйнштейн, - что природа - это реализация самых про-
    стых математических идей". А математические описания реальных закономер- ностей и связей и представляют собой класс математических моделей.
    Элегантность основополагающих законов оказалась вполне адекватной красоте классической "чистой" математики. Возможно, именно этот факт привел Г.
    Харди к мысли о том, что "красота есть пробный камень для математической
    идеи; в мире нет места уродливой математике".
    Увы... Стоит только спуститься со снежных вершин ортодоксальной Науки к решению прикладных задач суетного Повседневья, и мы сразу же столкнемся с целым рядом проблем, явно не вписывающихся в изящные формы классических математических моделей. И здесь Ее Величеству Чистой Математике приходится сбросить с себя белоснежную мантию теоретической аналитики, засучить рукава и, превратившись в работящую служанку - Прикладную Математику, заняться тя- желым вычислительным трудом - имитационным моделированием, приближен- ными методами расчета, линеаризацией, обработкой некондиционных статисти- ческих данных и т.д. и т.п.
    Следует иметь в виду, что "математика - не свод готовых ответов на
    любой вопрос. Математика - это скорее школа мышления" [15]. И важнейшим атрибутом такого мышления является системность, т.е. способность увидеть взаимосвязанное единство в совокупности разрозненных фактов, событий, эле- ментов.
    2. Моделирование. Понятие модели. Классификация
    Главным инструментом изучения любых систем и связан- ных с ними процессов является
    1   2   3   4   5   6   7   8   9   ...   23


    написать администратору сайта