Главная страница
Навигация по странице:

  • 4.1.1. Классификация IT-анализа по режиму и темпу

  • 4.1.2. Требования, предъявляемые к OLAP-системам

  • 4.1.3. Задачи и содержание оперативного (OLAP) анализа

  • 4.1.4. Типы многомерных OLAP-cистем. Общие положения

  • Многомерные OLAP-системы

  • Реляционные OLAP-системы

  • 4.2. Интеллектуальный анализ данных Data mining

  • 4.2.1. Содержание понятия знания. Классификация видов знаний

  • 4.2.2. Задачи Data mining

  • 4.2.3. Специфические методы и области применения data mining-a

  • Области применения методов Data Mining

  • Руководство по изучению курса Практикум по курсу


    Скачать 1.79 Mb.
    НазваниеРуководство по изучению курса Практикум по курсу
    Дата19.08.2021
    Размер1.79 Mb.
    Формат файлаpdf
    Имя файлаinfansys_2.pdf
    ТипРуководство
    #227375
    страница5 из 11
    1   2   3   4   5   6   7   8   9   10   11
    ГЛАВА 4.
    Признаки OLAP-систем, технологии оперативного
    и интеллектуального анализа данных
    4.1. Подходы к выполнению анализа средствами информационных технологий
    (IT-анализа)
    1.
    Классификация IT-анализа по режиму и темпу.
    2.
    Задачи и содержание оперативного (OLAP) анализа.
    3.
    Типы многомерных OLAP-cистем.
    Информация, извлекаемая из информационных хранилищ и предоставляемая ее конечным потребителям независимо от архитектуры ИХ, способов представления в базах данных, должна отвечать предъявляемым требованиям по форме представления, содержа- нию, своевременности, достоверности, воспринимаемости и т.д. Применяемые методы анализа должны обеспечивать необходимое содержание и достоверность предоставляемой пользователям информации.
    4.1.1. Классификация IT-анализа по режиму и темпу
    Различают два вида информационно-аналитических систем по режиму и темпу анализа:
    – статические – имеют заранее разработанный сценарий обработки данных при весьма ограниченных возможностях вариаций запросов – так называемые информацион- ные системы руководителя (Exequtive Information system EIS);
    – динамические – обеспечивают обработку нерегламентированных запросов и гиб- кую систему подготовки отчетов.
    Статические ИАС при всей кажущейся простоте и соответственно привлекательно- сти для ЛПР имеют ограниченные возможности по информационной поддержке принятия решений. Зачастую полученная в отчетах информация порождает вытекающие из ее со- держания вопросы, на которые в допустимое время ответ не может быть получен.
    Динамические ИАС предназначены для обработки незапланированных заранее, не- ожиданных (ad hoc) запросов. Пользователи системы работают с такой ИАС в интерак- тивном режиме. Обрабатывается серия непредусмотренных заранее запросов, которые возникают в ходе полготовки и принятия решения. Заранее может быть подготовлена не- которая цепочка действий или сценарий, который может корректироваться.
    Поддержка принятия управленческих решений осуществляется в следующих ре- жимах или базовых сферах (23):
    – -сфера детализированных данных;
    – -сфера агрегированных показателей;
    – -сфера закономерностей.
    В сфере детализированных данных подсистемы ИАС или автономные ИС нацеле- ны на поиск данных. Эту задачу отлично выполняют реляционные СУБД. В качестве язы- ка манипулирования данными, ставшего стандартным, используется, как правило, SQL.
    Для поиска детализированной информации используются информационно-поисковые сис- темы, которые могут работать с операционными, локальными или региональными базами и хранилищами данных, так и совместно с центральным ИХ.
    Сфера агрегированных показателей отличается агрегацией данных, оперативной аналитической обработкой, многомерным представлением в виде гиперкубов, многомер-
    48

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ным анализом. В этой сфере используются специальные многомерные СУБД. Допустимо использование реляционных представлений данных. При правильном применении реля- ционных СУБД, как показано выше, показатели эффективности ИАС сопоставимы со спе- циализированными многомерными. Агрегированные массивы при реляционном подходе представлены в виде описанных выше схем: «звезды» и других. Агрегация может произ- водиться также «на лету» при обработке запроса.
    Анализ детализированных данных и агрегированных показателей относится к опе- ративному или OLAP-анализу.
    Сфера закономерностей связана или основана на интеллектуальной обработке данных. Главной задачей здесь является выявление закономерностей в исследуемых про- цессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных «непривыч- ных» отклонений, прогноз хода различных существенных процессов. Эта сфера относится к интеллектуальному анализу (Data mining).
    4.1.2. Требования, предъявляемые к OLAP-системам
    С 1993 года стал проявляться интерес к многомерному представлению данных – в этом году появилась программная статья Эдварда Кодда. В ней он сформулировал двена- дцать основных требований к средствам реализации OLAP, дал критическую оценку ре- ляционного подхода в связи с его малой пригодностью к реализации в задачах многомер- ного анализа данных с повышенными требованиями к времени отклика на аналитические запросы. Они состоят в следующем:
    1. Многомерное представление данных.
    Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.
    2. Прозрачность.
    Это требование заключается в том, что пользователь не должен знать о том, какие конкретные средства используются хранения и обработки данных, как они организо- ваны и откуда они берутся.
    3. Доступность.
    Средства должны сами выбирать источник данных и связываться с ним для формиро- вания ответа на данный запрос.
    4. Согласованная производительность.
    Производительность не должна зависеть от количества измерений в запросе.
    5. Поддержка архитектуры «клиент-сервер»
    Средства должны работать в архитектуре «клиент-сервер».
    6. Равноправность всех измерений.
    Ни одно из измерений не должно быть базовым, все они должны быть равноправными.
    7. Динамическая обработка разреженных матриц.
    Неопределенные значения должны храниться и обрабатываться наиболее эффектив- ными способами.
    8. Поддержка многопользовательского режима работы с данными.
    Все многомерные операции должны единообразно и согласованно применяться к лю- бому числу любых измерений.
    9. Поддержка операций на основе различных измерений.
    Все многомерные операции должны единообразно и согласованно применяться к лю- бому числу любых измерений.
    10. Простота манипулирования данными.
    49

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
    Средства должны иметь максимально удобный и естественный пользовательский ин- терфейс.
    11. Развитые средства представления данных.
    Средства должны поддерживать различные способы представления данных.
    12. Неограниченное число измерений и уровней агрегации данных.
    Не должно быть ограничений на число поддерживаемых измерений.
    К 12 правилам впоследствии были присоединены еще шесть.
    В них содержатся некоторые противоречия, не все авторы безусловно их прини- мают, к тому же имеется некоторая расплывчатость определений.
    В конце 90-х годов получил распространение свод требований (39) к информаци- онно-аналитическим системам в виде «теста FASMI» – аббревиатуры английских слов, определяющих требования к OLAP-системам:
    Fast Analysis Shared Multidimensional Information – русский перевод Быстрый Анализ Раз- деляемой Многомерной Информации.
    Раскроем содержание перечисленных свойств, которыми должна обладать ИАС.
    Fast
    Быстрый – это свойство выражается во временных требованиях к ответам сис- темы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды. Более сложные запросы допускается обрабатывать в течение 5-ти секунд и лишь отдельные запросы допускаются с 20-секундной реакцией. Такие требования связаны с психофизиологичекими показателями аналитиков и ЛПР, обусловлены достижением наи- более значимых результатов анализа при выполнении этих требований. Специальные ис- следования показали, что при времени ответа более 30-ти секунд наступает раздражение и возможна реакция в виде перезапуска системы.
    Analysis
    Анализ – возможности системы выполнять аналитические работы различ- ного характера в предметной области пользователя собственными средствами, не прибе- гая к программированию. Для описания специфических для данного пользователя анали- тических процессов могут применяться встроенные средства в виде языков высокого уровня электронных таблиц со встроенными функциями, графических конструкторов, ви- зуальных средств с применением кнопочных и рамочных технологий.
    Shared Разделяемый – система должна обепечивать необходимый уровень защиты при множественном доступе для исключения взаимных помех, несанкционированного доступа. Ценность результатов анализа гораздо выше исходной информации.
    Multidimensional
    Многомерный – определяющее требование. Средства OLAP- системы должны обеспечить работу с данными в многомерном представлении на концеп- туальном уровне с полной поддержкой иерархий. Требование считается выполненным не- зависимо от того, какой тип базы данных используется, не устанавливаются рамки коли- чества измерений.
    Information
    Информация – должна обеспечиваться возможность получения ее из любых необходимых источников. Инструментальные средства оперируют с необходимы- ми объемами и структурами данных.
    Более подробно рассмотрим свойство многомерности, так как оно является наиболее ха- рактерным отличительным от других систем свойством, в частности OLTP.
    50

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
    Как показано в п.п. 2.1-2.2. информационное пространство, отображающее функ- ционирование объекта, многомерно. Естественно стремление аналитика и ЛПР к тому, чтобы иметь дело с моделью данных в наиболее естественном виде. Это обстоятельство привело к тому, что с помощью современных программно-технических средств, имеющих широкие возможности интерпретации данных, были созданы соответствующие много- мерные модели. Теоретические основы были заложены в трудах крупных российских уче- ных Ясина, Королева и др. еще в 70-х годах XX века. В трудах Кодда, Инмона легко уз- наются основополагающие идеи этих и других ученых, которые были реализованы в большом числе проектов в разных предметных областях.
    4.1.3. Задачи и содержание оперативного (OLAP) анализа
    Оперативный анализ – это функция ИАС, обеспечивающая быстрый, в соответст- вии с правилами FASMI, доступ к любой необходимой информации, содержащейся в ИХ или, точнее в факт-таблице, представляемой также в виде многомерного куба (на практике трехмерного). Извлечение информации, как правило, сопровождается обработкой ее по несложным алгоритмам, как то: производится суммаризация, определение процентов от заданных величин, получение от- носительных показателей, вычисление величин с заданными коэффициентами и другие действия над данными на разных уровнях детализации. Анализ производится с данными, представленными в виде электронных таблиц, над которыми предоставляется возмож- ность оперативно производить различные более сложные вычисления.
    Примерами такого рода целей OLAP-анализа могут быть. Определение суммарных издержек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени (года). Последующими этапами анализа могут быть – получение данных по этому показателю по каждому изделию за более ко- роткие промежутки времени (полугодие, квартал, месяц) и т.д. Затем можно выявить наи- более затратные процессы, места их возникновения. Список задач можно продолжить. В сбытовой сфере, к примеру, можно изучать объемы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения.
    Извлечение необходимой информации для построения отчетов производится путем использования ряда процедур.
    К ним относятся:
    – сечение или срез (slice and dice) – извлечение данных из факт-таблицы по каким- либо определенным значениям одного или нескольких измерений, например из ги- пер-куба (факт-таблицы), содержащей сведения об издержках в отчет (раздел отче- та) помещают данные только по какому-либо одному или группе издержек;
    – поворот, под которым понимают изменение координат, их порядка или добавле- ние измерений; эта процедура обеспечивает замену в готовом отчете «Издержки», к примеру, аргумента – время на регионы или центры затрат; если рассматривалась взаимозависимость «возраст – семейное положение» то можно в качестве аргумен- та брать любое из этих измерений и менять их местами;
    – свертка (drill up) – агрегируются данные по заданным признакам и алгоритмам; можно группировать необходимые данные, содержащиеся в ИХ в детальном виде, так при занесении сведений в операционную БД ежесуточно в ИХ их можно пере- давать в агрегированном виде – еженедельно или ежемесячно, соответственно в аг- регированные данные можно помещать в отчеты;
    51

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
    – развертка или раскрытие (roll up) – процедура, обратная свертке, данные детали- зируются, например группы товаров представляются по конкретным товарам, бо- лее крупные временные периоды разбиваются на мелкие и т.д.
    – создание кросс-таблиц – то-есть совмещение данных из разных таблиц по задан- ным признакам; например создается отчет, в котором сводятся данные об издерж- ках и выручке по одним и тем же изделиям и временным периодам;
    – проекция – конструирование отчетов, являющихся подмножествами из множества единичных реквизитов или атрибутов, содержащихся в операционных базах или в ИХ;
    – построение трендов – зависимость числовых или качественных значений показа- теля от тех или иных параметров, времени, технологии и т.д.
    Инструменты OLAP-систем обеспечивают возможность сортировки и выборки данных по заданным условиям. Могут задаваться различные качественные и количественные условия.
    В последнее десятилетие XX века основной моделью данных, использованной в много- численных инструментальных средствах создания и поддержки баз данных – СУБД, была ре- ляционная модель. Данные в ней представлены в виде множества связанных ключевыми поля- ми двумерных таблиц – отношений. Для устранения дублирования, противоречивости, умень- шения трудозатрат на ведение баз данных применяется формальный аппарат нормализации- таблиц-сущностей. Однако применение его связано с дополнительными затратами времени на формирование ответов на запросы к базам данных, хотя и экономятся ресурсы памяти.
    Многомерная модель данных (см п. 1) представляет исследуемый объект в виде много- мерного куба, чаще используют трехмерную модель. По осям или граням куба откладываются измерения или реквизиты-признаки. Реквизиты-основания являются наполнением ячеек куба.
    Многомерный куб или как иногда называют пул данных может быть представлен комбинацией трехмерных кубов с целью облегчения восприятия и квазиобъемного представления при фор- мировании отчетных и аналитических документов и мультимедийных презентаций по материа- лам аналитических работ в системе поддержки принятия решений.
    4.1.4. Типы многомерных OLAP-cистем.
    Общие положения
    В рамках OLAP-технологий на основе того, что многомерное представление дан- ных может быть организовано как средствами реляционных СУБД, так многомерных спе- циализированных средств, различают три типа многомерных OLAP-систем:
    – многомерный (Multidimensional) OLAP– MOLAP
    – реляционный (Relation) OLAP – ROLAP
    – смешанный или гибридный (Hibrid) OLAP – HOLAP
    Выше изложены основные свойства многомерной и реляционной моделей OLAP- систем и различия между ними. Сущность смешанной OLAP-системы заключается в воз- можности использования многомерного и реляционного подхода в зависимости от ситуа- ции: размерности информационных массивов, их структуры, частости обращений к тем или иным записям, вида запросов, наличия соответствующих инструментальных средств и т.д.
    Рассмотрим подробнее сущность, достоинства и недостатки приведенных разно- видностей OLAP-систем. При этом необходимо обратиться к рис. 3.1 «Структура инфор-
    52

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ мационного хранилища». На нем приведены зоны хранилища, которые соответствуют этапам продвижения данных из источников к конечным пользователям. В различных ва- риантах OLAP-систем эти зоны будут заполняться данными, представленными в виде раз- личных моделей.
    Многомерные OLAP-системы
    В многомерных СУБД данные организованы не в виде реляционных таблиц, а в ви- де упорядоченных многомерных массивов в виде гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать мак- симально полный базис измерений. Данные могут быть организованы в виде поликубов, в этом варианте значения каждого показателя хранятся с собственным набором измерений, обработка данных производится собственным инструментом системы. Структура храни- лища в этом случае упрощается, так как отпадает необходимость в зоне хранения данных в многомерном или объектно-ориентированном виде. Снижаются огромные трудозатраты на создание моделей и систем преобразования данных из реляционной модели в объект- ную (см. рис. 3.1).
    Достоинствами MOLAP являются:
    – более быстрое, чем при ROLAP получение ответов на запросы – затрачиваемое время на один-два порядка меньше;
    – из-за ограничений SQL затрудняется реализация многих встроенных функций.
    К ограничениям MOLAP относятся:
    – сравнительно небольшие размеры баз данных – предел десятки Гигабайт, в ;
    – за счет денормализации и предварительной агрегации многомерные массивы исполь- зуют в 2,5-100 раз больше памяти, чем исходные данные (расход памяти при увеличении числа измерений растет по экспоненциальному закону);
    – отсутствуют стандарты на интерфейс и средства манипулирования данными;
    -имеются ограничения при загрузке данных.
    Реляционные OLAP-системы
    В настоящее время в массовых средствах, обеспечивающих аналитическую работу, преобладает использование инструментов на основе реляционного подхода. Структура хранилища остается в том виде, как представлено на рис. 3.1. Трудозатраты на создание зоны многомерных данных резко увеличиваются, так как практически отсутствуют в этой ситуации специализированные средства объективизации реляционной модели данных, со- держащихся в информационном хранилище. Время отклика на запросы часто не может уложиться в рамки требований к OLAP-системам.
    Достоинствами ROLAP-систем являются:
    – возможность оперативного анализа непосредственно содержащихся в хранилище дан- ных, так как большинство исходных баз данных – реляционного типа;
    – при переменной размерности задачи выигрывают ROLAP, так как не требуется физиче- ская реорганизация базы данных;
    – ROLAP-системы могут использовать менее мощные клиентские станции и серверы, при- чем на серверы ложится основная нагрузка по обработке cложных SQL-запросов;
    – уровень защиты информации и разграничения прав доступа в реляционных СУБД не- сравненно выше, чем в многомерных.
    Недостатком ROLAP-систем является меньшая производительность, необходи- мость тщательной проработки схем базы данных, специальная настройка индексов, анализ
    53

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ статистики запросов и учет выводов анализа при доработках схем баз данных, что приво- дит к значительным дополнительным трудозатратам.
    Выполнение же этих условий позволяет при использовании ROLAP-систем до- биться схожих с MOLAP-системами показателей в отношении времени доступа, а также превзойти в экономии памяти.
    Гибридные OLAP-системы
    Представляют собой сочетание инструментов, реализующих реляционную и мно- гомерную модель данных. Структура хранилища остается в основном такой же, как на рис. 3.1, однако зона многомерных данных создается специализированными средствами.
    Это позволяет резко снизить затраты ресурсов на создание и поддержание такой зоны, время отклика на запросы, в том числе незапланированные резко снижается, выполняются требования к OLAP-системам.
    При таком подходе используются достоинства первых двух подходов и компенси- руются их недостатки. В наиболее развитых программных продуктах такого назначения реализован именно этот принцип.
    Использование гибридной архитектуры в OLAP-системах – это наиболее приемле- мый путь решения проблем, связанных с применением программных инструментальных средств в многомерном анализе.
    Тем не менее встречаются обстоятельства, когда применение ROLAP– и HOLAP- cистем становится невозможным из-за чрезвычайно жестких требований со стороны объектов управления или сответственно контролируемых процессов. Такие ситуации ха- рактерны для крупных промышленных, транспортных, энергетических комплексов, на финансовых рынках, при управлении объектами в критических ситуациях или их модели- ровании.
    Для такого класса применения ИАС становится безальтернативным применение многомерных или объектно-ориентированных инструментальных средств и методов.
    4.2. Интеллектуальный анализ данных Data mining
    1.
    Содержание понятия знания. Классификация видов знаний.
    2.
    Задачи Data mining.
    3.
    Специфические методы data mining-a
    4.
    Области применения методов Data Mining
    5.
    Средства реализации и задачи проектированиякомплекса data mining
    4.2.1. Содержание понятия знания. Классификация видов знаний
    Для обоснования принятия решений необходимы знания. Их добывают из различ- ных источников.
    Понятие «знания» рассматривается с различных точек зрения. В соответствии с этим имеется много определений этого понятия. Энциклопедический словарь определяет знания как «проверенный практикой результат познания действительности, верное ее от- ражение в мышлении человека». Применительно к ситуации с использованием компью- терных информационных систем (ИС) и, в частности ИАС, можно добавить «и в компью- терной ИС». По определению Гавриловой Т.А. и Хорошевского В.Ф. [17] знания это «за- кономерности предметной области (принципы, связи, законы), полученные в результате
    54

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ практической деятельности и профессионального опыта, позволяющие специалистам ста- вить и решать задачи в этой области».
    На начальном этапе подготовки данных к использованию в аналитической сфере они же представляют знания как «хорошо структурированные данные или метаданные».
    Знания различаются по многим признакам. Соответственно в литературе [29,18] приво- дится классификация различных видов знаний.
    1. Различают фактические и стратегические знания.
    Фактические – это такие знания, которые позволяют специалисту предметной об- ласти решать конкретные задачи из бизнес-сферы или в каком-либо другом виде деятель- ности. К ним относятся факты, взаимосвязи, системы понятий, правила. Стратегические – позволяют определить поведение объектов в ближайшем или отдаленном будущем.
    2. Факты и эвристики.
    Факты – это хорошо известные и описанные обстоятельства. К ним относятся так- же экономические категории, известные и описанные закономерности и так далее.
    Эвристики – знания, опыт, навыки специалистов в соответствующих предметных областях. Они являются объектом изучения и внедрения в информационные системы раз- личного назначения.
    3. Декларативные и процедурные знания.
    Первые являются очевидными, например: выручка – сумма, полученная в результа- те продажи товаров. Товар – изделие, предназначенное для продажи.
    Процедурные – по существу алгоритмы преобразования декларативных знаний, действий над ними.
    4. Интенсиональные и экстенсиональные знания.
    Первые являются знаниями о связях между объектами (их атрибутами) рассматри- ваемой предметной области. Вторые – свойства объектов, их состояния, значения свойств в пространстве и динамике.
    5. Глубинные и поверхностные знания.
    Глубинные знания содержат подробные сведения о структуре предметной области, законах поведения структуры в целом и отдельных ее элементов, достоверные и полные отражения взаимосвязей элементов структуры и т.д. Например: подробные сведения об устройстве компьютера или мобильного телефона, позволяющие производить проектиро- вание их или ремонт.
    Поверхностные знания касаются лишь внешних свойств и связей с рассматривае- мым объектом(ами). Перечень необходимых сведений о пользовательских свойствах упо- мянутых или других изделий.
    6. Жесткие и мягкие знания.
    Жесткие знания отражают системы или объекты с четко выраженными свойствами, связями, поведением, которые легко описываются качественными и количественными признаками, например описываются логико-дедуктивной системой показателей.
    Мягкие знания отображают соответственно системы и объекты с трудно поддаю- щимися описанию или формализации свойствами и связями. Дают нечеткие, размытые решения и множественность рекомендаций.
    Взаимосвязь между видами знаний отражена на рисунке 4.1.
    55

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
    Мягкость мягкие
    Жёсткие
    Поверхностные
    Глубинные
    Глубина
    Управление
    Обучение
    Стратегическое планирование
    Бизнес-планирование
    Диагностика неисправностей
    Прогнозирование чрезвычайных ситуаций
    Психодиагностика
    Рис. 4.1. Характеристики знаний
    4.2.2. Задачи Data mining
    Следует различать два различных процесса получения знаний. Первый – это «из- влечение» их из живого источника – эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и построения на этой основе экс- пертных систем, а также в других целях. Такой процесс относят к инженерии знаний. Дру- гой – это «добыча» скрытых от пользователя знаний из данных, помещенных в различного рода компьютерные информационные системы, в том числе базы данных различного на- значения, информационные хранилища. Процесс второго рода называют Data mining – ис- пользуют русский перевод «интеллектуальный анализ».
    Предметом нашего изучения является Data mining.
    Для обработки накопленных в различных источниках и местах сбора и хранения данных и выполнения интеллектуального анализа используются все достижения матема- тической науки и информационных технологий. В первую очередь используются методы линейной алгебры, классического математического анализа, дискретной математики, мно- гомерного статистического анализа.
    В экономической предметной области применение методов поиска решений, усло- вий неотрицательности и других свойств математических моделей путем дедуктивного
    56

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ получения следствий, исходя из предварительно сформулированных предпосылок, отно- сится к разделу экономической науки, называемому математическая экономика.
    Анализ количественных закономерностей и взаимозависимостей в экономике, который выполняется статистическими методами, относится к эконометрике.
    Традиционная математическая статистика долгое время являлась основной методо- логией анализа данных в экономической и других предметных областях. Однако базовая концепция усреднения по выборке часто приводит к операциям над фиктивными величи- нами. В экономике средние значения ряда показателей по различным предприятиям ино- гда создают искаженное представление об отсталости или наоборот о незаурядных успе- хах ряда предприятий, отраслей или регионов – сглаживают их.
    По этой причине появился ряд методик, которые относят к специфическим для
    Data mining-а. Эти методики позволяют избежать таких ситуаций. В таблице приведены примеры постановок задач для OLAP-методик, основанных на математической статисти- ке, и специфических методов Data Mining.
    OLAP Data
    Mining
    Каковы средние показатели рентабельно- сти предприятий в регионе?
    Какова характерная совокупность значе- ний показателей финансово-хозяйственной деятельности предприятий в регионе?
    Каковы средние размеры счетов клиентов банка – физических лиц?
    Каков типичный портрет клиента – физи- ческого лица, отказывающегося от услуг банка?
    Какова средняя величина ежедневных по- купок по украденной или фальшивой кре- дитной карточке?
    Существуют ли стереотипные схемы по- купок для случаев мошенничества с кре- дитными карточками?
    Выше показано, что работа по интеллектуальной обработке данных происходит в сфере закономерностей.
    Основными задачами интеллектуального анализа [2] являются:
    – выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий, определение значений факторов времени, локализация событий или явлений по месту;
    – классификация событий и ситуаций, определение профилей различных факторов;
    – прогнозирование хода процессов, событий.
    Главной задачей здесь является выявление закономерностей в исследуемых процес- сах, взаимосвязей и взаимовлияния различных факторов, поиск крупных «непривычных» отклонений, прогноз хода различных процессов в области мягких и глубинных знаний.
    Одновременно с этим многомерный статистический анализ твердо удерживает свои позиции в жесткой области знаний. Он делится на: факторный, дисперсионный, рег- рессионный, корреляционный, кластерный анализ (является также сферой интересов data mining-a). Эти методы позволяют решать многочисленные задачи в области экономики, менеджмента, юриспруденции, которые являются составной частью аналитической подго- товки принятия решений.
    4.2.3. Специфические методы и области применения data mining-a
    Помимо перечисленных выше методов многомерного статистического анализа, ставших традиционными, все более широкое применение находят специфические методы
    57

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ интеллектуального анализа, происходящие из смежных областей информационных техно- логий (IT-систем) и достижений различных областей науки.
    К специфическим методам интеллектуального анализа относятся:
    – методы нечеткой логики;
    – системы рассуждений на основе аналогичных случаев;
    – классификационные и регрессионные деревья решений;
    – нейронные сети;
    – генетические алгоритмы;
    – байесовское обучение (ассоциации);
    – кластеризация и классификация;
    – эволюционное программирование;
    – алгоритмы ограниченного перебора.
    Методы нечеткой логики используются для описания плохо формализуемых объ- ектов из состава «мягких» знаний. Над ними также совершаются мягкие вычисления. Ис- пользуется понятие «лингвистическая переменная», значения которой определяются через нечеткие множества, а они представляются базовым набором значений или базовой чи- словой шкалой.
    Системы рассуждений на основе аналогичных случаев case based reasoning (CBR) основаны на том, что принятие решения осуществляется по прецеденту, наиболее подхо- дящему к данной ситуации с учетом определенных корректив. Иногда решение прини- мается на основе учета всех примеров, находящихся в хранилище данных.
    Деревья решений основаны на иерархической древовидной структуре классифици- рующих правил. Решения об отнесении того или иного объекта или ситуации к соответст- вующему классу принимается по ответам на вопросы, стоящие в узлах дерева. Положитель- ный ответ означает переход к правому узлу следующего уровня, отрицательный – к левому узлу. Процесс разделения продолжается до полного ответа на все поставленные вопросы.
    Нейронные сети – это упрощенная аналогия нервной системы живого организма.
    Разработаны модели нейронных сетей. Распространенной моделью является многослой- ный персептрон с обратным распространением ошибки. Нейроны работают в составе ие- рархической сети, в которой нейроны нижележащего слоя своими выходами соединены с входами нейронов вышележащего слоя. На нейроны нижнего слоя подаются значения входных параметров, которые являются сигналами, которые передаются в следующий слой. При этом они ослабляются или усиливаются в зависимости от числовых значений, которые придаются межнейронным связям, называемых весами. На выходе нейрона верх- него слоя вырабатывается сигнал, являющийся ответом сети на введенные значения вход- ных параметров. Для получения необходимых значений весов сеть необходимо «трениро- вать» на примерах с известными значениями входных параметров и правильных ответов на них. Подбираются такие веса, которые обеспечивают наибольшую близость ответов нейронной сети к правильным.
    Генетические алгоритмы представляют собой поисковый метод, используемый для нахождения наилучшего решения или совокупности решений. Он основан на идее ес- тественного отбора. Начинается построение генетических алгоритмов с кодировки исход- ных логических закономерностей, называемых как и в биологии хромосомами. Набор та- ких кодов называют популяцией хромосом. Далее применяется функция пригодности, ко- торая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы, но возможен и вариант применения скрещивания и му-
    58

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ тации с целью получения «нового» поколения. Алгоритм работает над изменением старой популяции до тех пор, пока новая не будет отвечать заданным требованиям.
    Байесовское обучение или ассоциации применяются в тех случаях, когда сложилась ситуация увязки между собой некоторых событий. Например, заселение новостроек со- провождается приобретением мебели и других предметов домашнего обихода. Необходи- мо выявить количественные характеристики этой связи.
    Кластеризация и классификация. Слово кластеризация происходит от английского cluster – пучок, сгусток. Кластеризация предусматривает разделение совокупности схожих объектов на группы – кластеры по наибольшей близости их признаков. Проблема состоит в том, что оценка производится не по одному какому либо признаку, а одновременно по их совокупности. Разработаны алгоритмы кластеризации, которые пересчитывают значе- ния признаков в некоторую величину, характеризующую «расстояние» между объектами рассматриваемой совокупности и объединяют близкие объекты в кластеры. Классифика- ция отличается тем, что выявляются признаки, объединяющие объекты, которые уже со- стоят в группах. Этими методами занимается также и эконометрика.
    Эволюционное программирование. В этой методике предположения о виде аппрок- симирующей функции строятся в виде программ на внутреннем языке программирования.
    Процесс построения программ выглядит как эволюция в среде программ. После нахожде- ния в этой среде подходящей программы система начинает вносить в нее необходимые корректировки Эта методика реализована российской системой Polyanalyst. Специаль- ный модуль этой системы переводит найденные зависимости на доступный язык формул, таблиц.
    Алгоритмы ограниченного перебора. Они вычисляют частоты комбинаций простых логических событий в группах данных. На основании оценки полученных частот делается заключение о полезности комбинаций для обнаружения ассоциаций в данных, прогнози- рования и других целей.
    Эти методы стали весьма широко и эффективно применяться в связи с бурным раз- витием в последнее десятилетие XX века самих методик и соответствующих инструмен- тальных средств. Они находят применение в тех ситуациях, когда обычные методы анали- за трудно или невозможно применить из-за отсутствия сведений о характере или законо- мерностях исследуемых процессов, взаимозависимостях явлений, фактов, поведении объ- ектов и систем из различных предметных областей, в том числе в социальной и экономи- ческой.
    Области применения методов Data Mining
    С помощью этих методов при отсутствии априорной информации об объектах и их поведении и значительной ее неполноте решаются следующие задачи:
    – выделение в данных групп, сходных по некоторым признакам записей;
    – нахождение и аппроксимация зависимостей, связывающих анализируемые пара- метры или события;
    – поиск наиболее значимых параметров в данной проблеме (задаче);
    – выявление данных, характеризующих значительные или существенные отклоне- ния от сложившихся ранее закономерностей (анализ отклонений);
    – прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с использованием принципов обучения на известных примерах и другие задачи.
    Решение перечисленных задач может осуществляться каким-либо из перечислен- ных выше методов или комплексно для получения наиболее адекватного решения.
    59

    ПРИЗНАКИ OLAP-СИСТЕМ,
    ТЕХНОЛОГИИ ОПЕРАТИВНОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
    Средствами ИАС обеспечивается также оценка полученных результатов анализа и моделирования, в том числе оценка точности и устойчивости результатов, верификация моделей на тестовых наборах данных.
    Вопросы для самопроверки
    1.
    В чем состоят задачи и содержание OLAP-анализа?
    2.
    Какие функции выполняют процедуры сечение и поворот?
    3.
    Какие функции выполняют процедуры свертка и развертка?
    4.
    Что означают требования к OLAP-системе под рубрикой «быстрый»?
    5.
    Что означают требования к OLAP-системе под рубрикой «анализ»?
    6.
    Что означают требования к OLAP-системе под рубрикой «разделяемой»?
    7.
    Что означают требования к OLAP-системе под рубрикой «многомерной»?
    8.
    Что означают требования к OLAP-системе под рубрикой «информации»?
    9.
    Какие типы OLAP-систем ВЫ знаете, в чем их различие?
    10. В чем сущность MOLAP-системы?
    11. В чем сущность ROLAP-системы?
    12. В чем сущность HOLAP-системы?
    13. В чем состоят задачи и содержание OLAP-анализа?
    14. Какие функции выполняют процедуры сечение и поворот?
    15. Какие функции выполняют процедуры свертка и развертка?
    16. Какие функции выполняют процедуры проекция и построение трендов?
    17. Для каких целей предназначена подсистема интеллектуального анализа данных?
    18. Какие направления и методы поддерживают средства подсистемы интеллек- туального анализа ИАС?
    19. Раскройте содержание понятия «знания».
    20. Каким образом классифицируются виды знаний?
    21. В чем специфика методов интеллектуального анализа?
    22. Какие методы интеллектуального анализа Вы знаете?
    23. В чем состоит содержание методов нечеткой логики, системы рассуждений на основе аналогичных случаев?
    24. В чем состоит содержание методов нейронных сетей и генетических алгоритмов?
    25. В чем заключаются методы ассоциаций, кластеризации и классификации?
    26. Раскройте сущность методов эволюционного программирования и алгоритмов ограниченного перебора.
    27. Назовите процессы, явления, закономерности, при исследовании которых ис- пользуются методы интеллектуального анализа.
    28. В каких предметных областях и для каких целей используются методы интеллек- туального анализа?
    29. Какие средства интеллектуального анализа представлены на рынке, каковы их возможности?
    30. Что рекомендуется для успешного комплексирования подсистемы интеллекту- ального анализа ИАС и достижения успеха при его выполнении?
    60

    СОДЕРЖАНИЕ И МЕТОДЫ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ БИЗНЕС-ПРОЦЕССОВ
    (ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЙ)
    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта