Главная страница
Навигация по странице:

  • Приобрести навыки

  • Учебнопрактическое пособие Издание 2ое, переработанное и дополненное Москва 2005


    Скачать 1.77 Mb.
    НазваниеУчебнопрактическое пособие Издание 2ое, переработанное и дополненное Москва 2005
    Дата18.09.2022
    Размер1.77 Mb.
    Формат файлаpdf
    Имя файла255_-_.pdf
    ТипУчебно-практическое пособие
    #683383
    страница4 из 7
    1   2   3   4   5   6   7
    ТЕМА 4.
    Признаки OLAP-систем, технологии оперативного и интеллектуального анализа данных
    Изучив тему 4, студент должен знать:
    содержание требований к OLAP-системам, преимущества и недостатки трех их типов, процедуры OLAP-анализа; назначение и возможности подсистемы интеллектуального анализа данных полнофункциональной информационно-аналитической системы, состав и выполняемые функ- ции, используемые методики и области применения.
    Уметь:
    выбирать соответствующие потребностям предприятия типы OLAP- систем и инструментальных средств интеллектуального анализа, подби- рать необходимые процедуры OLAP-анализа и методики интеллекту- ального анализа к задачам аналитической работы, выполнять задачи оперативного и интеллектуального анализа.
    Приобрести навыки:
    применения средств оперативного и интеллектуального анализа при оценке данных и подготовке аналитических материалов для принятия решений.
    При изучении темы 4 необходимо:
    Читать
    • учебное пособие [51] главу 4;
    • учебно-справочное издание [50] главу 6 стр. 80—106;
    • книгу [13] главу 11 стр. 325—334.
    Сосредоточить внимание на следующем:
    При подготовке подсистем оперативного и интеллектуального анализа
    ИАС оценить потребности предприятия (аналитика) в составе и содер- жании предполагаемых запросов, направлений исследований по методи- кам интеллектуального анализа; научиться выбирать соответствующий тип OLAP-системы и инструментальных средств Data mining, исходя из возможностей имеющейся или выбранной аппаратно-программной платформы.

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    55 1.
    Краткое содержание правил Кодда, которым должны соответствовать OLAP-системы, обобщение этих правил в требованиях теста FASMI. Раскрывается сущность требований:
    Быстрый, Анализ, Разделяемой, Многомерной, Информации.
    2.
    Типы многомерных OLAP-систем. Проводится анализ трех вариантов получения данных в многомерном представлении, пригодном для OLAP-анализа. Рассматривается пред- ставление данных в виде многомерной модели: непосредственно специализированны- ми многомерными средствами — многомерные MOLAP-системы; на основе рациональ- ного применения средств реляционных СУБД — реляционные ROLAP-системы; сочета- нием реляционного и чисто многомерного подхода — гибридные HOLAP-системы.
    3.
    Задачи и содержание OLAP-анализа. Рассматриваются способы извлечения необхо- димых данных в сочетании с обработкой их по несложным алгоритмам с применением многомерного статистического анализа. Раскрывается содержание специфических процедур OLAP-анализа: сечение или срез, поворот, свертка и развертка, проекция, построение трендов.
    4.
    Назначение и состав выполняемых задач подсистемой интеллектуального анализа дан- ных информационно-аналитической системы. Рассматривается проблема получения зна- ний из данных, сосредоточенных в ИХ и других источниках. Показано отличие области применения методов Data mining от подходов инженерии знаний. Показано, что пред- метом и средствами интеллектуального анализа в полнофункциональной ИАС могут быть методы, а также средства, поддерживающие в экономической предметной области эконометрику, математическую экономику и специфические средства Data mining.
    5.
    Содержание понятия «знания». Классификация видов знаний. Дается краткая характе- ристика их видов. Рассматриваются фактические и стратегические знания, факты и эв- ристики, декларативные и процедурные, интенсиональные и экстенсиональные, глубин- ные и поверхностные, жесткие и мягкие знания.
    6.
    Специфические задачи интеллектуального анализа. Перечисляются методики решения таких задач. Рассматриваются отличия этих задач от традиционного многомерного ста- тистического анализа, являющегося основой арсенала методов эконометрики и матема- тической экономики. Дается обзор методов интеллектуального анализа данных. Рас- сматривается содержание методов нечеткой логики, систем рассуждения на основе аналогичных случаев (CBR), генетических алгоритмов, эволюционного программирования, алгоритмов ограниченного перебора и других методов.
    7.
    Области применения методов интеллектуального анализа. Рассматриваются процессы, явления и закономерности, при исследовании которых целесообразно применить те или иные виды интеллектуального анализа. Приводится перечень предметных областей в сфере экономики, управления и т.д.
    Цель изучения: Усвоить требования, предъявляемые к OLAP-системам. Освоить техно- логии оперативного (OLAP) и интеллектуального (Data mining) анализа сосредоточен- ных в информационном хранилище данных.
    4.1. Подходы к выполнению анализа средствами информационных технологий
    (IT-анализа)
    1. Классификация IT-анализа по режиму и темпу.
    2. Задачи и содержание оперативного (OLAP) анализа.
    3. Типы многомерных OLAP-cистем.
    Информация, извлекаемая из информационных хранилищ и предоставляемая ее конечным потребителям независимо от архитектуры ИХ, способов представления в базах данных, должна отвечать предъявляемым требованиям по форме представления, содержанию, своевременности, достоверности, воспринимаемости и т.д. Применяемые методы анализа должны обеспечивать не- обходимое содержание и достоверность предоставляемой пользователям информации.
    Краткое содержание

    Информационно аналитические системы
    56 4.1.1. Классификация IT-анализа по режиму и темпу
    Различают два вида информационно-аналитических систем по режиму и темпу анализа:
    − статические — имеют заранее разработанный сценарий обработки данных при весьма ограниченных возможностях вариаций запросов — так называемые информационные системы руководителя (Exequtive Information system EIS);
    − динамические — обеспечивают обработку нерегламентированных запросов и гибкую систему подготовки отчетов.
    Статические ИАС при всей кажущейся простоте и соответственно привлекательности для ЛПР имеют ограниченные возможности по информационной поддержке принятия решений.
    Зачастую полученная в отчетах информация порождает вытекающие из ее содержания вопро- сы, на которые в допустимое время ответ не может быть получен.
    Динамические ИАС предназначены для обработки незапланированных заранее, не- ожиданных (ad hoc) запросов. Пользователи системы работают с такой ИАС в интерактивном режиме. Обрабатывается серия непредусмотренных заранее запросов, которые возникают в ходе полготовки и принятия решения. Заранее может быть подготовлена некоторая цепочка действий или сценарий, который может корректироваться.
    Поддержка принятия управленческих решений осуществляется в следующих режимах или базовых сферах (23):
    сфера детализированных данных;
    – сфера агрегированных показателей;
    – сфера закономерностей.
    В сфере детализированных данных подсистемы ИАС или автономные ИС нацелены на поиск данных. Эту задачу отлично выполняют реляционные СУБД. В качестве языка манипули- рования данными, ставшего стандартным, используется, как правило, SQL. Для поиска детали- зированной информации используются информационно-поисковые системы, которые могут ра- ботать с операционными, локальными или региональными базами и хранилищами данных, а также и совместно с центральным ИХ.
    Сфера агрегированных показателей отличается агрегацией данных, оперативной ана- литической обработкой, многомерным представлением в виде гиперкубов, многомерным ана- лизом. В этой сфере используются специальные многомерные СУБД. Допустимо использование реляционных представлений данных. При правильном применении реляционных СУБД, показа- тели эффективности ИАС сопоставимы со специализированными многомерными. Агрегирован- ные массивы при реляционном подходе представлены в виде описанных выше схем: «звезды» и других. Агрегация может производиться также «на лету» при обработке запроса.
    Анализ детализированных данных и агрегированных показателей относится к оператив- ному или OLAP-анализу.
    Сфера закономерностей связана или основана на интеллектуальной обработке дан- ных. Главной задачей здесь выступает выявление закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных «непривычных» отклонений, прогноз хода различных существенных процессов. Эта сфера относится к интеллектуальному анализу (Data mining).
    4.1.2. Требования, предъявляемые к OLAP-системам
    С 1993 года стал проявляться интерес к многомерному представлению данных — в этом году появилась программная статья Эдварда Кодда. В ней он сформулировал двенадцать основных требований к средствам реализации OLAP, дал критическую оценку реляционного подхода в связи с его малой пригодностью к реализации в задачах многомерного анализа данных с повышенными требованиями к времени отклика на аналитические запросы. Они состоят в следующем:
    1. Многомерное представление данных.
    Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    57 2. Прозрачность.
    Это требование заключается в том, что пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как они органи- зованы и откуда они берутся.
    3. Доступность.
    Средства должны сами выбирать источник данных и связываться с ним для формирова- ния ответа на данный запрос.
    4. Согласованная производительность.
    Производительность не должна зависеть от количества измерений в запросе.
    5. Поддержка архитектуры «клиент-сервер»
    Средства должны работать в архитектуре «клиент-сервер».
    6. Равноправность всех измерений.
    Ни одно из измерений не должно быть базовым, все они должны быть равноправными.
    7. Динамическая обработка разреженных матриц.
    Неопределенные значения должны храниться и обрабатываться наиболее эффективны- ми способами.
    8. Поддержка многопользовательского режима работы с данными.
    Все многомерные операции должны поддерживаться многими пользователями.
    9. Поддержка операций на основе различных измерений.
    Все многомерные операции должны единообразно и согласованно применяться к лю- бому числу любых измерений.
    10. Простота манипулирования данными.
    Средства должны иметь максимально удобный и естественный пользовательский интерфейс.
    11. Развитые средства представления данных.
    Средства должны поддерживать различные способы представления данных.
    12. Неограниченное число измерений и уровней агрегации данных.
    Не должно быть ограничений на число поддерживаемых измерений.
    К 12 правилам впоследствии были присоединены еще шесть.
    В них содержатся некоторые противоречия, не все авторы безусловно их принимают, к тому же имеется некоторая расплывчатость определений.
    В конце 90-х годов получил распространение свод требований (39) к информационно- аналитическим системам в виде «теста FASMI» — аббревиатуры английских слов, определяю- щих требования к OLAP-системам:
    Fast Analysis Shared Multidimensional Information — русский перевод Быстрый Анализ Разделяе- мой Многомерной Информации.
    Раскроем содержание перечисленных свойств, которыми должна обладать OLAP- система.
    Fast
    Быстрый — это свойство выражается во временных требованиях к ответам системы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды.
    Более сложные запросы можно обрабатывать в течение 5-ти секунд и лишь отдельные запросы допускаются с 20-секундной реакцией. Такие требования связаны с психофизиологичекими по- казателями аналитиков и ЛПР, обусловлены достижением наиболее значимых результатов анализа при выполнении этих требований. Специальные исследования показали, что при вре- мени ответа более 30-ти секунд наступает раздражение и возможна реакция в виде переза- пуска системы.
    Analysis
    Анализ — возможности системы выполнять аналитические работы различного характера в предметной области пользователя собственными средствами, не прибегая к про- граммированию. Для описания специфических для данного пользователя аналитических про- цессов могут применяться встроенные средства в виде языков высокого уровня, электронных таблиц со встроенными функциями, графических конструкторов, визуальных средств с примене- нием кнопочных и рамочных технологий.

    Информационно аналитические системы
    58
    Shared Разделяемый — система должна обеспечивать необходимый уровень защиты при множественном доступе для исключения взаимных помех, несанкционированного доступа. Цен- ность результатов анализа гораздо выше исходной информации.
    Multidimensional
    Многомерный — определяющее требование. Средства OLAP-системы должны обеспечить работу с данными в многомерном представлении на концептуальном уров- не с полной поддержкой иерархий. Требование считается выполненным независимо от того, какой тип базы данных используется, не устанавливаются рамки количества измерений.
    Information
    Информация — должна обеспечиваться возможность получения ее из любых необходимых источников. Инструментальные средства оперируют с необходимыми объемами и структурами данных.
    Более подробно рассмотрим свойство многомерности, так как оно является наиболее характерным отличительным от других систем свойством, в частности OLTP (On line Transaction
    Processing), которые поддерживают текущую функциональность предприятия.
    Как показано в п.п. 2.1-2.2. информационное пространство, отображающее функцио- нирование объекта, многомерно. Естественно стремление аналитика и ЛПР к тому, чтобы иметь дело с моделью данных в наиболее естественном виде. Это обстоятельство привело к тому, что с помощью современных программно-технических средств, имеющих широкие воз- можности интерпретации данных, были созданы соответствующие многомерные модели. Теоре- тические основы были заложены в трудах крупных российских ученых Ясина, Королева и др. еще в 70-х годах XX века. В трудах Кодда, Инмона легко узнаются основополагающие идеи этих и других ученых, которые были реализованы в большом числе проектов в разных предмет- ных областях.
    4.1.3. Задачи и содержание оперативного (OLAP) анализа
    Оперативный анализ
    — это функция ИАС, обеспечивающая быстрый, в соответст- вии с правилами FASMI, доступ к любой необходимой информации, содержащей- ся в ИХ или, точнее в факт-таблице, представляемой также в виде многомерного куба (на практике трехмерных комбинаций кубов). Извлечение информации, как правило, сопровождается обработкой ее по несложным алгоритмам, как то: производится суммаризация, определение процентов от заданных величин, полу- чение относительных показателей, вычисление величин с заданными коэффициен- тами и другие действия над данными на разных уровнях детализации. Анализ про- изводится с данными, представленными в виде электронных таблиц, над которыми предоставляется возможность оперативно производить различные более сложные вычисления.
    Примерами такого рода целей OLAP-анализа могут быть. Определение суммарных из- держек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени, например, года. Последующими этапами анализа могут быть — получение данных по этому показателю — издержкам по каждому изделию за более короткие промежутки времени (полугодие, квартал, месяц) и т.д. Затем можно выявить наибо- лее затратные процессы, места их возникновения. Список задач можно продолжить. В сбыто- вой сфере, к примеру, можно изучать объемы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения.
    Извлечение необходимой информации для построения отчетов производится путем ис- пользования ряда процедур.
    К ним относятся:
    − сечение или срез (slice and dice) — извлечение данных из факт-таблицы по каким-либо определенным значениям одного или нескольких измерений, например из гипер-куба
    Определение

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    59
    (факт-таблицы), содержащей сведения об издержках; в отчет (раздел отчета) помещают данные только по какому-либо одному виду или группе издержек;
    − поворот, под которым понимают изменение координат, их порядка или добавление из- мерений; эта процедура обеспечивает замену в готовом отчете «Издержки», к примеру, аргумента — время на регионы или центры затрат; если рассматривалась взаимозави- симость «возраст — семейное положение» то можно в качестве аргумента брать любое из этих измерений и менять их местами;
    − свертка (drill up) — агрегируются данные по заданным признакам и алгоритмам; можно группировать необходимые данные, содержащиеся в ИХ в детальном виде; так при за- несении сведений в операционную БД ежесуточно в ИХ их можно передавать в агреги- рованном виде — еженедельно или ежемесячно, соответственно агрегированные данные можно помещать в отчеты;
    − развертка или раскрытие (roll up) — процедура, обратная свертке, данные детализиру- ются, например группы товаров представляются по конкретным товарам, более круп- ные временные периоды разбиваются на мелкие и т.д.
    − создание кросс-таблиц — то есть совмещение данных из разных таблиц по заданным признакам; например создается отчет, в котором сводятся данные об издержках и вы- ручке по одним и тем же изделиям и временным периодам;
    − проекция — конструирование отчетов, являющихся подмножествами из множества единичных реквизитов или атрибутов, содержащихся в операционных базах или в ИХ;
    − построение трендов — зависимость числовых или качественных значений показателя от тех или иных параметров, например времени, технологии и т.д.
    Инструменты OLAP-систем обеспечивают возможность сортировки и выборки данных по за- данным условиям. Могут задаваться различные качественные и количественные условия.
    В последнее десятилетие XX века основной моделью данных, использованной в многочислен- ных инструментальных средствах создания и поддержки баз данных — СУБД, была реляционная мо- дель. Данные в ней представлены в виде множества связанных ключевыми полями двумерных таблиц
    — отношений. Для устранения дублирования, противоречивости, уменьшения трудозатрат на ведение баз данных применяется формальный аппарат нормализации таблиц-сущностей. Однако применение его связано с дополнительными затратами времени на формирование ответов на запросы к базам данных, хотя и экономятся ресурсы памяти.
    4.1.4. Типы многомерных OLAP-cистем.
    Общие положения
    В рамках OLAP-технологий на основе того, что многомерное представление данных может быть организовано как средствами реляционных СУБД, так и многомерных специализи- рованных средств, различают три типа многомерных OLAP-систем:
    − многомерный (Multidimensional) OLAP — MOLAP
    − реляционный (Relation) OLAP — ROLAP
    − смешанный или гибридный (Hibrid) OLAP — HOLAP
    Выше изложены основные свойства многомерной и реляционной моделей OLAP-систем и различия между ними. Сущность смешанной OLAP-системы заключается в возможности исполь- зования многомерного и реляционного подхода в зависимости от ситуации: размерности инфор- мационных массивов, их структуры, частости обращений к тем или иным записям, вида запросов, наличия соответствующих инструментальных средств и т.д.
    Рассмотрим подробнее сущность, достоинства и недостатки приведенных разновидно- стей OLAP-систем. При этом необходимо обратиться к рис. 3.1 «Структура информационного хранилища». На нем приведены зоны хранилища, которые соответствуют этапам продвижения

    Информационно аналитические системы
    60 данных из источников к конечным пользователям. В различных вариантах OLAP-систем эти зо- ны будут заполняться данными, представленными в виде различных моделей.
    Многомерные OLAP-системы
    В многомерных СУБД данные организованы не в виде реляционных таблиц, а в виде упорядоченных многомерных массивов в виде гиперкубов, когда все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать максимально пол- ный базис измерений. Данные могут быть организованы в виде поликубов, в этом варианте значения каждого показателя хранятся с собственным набором измерений, обработка данных производится собственным инструментом системы. Структура хранилища в этом случае упро- щается, так как отпадает необходимость в отдельной зоне хранения данных в многомерном или объектно-ориентированном виде. Снижаются огромные трудозатраты на создание реляци- онных моделей и систем преобразования данных из реляционной модели в объектную (см. рис.
    3.1).
    Достоинствами MOLAP являются:
    − более быстрое, чем при ROLAP получение ответов на запросы — затрачиваемое время на один-два порядка меньше;
    − из-за ограничений SQL затрудняется реализация многих встроенных функций.
    К ограничениям MOLAP относятся:
    − сравнительно небольшие размеры баз данных — предел десятки Гигабайт,
    − за счет денормализации и предварительной агрегации многомерные массивы использу- ют в 2,5-100 раз больше памяти, чем исходные данные (расход памяти при увеличении числа измерений растет по экспоненциальному закону);
    − отсутствуют стандарты на интерфейс и средства манипулирования данными;
    − имеются ограничения при загрузке данных.
    Реляционные OLAP-системы
    В настоящее время в массовых средствах, обеспечивающих аналитическую работу, преобладает использование инструментов на основе реляционного подхода. Структура храни- лища остается в том виде, как представлено на рис. 3.1. Трудозатраты на создание зоны мно- гомерных данных резко увеличиваются, так как практически отсутствуют в этой ситуации спе- циализированные средства объективизации реляционной модели данных, содержащихся в ин- формационном хранилище. Время отклика на запросы часто не может уложиться в рамки тре- бований к OLAP-системам.
    Достоинствами ROLAP-систем являются:
    − возможность оперативного анализа непосредственно содержащихся в хранилище дан- ных, так как большинство исходных баз данных — реляционного типа;
    − при переменной размерности задачи выигрывают ROLAP, так как не требуется физиче- ская реорганизация базы данных;
    − ROLAP-системы могут использовать менее мощные клиентские станции и серверы, в ви- ду того, что на серверы ложится основная нагрузка по обработке сложных SQL- запросов;
    − уровень защиты информации и разграничения прав доступа в реляционных СУБД не- сравненно выше, чем в многомерных.
    Недостатком ROLAP-систем является меньшая производительность, необходимость тща- тельной проработки схем базы данных, специальная настройка индексов, анализ статистики запросов и учет выводов анализа при доработках схем баз данных, что приводит к значитель- ным дополнительным трудозатратам.
    Выполнение же этих условий позволяет при использовании ROLAP-систем добиться схо- жих с MOLAP-системами показателей в отношении времени доступа, а также превзойти в эко- номии памяти.

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    61
    Гибридные OLAP-системы
    Представляют собой сочетание инструментов, реализующих реляционную и многомерную модель данных. Структура хранилища остается в основном такой же, как на рис. 3.1, однако зона многомерных данных создается специализированными средствами. Это позволяет резко снизить затраты ресурсов на создание и поддержание такой зоны, время отклика на запросы, в том числе незапланированные резко снижается, выполняются требования к OLAP-системам.
    При таком подходе используются достоинства первых двух подходов и компенсируются их недостатки. В наиболее развитых программных продуктах такого назначения реализован именно этот принцип.
    Использование гибридной архитектуры в OLAP-системах — это наиболее приемлемый путь решения проблем, связанных с применением программных инструментальных средств в многомерном анализе.
    Тем не менее встречаются обстоятельства, когда применение ROLAP— и HOLAP-cистем становится невозможным из-за чрезвычайно жестких требований со стороны объектов управ- ления или соответственно контролируемых процессов. Такие ситуации характерны для крупных промышленных, транспортных, энергетических комплексов, на финансовых рынках, при управ- лении объектами в критических ситуациях или их моделировании.
    Для такого класса применения ИАС становится безальтернативным применение много- мерных или объектно-ориентированных инструментальных средств и методов.
    4.2. Интеллектуальный анализ данных Data mining
    1. Содержание понятия знания. Классификация видов знаний.
    2. Задачи Data mining.
    3. Специфические методы data mining-a
    4. Области применения методов Data Mining
    5. Средства реализации и задачи проектирования комплекса data mining
    4.2.1. Содержание понятия знания. Классификация видов знаний
    Для обоснования принятия решений необходимы знания. Их добывают из различных ис- точников.
    Понятие «знания» рассматривается с различных точек зрения. В соответствии с этим имеется много определений этого понятия. Энциклопедический словарь определяет знания как
    «проверенный практикой результат познания действительности, верное ее отражение в мыш- лении человека». Применительно к ситуации с использованием компьютерных информационных систем (ИС) и, в частности ИАС, можно добавить «и в компьютерной ИС». По определению
    Гавриловой Т.А. и Хорошевского В.Ф. [17] знания это «закономерности предметной области
    (принципы, связи, законы), полученные в результате практической деятельности и профессио- нального опыта, позволяющие специалистам ставить и решать задачи в этой области».
    На начальном этапе подготовки данных к использованию в аналитической сфере они же представляют знания как «хорошо структурированные данные или метаданные». Знания различаются по многим признакам. Соответственно в литературе [29,18] приводится класси- фикация различных видов знаний.
    1. Различают фактические и стратегические знания.
    Фактические — это такие знания, которые позволяют специалисту предметной области решать конкретные задачи из бизнес-сферы или в каком-либо другом виде деятельности. К ним относятся факты, взаимосвязи, системы понятий, правила. Стратегические — позволяют опреде- лить поведение объектов в ближайшем или отдаленном будущем.
    2. Факты и эвристики.
    Факты — это хорошо известные и описанные обстоятельства. К ним относятся также экономические категории, известные и описанные закономерности и так далее.
    Эвристики — знания, опыт, навыки специалистов в соответствующих предметных областях.
    Они являются объектом изучения и внедрения в информационные системы различного назначения.

    Информационно аналитические системы
    62 3. Декларативные и процедурные знания.
    Первые являются очевидными, например: выручка — сумма, полученная в результате продажи товаров. Товар — изделие, предназначенное для продажи.
    Процедурные — по существу алгоритмы преобразования декларативных знаний, дейст- вий над ними.
    4. Интенсиональные и экстенсиональные знания.
    Первые являются знаниями о связях между объектами (их атрибутами) рассматриваемой предметной области. Вторые — свойства объектов, их состояния, значения свойств в простран- стве и динамике.
    5. Глубинные и поверхностные знания.
    Глубинные знания содержат подробные сведения о структуре предметной области, зако- нах поведения структуры в целом и отдельных ее элементов, достоверные и полные отражения взаимосвязей элементов структуры и т.д. Например: подробные сведения об устройстве компью- тера или мобильного телефона, позволяющие производить проектирование их или ремонт.
    Поверхностные знания касаются лишь внешних свойств и связей с рассматриваемым объектом(ами). Перечень необходимых сведений о пользовательских свойствах упомянутых или других изделий.
    6. Жесткие и мягкие знания.
    Жесткие знания отражают системы или объекты с четко выраженными свойствами, свя- зями, поведением, которые легко описываются качественными и количественными признаками, например описываются логико-дедуктивной системой показателей.
    Мягкие знания отображают соответственно системы и объекты с трудно поддающимися описанию или формализации свойствами и связями. Дают нечеткие, размытые решения и мно- жественность рекомендаций.
    Взаимосвязь между видами знаний отражена на рисунке 4.1.
    Рис. 4.1. Характеристики знаний
    Мягкость мягкие
    Жёсткие
    Поверхностные
    Глубинные
    Глубина
    Управление
    Обучение
    Стратегическое планирование
    Бизнес-планирование
    Диагностика неисправностей
    Прогнозирование чрезвычайных ситуаций
    Психодиагностика

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    63 4.2.2. Задачи Data mining
    Следует различать два различных процесса получения знаний. Первый — это «извлече- ние» их из живого источника — эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и построения на этой основе экспертных систем, а также в других целях. Такой процесс относят к инженерии знаний. Другой — это «добыча» скры- тых от пользователя знаний из данных, помещенных в различного рода компьютерные инфор- мационные системы, в том числе базы данных различного назначения, информационные хра- нилища. Процесс второго рода называют Data mining — используют русский перевод «интел- лектуальный анализ».
    Предметом нашего изучения является Data mining.
    Для обработки накопленных в различных источниках и местах сбора и хранения данных и выполнения интеллектуального анализа используются все достижения математической науки и информационных технологий. В первую очередь используются методы линейной алгебры, классического математического анализа, дискретной математики, многомерного статистическо- го анализа.
    В экономической предметной области применение методов поиска решений, условий неотрицательности и других свойств математических моделей путем дедуктивного получения следствий, исходя из предварительно сформулированных предпосылок, относится к разделу экономической науки, называемому математическая экономика.
    Анализ количественных закономерностей и взаимозависимостей в экономике, который вы- полняется статистическими методами, относится к эконометрике.
    Традиционная математическая статистика долгое время являлась основной методологи- ей анализа данных в экономической и других предметных областях. Однако базовая концепция усреднения по выборке часто приводит к операциям над фиктивными величинами. В экономике средние значения ряда показателей по различным предприятиям иногда создают искаженное представление об отсталости или наоборот о незаурядных успехах ряда предприятий, отрас- лей или регионов — сглаживают их.
    По этой причине появился ряд методик, которые относят к специфическим для Data min- ing-а. Эти методики позволяют избежать таких ситуаций. В таблице приведены примеры поста- новок задач для OLAP-методик, основанных на математической статистике, и специфических методов Data Mining.
    OLAP Data
    Mining
    Каковы средние показатели рентабельности предприятий в регионе?
    Какова характерная совокупность значений показателей финансово-хозяйственной дея- тельности предприятий в регионе?
    Каковы средние размеры счетов клиентов банка — физических лиц?
    Каков типичный портрет клиента — физиче- ского лица, отказывающегося от услуг бан- ка?
    Какова средняя величина ежедневных поку- пок по украденной или фальшивой кредитной карточке?
    Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?
    Выше показано, что работа по интеллектуальной обработке данных происходит в сфе- ре закономерностей.
    Основными задачами интеллектуального анализа [2] являются:
    − выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий, определение значений факторов времени, локализация событий или явлений по месту;
    − классификация событий и ситуаций, определение профилей различных факторов;
    − прогнозирование хода процессов, событий.
    Главной задачей здесь является определение закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных «непривычных» отклонений, прогноз хода различных процессов в области мягких и глубинных знаний.

    Информационно аналитические системы
    64
    Одновременно с этим многомерный статистический анализ твердо удерживает свои по- зиции в жесткой области знаний. Он делится на: факторный, дисперсионный, регрессионный, корреляционный, кластерный анализ (является также сферой интересов data mining-a). Эти ме- тоды позволяют решать многочисленные задачи в области экономики, менеджмента, юриспру- денции, которые являются составной частью аналитической подготовки принятия решений.
    4.2.3. Специфические методы и области применения data mining-a
    Помимо перечисленных выше методов многомерного статистического анализа, ставших традиционными, все более широкое применение находят специфические методы интеллекту- ального анализа, происходящие из смежных областей информационных технологий (IT-систем) и достижений различных областей науки.
    К специфическим методам интеллектуального анализа относятся:
    — методы нечеткой логики;
    — системы рассуждений на основе аналогичных случаев;
    — классификационные и регрессионные деревья решений;
    — нейронные сети;
    — генетические алгоритмы;
    — байесовское обучение (ассоциации);
    — кластеризация и классификация;
    — эволюционное программирование;
    — алгоритмы ограниченного перебора.
    Методы нечеткой логики используются для описания плохо формализуемых объектов из состава «мягких» знаний. Над ними также совершаются мягкие вычисления. Используется поня- тие «лингвистическая переменная», значения которой определяются через нечеткие множества, а они представляются базовым набором значений или базовой числовой шкалой.
    Системы рассуждений на основе аналогичных случаев case based reasoning (CBR) осно- ваны на том, что принятие решения осуществляется по прецеденту, наиболее подходящему к данной ситуации с учетом определенных корректив. Иногда решение принимается на основе учета всех примеров, находящихся в хранилище данных.
    Деревья решений основаны на иерархической древовидной структуре классифицирующих правил. Решения об отнесении того или иного объекта или ситуации к соответствующему классу принимается по ответам на вопросы, стоящие в узлах дерева. Положительный ответ означает пе- реход к правому узлу следующего уровня, отрицательный — к левому узлу. Процесс разделения продолжается до полного ответа на все поставленные вопросы.
    Нейронные сети
    — это упрощенная аналогия нервной системы живого организма. Раз- работаны модели нейронных сетей. Распространенной моделью является многослойный пер- септрон с обратным распространением ошибки. Нейроны работают в составе иерархической сети, в которой нейроны нижележащего слоя своими выходами соединены с входами нейронов вышележащего слоя. На нейроны нижнего слоя подаются значения входных параметров, кото- рые являются сигналами, те передаются в следующий слой. При этом они ослабляются или усиливаются в зависимости от числовых значений, которые придаются межнейронным связям, называемых весами. На выходе нейрона верхнего слоя вырабатывается сигнал, являющийся ответом сети на введенные значения входных параметров. Для получения необходимых значе- ний весов сеть необходимо «тренировать» на примерах с известными значениями входных па- раметров и правильных ответов на них. Подбираются такие веса, которые обеспечивают наи- большую близость ответов нейронной сети к правильным.
    Генетические алгоритмы представляют собой поисковый метод, используемый для нахо- ждения наилучшего решения или совокупности решений. Он основан на идее естественного отбора. Начинается построение генетических алгоритмов с кодировки исходных логических за- кономерностей, называемых как и в биологии хромосомами. Набор таких кодов называют по- пуляцией хромосом. Далее применяется функция пригодности, которая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы,

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    65
    но возможен и вариант применения скрещивания и мутации с целью получения «нового» поко- ления. Алгоритм работает над изменением старой популяции до тех пор, пока новая не будет отвечать заданным требованиям.
    Байесовское обучение или ассоциации применяются в тех случаях, когда сложилась си- туация увязки между собой некоторых событий. Например, заселение новостроек сопровожда- ется приобретением мебели и других предметов домашнего обихода. Необходимо выявить ко- личественные характеристики этой связи.
    Кластеризация и классификация
    . Слово кластеризация происходит от английского clus- ter — пучок, сгусток. Кластеризация предусматривает разделение совокупности схожих объек- тов на группы — кластеры по наибольшей близости их признаков. Проблема состоит в том, что оценка производится не по одному какому либо признаку, а одновременно по их совокупно- сти. Разработаны алгоритмы кластеризации, которые пересчитывают значения признаков в не- которую величину, характеризующую «расстояние» между объектами рассматриваемой сово- купности и объединяют близкие объекты в кластеры. Классификация отличается тем, что выяв- ляются признаки, объединяющие объекты, которые уже состоят в группах. Этими методами за- нимается также и эконометрика.
    Эволюционное программирование
    . В этой методике предположения о виде аппрокси- мирующей функции строятся в виде программ на внутреннем языке программирования. Про- цесс построения программ выглядит как эволюция в среде программ. После нахождения в этой среде подходящей программы система начинает вносить в нее необходимые корректировки
    Эта методика реализована российской системой Polyanalyst. Специальный модуль этой систе- мы переводит найденные зависимости на доступный язык формул, таблиц.
    Алгоритмы ограниченного перебора
    . Они вычисляют частоты комбинаций простых ло- гических событий в группах данных. На основании оценки полученных частот делается заклю- чение о полезности комбинаций для обнаружения ассоциаций в данных, прогнозирования и других целей.
    Эти методы стали весьма широко и эффективно применяться в связи с бурным развити- ем в последнее десятилетие XX века самих методик и соответствующих инструментальных средств. Они находят применение в тех ситуациях, когда обычные методы анализа трудно или невозможно применить из-за отсутствия сведений о характере или закономерностях исследуе- мых процессов, взаимозависимостях явлений, фактов, поведении объектов и систем из различ- ных предметных областей, в том числе в социальной и экономической.
    Области применения методов Data Mining
    С помощью этих методов при отсутствии априорной информации об объектах и их по- ведении и значительной ее неполноте решаются следующие задачи:
    − выделение в данных групп записей, сходных по некоторым признакам;
    − нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события;
    − поиск наиболее значимых параметров в данной проблеме (задаче);
    − выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерностей (анализ отклонений);
    − прогнозирование развития объектов, систем, процессов на основе хранящейся ретро- спективной информации или с использованием принципов обучения на известных при- мерах и другие задачи.
    Решение перечисленных задач может осуществляться каким-либо из перечисленных вы- ше методов или комплексно для получения наиболее адекватного решения.
    Средствами ИАС обеспечивается также оценка полученных результатов анализа и мо- делирования, в том числе оценка точности и устойчивости результатов, верификация моделей на тестовых наборах данных.

    Информационно аналитические системы
    66
    Вопросы для самопроверки
    1. Как классифицируется IT-анализ по режиму и темпу?
    2. В чем состоят задачи и содержание OLAP-анализа?
    3. Что означают требования к OLAP-системе под рубрикой «быстрый»?
    4. Что означают требования к OLAP-системе под рубрикой «анализ»?
    5. Что означают требования к OLAP-системе под рубрикой «разделяемой»?
    6. Что означают требования к OLAP-системе под рубрикой «многомерной»?
    7. Что означают требования к OLAP-системе под рубрикой «информации»?
    8. Какие типы OLAP-систем ВЫ знаете, в чем их различие?
    9. В чем сущность MOLAP-системы?
    10. В чем сущность ROLAP-системы?
    11. В чем сущность HOLAP-системы?
    12. Какие функции выполняют процедуры сечение и поворот?
    13. Какие функции выполняют процедуры свертка и развертка?
    14. Какие функции выполняют процедуры проекция и построение трендов?
    15. Для каких целей предназначена подсистема интеллектуального анализа данных?
    16. Какие направления и методы поддерживают средства подсистемы интеллек- туального анализа ИАС?
    17. Раскройте содержание понятия «знания».
    18. Каким образом классифицируются виды знаний?
    19. В чем специфика методов интеллектуального анализа?
    20. Какие методы интеллектуального анализа Вы знаете?
    21. В чем состоит содержание методов нечеткой логики, системы рассуждений на основе аналогичных случаев?
    22. В чем состоит содержание методов нейронных сетей и генетических алгоритмов?
    23. В чем заключаются методы ассоциаций, кластеризации и классификации?
    24. Раскройте сущность методов эволюционного программирования и алгоритмов ограниченного перебора.
    25. Назовите процессы, явления, закономерности, при исследовании которых ис- пользуются методы интеллектуального анализа.
    26. В каких предметных областях и для каких целей используются методы интел- лектуального анализа?
    Тесты
    1. Различают следующие виды функционирования информационно-аналитических систем по режиму и темпу:
    1. статический;
    2. статистический;
    3. динамический;
    4. выборочный.
    Выберите правильные ответы.
    2. Поддержка принятия управленческих решений осуществляется в следующих режимах или базовых сферах:
    1. сфера детализированных данных;
    2. сфера агрегированных показателей;
    3. сфера взаимосвязей показателей;
    4. сфера закономерностей.
    Найдите неточный ответ.
    3. В …. Году Эдвард Кодд сформулировал … основных требований к средствам реализации оперативного OLAP-анализа.
    Вставьте недостающие числа.

    Признаки OLAP систем, технологии оперативного и интеллектуального анализа данных
    67 4. В конце 90-х годов получил распространение свод требований к информационно- аналитическим системам в виде «теста FASMI». Аббревиатура каких английских слов с рус- ским переводом является названием теста?
    5. Оперативный анализ — это функция ИАС, обеспечивающая:
    Дайте определение.
    6. Извлечение информации, как правило, сопровождается обработкой ее по несложным ал- горитмам, как-то:
    1. производится суммаризация;
    2. определение процентов от заданных величин;
    3. получение относительных показателей;
    4. выявление закономерностей;
    5. вычисление величин с заданными коэффициентами;
    6. определение взаимозависимостей;
    7. другие действия над данными на разных уровнях детализации.
    Определите не свойственные OLAP-анализу функции.
    7. Извлечение необходимой информации для построения отчетов производится путем исполь- зования ряда процедур, в том числе:
    1. сечение или срез (slice and dice);
    2. поворот;
    3. свертка (drill up);
    4. развертка или раскрытие (roll up);
    5. проекция;
    6. создание кросс-таблиц;
    7. построение трендов.
    Какая из процедур обеспечивает детализацию данных?
    Какая процедура противоположна 4-ой?
    Какая процедура производит манипуляции с координатами?
    8. Различают три типа многомерных OLAP-систем:
    1. многомерный (Multidimensional) OLAP — MOLAP
    2. реляционный (Relation) OLAP — ROLAP
    3. смешанный или гибридный (Hibrid) OLAP — HOLAP.
    Более дешевая реализация OLAP-системы по типу…
    Скорость доступа к данным выше в у какого типа OLAP-систем?
    Наиболее целесообразно использование типа…
    9. Подсистема интеллектуального анализа данных (Data mining) предназначена для:
    10. По определению Гавриловой Т.А. и Хорошевского В.Ф.[17], знания это:
    11. Рассматриваются следующие виды знаний:
    1. фактические и стратегические;
    2. факты и эвристики;
    3. декларативные и процедурные;
    4. интенсиональные и экстенсиональные;
    5. глубинные и поверхностные;
    6. жесткие и мягкие.
    Можно ли увязать фактические, жесткие знания, факты?
    Эвристики и мягкие знания имеют какую либо аналогию?
    Имеют ли какую либо схожесть декларативные и мягкие знания?
    12. Подсистема интеллектуального анализа ИАС поддерживает инструментальными средствами:
    1. математическую экономику;
    2. эконометрику;
    3. специфические методы Data mining.
    Математическая экономика поддерживает методы многомерного статистического анализа?
    Используют ли специфические методы Data mining понятия моментов случайных величин?
    Поисковый метод «генетические алгоритмы» входит в арсенал средств Data mining?

    68
    1   2   3   4   5   6   7


    написать администратору сайта