Руководство по изучению курса Практикум по курсу
Скачать 1.79 Mb.
|
ГЛАВА 6. Основы создания и применения информационно-аналитических систем 6.1. Программные инструментальные средства ИАС 1. Состав программных инструментальных средств ИАС. 2. Средства сбора и доработки данных. 3. Средства преобразования данных. 4. Средства оперативного (OLAP) анализа. 5. Средства интеллектуального анализа данных. 6.1.1. Состав программных инструментальных средств ИАС В предыдущих разделах были рассмотрены основные функции информационно- аналитических систем, в том числе: информационного хранилища ИХ (DW), оперативного анализа (OLAP), интеллектуального анализа (DMg), представления пользователю резуль- татов анализа и подготовки принятия решений (DMt). Для реализации функций приме- няется набор программных инструментальных средств. Полный набор этих средств вклю- чает ряд крупных модулей. Крупные функциональные модули могут быть органической частью ИАС или са- мостоятельным программным продуктом. Во втором варианте они входят в ИАС в каче- стве комплектующего элемента. В свою очередь эти модули состоят из ряда блоков. Пере- числим основные блоки: – средства импорта, перекачки данных из операционных баз и других источников информации, взаимодействующие с различными операционными системами и СУБД ; – средства преобразования данных, осуществляющие проверку на правильность, преобразование структур, агрегирование; – набор или комплекс программ, которые выполняют операционные функции оперативного (OLAP) анализа; основу их составляет язык запросов Structured Query Language (SQL) усеченного или расширенного типа, в развитых ИАС в комплект входят специализированные языки различного уровня; – средства графического и визуального конструирования отчетов, рассчитанные на конечного пользователя, как правило, дублируются языковыми средствами; – средства удаленного доступа, обеспечения работы в распределенном и режиме «клиент-сервер», коллективного доступа и работы в глобальных сетях; – средства администрирования ИАС; – средства интеллектуального анализа данных, обычно называемые «Miner»; – приложения, разработанные встроенными в комплекс программ средствами. – средства моделирования объектов и процессов. Структура программных средств ИАС изображена на рис. 11.1 Рассмотрим подробнее назначение и функции программных модулей, входящих в состав инструментальных средств ИАС. Многие из них имеют самостоятельное значение и могут быть использованы для различных целей. 6.1.2. Средства сбора и доработки данных Сбор данных из различных источников сопряжен с тем, что информация в них формируется в различных форматах, имеет разнообразную структуру. В информационном 71 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. хранилище и в системах поддержки принятия решений или в витринах данных информа- ция должна быть приведена к определенной в ИХ структуре и форматам витрин данных. Инструменты ИАС различного вида имеют в своем составе средства сбора данных из источников, созданных на различных аппаратных платформах: Intel, RISC, AS/400 и работающих во многих вариантах операционных сред, в том числе: в различных версиях Windows, Unix, AIX, Linux, ОS-2 и т.д. Обеспечивается совместная работа со многими СУБД, как то: Access, Paradox, Fox Pro, MS SQL-Server, Oracle, DB-2, Informix и т.д. Мощ- ные средства ИАС насчитывают до 50-ти типов форматов, с которыми может взаимодей- ствовать система. Средства сбора и доработки данных, создания и поддержки информационного хранилища Средства управления и администрирования информационно- аналитической системы, репозиторий Средства оперативного анализа Средства визуального конструирования запросов и отчетов Средства интеллектуального анализа Средства формирования отчетов (графика, мультимедиа) Средства моделирования и разработки приложений Средства удаленного доступа, обеспечения режимов корпоративной базы данных Приложения, разработанные средствами ИАС Рис. 6.1. Структура программных средств ИАС Доступ к данным может быть реализован (организован) в двух вариантах. В первом варианте производится непосредственное обращение из ИАС в базы дан- ных. Этот процесс осуществляется с помощью драйверов из библиотек BDE (Borland Da- 72 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. tabase Engine) и ODBC (Open Database Connectivity). Доступ к необходимым данным воз- можен после создания псевдонима данных – описателя, содержащего сведения, однознач- но определяющие необходимую базу данных. Состав их зависит от типа СУБД и режима работы. При обращении к SQL-серверу достаточно указать наименование сервера и имя непосредственно базы данных. В случае работы с файловыми системами необходимо ука- зать полный путь к искомому файлу. В системе ODBC следует задавать источник данных ODBS DSN. Этот способ выборки данных позволяет реализовать режим непосредственно- го обмена on line, когда каждое изменение в источнике мгновенно отражается в OLAP- системе. Однако реализовать этот режим не всегда возможно в силу того, что источник может быть выключен или закрыт для доступа, из-за неудовлетворительного состояния каналов связи и по другим причинам. Предусматривается в виду изложенного и другой режим. Перегрузка информации из операционных баз данных производится по определенному согласованному распорядку – сценарию, который может быть сформирован с помощью заимствованных средств, на- пример блока преобразования данных DTS из состава MS SQL Server или собственных средств разработчика OLAP– системы. Операция перегрузки может производиться: – непосредственно из баз данных с их форматами, – из текстовых файлов предварительно сформированных из таблиц операционных баз дан- ных. Все источники информации должны быть зарегистрированы в ИАС. Собранные из первичных источников данные компонуются в новую многомерную базу данных (МБД) или объектную надстройку, которая имеет различные названия в конкретных реализациях инструментов ИАС. Например: Юниверс (Univers) в системе Business Objects, выборка в системе «Контур Стандарт», гиперкуб – SAS, пул – SAP R-3, в некоторых источниках ее называют факт-таблица (см. выше) и т.д. При построении МБД используются таблицы- справочники для доступа к информации, относящейся к различным классификаторам. Связи между объектами из нескольких источников данных определяются по ключевым полям. Средства OLAP-систем предоставляют широкие возможности применения фильт- ров в процессе компоновки МБД. 6.1.3. Средства преобразования данных Ввиду чрезвычайно высокой значимости информации, используемой для анализа, которая повышается после выполнения аналитических работ, обязательна процедура предварительной очистки данных. Производится обеспечение и проверка достоверности различными аппаратно-программными средствами и многими способами, в том числе: – обратная проверка, контрольное суммирование, помехозащитное кодирование, семантический контроль и т. д. Помимо этого производится логическая обработка данных, в виде отбраковки не- характерных для данного набора значений разного рода показателей. В этом случае ис- пользуются средства статистической обработки данных и другие методы. Необходимость преобразования связана с тем, что физическое представление дан- ных в ИХ, как правило, сильно отличается от представлений в источниках. Ставится так- же задача эффективной реализации запросов и выполнения требования по времени откли- ка системы. Имеется потребность в унификации форматов представления данных. 73 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. Для этих целей используются языки обработки реляционных и многомерных дан- ных, а также специальные процедуры. Языки могут быть заимствованными или фирмен- ными. При сборе (доставке), упаковке данных в ИХ возникает естественная потребность в агрегировании данных. По материалам исследований 90% пользователей используют в работе сильно агрегированную информацию. Необходимость в использовании информа- ции детального уровня возникает весьма редко. Для обеспечения эффективного использо- вания ИХ ведется наблюдение в процессе эксплуатации за частостью и характером запро- сов к хранимым данным. Выявляются закономерности, определяются наиболее частые ти- пы запросов. На основании наблюдений заранее готовится агрегированная информация по соответствующим показателям. Такие меры резко снижают время отклика, соответственно повышается эффективность ИАС. Для реализации такого подхода применяются специаль- ные процедуры. 6.1.4. Средства оперативного (OLAP) анализа Задачи оперативного анализа изложены в разделе 4.1.3. Все ИАС, сертифициро- ванные как OLAP-системы, имеют в своем составе соответствующие программные моду- ли. Программные инструментальные средства, обеспечивающие автоматизацию аналити- ческих работ в целях поддержки принятия решений, в литературе получили два распро- страненных названия: OLAP – системы и информационные хранилища. Использование того или иного зависит от приверженности автора к продукту той или иной фирмы. Под этими названиями подразумевают и полный набор средств и частные подсистемы. Реализация их направлена на максимальное упрощение действий пользователя в процессе анализа. В процессе оперативного создания отчетов DSS – EIS затруднительно по времени использование языковых средств. По этой причине широко используются упрощающие такую работу и сокращающие трудозатраты средства графического конст- руирования. Основной принцип действия – сборка из элементов, представленных в графи- ческом виде структур отчетов. Представленная общая структура базы данных в виде схе- мы с условно отображенными атрибутами (реквизитами) и классами, являющаяся по су- ществу заранее заготовленной витриной данных. Из нее простым перетаскиванием на от- веденную часть экрана компонуется отчет. Отпадает необходимость написания SQL- запроса. В некоторых инструментах (Business Objects) в процессе графического конструи- рования автоматически формируется соответствующий SQL-запрос. Конструирование от- четов может быть организовано и на основе электронных таблиц. Для реализации такого подхода созданы специальные программные модули, реализующие систему диалоговых меню, шаблоны, графические конструкторы. Сценарий анализа формируется с использо- ванием технологии drag&drop (перенести и оставить), а также выбором из предложенных в диалоговом окне альтернатив, нажатием курсором соответствующих кнопок, опреде- ляющих те или иные режимы, настройкой иерархического дерева атрибутов и т.д. С по- мощью перечисленных методов и соответствующих средств выбирается нужная база дан- ных, соответствующие поля и записи, определяются подлежащие анализу показатели, за- даются режимы фильтрации, взаиморасположение функций и параметров (повороты, сре- зы и другие процедуры OLAP-анализа). Результаты анализа представляются в виде напечатанных отчетов или презентаций, которые состоят из следующих компонентов: страница, таблица, график. Для окончатель- ного оформления с учетом эстетических и психофизиологических требований используют собственные средства ИАС или полученные результаты анализа в составе перечисленных 74 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. компонентов переносят в другие среды, в которых могут быть добавлены различные до- полнительные компоненты в виде рисунков, кино-, фото-, аудио-, видеоматериалов. Экс- порт данных может быть осуществлен и в Web-среду. Возможен и обратный вариант: все перечисленные дополнительные компоненты импортируются в качестве внедряемых OLE-объектов. При создании сложных сценариев OLAP-анализа использование мнемонических методов приводит к повышенным трудозатратам и может даже усложнить процесс в связи с их громоздкостью. В таких случаях используются программные методы. В качестве язы- ков программирования применяют стандартный язык запросов SQL, расширенные или усеченные версии или специализированные фирменные языки. В различных инструмен- тальных средствах применяются свои варианты инструментов: – в продукте Business Objects используется стандартный SQL, – в системе «Контур Стандарт» – объктно-ориентированный язык Python совместно с XML; – в среде «Линтер-Невод» применяется свой язык LAB в совокупности с SQL; – в системе Oracle Express OLAP работы в таких случаях ведутся в профессиональной инструментальной среде для визуальной объектно-ориентированной разработки при- ложений Express Objects, в составе которой имеется язык Express Basic. Упомянутые средства программного метода подготовки OLAP-анализа позволяют выполнять ана- лиз любой степени сложности с минимальными трудозатратами, но требуют достаточ- но высокой квалификации участников этого процесса; – в семействе продуктов Microsoft – языки VBA, SQL. 6.1.5. Средства интеллектуального анализа данных Это наиболее сложная, интеллектуально насыщенная часть информационно- аналитических систем, что служит причиной наличия соответствующего модуля лишь в составе наиболее развитых систем. К тому же состав задач, выполняемых модулями тако- го назначения, зависит от уровня развития системы. Интеллектуальный анализ чаще реализуется автономными программными систе- мами в связи со сложностью выполняемых задач. В то же время OLAP-системы частично выполняют самые отработанные и легко реализуемые функции интеллектуального анализа. К специализированным пакетам интеллектуального анализа относится высокораз- витый набор инструментальных средств для интеллектуального анализа крупных масси- вов данных (до миллионов записей) «Polyanalist» российской фирмы «Megaputer». Эта фирма пользуется мировой известностью, ее продукты используются более чем в 20 стра- нах, занимали призовые места на международных конкурсах, их применяют такие извест- ные фирмы как Chase Manhatten Bank, Dupont, Siemens и другие. Все семейство продуктов обеспечивает наиболее полный набор методов Data min- ing и Text mining из известных комплексов инструментальных средств. В том числе обеспечивается: – извлечение знаний в больших массивах данных; – автоматическое построение и тестирование формул, описывающих обнаружен- ные функциональные зависимости; – составление классификационных правил по заданным примерам; формирование многомерных кластеров; 75 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. – предложение алгоритмов решений; – текстовый анализ с возможностью связи понятий; – визуализация результатов анализа и другие возможности, реализованные в шестнадца- ти модулях. Набор средств реализован в шести конфигурациях, содержащих различные комбина- ции модулей: Polyanalist 4.6 – однопользовательская версия: Polyanalist 3.5 Lite, – студенческая версия Polyanalist 3.5 Power – продукты для индивидуальных пользователей и малого бизнеса. Polyanalist 3.5 Professional для MS Windows NT/2000/XP – мощная система Data Mining для профессионалов. Polyanalist Knowledge server 4.6 – клиент-серверная cетевая версия продукта, объединена в Knowledge server. Предназначен для работы на высокопроизводи- тельных платформах, включая SMP-машины, обеспечивает доступ к SQL-СУБД: Oracle, DB-2, Informix, MS SQL –Server и другим СУБД и OLAP-системам. В со- ставе продукта имеется средство разработки собственных data mining-приложений и специализированных аналитических систем – Polyanalist COM-SDK, продукт, предназначенный для создания собственных приложений для Data mining, который имеет высокоуровневый API, библиотеку вызовов и по выбору все или отдельно каждый математический модуль. Активно развивает свои продукты, ориентированные на реализацию мето- дов Data mining российская фирма – Лаборатория BaseGroup (г. Рязань). Основная ориентация продуктов фирмы – обеспечение: – подготовки массивов данных к анализу; – прогнозирования событий и поведения процессов на основе применения большого на- бора нейросетевых методов; – анализа ситуаций с помощью аппарата деревьев решений; – применения методов ассоциативных правил, генетических алгоритмов, фильтрации. Развитой системой в отношении возможностей, предоставляемых модулями и ав- тономными подсистемами интеллектуального анализа, является инструментарий ИАС фирмы США «SAS Institute Inc». В комплект инструментальных средств, решающих зада- чи интеллектуального анализа, входят: – SAS/ETS – в этом модуле реализуются методы анализа временных рядов, эконо- мического системного моделирования и прогнозирования, финансового анализа и форми- рования отчетов; производится восстановление пропущенных значений методом интерпо- ляции, изменение временной привязки временного ряда, выделение сезонной компоненты во временных рядах, построение трендов, выявление флюктуаций и нерегулярной части; – SAS/STAT – использует статистические методы регрессионного, дисперсионного анализа, нелинейного моделирования, анализа категориальных данных, многомерного, в том числе факторного анализа, кластерного и непараметрического анализа; – SAS/INSIGHT – динамическое средство для исследования и анализа данных; ис- пользует методы статистического исследования одномерных и многомерных данных; – SAS/IML – интерактивный матричный язык программирования, оперирующий с матрицами данных, которые могут быть числовыми и символьными; – SAS/OR – инструмент моделирования, анализа, решения задач исследования опе- раций, управления проектами; – модули решения задач нейросетевыми методами. 76 ОСНОВЫ СОЗДАНИЯ И ПРИМЕНЕНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ. В 2004 выпускается на рынок платформа SAS9 – Intelligence Platform, которая яв- ляется интегрированной инструментальной средой, имеющей удобный интерфейс, разно- образные средства прогнозирования, аналитики и оптимизации, бизнес-приложения. В то же время высокого уровня инструмент Oracle Express OLAP имеет в своем со- ставе ограниченный состав средств интеллектуального анализа. Решение такого рода за- дач, выходящих за рамки возможностей этого инструмента, предлагается выполнять сред- ствами MS Excel и другими специализированными инструментами Data mining, с которы- ми имеется дружественный интерфейс. Необходимо заметить, что многие ИАС возлагают на MS Excel задачи интеллектуального анализа, которые выполняются программными мо- дулями «Мастера функций» этого популярного инструмента. Среди массовых инструментов необходимо выделить пакет «Stadia-6.2» россий- ской фирмы InCo, реализующий все методики статистического анализа, прогнозирование, сравнение возможных альтернатив выбора. Пакет «Statistica» – с его помощью возможно решение всех задач статистического анализа, а также выявления закономерностей и про- гнозирования нейросетевыми и другими современными методами. Нейросетевое дополнение к пакету «Statistica» разработано российской фирмой «Статсофт». Этой фирмой в 2004 году выпущена русская усовершенствованная версия этого инструментального средства. Широко распространенный пакет OLAP-анализа Busi- ness Objects имеет в своем составе модуль интеллектуального анализа «Miner», выпол- няющий ряд задач этого класса, в том числе деревья решений, кластерного анализа. Одна- ко основные функции интеллектуального анализа предусмотрено выполнять средствами MS Excel. Вышедший на рынок в 1999 году российский продукт «Контур Стандарт» из задач интеллектуального анализа выполняет лишь функции построения и анализа временных рядов (трендов) и кластерного анализа. |