Информатика. Инфор-ные системы_УП. Учебное пособие для студентов специальности 080801 Прикладная информатика (в экономике)
Скачать 1.67 Mb.
|
добычи данных(data mining); – обеспечивать удаленный доступ к Витрине Данных для сотен пользователей с использованием технологии Internet и Intranet; – централизованно администрировать и управлять многи- ми витринам данных, которые могут содержать несогласован- ные и конфликтующие данные. Контрольные вопросы 1. Что такое Витрина Данных (рынок данных)? 2. Какие должны быть бизнес-процессы в Витрине Дан- ных? 3. Что рекомендуется определить при построении схемы взаимодействия корпоративного Хранилища и Витрин Данных в рамках создания СППР? 4. Какие два процесса удается разделить в Витрине Дан- ных? 5. Что должны делать современные Витрины Данных? 3.8 Оперативная аналитическая обработка данных (OLAP) С многомерными данными сталкиваются организации, ра- ботающие в любой области бизнеса, и сложность данных не обязательно напрямую зависит от размера компании. Даже са- мой маленькой компании хотелось бы отслеживать продажи в зависимости от продукта, торгового представителя, географии, клиента и времени. Каждая из этих описательных категорий — отдельное измерение в модели OLAP (Online Analytical Process- ing). Организации давно искали средства, позволяющие легко и естественно получать, просматривать и анализировать много- мерные данные [12]. OLAP предоставляет организациям наиболее гибкие и про- изводительные средства доступа, просмотра и анализа данных, связанных с бизнесом с помощью естественной интуитивной 75 модели данных. Благодаря легкости перемещения по данным бизнес-пользователи могут более эффективно просматривать и анализировать информацию из своих хранилищ данных, что по- зволяет организациям лучше осознать ценность этих данных. OLAP ускоряет доставку информации пользователям, просмат- ривающим такие многомерные структуры. С этой целью подго- товка некоторых вычисляемых значений в массиве данных осу- ществляется заранее, а не во время выполнения. Сочетание лег- кости перемещения и высокой производительности помогает пользователям просматривать и анализировать данные быстрее и эффективнее, чем это было бы возможно только на основе технологии реляционных баз данных. В результате они посвя- щают больше времени анализу данных и меньше — анализу баз данных. В основе OLAP лежит многомерное концептуальное пред- ставление (multi-dimensional conceptual view) — наиболее есте- ственный взгляд управляющего персонала на объект управле- ния; множественная перспектива из нескольких независимых измерений, вдоль которых могут быть проанализированы опре- деленные совокупности данных. Одновременный анализ по не- скольким измерениям данных определяется как многомерный анализ. Каждое измерение включает направления консолидации данных из серии последовательных уровней обобщения, где ка- ждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. Так, изме- рение «Исполнитель» может определяться направлением консо- лидации, состоящим из уровней обобщения «предприятие — подразделение — отдел — служащий». Измерение «Время» мо- жет даже включать два направления консолидации — «год — квартал — месяц — день» и «неделя — день», поскольку счет времени по месяцам и по неделям несовместим. В этом случае возможен произвольный выбор желаемого уровня детализации информации по каждому из измерений. Операция раскрытия или спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим; напротив, операция свертки или подъема (rolling up) означает движение от низших уровней к высшим. 76 Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть по- зволять аналитикам выполнять интуитивные операции сечения «анализа вдоль и поперек» («slice and dice»), вращения (rotate) и размещения (pivot) направлений консолидации. Пользователь не должен знать, какие конкретные средства используются для хранения и обработки данных, как данные организованы и отку- да берутся. Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы. Преобразования, тре- бующие произвольного определения, должны задаваться на функционально полном формальном языке. Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные струк- туре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользова- тельском интерфейсе. Рекомендуется допущение в каждом серьезном OLAP- инструменте как минимум пятнадцати, а лучше двадцати изме- рений в аналитической модели. Каждое из этих измерений должно допускать практически неограниченное количество оп- ределенных пользователем уровней агрегации по любому на- правлению консолидации [12]. Доступ к данным должен происходить на языке пользова- теля, в большинстве случаев не владеющего языками програм- мирования. Можно разработать множество специализированных приложений, каждое из которых будет отвечать на какой-то один тип запросов, но заранее трудно предположить, какие еще запросы будут нужны пользователю. Поэтому универсальное средство должно либо позволять писать такие приложения очень быстро, либо давать возможность пользователю состав- лять его непредсказуемые запросы самостоятельно, а значит, должно использовать язык бизнес-терминов вместо языка про- граммирования. Если принимается второй вариант, сразу появ- ляется следствие — система должна скрывать от конечного пользователя физическую структуру и способы хранения дан- ных. Знать такие подробности пользователю совсем не нужно. Такая задача решается введением семантического слоя, кото- 77 рый ставит каждому бизнес-термину в соответствие способ по- лучения данных. В основе организации данных OLAP лежит понятие гипер- кубаили многомерного куба данных, в ячейках которого хра- нятся анализируемые (числовые) данные, например объемы продаж. Измерения— это совокупности значений других дан- ных, скажем, названий товаров и названий месяцев года. В про- стейшем случае двумерного куба мы получаем таблицу, показы- вающую значения уровней продаж по товарам и месяцам. Даль- нейшее усложнение модели данных возможно по нескольким направлениям: – увеличение числа измерений — данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным; – усложнение содержимого ячейки — например, нас мо- жет интересовать не только уровень продаж, но и чистая при- быль или остаток на складе. В этом случае в ячейке будет не- сколько значений; – введение иерархии в пределах одного измерения — об- щее понятие «ВРЕМЯ» естественным образом связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д. Благодаря многомерной модели данных пользователям очень легко формулировать сложные запросы, размещать дан- ные в отчете, переходить от сводной информации к детальной или фильтровать данные, выделяя осмысленные подмножества. Например, в типичном кубе с информацией о продажах в каче- стве измерений выступали бы «Время», «География», «Про- дукт», «Канал», «Организация» и «Сценарий» (по бюджету и фактически). Типичными мерами могли бы стать «Продажи в долларах», «Продажи в единицах», «Запасы», «Численность персонала», «Доходы» и «Затраты». В рамках каждого измерения модели данных OLAP могут быть организованы в виде иерархии,представляющей различ- ные уровни их детализации. Например, в измерении «Время» можно выделить уровни «Годы», «Месяцы» и «Дни». Точно так же в рамках измерения «География» вы могли бы ввести уровни «Страна», «Регион», «Штат/провинция» и «Город». Каждая кон- кретная модель OLAP будет включать определенные значения 78 для каждого уровня иерархии. При просмотре данных OLAP пользователь будет перемещаться вверх и вниз между уровнями данных, чтобы увидеть больше деталей или получить сводную информацию [12]. В зависимости от ответа на вопрос, существует ли гиперкуб как отдельная физическая структура или лишь как виртуальная модель данных, различают системы MOLAP (Multidimensional OLAP) и ROLAP (Relational OLAP). На заре развития технологии OLAP большинство производителей считало, что единственное возможное решение при создании OLAP-приложений связано с использованием специализированной, нереляционной модели хранения. Позднее другие производители обнаружили, что при- менение определенных структур базы данных (схемы «звезда» и «снежинка»), индексации и хранения агрегатов позволяет исполь- зовать для OLAP реляционные системы управления базами дан- ных. Такие производители назвали свою технологию Relational OLAP (ROLAP). Поставщики более старых систем затем приняли термин MOLAP (multidimensional OLAP — многомерная OLAP). Недавно разработаны гибридные решения для OLAP, кото- рые иногда называют HOLAP (hybrid OLAP). Одновременно используя архитектуры ROLAP и MOLAP, они соединяют луч- шие черты обоих решений — превосходную производитель- ность и высокую масштабируемость. Один из подходов к созда- нию HOLAP включает в реляционную базу данных записи с де- тальной информацией (занимающие наибольший объем) и в то же время помещает агрегаты в отдельное хранилище архитекту- ры MOLAP. Для большинства продуктов OLAP предварительное вы- числение агрегатов — это основная стратегия, обеспечивающая выигрыш в производительности. В то же время предварительная агрегация связана со значительными затратами: число агрегатов легко может превысить число исходных точек с детальной ин- формацией, что приводит к резкому росту объема хранимых данных, причем коэффициент взрыва данных может составить около 240, так что для управления 10 Мб входных данных по- требовалась бы емкость устройства хранения 2,4 Гб [12]. Предварительное вычисление и сохранение всех возмож- ных комбинаций агрегатов (например, сумма всех объемов про- 79 изводства продуктов и уровней производства продуктов по всем периодам времени, по всем организациям, по всем каналам рас- пространения и т.д.) в традиционных OLAP приводит к мощно- му взрыву данных. Контрольные вопросы 1. Что такое многомерное концептуальное представление (multi-dimensional conceptual view) в продукте OLAP? 2. Какова основная стратегия для большинства продуктов OLAP? 3. Благодаря чему пользователям очень легко формулиро- вать сложные запросы в организации данных OLAP? 4. На чем должен происходить доступ к данным в органи- зации данных OLAP? 5. Каким должно быть концептуальное представление мо- дели данных в продукте OLAP? 3.9 Структура репозитария хранилища данных Общая структура репозитария Хранилища Данных — это отражение главной цели его построения, а именно: максимально полно и быстро удовлетворить потребности пользователей в той или иной информации. В зависимости от потребностей пользо- вателей в информации можно выделить следующие основные типы данных [12]. Персональная информация— это информация, исполь- зуемая пользователями со строго определенными обязанностя- ми и информационными потребностями. Обычно требует боль- шой предварительной обработки, т.е. имеет (высокий уровень агрегации (под агрегацией мы понимаем не только суммирова- ние, но и другие преобразования данных, производимые с по- мощью аддитивных и неаддитивных операций). Информация по бизнес-темам— информация, относя- щаяся к определенной тематике (например, финансовая дея- тельность организации). Для организаций, имеющих близкие функциональные и организационные структуры, ее можно оп- ределить как информацию для подразделения (например, для 80 финансовой службы), имеющую более широкий спектр как в предметных областях, так и во времени, но в то же время на- прямую используемую реже, чем персонализированную инфор- мацию. Данные обычно хранятся в смешанных структурах: мно- гомерные базы данных и реляционные таблицы. Текущие детальные данные— самая подробная инфор- мация, доступная в Хранилище Данных. Обычными пользовате- лями используется только в случае необходимости существен- ного уточнения информации. Такая информация обычно являет- ся полем деятельности аналитиков по поиску знаний (или поис- ку скрытых зависимостей в больших объемах информации); хранится в реляционных структурах. Прошлые детальные данные— это тот же самый низкий уровень агрегирования, что и у текущих детальных данных. Вы- деляется в особый тип по следующей причине. С одной сторо- ны, детальные данные часто требуют больших ресурсов для хранения, а с другой — детальные данные с возрастом (напри- мер, несколько лет) необходимы в очень редких случаях. Реше- нием в данном случае является использование более дешевых и емких способов хранения, например машинных лент или робо- тизированных библиотек. Контрольные вопросы 1. Что представляет собой общая структура репозитария Хранилища Данных? 2. Что представляет собой персональная информация Хра- нилища Данных? 3. Что включает в себя информация по бизнес-темам Хра- нилища Данных? 4. Что представляют собой Текущие детальные данные Хранилища Данных? 5. Что включают в себя прошлые детальные данные Хра- нилища Данных? 81 4 СТРУКТУРА И СОСТАВ ИС 4.1 Состав обеспечивающей части ИС Создание сложной системы требует четкого определения ее внутренней структуры, т.е. решения задачи структуризации. В процессе структуризации система разделяется на части, подсис- темы. В информационных системах можно выделить две основ- ные части: обеспечивающую и функциональную (рис. 4.1). Рис. 4.1 — Функциональная структура ЭИС О б е с п е ч и в а ю щ и е п о д с и с т е м ы ЭКОНОМИЧЕСКАЯ ИНФОРМАЦИОННАЯ СИСТЕМА Учет и отчетность Экономический анализ Текущее планирование Прогнози- рование Ф у н к ц и о н а л ь н ы е п о д с и с т е м ы И нф ор м ац ио нно е об ес пе че ние Т ехниче ск ое обе сп ечени е Математи ческо е об ес пе че ние Орган из ацио нн о- прав ов ое обе сп ечени е Прог рам м ное об ес пе че ние Ка др ов ое об ес пе че ние ИС состоит из набора элементов (подсистем), находящихся в определенных отношениях друг с другом. Множество этих отношений совместно с каждым элемен- том системы образуют структуру ЭИС. Если ЭИС рассматри- вать с позиции структуры, то речь идет о совокупности ее под- систем, называемых обеспечивающими и функциональными. Разработка этих двух групп проводится параллельно. Состав, структура и характер взаимодействия обеспечи- вающих подсистем, термины, определяющие понятия, связан- ные с элементами обеспечения системы, постоянно изменяются 82 и уточняются в ходе развития методологии создания информа- ционных систем и совершенствования компьютерной техники. В настоящее время в составе обеспечивающей части ЭИС выделяют подсистемы технического, информационного, мате- матического, программного, кадрового, организационно-право- вого обеспечения. Техническое обеспечение — это комплекс технических средств, предназначенных для работы ИС, а также соответст- вующая документация (общесистемная — ГОСТы, ОСТы; спе- циализированная или нормативно-справочная — методики по всем этапам разработки технического обеспечения). К техниче- ским средствам относятся компьютеры, средства коммуника- ций, оргтехника. Документацией оформляются предварительный выбор тех- нических средств, организация их эксплуатации, технологиче- ский процесс обработки данных, технологическое оснащение. Документацию можно условно разделить на три группы: 1) общесистемную, включающую государственные и от- раслевые стандарты по техническому обеспечению; 2) специализированную, содержащую комплекс методик по всем этапам разработки технического обеспечения; 3) нормативно-справочную, используемую при выполне- нии расчетов по техническому обеспечению. К настоящему времени сложились две основные формы ор- ганизации технического обеспечения (формы использования технических средств): централизованная и частично или полно- стью децентрализованная. Централизованное техническое обеспечение базируется на использовании в информационной системе больших ЭВМ и вы- числительных центров. Децентрализация технических средств предполагает реали- зацию функциональных подсистем на персональных компьюте- рах непосредственно на рабочих местах. Перспективным подходом следует считать, по-видимому, частично децентрализованный подход — организацию техниче- ского обеспечения на базе распределенных сетей, состоящих из персональных компьютеров и большой ЭВМ для хранения баз данных, общих для любых функциональных подсистем. 83 Компьютеры условно разбивают на два класса: персональ- ные и высокопроизводительные (Mainframe System), которые используются для создания больших хранилищ данных и реше- ния сложных экономических задач. Эти компьютеры обладают надёжностью при круглосуточной работе, большой степенью защиты данных и высокой производительностью. Например, компьютер CRAY использовался в компании Country NetWest для оценки портфелей ценных бумаг, выполнял расчёты 6 ми- нут, Pentium 3—20 часов [4]. В крупных компаниях компьютеры объединены в вычисли- тельные сети (как правило, в локальные). В локальных вычислительных сетях (ЛВС) известны три режима работы. Простой режим — не предполагает специально выделен- ного компьютера, ресурсы которого распределяются между дру- гими ЭВМ. Каждый компьютер имеет свои собственные ресур- сы и ресурсы, предоставляемые другим компьютером. В такой сети все компьютеры равны и имеют одинаковый доступ друг к другу (например, бухгалтерия предприятия). Файл-сервер — данный режим предусматривает выделе- ние отдельного компьютера для обслуживания сетевых про- грамм. Файл-сервер — многопользовательская система управ- ления данными, в которой информация размещена централизо- ванно, в одном узле вычислительной сети под управлением сер- вера, а СУБД — в каждом узле (на рабочих станциях). При этом СУБД ведет обработку данных, а сервер играет роль драйвера диска — специализированного узла вычислительной сети, управляющего внешними запоминающими устройствами боль- шой емкости и обеспечивающего хранение общих файлов и дос- туп к ним из других узлов сети [6]. На сервере хранятся общие программы и базы данных (например, ЛВС учебного класса). |