|
Барасюк Я. М
3.5. Тенденції та перспективи розвитку технологій управління ресурсами даних Перспективи розвитку архітектур СУБД пов’язані з розвитком концепції обробки нетрадиційних даних та їх інтеграції, обміну даними з різних СУБД та багатокористувацької технології в локальних мережах. Однією з найважливіших тенденцій розвитку СУБД є розробка „універсальних“ СУБД, які можуть інтегрувати в базі традиційні і нетрадиційні дані – тексти, рисунки, звук та відео, HTML сторінки та ін. Є два підходи до побудови таких СУБД [101]: об’єктно-реляційний – удосконалення існуючих реляційних СУБД та об’єктний. Слід зазначити, що сучасні реляційні СУБД уже в змозі інтегрувати дані, однак нетрадиційні дані не доступні для внутрішньої обробки. „універсальні“ СУБД повинні виконувати таку обробку.
Шляхом створення об’єктно-реляційних СУБД пішли такі фірми, як IBM, Informix та Oracle. В IBM розроблена об’єктно-реляційна СУБД DB2 для ОС AIX та OS/2. На початковому етапі фірма Oracle випустила реляційний продукт Oracle Universal Server, який призначений для інтеграції СУБД Oracle та спеціалізовані сервери, що підтримують дані в різних сховищах. Зараз, починаючи з версії Oracle 9, яка уже є об’єктно-реляційною, у якій інтегровані реляційні та нетрадиційні для реляційної моделі типи даних. Informix створила об’єктно-реляційну СУБД Universal Server. Фірма Sybase також іде по шляху створення об’єктно-реляційної СУБД, розробляючи для цього спеціалізовані сервери (Adaptive-Server). Корпорація Microsoft зробила ставку на об’єктно-орієнтований інтерфейс OLE DB, який забезпечує доступ до даних Microsoft SQL Server, який є реляційною СУБД.
Інформаційні сховища на базі СУБД з паралельною обробкою даних розраховані на багатопроцесорні системи. Такі СУБД розділяються по типу архітектури – без розділення ресурсів та зі спільним використанням дискового простору. В першому випадку за кожним із процесорів закріплені виділені області пам’яті та диски, що дає значний виграш у швидкості обробки даних. В другому випадку усі процесори ділять між собою як оперативну пам’ять, так і місце на диску. Прикладами СУБД з архітектурою без розподілу ресурсів є: DB2 (IBM), Informix Online Dynamic (Informix), Navigation Server (Sybase). Прикладом СУБД другого типу є AdabasD версія 6.1 (Software AG).
Слід зазначити, що вибір СУБД доцільно здійснювати не тільки за типом архітектури та розвинутості інтерфейсу. Перш за все потрібно звертати увагу на функціональні можливості СУБД. Одним з найважливіших критеріїв вибору є можливість обробки складних запитів (і, зрозуміло, швидкість) та можливість переносу між платформами. Великою швидкістю обробки складних запитів характеризуються СУБД DB2 (IBM) та DSA (Informix).
В усьому світі організації накопичують чи уже накопичили в процесі своєї діяльності великі об’єми даних. Ці колекції даних містять в собі великі потенційні можливості по отриманню нової аналітичної інформації, на основі якої можна і необхідно будувати стратегію фірми, виявляти тенденції розвитку ринку, знаходити нові рішення, які обумовлюють успішний розвиток в умовах конкурентної боротьби. Для деяких фірм такий аналіз є невід’ємною частиною їх повсякденної діяльності, але більшість, очевидно, тільки починає приступати до нього серйозно. Інформаційні системи, призначені для аналізу великих об’ємів даних, відносять до класу систем підтримки прийняття рішень. В основі таких систем лежать три основні технології: технологія сховищ даних, технологія оперативного аналізу даних та технологія інтелектуального аналізу даних. Розглянемо ці технології детальніше.
3.5.1. Технологія сховищ даних Data Warehousing Спроби створення систем прийняття рішень, які б безпосередньо зверталися до баз даних систем оперативної обробки трансакцій (OLTP-систем), виявляються в більшості випадків неефективними [102]. Тому для забезпечення можливості аналізу накопичених даних організації почали створювати сховища даних (DataWarehouse – DW), що являють собою інтегровані колекції даних, зібрані з різних систем оперативного доступу до даних.
Концепція DW була запропонована в 1992 р. Білом Інмоном в його книзі “Building the Data Warehouse” [103] та стала однією з домінуючих в розробці інформаційних технологій обробки даних 90-х років. Англомовний термін Data Warehousing, який складно лаконічно перекласти українською, означає створення, підтримку, управління та використання сховища даних, що говорить про те, що мова йде про процес. Мета цього процесу – неперервне надання необхідної інформації потрібним співробітникам організації. Цей процес передбачає постійний розвиток, удосконалення, розв’язання все нових задач. Процес ніколи не закінчується, тому його не можна вмістити в більш-менш чіткі часові рамки так, як це можна зробити для традиційних систем оперативного доступу до даних.
Сховища даних є основою для побудови систем підтримки прийняття рішень. Основна мета створення DW в тому, щоб зробити усі значимі для управління бізнесом дані доступними в стандартизованій формі, придатними для аналізу та отримання необхідних звітів. Для досягнення цього потрібно отримати дані із існуючих внутрішніх та зовнішніх, доступних для комп’ютера, джерел. Незважаючи на відмінності в підходах та реалізаціях, усім сховищам даних властиві такі спільні риси [Error: Reference source not found]: предметна орієнтованість, інтегрованість, прив’язка до часу, незмінність.
Предметна орієнтованість. Інформація в сховищі даних організована у відповідності до основних аспектів діяльності підприємства (замовники, продажі, склад тощо). Це відрізняє сховище даних від оперативної БД, де дані організовано відповідно до процесів (виписка рахунків, відвантаження товару тощо). Предметна організація даних в сховищі сприяє як значному спрощенню аналізу, так і підвищенню швидкості виконання аналітичних запитів. Вона виражається, зокрема, в використанні інших, порівняно з оперативними системами, систем організації даних. У випадку зберігання даних в реляційній СУБД використовується схема „зірки“ (star) чи „сніжинки“ (snowflake) [Error: Reference source not found]. Крім цього, дані можуть зберігатися в спеціальній багатовимірній СУБД в n-вимірних кубах.
Інтегрованість. Вихідні дані отримуються із оперативних БД, перевіряються, очищуються, приводяться до єдиного виду, в потрібній мірі агрегуються (вираховуються сумарні та інші статистичні показники) і завантажуються в сховище. Такі інтегровані дані набагато простіше аналізувати.
Прив’язка до часу. Дані в сховищі завжди напряму зв’язані з певним періодом часу. Дані, отримані із оперативних БД, накопичуються в сховищі у виді „історичних шарів“, кожен з яких стосується конкретного періоду часу. Це дозволяє аналізувати тенденції в розвитку бізнесу.
Незмінність. Потрапивши в певний „історичний шар“ сховища, дані уже ніколи не мінятимуться. Це також відрізняє сховище від оперативної БД, в якій дані постійно змінюються, у зв’язку з чим один і той же запит, виконаний в різні моменти часу, може дати різні результати. Стабільність даних також полегшує їх аналіз.
Сховища даних умовно поділяють на два типи [Error: Reference source not found]: корпоративні сховища даних (enterprise data warehouses) та кіоски даних (data marts). Корпоративні сховища даних містять інформацію, яка стосується усієї корпорації (всього підприємства), і яка зібрана з великої кількості оперативних джерел для консолідованого аналізу. Зазвичай такі сховища охоплюють цілий ряд аспектів діяльності підприємства і використовуються для прийняття як тактичних, так і стратегічних рішень. Корпоративне сховище містить детальну та узагальнюючу інформацію. Вартість створення та підтримки корпоративних сховищ може бути дуже великою. Частіше всього їх створенням займаються централізовані відділи інформаційних технологій, причому вони створюються методом зверху вниз – спочатку проектується загальна схема, і тільки потім починається заповнення даними. Такий процес може тривати декілька років.
Кіоски даних містять підмножину корпоративних даних та створюються для відділів чи підрозділів всередині організації. Кіоски даних часто створюються силами самого відділу та охоплюють конкретний аспект, що цікавить співробітників даного відділу. Кіоск даних може отримувати дані з корпоративного сховища (залежний кіоск) або, що більш розповсюджено, дані можуть отримуватись безпосередньо з оперативних джерел (незалежний кіоск).
Основними постачальниками програмного забезпечення сховищ даних є компанії Arbor, Hewlett-Packard, IBM, Informix, Microsoft, Oracle, Platinum Technology, SAS Institute, Software AG, Sybase та ін. Усі ці фірми мають сторінки в Internet, на яких наводяться детальні відомості про їх продукти та послуги.
3.5.2. Технологія аналізу OLAP Після того як дані отримані, очищені, приведені до єдиного вигляду та вміщені в сховище даних, їх необхідно аналізувати. Для цього використовується технологія OLAP [Error: Reference source not found]. Дванадцять основних принципів OLAP були сформульовані в 1993 році Є.Ф.Коддом – розробником теорії реляційних баз даних. Терміном OLAP (OnLine Analytical Processing) позначається процес оперативного аналізу даних. Пізніше визначення Кодда було перероблено в так званий тест FASMI (Fast Analysis of Shared Multidimensional Information – швидкий аналіз розділяємої (доступної багатьом користувачам) багатомірної інформації), який вимагає, щоб OLAP-засіб надавав наступні можливості швидкого аналізу розділяємої багатомірної інформації:
Висока швидкість. Аналіз повинен проводитись однаково швидко за усіма аспектами інформації. При цьому допустимий час відгуку повинен складати не більше 5 секунд.
Аналіз. Повинна існувати можливість проводити основні типи числового та статистичного аналізу – заданого розробником програми чи довільно заданого користувачем.
Розділення доступу. Доступ до даних повинен бути багатокористувацьким. При цьому повинен контролюватися доступ до конфіденційної інформації.
Багатомірність. Це основна і найважливіша характеристика OLAP.
Робота з інформацією. Програма повинна забезпечувати можливість звертання до довільної потрібної інформації незалежно від її об’єму та місця зберігання.
OLAP надає організаціям максимально зручні і швидкі засоби доступу, перегляду та аналізу ділової інформації. OLAP забезпечує користувача природною та інтуїтивно зрозумілою моделлю даних, організовуючи їх у виді багатомірних кубів (cubes). Осями (dimensions) багатомірної системи координат служать основні атрибути бізнес-процесу, що піддається аналізу. Наприклад, для процесу продаж це може бути категорія товару, регіон, тип покупця. Практично завжди в якості одного з вимірів використовується час. Всередині кубу знаходяться дані, що якісно характеризують процес, – так звані міри (measures). Це може бути об’єм продаж в штуках чи в грошовому вираженні, залишки на складі, видатки тощо. Користувач, який аналізує інформацію, може „нарізати“ куб по різних напрямках, отримати зведені (наприклад по рокам) чи, навпаки, детальні (по тижням) дані та виконати інші операції, необхідні для аналізу даних.
В першу чергу слід відмітити той факт, що, оскільки аналітик завжди оперує деякими підсумковими, а не детальними даними, в базах даних OLAP практично завжди зберігаються поряд з детальними даними і так звані агрегати – обчислені заздалегідь підсумкові показники. Прикладами агрегатів можуть служити сумарний об’єм продаж за рік чи середній залишок товару на складі. Зберігання попередньо розрахованих агрегатів є основним способом підвищення швидкості виконання OLAP-запитів. Зрозуміло, що створення агрегатів може привести до значного збільшення об’єму даних. Іншою проблемою зберігання OLAP-даних є розрідженість багатомірних даних. Наприклад, якщо в 2008 році продаж в деякому регіоні не було, то на перетині відповідних вимірів кубу не буде ніякого значення. Якщо OLAP-сервер буде при цьому зберігати деяке значення, наприклад число 0, то при значній розрідженості даних кількість пустих клітинок, для зберігання яких використовується пам’ять, може в багато разів перевищувати кількість заповнених, в результаті чого загальний об’єм буде невиправдано зростати. Різні типи OLAP вирішують ці та інші проблеми різними способами.
Для зберігання даних використовуються такі різновиди OLAP [Error: Reference source not found]:
Спеціальні багатомірні СУБД (OLAP-сервери). Їх іще називають MOLAP (Multidimensional OLAP). При виконанні складних запитів, що аналізують дані в різних вимірах, багатомірні СУБД забезпечують більшу продуктивність порівняно з реляційними. При цьому швидкість виконання запиту не залежить від того, по якому виміру здійснюється „зріз“ багатомірного куба.
Традиційні реляційні СУБД – ROLAP(Relational OLAP). Використання спеціальних структур даних – схеми „зірки“ та „сніжинки“, а також зберігання обчислених агрегатів роблять можливим аналіз реляційних даних. Реляційні СУБД історично більш звичні, і в них зроблені значні інвестиції. З цієї причини ROLAP зараз більш поширені.
Комбінований варіант – HOLAP (Hybrid OLAP), які суміщають два розглянуті види СУБД. Одним із варіантів суміщення двох типів СУБД є зберігання даних в багатомірній СУБД, а детальних даних (які мають найбільший об’єм) – в реляційній.
3.5.3. Технологія аналізу “Data Mining” Поява технології DataMining пов’язується з необхідністю отримувати знання з накопичених інформаційними системами різнорідних даних. Українською мовою цей термін можна перекласти як „добування“, „отримання“ знань. Методи математичної статистики, які раніше використовувались для цих цілей, виявились корисними переважно для перевірки раніше сформульованих гіпотез (verification-driven data mining) та для грубого розвідувального аналізу, що лежить в основі оперативної аналітичної обробки даних OLAP.
Ключовою перевагою Data Mining в порівнянні з описаними методами є можливість автоматичної генерації гіпотез про взаємозв’язок між різними параметрами чи компонентами даних. Робота аналітика при роботі з традиційним пакетом обробки даних фактично зводиться до перевірки чи уточнення декількох породжених ним же гіпотез. В тих же випадках, коли початкових пропозицій немає, а об’єм даних значний, такі системи є малоефективними.
Іще однією важливою особливістю систем Data Mining є можливість обробки багатомірних запитів та можливість пошуку багатомірних залежностей. Унікальною також є здатність систем Data Mining автоматично виявляти виключні ситуації (критичні точки) – елементи даних, що випадають із загальних закономірностей. Виділяють п’ять стандартних типів закономірностей, які дозволяють виявляти методи Data Mining [Error: Reference source not found]:
асоціація;
послідовність;
класифікація;
кластеризація;
прогнозування.
Пошук шаблонів здійснюється методами, що не обмежуються рамками апріорних пропозицій про структуру вибірки та вид розподілених значень показників, що аналізуються. Приклади задач на такий пошук з використанням Data Mining наведено в табл. 3.1. Таблиця 3.1.
Порівняння формулювань задач при використанні методів OLAP та Data Mining
OLAP
| Data Mining
| Якими є середні показники травматизму для працівників, що палять та для тих, хто не палить?
| Чи зустрічаються точні шаблони в описаннях людей, з підвищеним травматизмом?
| Якими є середні розміри рахунків за користування телефонним зв’язком для наявних клієнтів у порівнянні з рахунками клієнтів, які відмовились від послуг телефонної компанії?
| Чи існують характерні портрети клієнтів, які імовірно планують відмовитись від послуг телефонної компанії?
| Якою є середня величина щоденних покупок по викраденій та не викраденій кредитній картці?
| Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?
|
Data Mining є мультидисциплінарною областю, що виникла та розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. Системи Data Mining інтегрують в себе одразу кілька підходів, але, як правило, з переважаючим впливом якогось одного компоненту. Розглянемо приклади деяких можливих застосувань Data Mining.
Підприємства роздрібної торгівлі сьогодні збирають детальну інформацію про кожну окрему покупку, використовуючи кредитні картки з маркою магазину та комп’ютеризовані системи контролю. Типовими задачами, які можна розв’язувати за допомогою Data Mining в сфері роздрібної торгівлі є аналіз купівельної корзини, дослідження часових шаблонів, створення прогнозуючих моделей.
Аналіз купівельної корзини використовується для виявлення товарів, які покупці стараються купити разом. Знання купівельної корзини необхідне для покращення реклами, вироблення стратегії створення запасів товарів та способів їх розкладання в торговельних залах.
Дослідження часових шаблонів допомагає торговельним підприємствам приймати рішення про створення товарних запасів. Воно дає відповіді на питання типу „якщо сьогодні покупець купив фотоапарат, то через який час він імовірніше всього купить нову плівку та батарейки?“.
Створення прогнозуючих моделей дає можливість торговельним підприємствам визначати характер потреб різних категорій клієнтів з певною поведінкою, наприклад тих, що купляють товари відомих дизайнерів чи тих, що відвідують розпродажі. Ці знання потрібні для розробки точно направлених економічних заходів із просування товарів.
Досягнення технології Data Mining використовуються в банківській справі для вирішення таких розповсюджених задач:
Виявлення шахрайства з кредитними картками. Шляхом аналізу минулих трансакцій, які в майбутньому виявились шахрайськими, банк виявляє деякі стереотипи такого шахрайства.
Сегментація клієнтів. Розподіляючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою та результативною, пропонуючи різні види послуг різним групам клієнтів.
Прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів та відповідним чином обслуговувати кожну категорію.
Страхові компанії на протязі ряду років накопичують великі об’єми даних. Тут також можна використовувати методи Data Mining для виявлення шахрайства та аналізу ризиків.
Виявлення шахрайства. Страхові компанії можуть знизити ризик шахрайства, відшуковуючи певні стереотипи в заявах про виплату страхового відшкодування.
Аналіз ризику. Шляхом виявлення сукупності взаємозв’язаних факторів, пов’язаних з оплаченими заявами, страховики можуть зменшити свої втрати по зобов’язанням. Відомий випадок, коли в США велика страхова компанія виявила, що суми, виплачені за заявами одружених людей вдвічі перевищують суми за заявами одиноких людей. Компанія відреагувала на це нове знання переглядом своєї загальної політики надання знижок сімейним клієнтам.
В даний час для розв’язання задач Data Mining використовуються нейромережні технології, статистичні пакети SAS, SPSS, STATISTICA, STATGRAPHICS та ін. та спеціалізовані програми типу Deductor Studio, Weka. Крім того, практично усі сучасні корпоративні сервери баз даних містять компоненти, призначені для аналізу даних, зокрема й для інтелектуального аналізу засобами Data Mining.
|
|
|