Главная страница
Навигация по странице:

  • Хранилища данных и OLAP-обработка

  • Работа с неточными данными

  • Новые пользовательские интерфейсы.

  • Интеграция разнородных и слабо формализованных данных

  • Организация

  • Технологии

  • Обработка потоковых данных.

  • Лекции и практики (1). Курс лекций и материалы для практических занятий


    Скачать 1.01 Mb.
    НазваниеКурс лекций и материалы для практических занятий
    Дата17.03.2023
    Размер1.01 Mb.
    Формат файлаdocx
    Имя файлаЛекции и практики (1).docx
    ТипКурс лекций
    #996812
    страница61 из 75
    1   ...   57   58   59   60   61   62   63   64   ...   75

    Лекция 15. ПЕРСПЕКТИВЫ РАЗВИТИЯ ТЕХНОЛОГИИ БАЗ ДАННЫХ


    Вот уже более 40-и лет базы данных являются одной из наиболее широко востребованных информационных технологий. Некоторые авторы утверждают [1], что появление баз данных стало самым важным достижением в области программного обеспечения. Системы баз данных коренным образом изменили работу многих организаций, и практически нет такой области деятельности, ко- торую они не затронули. Ежегодный рост объёмов продаж СУБД и вспомога- тельного программного обеспечения с 1995 г. составляет около 20%.

    Небольшой объём данного учебного пособия не позволяет охватить все стороны теории и практики баз данных. Но, если вас заинтересовала данная технология и вы хотите продолжить её изучение, то к числу наиболее важных и перспективных направлений развития БД следует отнести следующие:

    1. Хранилища данных и OLAP-обработка. Хранилище данных – это пред- метно-ориентированный, интегрированный, привязанный ко времени и не- изменяемый набор данных, предназначенный для поддержки принятия ре- шений. Хранилище данных позволяют сохранять исторические данные с це- лью анализа и прогнозирования развития ситуаций. При правильном проек- тировании хранилище данных даёт высокую отдачу за счёт более качествен- ного управления работой организации (предприятия). Данные в хранилище данных обрабатываются с помощью OLAP (online analytical processing) – ин- струментов оперативной аналитической обработки данных. OLAP позволяет быстро производить расчёты над огромными объёмами данных, в том числе с целью выявления динамики изменения различных параметров (параметры задаются аналитиком).

    2. Работа с неточными данными. Информация в базах данных часто содер- жит ошибки или является неполной. Результаты запроса по такой БД могут сильно отличаться от реального положения дел. Процессор запросов, рабо- тающий с вероятностями, коэффициентами доверия, коэффициентами пол- ноты и т.д. позволил бы учитывать степень достоверности данных при при- нятии решений на основе этих данных.

    3. Новые пользовательские интерфейсы. Это одно из наиболее актуальных направлений современных информационных технологий. Конечные пользо- ватели не знают язык запросов (SQL), и для получения информации из БД вынуждены пользоваться интерфейсами, которые для них создают програм- мисты. В приложения обычно включают некоторый набор готовых запросов и возможность сформулировать произвольный запрос с помощью некоего конструктора. Но для того, чтобы воспользоваться конструктором, пользо- ватель должен знать структуру базы данных и хорошо разбираться в пред- ложенном ему формализме ПрО.

    Наиболее естественным видом является запрос к БД, сформулированный на естественном языке (ЕЯ). Но для таких запросов характерны неточности и неоднозначность. Решение этой задачи невозможно без использования зна- ний о предметной области и о структуре языка.

    Одним из вариантов решения этой проблемы являются онтологии. Под он- тологией понимается определённым образом формализованная система зна- ний о предметной области, описывающая, классифицирующая и увязываю- щая между собой понятия этой ПрО. Интеграция онтологий и баз данных позволит пользователям задавать запросы в собственной терминологии с ис- пользованием ограниченного естественного языка. Это упростит создание и сопровождение приложений и повысит эффективность использования БД.

    1. Проблемы оптимизации запросов. Помимо остающейся актуальной задачи поиска новых способов оптимизации, можно выделить ещё две серьёзные проблемы оптимизации: обработка неструктурированных запросов (возмож- но, на ограниченном естественном языке), и оптимизация группы запросов. Работа с неструктурированными запросами особенно актуальна в свете ис- пользования баз данных в поисковых системах (в том числе при поиске в In- ternet). А оптимизация группы одновременно выполняющихся запросов поз- волит улучшить характеристики СУБД с точки зрения быстродействия.

    2. Интеграция разнородных и слабо формализованных данных. Изначаль- но базы данных предназначались для хранения и обработки фактографиче- ских хорошо структурированных данных. Но огромное количество данных представлено в различных графических и мультимедийных форматах. Включение в СУБД способов обработки подобных данных позволяет ис- пользовать технологии баз данных в таких сферах, как, например, ГИС (гео- информационные системы), издательские системы (с поддержкой вёрстки номеров издания), САПР (системы автоматизации проектирования) и т.д.

    3. Организация доступа к базам данных через Internet. Многие web-сайты содержат динамическую информацию, например, о товарах и ценах в Internet-магазинах. В локальных системах такая информация традиционно хранится в базах данных. Интеграция СУБД в web-среду позволяет сохра- нить все преимущества баз данных для использования в web-приложениях. Основными задачами здесь являются:

      1. организация эффективного интерфейса, рассчитанного на неподготов- ленного пользователя;

      2. оптимизация запросов, направленная на уменьшение сетевого трафика;

      3. повышение производительности СУБД в многопользовательском режиме работы.

    4. Самоадаптация. Современные СУБД имеют широкие возможности по настройке баз данных под конкретную предметную область и аппаратные средства. Но использование этих возможностей – достаточно сложная зада- ча, которая требует наличия высококвалифицированного администратора БД. Для упрощения настройки и сопровождения БД СУБД должна брать на себя большинство функций настройки и выполнять их в автоматическом или автоматизированном режиме.

    5. Использование GRID. GRID – это концепция объединения вычислитель- ных ресурсов в единую сеть. В качестве аналогии здесь можно привести электрические сети: при возникновении потребности пользователь просто подключается к сети и получает электричество. Точно так же при возникно- вении потребности в вычислениях пользователь должен просто подключать- ся к GRID и получать вычислительные ресурсы. Преимущества этого подхо- да очевидны: возможность решать более ресурсоёмкие задачи и перераспре- делять нагрузку на узлы сети. Но и нерешённых проблем здесь тоже доста- точно, поэтому это задача будущего.

    Тем не менее, первые промышленные GRID-системы в области баз данных уже существуют: это системы Oracle 10G и Oracle 11G (G – это сокращение от GRID). Они динамически выделяют ресурсы для выполнения задач поль- зователя по доступу к БД Oracle и перераспределяют нагрузку на узлы сети с целью оптимизации использования вычислительных ресурсов и повышения общей производительности системы.

    1. Сохранность данных. Количество накопленных цифровых данных в мире огромно. Но со временем устаревают и форматы хранения данных, и сред- ства доступа к ним. Происходит также старение носителей: размагничива- ются магнитные ленты и диски, изменяются оптические и физические свой- ства носителя. Поэтому даже архивированные данные могут стать недоступ- ными, особенно если нет устройства для чтения устаревшего носителя или отсутствует возможность запустить приложение, которое может читать устаревший формат. Решить эту проблему могут средства, обеспечивающие миграцию данных в новые форматы с сохранением их описания (т.е. мета- данных).

    2. Технологии разработки данных и знаний (data mining и knowledge mining). Технологии разработки данных предназначены для поиска неоче- видных тенденций и скрытых закономерностей в больших объёмах данных. А knowledge mining – это извлечение знаний из баз данных (или из храни- лища данных). Здесь используются как формальные методы (регрессионный, корреляционный и другие виды статистического анализа), так и методы ин- теллектуальной обработки данных, основанные на моделировании познава- тельных механизмов – индукции, дедукции, абдукции.

    3. Обработка потоковых данных. В последние годы появились новые источ- ники данных: web-приложения, системы мониторинга окружающей среды, службы отслеживания текущего местоположения людей и т.д. В связи с этим появилась и новая технология выполнение запросов над потоками данных и получение результатов обработки с небольшими задержками. Системы об- работки запросов к потоковым данным могут поддерживать приложения, связанные с корпоративной передачей сообщений, обработкой сложных со- бытий, непрерывной интеграцией данных, а также в новых прикладных об- ластях, которые продолжают обнаруживаться.

    Более подробно с этими направлениями развития технологии БД можно озна- комиться в [1] и на сайте citforum.ru/database.

    1   ...   57   58   59   60   61   62   63   64   ...   75


    написать администратору сайта