Главная страница
Навигация по странице:

  • Р исунок 2 - Архитектура современной организации доступа к БД

  • Рисунок 3 – Вероятность повторного использования данных с зависимости от времени хранения данных [9]

  • Устройства массовой памяти

  • Флэш-память

  • Таблица 2 – Характеристики средств копирования данных

  • Лекция 1_вводная. I. история и состояние развития бд


    Скачать 363.5 Kb.
    НазваниеI. история и состояние развития бд
    Дата09.09.2022
    Размер363.5 Kb.
    Формат файлаdoc
    Имя файлаЛекция 1_вводная.doc
    ТипДокументы
    #668873
    страница2 из 3
    1   2   3

    Повсеместность коммуникаций и активность компьютерных систем способствуют общей тенденции увеличения объема данных, используемых как организациями, так и отдельными людьми. Данные надо передавать, хранить, структурировать и обрабатывать в реальном времени. Сегодня это — гигабайты фотографий, музыкальных записей, текста и видео. Скоро компьютер будет содержать терабайты данных и требовать производительности, измеряемой в Терафлопах. Для достижения такого уровня производительности быстродействие современного процессора персонального компьютера надо поднять более чем в 100 раз.

    Обработка огромных потоков данных требует суперкомпьютерного уровня производительности от отдельных серверов, компьютеров и даже мобильных устройств и встроенных систем [5]. Основными приложениями будут системы поддержки решений, работающие в реальном времени, обработка изображений в реальном времени, интеллектуальный поиск, игры и др.

    Необходимы меры по активизации исследований и разработке параллельных систем. Создатели компьютеров увеличивают производительность за счет мультиядерности, но для этого надо уметь распараллеливать код, и если новые системы худо-бедно создаются с прицелом на несколько ядер, то огромные объемы унаследованного кода перевести в параллельную архитектуру очень сложно. Но, тем не менее, это направление названо на сегодня единственным, которое позволит наращивать производительность без заметного увеличения стоимости и энергопотребления. Для этого требуются новые алгоритмы, программные модели, ОС и компьютерные архитектуры. Необходимо развивать программную инженерию применительно к параллельным задачам, открытым интерфейсам, средств и методов переноса нынешних последовательных систем на параллельные рельсы.

    Web-технологии получат дальнейшее развитие. Регулярный доступ к данным становится насущной потребностью каждого индивидуума. БД и связанные с ними технологии здесь играют ключевую роль. Уже сегодня Web-мастера осознают себя фактически администраторами БД. На многих интернет-узлах начинают применять технологии БД, не видя другой возможности держать под контролем растущее число хранимых объектов. Многие вновь возникающие узлы представляют собой, в сущности, аналоги приложений БД по типу электронных каталогов, где Интернет играет роль инфраструктуры. Архитектура организации доступа к БД в интернет среде показана на рис.2.

    Р
    исунок 2 - Архитектура современной организации доступа к БД


    Развитие средств хранения

    Данные стремительно стареют. По окончании жизненного цикла данные следует архивировать, а затем поддерживать в архивном формате. Данные могут быть востребованы через многие десятки лет, о чем свидетельствует действующая система бумажных архивов. Вероятность их повторного использования чрезвычайно низка, в определенных критических ситуациях они могут быть востребованы. Не важно, будут ли данные когда-либо использованы, важно, чтобы они были сохранены. Вечное хранение данных соответствующим образом меняет управление жизненным циклом данных, очевидно, они должны по мере старения мигрировать с устройств, обеспечивающих быстрый доступ, на устройства, обеспечивающие низкую удельную стоимость хранения (рис.3), но не могут быть потеряны или уничтожены.



    Рисунок 3 – Вероятность повторного использования данных с зависимости от времени хранения данных [9]

    Для хранения данных используютсяследующие носители: бумага, кинопленка, перфокарты, перфоленты, магнитные (видео, аудио, цифровые) и оптические (CD-ROM, DVD). Для физического хранения применяют шкафы, стеллажи, жесткие дисковые системы - винчестеры, флоппи диски, накопители типа Zip, флэш – память, сетевые системы файл-сервер, сервер БД, grid системы.

    Перспективные технологии хранения данных, автоматические хранилища лент, устройства хранения прямого доступа, виртуальные ленточные библиотеки, программные средства управления ресурсами хранения, виртуализация памяти, сети хранения на базе IP, твердотельные диски, гибридные жесткие диски, диски на голографических носителях

    Компания TDK достигла нового рекорда в плотности записи информации на носитель формата Blu-Ray — теперь компактные диски способны вмещать 200 Гбайт информации.

    Магнитные ленты остаются самыми экономичным в плане энергопотребления решением хранения данных, не требующим питания и охлаждения. НМЛ отличаются невысокой стоимостью за терабайт данных и способны выдерживать экстремальные условия. НМЛ HP StorageWorks LTO4 Ultrium1840 для крупных и средних предприятий предлагает максимальный объем, высокую производительность и наибольшую защиту резервных копий, потребляя меньше ватт на гигабайт. Встроенные аппаратные технологии гарантируют защиту данных при утере картриджа. Программное обеспечение НP Data Protector Express Single Server Edition поддерживает аппаратную защиту данных.

    Программное обеспечение, разработанное компанией NEC и японским институтом науки и технологий Нара (NAIST, Nara Institute of Science and Technology), позволяет с помощью мобильников с цифровыми камерами (камерофонов) сканировать текст газет и журналов «на ходу», просто проводя им над страницей, а затем распознать весь документ целиком. Программа автоматически отделяет картинки от текста и распознает последний, сохраняя цифровой текст и все содержащиеся в документе изображения.
    Хранилища данных. В хранилище данных накапливаются данные из одной или более БД. Существует множество потенциальных применений, а также подходов к организации хранилищ данных. Так, крупный магазин может поддерживать хранилище данных о кассовых операциях для целей добычи данных. Хранилища создаются также для защиты от потерь. Некоторые задачи, касающиеся хранилищ данных, совпадают с теми, которые характерны для интеграции данных в целом, но есть и некоторые специфические проблемы, касающиеся разработки:

    • инструментов для создания насосов данных, т.е. модулей, функционирующих над средой источников данных и поставляющих в хранилище те изменения, которые существенны с точки зрения хранилища; при этом данные должны транслироваться в соответствии с глобальной моделью и схемой хранилища.

    • методов "чистки данных", которые обеспечивают согласование данных, удаление элементов, соответствующих разным представлениям одного и того же объекта, а также удаление неправдоподобных значений.

    • средств для создания и поддержания словарей, информирование пользователей о способах получения данных.
    Репозитарии. Класс приложений, называемых репозитариями, можно охарактеризовать как класс систем для хранения и обработки данных и метаданных, т. е. информации о структуре данных. Примеры репозитариев - БД для поддержки компьютерного проектирования, включая CASE (системы проектирования программного обеспечения), а также системы управления документами. Отличительная черта этих систем - изменения метаданных, характерные для любой среды проектирования. В репозитарии необходимо поддерживать множество представлений одной и той же или схожей информации. Например, программный модуль имеет представление в виде исходного кода, объектного кода, промежуточного кода, готовой программы, таблиц использований/определений, документации. Связи между всеми этими представлениями должны отслеживаться репозитарием так, чтобы изменения в одном из них автоматически распространялись на остальные представления того же объекта. Репозитарий должен поддерживать понятие версий (состояний объекта в разные моменты времени) и конфигураций (согласованных коллекций версий). Так, различные релизы программной системы будут формироваться как конфигурации из определенных версий файлов исходного кода. Репозитарий должен поддерживать эволюцию структуры информации и ее метаданных таким образом, чтобы при добавлении новых свойств данных или новых связей не требовалась полная перекомпиляция.

    Устройства массовой памяти: В течение 50 лет развития компьютерной техники использовались следующие носители: перфокарты, киноленты, перфоленты, магнитные ленты, дискеты, магнитные картриджи, СD-ROM (увеличение ёмкости носителя до 1,2 Гб против 640 Мб и повышение скорости записи в12 раз), CD-RW, DVD диски, съемные винчестеры, серверы БД. В настоящее время наблюдается устойчивая тенденция роста ёмкости винчестеров, а также снижение удельной стоимости хранения единицы информации. Плотность записи постоянно увеличивается и на настоящий момент составляет более 1 Тб/дюйм2. Цена хранения одного Мб информации продолжает снижаться и в настоящее время составляет менее 0,1 доллара.

    Флэш-память – переносное устройство от 32 Гбайт.

    Компания Audavi предлагает систему хранения HardTape, в качестве носителей в которой используются 2,5-дюймовые жесткие диски, заключенные в специальные картриджи размером 30x80x17 мм. Картриджи с жесткими дисками выдерживают падение на твердую поверхность с высоты 60 см. Картриджи предлагаются в модификациях емкостью 20, 30, 40, 60 и 80 Гбайт; они устанавливаются в шасси HardTape Bay, которое можно подключить к компьютеру по интерфейсам FireWire, USB или PCMCIA. Система хранения предлагается в качестве альтернативы ленточным накопителям для резервирования информации на случай бедствия, а также для хранения медицинских данных и записей с камер видеонаблюдения [6].
    В настоящее время ленты формата 3580 могут хранить до 400 Гбайт несжатой информации. Исследователи полагают, что с помощью так называемых «наношаблонов», предложенных инженерами подразделения микропроцессоров, им удастся создать картриджи, в которых можно будет хранить до 100 терабайт данных.

    В компании Iomega разработан накопитель на магнитных дисках величиной с большую монету (около 5 см2), емкость 1,5 Гбайт. Система Digital Capture Technology (DCT) находится в стадии прототипа. Накопитель предназначен для применения в портативных мультимедиа-устройствах.

    HandyDrive – внешний винчестер - комплект для быстрого копирования и переноса больших объёмов информации.


    CD-R диски имеют высокую емкость и относительно высокую надёжность по сравнению с дискетами.

    Иерархия устройств и систем хранения данных. Для решения проблем хранения данных необходимо [10]:

    • организовать недорогой и при этом надежный массив хранения с кросс-платформенным доступом и возможностью масштабируемости по мере роста объема данных;

    • организовать эффективное резервирование данных;

    • обеспечить территориальную распределенность массива хранения и его копий;

    • организовать глобальный, защищенный доступ к БД;

    • синхронизировать существующие БД.

    Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения.

    Данные появляются и попадают в систему хранения на транзакционных дисках. Затем они переходят на промежуточные архивные диски, чтобы потом перекочевать на ленты. Это — трехуровневая система хранения. Однако между лентами и дисками может располагаться еще один уровень — уровень виртуальных ленточных библиотек, и тогда система будет четырехуровневой.

    Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа.

    Файлы с высокопроизводительных дисков автоматически переносятся на другой, более дешевый носитель в соответствии с заранее определенными критериями (правилами), к которым относятся, например, возраст файла, дата создания, размер или тип файла. После успешной миграции остается лишь один метафайл, содержащий ссылку на новое месторасположение данных. В большинстве случаев речь идет о магнитных лентах или жестких дисках.
    В системах массового хранения данных используют носители на несколько порядков более медленные, чем на вторичном, но зато гораздо более емкие. Это накопители типа стоек с компакт-дисками или магнитными лентами, где для установки нужной кассеты или ленты используется механическая рука. В сущности, доступ к этой памяти осуществляется путем буферизации выбранных элементов данных на вторичных носителях, подобно тому, как доступ к вторичной памяти осуществляется путем буферизации дисковых блоков в оперативной памяти. Здесь приходится учитывать не только то, что скорость считывания данных с ленты (секунды) на три порядка ниже, чем с диска (миллисекунды), но и то, что нахождение нужных данных в середине кассеты может увеличить время доступа еще на 1-2 порядка.

    Восстановление данных после крупной катастрофы должно происходить быстро и автоматически. Хотя у части компаний есть системы восстановления данных, время от времени они их тестируют, очень часто случается, что в нужную минуту эти системы оказываются неспособны действовать в соответствии с намеченным планом. Процедура восстановления данных в большинстве случаев сложна. Известно, что предприятия, на долгое время выведенные из строя в результате краха инфраструктуры ИТ, шансы на выживание невысоки, так что ответственность здесь очень велика. Предприятия, чьи ИТ-инфраструктуры оказываются выведенными из строя на десять и более дней в результате катастрофы, ожидает банкротство не позже, чем через год после бедствия.

    В большинстве организаций резервные копии данных создаются, но нет аналогичной защиты для приложений, сетевых ресурсов, облачных сервисов и всего прочего, что связано с резервируемыми данными. Надо иметь полноценный, настоящий план восстановления данных. Восстановление данных требуется в следующих случаях:

    • длительное отключение электроснабжения (приходится восстанавливать репликацию данных, пополнение ресурсов, др.);

    • отказ отдельного сервера (или даже целой серверной стойки);

    • сбои в различных приложениях;

    • человеческие ошибки, связанные либо с обеспечением электропитания, либо собственно с объектами ИТ.

    Основные принципы восстановления данных:

    • создавайте регулярные копии дисковых данных;

    • проводите репликацию данных на основе удаленного хранилища;

    • создайте запасной удаленный центр, имеющий зеркальное отображение основных серверов;

    • регулярно проводите тестирование средств восстановления данных.

    ИКТ-инфраструктура платежной системы ЦБ РФ имеет восьмикратное резервирование всех компонентов. На самом верхнем уровне оно обеспечивается двумя Коллективными центрами обработки информации, расположенными в Санкт-Петербурге и Нижнем Новгороде, которые способны обеспечить восстановление работоспособности системы после крупномасштабных катастроф. Наряду с выполнением в каждом центре операций платежной системы между ними раз в сутки осуществляется полная взаимная репликация данных. Кроме того, оба центра помимо основной площадки имеют в своем составе удаленный на десятки километров резервный дата-центр, полностью идентичный по набору оборудования и программного обеспечения с основным. Штат резервного дата-центра составляет примерно 10% от численности сотрудников основного: предполагается, что при переключении нагрузки на резервный центр нужные специалисты будут перемещены туда с основной площадки. На самом нижнем уровне резервирование обеспечивается дублированием всего оборудования.

    Для повышения скорости обработки крупных БД необходимо применять кластерные системы повышенной надежности. Основная задача системы повышенной надежности - обеспечение бесперебойной и надежной работы вычислительного комплекса и всех решаемых им задач. Общие характеристики системы надежности:

    • единая система, действующая, как одно целое;

    • обеспечение высокой надежности;

    • централизованное управление всеми ресурсами;

    • общая файловая система;

    • обеспечение гибкости конфигурации;

    • обеспечение легкости в наращивании ресурсов.

    Основные функции систем хранения данных:

    • организация системы резервирования с использованием специализированного программного обеспечения

    • автоматическое управление библиотекой

    • возможность классификации на группы по типам данных и критичности данных

    • возможность применения плана резервирования для поддержки уровня надежности и релевантности данных

    • возможность вручную осуществить восстановление или резервирование данных

    Общий уровень управления обеспечивает также снижение расходов за счет устранения излишнего копирования данных, более эффективного использования устройств и решения проблем поддержки оборудования разных производителей. Автоматизированная миграция редко используемых данных на более дешевые носители повышает эффективность загрузки корпоративных ресурсов хранения и устраняет необходимость приобретения дополнительного оборудования.

    Таблица 2 – Характеристики средств копирования данных

    Метод

    Носитель

    Процент использования

    Использование сжатия данных

    Преимущества


    Полное резервное копирование

    Магнитная лента

    100

    Да

    Простота


    Выборочное резервное копирование

    Магнитная лента

    Меньше 100

    Да

    Экономия времени


    Зеркалирование

    Диск

    100

    Нет

    Простота и скорость


    Мгновенные снимки

    Диск

    Часть данных

    Нет

    Очень высокая скорость


    Постоянное копирование

    Диск

    Часть данных

    Нет

    Экономное использование носителя

    1   2   3


    написать администратору сайта