Главная страница
Навигация по странице:

  • Что такое «система хранения данных» и почему в ней возникла необходимость

  • Ключевые требования к СХД

  • О безопасности

  • Скорость восстановления данных Что происходит, если один из дисков выходит из строя

  • Программное обеспечение систем хранения

  • Математическое обеспечение сохранности информации в СХОД

  • Доклад по системам хранения данных. Доклад по СХД. Что такое хранение данных


    Скачать 183.74 Kb.
    НазваниеЧто такое хранение данных
    АнкорДоклад по системам хранения данных
    Дата02.11.2022
    Размер183.74 Kb.
    Формат файлаdocx
    Имя файлаДоклад по СХД.docx
    ТипДокументы
    #767368

    Что такое «хранение данных»?

    Хранение данных – накопление информации на различных носителях. К устройствам хранения данных можно отнести любые устройства для записи данных: т.н. «флешки», компакт-диски (CD, DVD, ZIP), ленточные накопители (Tape), жесткие диски (Hard disk, их еще называют по старинке «винчестеры», поскольку первые их модели напоминали обойму с патронами одноименной винтовки 19 века) и пр. Жесткие диски используются не только внутри компьютеров, но и как внешние USB-устройства записи информации, и даже, например, одна из первых моделей iPod’а – это небольшой жесткий диск диаметром 1,8 дюйма, с выходом на наушники и встроенным экраном. В последнее время все большую популярность набирают т.н. «твердотельные» системы хранения SSD (Solid State Disk, или Solid State Drive), которые по принципу действия схожи с «флешкой» для фотоаппарата или смартфона, только имеют контроллер и больший объем хранимых данных. В отличие от жесткого диска, SSD-диск не имеет механически движущихся частей.

    Что такое «система хранения данных» и почему в ней возникла необходимость?

    Система хранения данных (сокращённо – СХД) представляет собой конгломерат программного обеспечения и специализированного оборудования, предназначенный для хранения и передачи информации больших объемов. Особенностью СХД является оптимальное распределение ресурсов при хранении информации на дисковых площадках.

    Откуда берутся данные, которые необходимо хранить? От нас, любимых, пользователей, от прикладных программ, электронной почты, а также от различного оборудования – файловых серверов, и серверов баз данных. Кроме того, поставщик большого количества данных – т.н. устройства М2М (Machine-to-Machine communication) – разного рода датчики, сенсоры, камеры и пр. Необходимость в СХД возникла, когда массивы хранимой и передаваемой информации превысили все мыслимые на тот момент пределы. Согласно данным TAdviser, c 2010 г. объем хранимой информации каждый год возрастает примерно на 50% от ее первоначального объема. Системы хранения данных в настоящее время применяются повсеместно: от хранения архивов видеонаблюдения в магазинах до работы с информацией в госструктурах, банках и на крупных предприятиях.

    СХД состоит из накопителей информации, серверов, инфраструктуры, обеспечивающей связь между ними, и системы управления.

    По частоте использования хранимых данных, СХД можно подразделить на системы краткосрочного хранения (online storage), хранения средней продолжительности (near-line storage) и системы долговременного хранения (offline storage). К первым можно отнести жесткий диск (или SSD) любого персонального компьютера. Ко вторым и третьим – внешние системы хранения, которые бывают трех типов: DAS (Direct Attached Storage) – непосредственно подключенные к серверу диски, NAS (Network Attached Storage) – диски, подключенные по сети (доступ к данным осуществляется на уровне файлов, обычно по FTP, NFS или SMB) и SAN (Storage Area Network) – сети хранения данных (предоставляют блочный доступ). В крупных системах хранения данных основным типом подключения является SAN. Существует 2 метода построения SAN на основе Fibre Channel и iSCSI. Fibre Channel (FC, внутренний протокол между сервером и совместно используемой СХД, контроллером, дисками) в основном применяется для соединения внутри одного центра обработки данных. А iSCSI представляет собой протокол передачи SCSI команд поверх IP, которые могут маршрутизироваться обычными IP маршрутизаторами. iSCSI позволяет строить гео-распределённые кластеры.



    Ключевые требования к СХД

    СХД должна быть масштабируемой, то есть гибкой, производительной, доступной, отказо- и катастрофоустойчивой. Не малое значение имеет и скорость восстановления данных.

    О безопасности

    Итак, безопасной системой является система, в основные характеристики которой входит защита данных от несанкционированного доступа, свободное предоставление данных своим пользователям, гарантия неизменности данных и, конечно же, надежность хранения данных.

    RAID

    Как бы ни были надежны жесткие диски, а все же данные в них иногда теряются, по разным причинам. Поэтому была предложена технология RAID (Redundant Array of Independent Disks) – массив независимых дисков с избыточностью хранения данных. Избыточность означает то, что все байты данных при записи на один диск дублируются на другом диске, и могут быть использованы в том случае, если первый диск откажет. Кроме того, эта технология помогает увеличить IOPS (число операций ввода-вывода (или чтения-записи) в секунду (Input/Output Operations Per Second)). Основные понятия RAID – stripping (т.н. «располосование» или разделение) и mirroring (т.н. «зеркалирование», или дублирование) данных. Их сочетания определяют различные виды RAID-массивов жестких дисков. Приведу примеры разделения данных RAID 0 и дублирование данных RAID 1:



    RAID 0 – разделение – низкая устойчивость к ошибкам



    RAID 1 – дублирование – высокая устойчивость к ошибкам

    Скорость восстановления данных


    Что происходит, если один из дисков выходит из строя?

    Для начала рассмотрим обычный RAID1 из двух дисков. В случае выпадения одного диска, RAID продолжает работать с оставшимся, ожидая момента замены сломавшегося диска. Т.е. в это время RAID уязвим: оставшийся диск хранит единственную копию данных. Сколько времени система находится в уязвимом состоянии — зависит от времени восстановления. Эту зависимость описывает следующая формула:



    MTTDL – a the mean time to data loss (среднее время наработки до потери данных), Т – время восстановления, С – некий коэффициент.

    Итак, чем быстрее система восстановит необходимое количество копий данных, тем меньше вероятность потерять данные. Здесь мы даже опустим тот факт, что для начала процесса восстановления HW RAID администратору нужно заменить дохлый диск на новый, а на это тоже нужно время, особенно если диск нужно заказывать.

    Для RAID 1 время восстановления – это время, за которое RAID контроллер перельет данные с рабочего диска на новый. Как легко догадаться, скорость копирования будет равна скорости чтения/записи HDD, то есть примерно 100 MB/s, если RAID контроллер совершенно не нагружен. А если в это время RAID котроллер грузят извне, то скорость будет в несколько раз ниже.

    Программное обеспечение систем хранения

    Программное обеспечение для систем хранения можно подразделить на следующие категории:

    1. Управление и администрирование (Management)

    2. Защита данных

    3. Повышение надежности

    4. Повышение эффективности

    Дедупликация (устранение повторений) данных (deduplication, DEDUP): как следует из названия, устраняет повторы данных на пространстве диска, обычно используемого в части резервирования данных. Хотя система неспособна определить, какая информация избыточна, она может определить наличие повторов данных. За счет этого становится возможным значительно сократить требования к емкости системы резевирования.

    Снижение скорости вращения диска (Disk spin-down) – то, что обычно называют «гибернацией» (засыпанием) диска. Данные на каком-то диске могут не использоваться долгое время, в этом случае технология снижения скорости диска переводит их в режим гибернации, чтобы снизить потребление энергии на бесполезное вращение диска на обычной скорости. При этом также повышается срок службы диска, и увеличивается надежность системы в целом. При поступлении первого запроса к данным на этом диске, он «просыпается», скорость его вращения увеличивается. Платой за экономию энергии и повышение надежности является некоторая задержка при первом обращении к данным на диске, но эта плата вполне оправдана.

    «Моментальный снимок» состояния диска (Snapshot). Snapshot – это полностью пригодная к использованию копия определенного набора данных на диске на момент съема этой копии (поэтому она и называется «моментальным снимком»). Такая копия используется для частичного восстановления состояния системы на момент копирования. При этом непрерывность работы системы совершенно не затрагивается, и быстродействие не ухудшается.

    Удаленная репликация данных (Remote Replication): работает с использованием технологии зеркалирования. Может поддерживать несколько копий данных на двух или более сайтах для предотвращения потери данных в случае стихийных бедствий.

    Непрерывная защита данных CDP (Continuous data protection), также известная как continuous backup или real-time backup, представляет собой создание резервной копии автоматически при каждом изменении данных. При этом становится возможным восстановление данных при любых авариях в любой момент времени, причем при этом доступны актуальная копия данных, а не тех, что были несколько минут или часов назад.

    Восстановление при стихийных бедствиях (DR, Disaster Recovery). Это довольно важная составляющая серьезных промышленных СХД, хотя и достаточно затратная. Но эти затраты необходимо нести, чтобы не потерять в одночасье «то, что нажито непосильным трудом» и куда и так уже вложены значительные средства. Рассмотренные выше системы защиты данных (Snapshot, Remote Replication, CDP) хороши до тех пор, пока в населенном пункте, где расположена система хранения не произошло какое-либо стихийное бедствие: цунами, наводнение, землетрясение или (тьфу-тьфу-тьфу) – ядерная война. Да и любая война тоже способна сильно подпортить жизнь людям, которые занимаются полезными делами, например, хранением данных, а не беганием с автоматом с целью оттяпать себе чужие территории или наказать каких-нибудь «неверных». Удаленная репликация подразумевает, что реплицирующая СХД находится в том же самом городе, или как минимум поблизости. Что, например, при цунами не спасает.

    Технология Disaster Recovery предполагает, что центр резервирования, используемый для восстановления данных при стихийных бедствиях, располагается на значительном удалении от места основного ЦОД, и взаимодействует с ним по сети передачи данных, наложенной на транспортную сеть, чаще всего оптическую. Использовать при таком расположении основного и резервного ЦОД, например, технологию CDP будет просто невозможно технически.

    В технологии DR используются три основополагающих понятия:

    • BW (Backup Window) – «окно резевирования», время, необходимое для системы резевирования для того, чтобы скопировать принятый объем данных рабочей системы.

    • RPO (Recovery Point Objective) – «Допустимая точка восстановления», максимальный период времени и соответствующий объем данных, который допустимо потерять для пользователя СХД.

    • RTO (Recovery Time Objective) – «допустимое время недоступности», максимальное время, в течение которого СХД может быть недоступной, без критического воздействия на основной бизнес.



    Математическое обеспечение сохранности информации в СХОД

    Таким образом, при большом количестве разновидностей систем и средств высоконадёжного хранения данных, а так же их конфигураций, стоит задача выбора их состава с учётом решаемых СХОД задач.

    В качестве показателя устойчивости функционирования СХОД в условиях воздействия дестабилизирующих факторов обычно используют коэффициент устойчивости:



    где – коэффициент готовности вычислительной системы в условиях воздействия i-го дестабилизирующего фактора (i = 1,2,...,I).



    где – требуемое значение показателя качества функционирования системы, – текущее значение показателя качества функционирования системы в условиях воздействия i-го дестабилизирующего фактора.

    Кроме того, за показатели качества функционирования системы, характеризующие устойчивость её функционирования, могут быть взяты время выполнения рассматриваемого процесса в СХОД, коэффициент готовности системы, коэффициент эффективности системы, и другие. Так, время выполнения рассматриваемого процесса в СХОД оценивается его средним значением , которое определяется как статистическое среднее случайной величины выполнения j-го процесса в системе:



    где – среднее значение времени выполнения j-го процесса в системе; – количество выполняющихся в системе процессов.

    Коэффициент готовности системы по выполнению некоторого процесса находится из выражения:



    где – среднее время производительной работы системы, – среднее значение потерянного (затраченного) времени на обнаружение и устранение последствий от воздействия i-го дестабилизирующего фактора.


    написать администратору сайта