Литература по теме 14 Тема Жизненный цикл контента 15 Захват (Capture) и обработка контента. 15
Скачать 5.21 Mb.
|
Вопрос 2. Хранение(Store) контента.Для хранения могут быть использованы базы данных, хранилища данных, файловые системы, различные библиотеки, носители. Выбор той или иной технологии хранения обуславливается объемом информации, сроком хранения, параметрами доступа к ней пользователей, требуемым уровнем надежности и безопасности, политиками предприятия. На этапе хранения решаются следующие задачи: поиск, контроль версий, регистрация прибытия/убытия документов и информации, извлечение документов и информации, аудит действий пользователей. Это этап оперативного хранения контента, работа идет с электронным архивом. Электронный архив – это система хранениядокументов в электронном виде, обеспечивающая надежность хранения документов, конфиденциальность и разграничение прав доступа, отслеживание истории использования документа, удобство и скорость поиска. Обычно электронный архив работает с неструктурированными документами (текстовые документы, электронные таблицы, графические файлы и пр.), которые снабжаются некоторым структурированным описанием (карточка документа). Существует два подхода к хранению документов: 1) в базе данных SQL-сервера; 2) непосредственно в файлах. Например, система DIRECTUM предлагает комбинированный вариант, который сочетает преимущества обоих подходов: простоту администрирования и высокую производительность хранилищ SQL-сервера; практически неограниченный объем данных при низкой стоимости хранения с возможностью потокового доступа к документам в файловых хранилищах. Организация хранилища документов является одним из самых важных факторов производительности системы электронного документооборота. При неудачной структуре хранилища скорость работы с документами может значительно снижаться в зависимости от наполненности базы данных. Поэтому необходимо четко представлять количественный объем документов (данных), циркулирующих в организации. Чтобы представить объем документопотока, необходимо для всех выявленных подразделений и сотрудников организации определить среднее количество документов, циркулирующих при их нормальной деятельности. Также следует рассмотреть периоды пиковой нагрузки, если таковые существуют. Это могут быть периоды квартальных, годовых отчетов, сезонные повышения деловой активности партнеров по бизнесу и т.д. Также стоит обратить внимание на возможность одновременной работы с сервером документооборота многих пользователей. В идеале производительность системы не должна падать при одновременной работе всех пользователей системы. Для крупных организаций, имеющих распределенную структуру, важна также репликация данных. Этот механизм позволяет получать доступ к одинаковым данным на нескольких серверах сразу, что позволяет снизить нагрузку на базы данных и каналы связи. Простейший пример проведения репликации – это хранилище законодательной базы. Например, столичный сервер организации содержит законодательную базу государства. Филиалы в области реплицируют данную базу на свои сервера, и пользователи из областей обращаются к своим региональным хранилищам документов. Таким образом, относительно законодательной базы передача данных между столицей и областями идет из центра в регионы – пополнение баз данных, а чтение документов проходит на региональных серверах. В данном случае снижается нагрузка на центральный сервер и каналы данных к центру. Иногда может потребоваться возможность изменения документов в регионах с сохранением изменений для всей организации. В этом случае система репликации должна поддерживать механизм изменения и синхронизации документов. Другой важный фактор –поиск документов в хранилище. Необходимо определить, какие виды поиска требуются, по каким критериям он должен идти. Например, в организации очень часто проводится поиск по названию компании-партнера. Следовательно, система поиска должна обеспечивать поиск документа по реквизитам заказчика и условию сделки. Может оказаться необходимым контекстный поиск по вложенным файлам. Например, когда к документу присоединен файл в формате MS Word и необходимо найти этот документ по фразе, входящей во вложенный файл. Также производительность поиска документов не должна падать при увеличении количества документов, хранимых в базе данных. Вопрос 3. Обеспечение сохранности (Preserve).Архивирование или Обеспечение сохранности (Preserve). Для решения этих задач могут быть использованы: специальные архивные форматы, например, PDF-A, вывод информации на архивные носители: бумага, микрофильмы, резервное копирование и восстановление информации, конвертация и перенос на другие носители. Следует разделять архивирование и резервное копирование: при резервном копировании мы оставляем данные на основном носителе, при архивировании же информация с него удаляется и переносится на вторичное устройство. Основными задачами архивирования являются уменьшение объема первичных данных, «разгрузка» приложений, достижение экономии на хранении. При архивировании можноосуществлять дедупликацию и сжатие архивных данных, шифровать данные, а также перемещать данные между различными устройствами хранения (диски, оптические носители и др.). При дедупликации сохраняемые данные разбиваются на блоки, которые сравниваются с уже сохраненными данными, и, при обнаружении совпадения, заменяются ссылкой. Наиболее распространенный пример архивации – это архивирование электронной почты, что дает возможность иметь почтовый ящик без ограничения объема. При этомотпадает необходимость регулярного «перетаскивания» писем в локальный архив или резервирования его на «флешку». Для обеспечения сохранности следует предусмотреть, как будет вести себя хранилище при неполадках базы данных,например, при сбое в электропитании или канале связи. Будет ли при этом нарушена целостность всей базы или испорченным окажется только документ, над которым проводилась работа в момент сбоя? Рекомендуется регулярно производить резервное копирование электронных документов архива в разные хранилища. Наиболее оптимальным решением сегодняявляется одновременное использование нескольких разных облачных служб для хранения файлов. С помощью облачного хранилища можно обеспечить надёжное и эффективное архивирование резервных копий документов на серверах провайдера. Не менее важной проблемой при долговременном архивном хранении является обеспечение актуальности и работоспособности как переводимых в электронный формат файлов, так и аппаратного обеспечения, используемого для их считывания. Данная необходимость вызвана стремительным и быстрым прогрессом в области информационных технологий. По этой причине происходит постоянное моральное устаревание программного обеспечения, используемого для работы и воспроизведения файлов. Данная проблема может быть решена за счет перехода с одной технологической платформы на другую с конвертацией файлов. При подобной миграции могут возникнуть проблемы целостности – не всегда удаётся сохранить первоначальный вид данных. Поэтому настоятельно рекомендуется с самого начала использовать распространённые форматы, такие как txt, pdf и rtf для текста, jpg, png и tiff для изображений, xls и csv для таблиц, db, dbf и mdb для баз данных на случай перехода к новому программному обеспечению. В соответствии с требованиями сегодняшнего дня открытые системы и стандартные форматы —одно из условий для обеспечения возможности чтения важных сведений на протяжении длительного периода времени. Если документы и без того должны быть подвергнуты архивации, то нужно как можно раньше произвести своевременное конвертирование в сертифицированный ISO стандарт архивирования PDF/A, ведущий происхождение от широко известного формата PDF компании Adobe Systems. |