Вычислительная техника и сети в отрасли. 7. Перечислите основные свойства информации. Как понимается свойство информации адекватность 1

Название	7. Перечислите основные свойства информации. Как понимается свойство информации адекватность 1
Дата	19.11.2018
Размер	56.59 Kb.
Формат файла
Имя файла	Вычислительная техника и сети в отрасли.docx
Тип	Документы #56990
страница	2 из 4

1 2 3 4

22. Какие операции включает обработка данных? Перечислите формы исследования данных.

Над данными можно выполнять различные операции, состав которых определяется решаемой задачей. Перечисленные ниже операции с данными не зависят от того, кто их выполняет – техническое устройство, компьютер или человек.

Сбор данных – накопление данных с целью обеспечения достаточной их полноты для принятия решений.
Формализация данных – приведение данных, поступающих из разных источников, к одинаковой форме, что позволяет сделать их сопоставимыми между собой.
Фильтрация данных – отсеивание данных, в которых нет необходимости для принятия решений, при этом снижается уровень шума и повышается их достоверность и адекватность.
Сортировка данных – упорядочение данных по заданному признаку с целью удобства использования.
Защита данных – комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных.
Архивация данных – организация хранения данных в удобной и легкодоступной форме, снижающей затраты на хранение и повышающей общую надежность информационного процесса.
Транспортировка данных – приём и передача данных между удаленными участниками информационного процесса.
Преобразование данных – перевод данных из одной формы в другую. Часто связано с изменением носителя. Например, книги можно хранить в бумажной форме, а можно в электронном виде.

Формы исследования данных

В этом разделе перечисляются некоторые методы сложного анализа данных. Все они рождены в академических учреждениях или в НИИ. И, хотя большинством методов занимаются уже не одно десятилетие, их коммерческое использование до самого последнего времени либо отсутствовало, либо было крайне ограничено. Это отражается на их теперешних особенностях с точки зрения рынка информационных систем.

Во-первых, что самое тривиальное, академически, казалось бы, хорошо сделанные разработки оказываются неудовлетворительны как коммерческие продукты, работающие в реальных условиях. Во-вторых, академические постановки задачи часто отличаются от коммерческих, и многие системы, совпадая в постановках задач с требованиями рынка "в принципе", расходятся "в деталях", а значит, с точки зрения рынка, опять-таки неудовлетворительны. В-третьих, новая сфера применения часто заставляет просто менять подходы. Например, многие давно исследованные аналитические методы дают хорошие результаты при естественном для математика предположении, что имеется модель прикладной области. Однако в повседневной жизни разработка такой модели может создавать непреодолимые трудности, и, к недоумению ученого, ценность "хороших" методов девальвируется, а в результате возникает необходимость в новых, далеко не так тщательно изученных.

Тем не менее в математических методах обработки заложен для информатики огромный потенциал, и это объясняет быстрорастущий интерес к ним как в зарубежной, так и в отечественной практике. Можно сказать, что внедрение таких методов в неакадемические приложения (на практике оказывается, что по большей части в коммерческие, хотя и не исключительно) только начинается. Вот наиболее популярные из них.

Нахождение ассоциаций

Ассоциации возникают как привязка значений к какому-нибудь одному событию. Например, при исследовании покупок может выясниться, что при отсутствии дополнительной рекламы всякая покупка жареного картофеля сопровождается приобретением кока-колы в 65% случаев, в то время как при наличии рекламы кока-кола приобретается в 85% случаев. Основываясь на этом, управляющий может делать заключения о целесообразности дополнительной рекламы.

Нахождение последовательностей

Нахождение последовательных во времени событий. Может быть, например, обнаружено, что за приобретением дома в 45% случаев в течение месяца следует покупка печи, и в 60% случаев в течение двух недель - приобретение нового холодильника.

Нахождение скрытых закономерностей по наборам данных

Определяются причинно-следственные связи между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса) и распознаваемым свойством, ситуацией или процессом. Например, по набору данных определяется, что для отложения неорганических солей в нефтяной скважине характерны определенные интервалы значений ионов кальция и HCO₃, а также высокий перепад давлений. Остальные химико-физические параметры мало влияют на данный процесс (техническая диагностика нефтяных скважин).

По набору показателей отчетов различных банков можно определять истинные причины (небольшой набор интервалов значений некоторых показателей), влияющих на успех (неуспех) их деятельности.

Оценка важности (влияния) параметров на события и ситуации

Известно, что на наступление некоторого события или ситуации влияет некоторый набор параметров. Необходимо оценить, какие из параметров наиболее значимы. Так, можно оценить, какие качества некоторого товара являются "подсознательно" определяющими для принятия решения о его покупке различными категориями потребителей.

Классифицирование (распознавание)

Это один из наиболее популярных методов исследования данных. Рассматривается конечное число типов (классов) объектов, которыми могут быть в том числе события, ситуации или процессы. Объекты при этом должны быть описаны значениями числовых признаков (симптомов, показателей, параметров). Информация о каждом классе задана с помощью набора объектов (наблюдений, прецедентов), про которые их принадлежность этому классу известна заранее. Нужно найти критерии, по которым можно было бы относить объект к той или иной классификационной категории. Поиск критериев делается на основе изучения характеристик уже расклассифицированных объектов и вывода правил классификации.

Алгоритмы распознавания могут применяться в медицине, когда по наборам симптомов и данных амбулаторных обследований осуществляется диагностика заболевания; в технике, когда по наборам показателей контрольных приборов и экспертным данным происходит диагностика неисправностей; при прогнозировании месторождений полезных ископаемых по данным геологической разведки; при прогнозировании урожайности сельскохозяйственных культур по существующему состоянию растений; при прогнозе свойств сплавов металлов и химических веществ на основе их компонентного состава и предполагаемых условий синтеза; в распознавании скрытых социальных ситуаций по данным осуществляемых опросов и во многих других ситуациях.

Во многих видах деятельности возникает проблема потери постоянных заказчиков. С помощью инструментов классификации можно выделять наборхарактеристик для заказчиков, вероятно, готовых прекратить пользование услугами, и получить модель, позволяющую находить таких конкретных кандидатов. Можно находить те виды воздействия на заказчиков (реклама и т. д.), которые позволяют удержать разные категории заказчиков, затрачивая на это минимально требуемые средства.

Выявление кластеров

Кластеризация напоминает классификацию, с тем отличием, что критерии классификации не заданы. Кластеризация при исследовании данных позволяет обнаруживать данные, сгруппированные по каким-нибудь признакам, так что объекты одной группы "похожи" друг на друга, а объекты различных групп - "не похожи". Это могут быть, например, родственные по какому-нибудь признаку номера счетов.

Алгоритмы кластеризации как инструмент первичного анализа незаменимы при обработке наборов многомерных данных, возникающих в новых областях, постановках и исследованиях.

Составление прогнозов событий и ситуаций

Все вышеописанные методы имеют дело с предсказаниями событий типа "будет ли конкретный подписчик возобновлять подписку?". Здесь, однако, речь идет о прогнозировании развития каких-либо показателей, типа объемов продаж, на основе обнаруженных закономерностей.

Из истории развития банка или предприятия, заданной векторными описаниями их положения в различные моменты времени, можно определить их обобщенные показатели на некоторое время вперед. Для решения задачи необходимы аналогичные наборы данных о деятельности других банков (предприятий), для которых заранее уже имеются эти обобщенные показатели.

К средствам сложного анализа данных следует также отнести системы визуализации, преобразующие сложные данные в изображения различных типов, начиная от простых диаграмм и до трехмерных сред. Первоначально такие системы были разработаны в НАСА для слежения за погодными условиями, однако сейчас происходит их активное проникновение в коммерческие области. Например, они могут использоваться для наглядного представления состояния финансового рынка, помогая "на глаз" (т. е. с помощью "одного из самых совершенных приборов") оценивать риск, выявлять аномалии, рыночные возможности и пр. Подобными системами (многие из них запатентованы) занимаются фирмы NeoVision, IBM (обе - США) и другие.

Математические инструменты, которые служат для решения указанных и других задач, весьма разнообразны. Это алгебраические, комбинаторные методы, нейронные сети, деревья решений, алгоритмы оптимизации в разных постановках, нелинейный регрессионный анализ, генетические алгоритмы, теория нечетких множеств, динамического хаоса, вывод правил и многое другое. Подобная тематика у нас в стране традиционно большей частью разрабатывалась в институтах Академии наук. Хотя в целом их продуктивность в последние годы ощутимо уменьшилась, в дополнение появился ряд коммерческих организаций, уходящих своими корнями в те же институты. Так, например, Центр оптимизационных технологий "Оптекс" предлагает наработки по методам оптимизации, нахождению логических закономерностей, распознаванию образов и анализа данных при частичной противоречивости и неполноте данных. Нужно отметить, что системы, предлагаемые такими новыми организациями, часто оказываются более приспособленными к коммерческому использованию, нежели традиционные академические разработки.

Большое число подобных фирм, создаваемых выходцами из крупных научных центров и лабораторий, также появляется зарубежом, главным образом в США. Характерным для них является не по-академически жесткое соблюдение пределов распространения know-how, когда все подробности доступны только внутри фирмы, а открытые публикации отсутствуют. О буквально-таки кипящей деятельности в этом направлении можно судить лишь по обрывочным сведениям, косвенным данным и конечным результатам, тоже, впрочем, часто скрываемым.

Склад данных

Понятие склада данных¹⁾ (СД) получило активное хождение недавно - четыре года назад - и расценивается в течение последовавшего периода как перспективное и динамичное направление в проектировании информационных систем.²⁾ Как отмечалось, поначалу проектирование информационных систем развивалось по "инфологическому" пути, и появление нового направления развития ("содержательно информационные" системы) широко проявило себя именно в виде понятия склада данных. Как и у многих других в информатике, у этого понятия отсутствует точное определение, что на практике неудобно в силу разных пониманий разными людьми, или же вообще непониманий (а так же утверждений, что такое понятие вовсе не имеет референта). Имеются разные попытки уточнить понятие СД, но в определении существа сходятся многие: это специальная база данных какой-нибудь организации, где, в отличие от операционной базы с данными для текущей оперативной работы, накапливаются хронологические данные, поступающие в организацию или генерируемые ей, и назначение которых - служить основой для получения справочной, аналитической и обобщающей информации.

Подобная база данных реализуема, если обеспечено выполнение следующих функций.

Сбор данных

"Попадание данных на склад" - это целый процесс, который должен быть обустроен. Во-первых, они должны поступать туда в требуемом виде, а, во-вторых, это должно происходить с требуемой регулярностью. "Требуемый вид" подразумевает, как минимум, приведение к нужному формату. Данные одного и того же типа (например даты) могут поступать из разных компьютеров или программных компонентов, и если так, то было бы крайне неудобно (часто - невозможно) хранить их в первоначально разных форматах. Унифицироваться должны названия (районов, фирм; в разных источниках могут быть приняты разные обозначения: "г. Москва", "Москва", "гор. Москва", "М.") и многое другое. Еще одним видом обработки данных при поступлении является первичная переработка, глубина которой в разных приложениях может быть разной и которая может включать устранение шума или заведомо ошибочных значений, другие способы статистической обработки, устранение избыточных (повторяющихся или выводимых) данных или даже восстановление пропущенных значений в плохо обусловленных данных.

Поскольку поступление данных из систем оперативной обработки, как правило, не является разовым, то для нормального функционирования должны существовать программы, выполняющие процедуры передачи данных на склад и их первичной обработки по задаваемому графику или в связи с возникающими внешними событиями.

Поддержка целостности данных

Как всякая база данных, СД может быть распределен по узлам компьютерной сети, и в той же сети или вне ее пределов могут находиться разнородные источники информации. Для того чтобы обеспечить согласованность работы с разными источниками и получателями данных, подсистемам, обеспечивающим функционирование СД, необходимо пользоваться описанием структур данных с обеих сторон. Обычно такое описание содержится в словаре-справочнике (репозитарии, базе мета-данных), где собираются сведения о форматах, структурах, каналах и источниках поступления данных и другая информация.

Доступ к данным

В силу проводимого различия между складами данных и операционными базами данных, обычно различаются и средства доступа к ним. Популярный способ доступа к СД состоит в использовании систем нерегламентированных запросов (ad hoc query). Эти системы обладают значительно большей гибкостью при формулировании запросов к БД, чем традиционные генераторы отчетов и 4GL-формы. Например, они открывают возможности для применения таких форм анализа, как произвольное обобщение (агрегирование показателей) или, наоборот, детализация (английские термины - drill up/drill down). Другой вид анализа, который может быть доступен в таких системах, - просчет возможных ситуаций (what-if-analysis): в реальной сводке (диаграмме) заменяются некоторые показатели и анализируется, как при этом изменится общая ситуация. Обобщенным названием для систем нерегламентированных запросов может служить ставшее традиционным "системы оперативной аналитической обработки данных" (OLAP³⁾), хотя чаще всего это название связывают еще и со специальной, "многомерной" организацией данных в БД. Нужно заметить, что хотя коммерческих OLAP-систем существует много, все они ориентированы на достаточно простой анализ (который тем не менее часто оказывается вполне достаточен).

Своей жизнеспособностью понятие склада данных обязано, казалось бы, такой далекой теме, как организация хранения данных. Для систем, подпадающих под определение СД, их придумано две: на базе реляционной и многомерная. Данные первого типа хранятся в обычных "реляционных" БД (точнее, "реляционно-ориентированных"), но организованы специфичной схемой. В простейшем случае это "радиальная" схема (star schema), где имеется одна большая главная таблица и много частных, связанных с ней. Главная аккумулирует данные о наиболее часто запрашиваемом объекте (например об объекте "поставка") или служит отправной точкой для запросов к таблицам со специальной частной информацией ("поставщик"). Радиальная схема оптимизирована под наиболее часто встречающиеся запросы⁴⁾ и обычно оказывается реляционно не нормализованной (требование нормализованности в складах данных может оказаться попросту ненужным, если там преобладает статическая историческая информация и за целостностью данных нужно следить только раз: при помещении их в базу). Это же и создает трудности ее проектирования, ввиду отсутствия хорошо разработанной методологии. Усложнением радиальной схемы является схема типа "снежных хлопьев" (snowflake) с несколькими основными таблицами.

Многие поставщики СУБД вносят специальные усовершенствования в свои системы для того, чтобы они эффективнее поддерживали радиальную схему. Дальше других в этом направлении продвинулась фирма Prism Solutions, которая использует "множественные индексы" к главной таблице, резко уменьшая компьютерные время и память при выполнении соединений одновременно по нескольким таблицам. Для других систем такие соединения составляют большую проблему. Ряд поставщиков добавили в свои системы возможность использования поразрядных индексов, нарушив (пользуясь тем же, что и при принятии ранее противоположного решения, обоснованием "повышения эффективности"!) воздержание от этой технологии, давно применяемой в информационно-поисковых системах.

Другой подход к организации данных в СД реализован в многомерных системах, в которых данные хранятся не в таблицах, а в виде многомерных кубов. Модель гиперкуба часто оказывается нагляднее для пользователя и удобнее для OLAP-анализа. Однако и в реализации многомерного представления данных имеются свои трудности, в том числе методологические.

Работы в области СД не вызваны появлением каких-либо принципиально новых идей, а, скорее, формируются специфичной группировкой ряда уже существующих. Мотивировкой для такого группирования служит, вероятно, во-первых, определенное насыщение предпринимательской среды инфологическими системами, которые оказываются недостаточным фактором выживания для все большего числа фирм. Кроме того, многие начинают замечать, что появляющиеся технические возможности по организации сверхбольших баз данных создают условия, в которых подход "склада данных" может действительно обеспечить новое качество информационной системы. Значительный стимул оказывают системы поддержки принятия решений и информационные системы руководителя, для которых СД - естественный источник получения информации. Нельзя к тому же сбрасывать со счетов и временами искусственно подогреваемый поставщиками интерес.

Свои программы по поддержке направления складов данных имеют все крупные поставщики СУБД (Oracle, Informix и др.) и компьютерных систем (Hewlett-Packard, Digital и др.). Фирмы Oracle (Personal Express), Arbor Software (Essbase) и некоторые другие предоставляют возможности многомерной организации данных. Для формулирования нерегламентированных запросов СД с реляционной структурой эффективна система Esperant фирмы Software AG. Фирма Platinum Technology имеет много наработок в областях организации репозитария СД и сбора данных в гетерогенной сетевой среде.

Некоторые фирмы идут дальше отдельных разработок. Так, фирма Oracle объявила Warehouse Technology Initiative, специальную программу координации усилий разработчиков средств СД, цель которой - улучшить совместимость разных систем путем выработки общеупотребимых стандартов и с помощью взаимного информирования. Сейчас в этой программе участвует более 30 крупных фирм США.

Огромная база данных

Представление о том, что считать большой базой данных меняется год от года, и даже в течение года. На момент написания статьи (середина 1996 г.) примерный размер большой базы данных оценивался между 20 и 300 Гбайт. Свыше 300 Гбайт - это сверхбольшие базы данных. Понятие "огромная базаданных" в английском языке отсутствует, однако все понимают, что база объемом 1 Тбайт и выше - это своя, особенная ниша. (Приведенные цифры - условные, так как понятно, что размер дискового пространства, которое занимает база, зависит от СУБД и схемы базы данных. Тем не менее другой метрики не придумано, и приходится пользоваться этой.⁵⁾

Отличие огромных базы данных (размером в 1 Тбайт и выше) от остальных в том, что, хотя они принципиально и реализуемы, но все же на пределе сегодняшних технологических возможностей. Поэтому установка огромной базы данных подразумевает самостоятельный проект, суть которого в том, чтобы найти такое системотехническое решение, которое попросту позволило бы хоть как-то работать с такими большими объемами. Такое решение возможно при наличии трех условий: специального решения для дисковой подсистемы, специальных версий операционной среды и специальных механизмов обращения СУБД к данным.

Дисковая подсистема

Для дисковой подсистемы, обеспечивающей поддержку огромной базы данных, используется либо "свое" решение, т. е. собственное решение фирмы-разработчика компьютерной системы в целом, либо решение третьей фирмы, специализирующейся в области изготовления дисковых систем сверхбольшой емкости. Примерами фирм, выбравшими первый путь, являются Sun Microsystems и Digital Equipment. Фирма Sun в своем SPARCcenter 2000E для демонстрации работы огромной базы данных применяет SPARCstorage Array, подсистему, в конечном счете объединяющую 612 контроллеров дисковых накопителей на 9 Гбайт каждый, причем часть дискового пространства зеркалирована по схеме RAID 1. Фирма Digital в аналогичных целях использует на установке AlphaServer 8400 свою подсистему Storage-Works, объединяющую 7 модулей по 300 Гбайт каждый по схеме RAID 5.

Примером другого подхода может служить фирма Hewlett-Packard, предлагающая в качестве своего решения применение дисковой системы Symmetrix 3500 Integrated Cached Disk Array фирмы EMC (1024 двухгигабайтных блоков). Как правило, фирмы, специализирующиеся на изготовлении дисковых систем сверхбольшой емкости (MegaDrive, Mylex и др.), предлагают RAID-устройства, компонуемые из большого числа относительно мелких модулей и соединяемых с вычислительной системой SCSI каналом (иногда не одним) со скоростью передачи 20 Мбайт в секунду.

Следует заметить, что взамен чисто дисковой системы для огромных баз данных могут использоваться комбинированные решения, включающие (магнито-) оптические запоминающие устройства и устройства на магнитных лентах. Такие решения более дешевы, хотя и менее универсальны, что, впрочем, вполне удовлетворительно для целого класса приложений, например, с архивной спецификой.

Специальные версии операционной среды

Специальные версии операционной среды при работе с огромными базами данных нужны по двум причинам: во-первых, для того чтобы полностью использовать возможности нестандартно большой дисковой системы, и, во-вторых, для дополнительного увеличения производительности, которой без того может оказаться явно недостаточно. И то и другое относится к операционной системе и к СУБД.

Применяемые версии ОС и СУБД должны сами по себе обладать повышенной производительностью (обычно это 64-разрядные системы) и уметь "обходить" некоторые ограничения, не проявлявшиеся для более ранних "обычных" версий. Так, например, Oracle версий 7.3 и предшествующих может работать с не более чем 1022 файлами Unix, и это, учитывая, что многие 32-разрядные версии этой ОС допускают максимальный размер файла прямого доступа в 2 Гбайт, может приводить к ограничению на размер БД.

Кроме того, специальная версия СУБД может использовать дополнительные возможности буферизации в попытке выиграть на том, что обращение к оперативной памяти на два порядка быстрее обращения к диску, каким бы он не был. Специальная версия Oracle позволяет увеличить область SGA системных буферов СУБД на машинах AlfaServer серии 8400 до 14 Гбайт, что на некоторых примерах дало выигрыш по времени в 250 раз. Справедливости ради, нужно заметить, что в огромных базах данных могут встречаться таблицы и больших размеров, все равно не способные поместиться в оперативную память целиком.

Параллельная обработка данных

Характеристики огромных БД настолько необычно экстремальны, что даже при условии перечисленных выше усилий терпимого времени обработки запросов к базе можно достичь лишь для запросов с параллельной обработкой, когда разные процессоры системы одновременно обрабатывают разные части одной и той же таблицы и/или связанных с ней индексов. Возможность параллельной обработки запросов должна иметься в СУБД. В Oracle, начиная с версии 7.1, для этого используются расширение системы средством Parallel Query Option и механизм распределения файлов с данными по разным дискам (striping).

На практике выигрыш от параллельной обработки запросов получается только там, где выполняется полное сканирование больших таблиц, например при операции полного соединения, выполняемой с одной из таблиц в качестве ведущей. Это приводит к тому, что алгоритмы обработки данных должны быть в свою очередь модифицированы, для того чтобы они могли работать на сверхбольших массивах. Трудности здесь аналогичны существовавшим 20 лет назад, когда данные для алгоритмов хранились на магнитных лентах, допускавшим лишь просмотр в одну сторону и перемотку в начало.

Уже из рассмотренных вкратце технических особенностей следует, что организация работы с огромной базой данных действительно представляет собой тему отдельного проекта. Нужно добавить еще, что подобный проект дорогостоящий: оценка только аппаратной стоимости работы с 1 Тбайт колеблется около одного миллиона долларов (без учета компьютерной системы, СУБД и ОС). Все вместе это объясняет уникальность подобных разработок. Тем не менее, возможно, без излишнего афиширования, интерес к ним постоянно растет. Это вызвано, во-первых, причинами чисто технологического развития - разработчики дисковых систем уже "привыкли", что одним из основных векторов их существования из года в год служит увеличение доступного дискового пространства.

Во-вторых, тема огромных баз данных становится все более актуальной в связи с растущим интересом к складам данных и к архивам данных. Перспектива использовать сверхбольшие массивы при работе со складом или с архивом данных нередко представляется настолько многообещающей, что материальные и интеллектуальные ресурсы, потраченные на такой проект, совсем не кажутся неумеренными, а даже, наоборот, видятся вполне оправданными.

Наконец, давний и постоянный интерес к сверхбольшим базам данных имеется у научных организаций, заинтересованных в накоплении больших архивов (снимки, телеметрия ) и в возможности их дальнейшего анализа. Именно в научных приложениях происходит в настоящее время первая "обкатка" сложных методов обработки сверхбольших массивов.

1 2 3 4