1. Информация. Информационные технологии Свойства, представление и измерение информации 1 Информация и ее свойства
Скачать 0.52 Mb.
|
1 1. Информация. Информационные технологии 1.1. Свойства, представление и измерение информации 1.1.1. Информация и ее свойства Что такое информация? Такие понятия называют «контекстными», то есть придаваемый им смысл зависит от контекста, в котором они употребляются. Информация обладает динамическим характером. Она существует только в момент взаимодействия данных и методов их обработки. Все остальное время она пребывает в состоянии данных. Таким образом, информация существует только в момент протекания информационного процесса. Одни и те же данные могут в момент использования поставлять разную информацию в зависимости от степени адекватности взаимодействующих с ними методов. Например, для студента, не владеющего каким-либо языком, текст, написанный на этом языке, дает только ту информацию, которую можно получить методом наблюдения (количество символов, наличие незнакомых символов, способ их написания и т. д.). Использование же более адекватных методов может дать другую информацию. Таким образом, «информация возникает и существует в момент диалектического взаимодействия объективных данных и субъективных методов». Характерной особенностью информации, отличающей её от других объектов природы и общества, является то, что на свойства информации влияют свойства данных, составляющих ее содержательную часть, и свойства методов, взаимодействующих с данными в ходе информационного процесса. Объективность и субъективность информации. Понятие объективности является относительным, так как методы являются субъективными. Более объективной принято считать ту информацию, в которую методы вносят меньший субъективный элемент. Полнота информации. Полнота информации во многом характеризует качество информации и определяет достаточность данных для принятия решений или создания новых данных на основе имеющихся. Чем полнее данные, тем шире диапазон методов, которые можно использовать. Достоверность информации. Данные возникают в момент регистрации сигналов, но не все сигналы являются «полезными» – всегда присутствует какой- то уровень посторонних сигналов, в результате чего полезные данные сопровождаются определенным уровнем «информационного шума». Если полезный сигнал зарегистрирован более четко, чем посторонние сигналы, достоверность информации может быть более высокой. Адекватность информации – это степень соответствия реальному объективному состоянию дела. Неадекватная информация может образовываться 2 при создании новой информации на основе неполных или недостоверных данных. Однако и полные, и достоверные данные могут приводить к созданию неадекватной информации в случае применения к ним неадекватных методов. Доступность информации – мера возможности получить ту или иную информацию. На степень доступности информации влияют одновременно как доступность данных, так и доступность адекватных методов для их интерпретации. Отсутствие доступа к данным или отсутствие адекватных методов обработки данных приводят к одинаковому результату: информация оказывается недоступной. Актуальность информации – это степень соответствия информации текущему моменту времени. Поскольку информационные процессы растянуты во времени, то достоверная и адекватная, но устаревшая информация может приводить к ошибочным решениям. Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Нарушение репрезентативности информации нередко приводит к существенным ее погрешностям. Содержательность информации отражает семантическую емкость (т. е. объем информации, содержащейся в высказывании и передаваемой через значения единиц речи), равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, то есть д с V I С , (1) где I c – количество семантической (т. е. имеющей смысл для пользователя) информации, V d – объем данных. Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т. п. Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой её отбора и формирования. Фундаментальным свойством информации, означающим, что информация может менять способ и форму своего существования, является преобразуемость. 1.1.2. Классификация информации Информацию можно классифицировать самыми разными способами. Приведем классификацию, данную в 3 , где информацию разделяли: по способу восприятия; по степени значимости; 3 по форме представления; по способам (субъектам) обмена. Распишем эти виды информации более подробно. По способу восприятия информация бывает: визуальной, звуковой (аудиальной), обонятельной, вкусовой, тактильной. По степени значимости: личная, специальная, общественная. Личная – это знания, опыт, интуиция, умения, планы, прогнозы, эмоции, чувства, наследственная память конкретного человека. Специальная делится на научную, производственную, техническую, управленческую. Общественная включает в себя общественно-политическую, научно-популярную, обыденную, эстетическую. По форме представления: текстовая, числовая, графическая, звуковая, видео. По способам (субъектам) обмена: социальная, техническая, биологическая, генетическая. Можно использовать другой вариант классификации информации: по сфере применения информации (экономическая, географическая, социологическая и пр.); по характеру источников информации (первичная, вторичная, обобщающая и пр.); по характеру носителя информации (информация, «зашифрованная» в молекулах ДНК или в длинах световых волн, информация на бумажном или магнитном носителе и пр.). В зависимости от типа носителя различают следующие виды информации: 4 документальная; акустическая (речевая); телекоммуникационная. Документальная информация представляется в графическом или буквенно- цифровом виде на бумаге, а также в электронном виде на магнитных и других носителях. Речевая информация возникает в ходе ведения разговоров, а также при работе систем звукоусиления и звуковоспроизведения. Носителем речевой информации являются звуковые колебания в диапазоне частот от 200…300 Гц до 4…6 кГц. При кодировании звук подвергается дискретизации и квантованию. При дискретизации изменяющаяся во времени величина (сигнал) замеряется с заданной частотой (частотой дискретизации), т.е. сигнал разбивается по временной составляющей. Квантование же приводит сигнал к заданным значениям, т.е. разбивает по уровню сигнала. Сигнал, к которому применены дискретизация и квантование, называется цифровым. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования. При оцифровке сигнала уровень квантования называют также глубиной дискретизации или битностью. Глубина дискретизации измеряется в битах и обозначает количество битов, выражающих амплитуду сигнала. Чем больше глубина дискретизации, тем точнее цифровой сигнал соответствует аналоговому сигналу. Телекоммуникационная информация циркулирует в технических средствах обработки и хранения информации, а также в каналах связи при ее передаче. Носителем информации при ее обработке техническими средствами и передаче по проводным каналам связи является электрический ток, а при передаче по радио- и оптическому каналам – электромагнитные волны. Источник информации может вырабатывать непрерывное сообщение (сигнал), в этом случае информация называется непрерывной. Например, сигналы, передаваемые по радио и телевидению, а также используемые в магнитной записи, имеют форму непрерывных, быстро изменяющихся во времени зависимостей. Такие сигналы называются непрерывными, или аналоговыми сигналами. В противоположность этому в телеграфии и вычислительной технике сигналы имеют импульсную форму и называются дискретными сигналами. Сравнивая непрерывную и дискретную формы представления информации, нетрудно заметить, что при использовании непрерывной формы для создания 5 вычислительной машины потребуется меньшее число устройств (каждая величина представляется одним, а не несколькими сигналами), но эти устройства будут сложнее (они должны различать значительно большее число состояний сигнала). Информация, циркулирующая в обществе, требует специальных средств и методов обработки, хранения и использования. Сформировались новые научные дисциплины – кибернетика, бионика, робототехника и другие, имеющие своей целью изучение закономерностей информационных процессов. 1.1.3. Представление и измерение информации Не менее сложным является вопрос «как измерить информацию?». На данный момент выработано три подхода к измерению информации. I подход – неизмеряемость информации в быту (информация как новизна). Представьте, что вы получили какое-то сообщение, например прочитали статью в любимом журнале. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации вы получили? Другими словами, как измерить информацию? Можно ли сказать, что чем больше статья, тем больше информации она содержит? Разные люди, получившие одно и то же сообщение, по-разному оценивают его информационную ёмкость, то есть количество информации, содержащееся в нем. Это происходит оттого, что знания людей о событиях, явлениях, о которых идет речь в сообщении, до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, могут сказать, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя. В таком случае, количество информации в одном и том же сообщении должно определяться отдельно для каждого получателя, то есть иметь субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения трудно выбрать одну общую единицу измерения. Таким образом, с точки зрения информации как новизны мы не можем однозначно и объективно оценить количество информации, содержащейся даже в простом сообщении. Что же тогда говорить об измерении количества информации, содержащейся в научном открытии, новом музыкальном стиле, новой теории общественного развития. Поэтому, когда информация рассматривается как новизна сообщения для получателя, вопрос об измерении количества информации обычно не ставится, но можно оценить содержательность информации, и здесь нам приходит на помощь так называемый семантический подход. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, 6 которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя». Тезаурус – это совокупность сведений, которыми располагает пользователь или система. Максимальное количество семантической информации I с потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее неизвестные сведения. С семантической мерой количества информации связан коэффициент содержательности С (1), определяемый как отношение количества семантической информации к общему объему данных. II подход – объемный: измерение информации в технике (информация как сообщения в форме знаков или сигналов, хранимые, перерабатываемые и обрабатываемые с помощью технических устройств). В технике, где информацией считается любая хранящаяся, обрабатываемая или передаваемая последовательность знаков, сигналов, часто используют простой способ определения количества информации, который может быть назван объемным или синтаксическим. Он основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания. В вычислительной технике применяются две стандартные единицы измерения информации: бит (англ. binary digit – двоичная цифра) и байт (byte). Поскольку компьютер предназначен для обработки больших объемов информации, то принято использовать производные единицы – Кбайт (Кб), Мбайт (Мб), Гбайт (Гб). 1 Кбайт равен 2 10 = 1024 байта. Аналогично, 1 Мб = 2 10 Кб = 1024 Кб = 2 20 байтов = 1 048 576 байтов. 1 Гб = 2 10 Мб = 1024 Мб = 2 20 Кб = 2 30 байтов = 1 073 741 824 байта. В качестве примера приведем способы измерения информации в различных формах представления. Для представления текстовой (символьной) информации в компьютере используется алфавит, состоящий из 256 символов (мощность алфавита – количество символов в алфавите). 1 байт равен 8 битам, т. е. 8 двоичным разрядам. Количество различных однобайтовых двоичных кодов (00000000, 00000001, 00000010,…, 00110010,…, 11111111) равно 2 8 = 256. Этими кодами можно представить и 256 различных чисел, например, числа 0, 1, 2, 3,…, 255. Максимальное число, которое можно представить однобайтовым двоичным кодом «11111111», равно 255. 7 Для представления чисел в памяти компьютера используются два формата: с фиксированной точкой и с плавающей точкой. В формате с фиксированной точкой представляются только целые числа, в формате с плавающей точкой – вещественные числа (целые и дробные). Множество целых чисел, которое можно представить в компьютере, ограничено. Диапазон значений зависит от размера ячеек, используемых для их хранения. В k-разрядной ячейке может храниться 2k различных значений целых чисел. Например, в 16-разрядной ячейке может храниться 2 16 = 65536 различных значений. Графическая информация на экране дисплея представляется в виде изображения, которое формируется из точек (пикселей). В современных компьютерах и сотовых телефонах разрешающая способность (количество точек на экране дисплея), а также количество цветов зависят от видеоадаптера. Цветные изображения могут иметь различные режимы: 16 цветов, 256 цветов, 1024 цвета, 65536 цветов (high color), 16777216 цветов (true color). Разрешающая способность экрана – это размер сетки растра (растр – это прямоугольная сетка пикселей на экране), задаваемого в виде произведения M×L, где М – число точек по горизонтали, L – число точек по вертикали. Число цветов графического файла, т. е. файла, хранящего графическое изображение, определяется формулой K = 2 N , где К – число цветов, воспроизводимых на экране, и N – число бит, отводимых в видеопамяти под каждый пиксель (битовая глубина). Размер такого файла определяется формулой V=M×L×N. Например, черно-белое изображение на экране с разрешением 640×480 будет занимать 640×480×1 битов памяти (N=1, т. е. 1 бит на пиксель), т. е. 307200 бит или 38400 байт. В реальности в графических документах кроме описания цвета точек присутствует ещё и служебно- дополнительная информация (о формате записи, авторских правах, способах сжатия и пр.). Цветное изображение формируется за счёт смешивания трёх базовых цветов: красного, зелёного и синего. Такая цветовая модель называется RGB-моделью. При глубине цвета 24 бита под каждый цвет отводится 8 битов. Код 00000000 соответствует ситуации, когда интенсивность отдельного цвета нулевая, а при коде 255 (11111111) интенсивность максимальна. Белый цвет на экране имеет код 255.255.255. III подход – вероятностный: измерение информации в теории информации (информация как снятая неопределенность). Получение информации (её увеличение) означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности. Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности ее получения. Причем чем больше вероятность события, тем меньше количество информации в 8 сообщении о таком событии. Иными словами, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события. Количеством информации называют числовую характеристику сигнала, отражающую ту степень неопределенности (неполноту знаний), которая исчезает после получения сообщения в виде данного сигнала. Эту меру неопределенности в теории информации называют энтропией. Случайность любого события заключается в том, что реализация того или иного исхода имеет некоторую степень неопределенности. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является некоторая функция H(α). После получения некоторого сообщения β получатель приобрел дополнительную информацию I β (α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала H β (α). Тогда количество информации I β (α) о системе, полученной в сообщении β, определится как I β (α) = H(α) - H β (α), т. е. количество информации измеряется уменьшением неопределенности состояния системы. Иными словами, энтропия системы H(α) может рассматриваться как мера недостающей информации. В частном случае для системы, имеющей N возможных состояний, количество информации может быть вычислено по формуле К.Э. Шеннона: I = – (p 1 Log 2 p 1 + p 2 Log 2 p 2 +….+ p n Log 2 p n ), (2) где n – количество возможных событий, p – вероятности отдельных событий. Более простой подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Наиболее просто определить количество информации в случае, когда все исходы события могут реализоваться с равной долей вероятности. В этом случае для вычисления информации используется формула Хартли: I = log 2 N или 2 I = N, (3) где N – количество равновероятных событий (число возможных выборов), а I – количество информации. Если N = 2 (выбор из двух возможностей), то I = 1 бит. Таким образом, за единицу количества информации принимают выбор одного из двух равновероятных сообщений («да» или «нет», «1» или «0»), т. е. бит. Приведём примеры. 9 Книга лежит на одной из двух полок – верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределённость ровно вдвое и несёт 1 бит информации. Возьмём сообщение о том, как упала монета после броска – «орлом» или «решкой», которое также несёт один бит информации. В 32-значном алфавите каждый символ несёт i= log 2 N = log 2 32 = 5 бит информации. Информационный объём сообщения равен произведению количества символов в сообщении на разрядность кода символа. В Unicode каждый символ занимает 2 байта, т.е. 16 битов. В кодировке ASCII – 8 битов. Разница равна 8 битам. Количество бит на точку (пиксель), например, режима «high color», равно: I = log 2 65536 = log 2 2 16 = 16 (бит). |