Лабораторная работа Количественная оценка информации 1 Цель работы
Скачать 0.56 Mb.
|
Кодирование графических данных Графические данные хранятся и обрабатываются в двоичном коде. Существуют два принципиально разных подхода к кодированию (представлению) графических данных: растровый и векторный. При растровом представлении вся область данных разбивается на множество точечных элементов – пикселей, каждый из которых имеет свой цвет. Число пикселей по горизонтали и вертикали определяет разрешение изображения. При растровом способе представления графических данных под каждый пиксель отводится определенное число битов, называемое битовой глубиной или информационной емкостью одного пикселя и используемое для кодирования цвета пикселя. Каждому цвету соответствует двоичный код. Например, если битовая глубина равна 1, то под каждый пиксель отводится 1 бит. В этом случае 0 соответствует черному цвету, 1 – белому, а изображение может быть только 16 черно-белым. Если битовая глубина равна 2, то каждый пиксель может быть закодирован цветовой гаммой из 4 цветов (2 2 ) и т. д. Для качественного представления графических данных в современных компьютерах используются цветовые схемы с битовой глубиной 8, 24, 32, 40, т. е. каждый пиксель может иметь 2 8 , 2 24 , 2 32 , 2 40 оттенков. Количество цветов N, отображаемых на экране монитора, может быть вычислено по формуле N = 2 i , (1) где i – битовая глубина. Если известны размеры (в пикселях) рисунка по высоте Х и ширине Y, а также битовая глубина i, то занимаемый объем V будет равен V = X · Y · i. (2) Основным недостатком растровой графики является большой объем памяти, необходимый для хранения изображения. Это объясняется тем, что запоминается цвет каждого пикселя, общее число которых задается разрешением. При векторном представлении графических данных задается и впоследствии сохраняется математическое описание графического примитива – геометрического объекта (отрезка, окружности, прямоугольника и т. п.), из которых формируется изображение. Например, для воспроизведения окружности достаточно запомнить положение ее центра, радиус, толщину и цвет линии. Благодаря этому для хранения векторных графических данных требуется значительно меньше памяти. Программы для работы с графическими данными делятся на растровые графические редакторы (Paint, Photoshop) и векторные графические редакторы (CorelDraw, Adobe Illustrator, Visio). Приведем краткие характеристики наиболее популярных графических форматов. BMP (Bit Mapimage) – растровый формат, используемый в системе Windows. Поддерживается большинством графических редакторов (в частности, 17 Paint и Photoshop). Применяется для хранения отсканированных изображений и обмена данными между различными приложениями. TIFF (Tagged Image File Format) – растровый формат, поддерживающий различными операционными системами. Включает алгоритм сжатия без потери качества изображения. Используется в сканерах, а также для хранения и обмена данными. GIF (Graphics Interchange Format) – растровый формат, включающий в себя алгоритм сжатия, значительно уменьшающий объем файла без потери информации. Поддерживается приложениями для различных операционных систем. Применяется в изображениях, содержащих до 256 цветов, а также для создания анимации. Используется для размещения графики в Интернете. JPEG (Joint Photographic Expert Group) – растровый формат, содержащий алгоритм сжатия, который уменьшает объем файла в десятки раз, но приводит к необратимой потере части информации. Поддерживается большинством операционных систем. Используется для размещения графических изображений на web-страницах в Интернете. PNG (Portable Network Graphic) – растровый формат, аналогичный GIF. Используется для размещения графики в Интернете. WMF (Windows Meta File) – векторный формат для Windows-приложений. EPS (Encapsulated Post Script) – векторный формат, поддерживаемый большинством операционных систем. CDR – векторный формат, поддерживаемый графической системой CorelDraw. Для представления цвета используются цветовые модели. Цветовая модель – это правило, по которому может быть вычислен цвет. Самая простая цветовая модель – битовая. В ней для описания цвета каждого пикселя (черного или белого) используется всего один бит. Для представления 18 полноцветных изображений используются более сложные модели, среди которых самые известные – модели RGB и CMYK. Цветовая модель RGB используется в таких устройствах, как телевизионные кинескопы, компьютерные мониторы. Цветовая модель RGB (Red-Green-Blue, красный-зеленый-синий) основана на том, что любой цвет может быть представлен как сумма трех основных цветов: красного, зеленого и синего. В основе цветовой модели лежит декартова система координат. Цветовое пространство представляет собой куб сочетаний трех базовых цветов (рисунок). Любой оттенок цвета при этом выражается набором из трех чисел. На каждое число отводится один байт, поэтому интенсивность одного цвета имеет 256 значений (0–255), общее количество оттенков цвета – 1 677 7216(2 24 ). Белый цвет в RGB представляется как (255,255,255), черный – (0,0,0,0), красный – (255,0,0), зеленый – (0,255,0), синий – (0,0,255). Цветовая модель CMYК используется в полиграфии. Цветовая модель CMY является производной модели RGB и также построена на базе трех цветов: C – Cyan (голубого), M – Magenta (пурпурного), Y – Yellow (желтого), которые образуются следующим образом. 19 Голубой цвет C (0,255,255) является комбинацией синего и зеленого, желтый цвет Y (255,255,0) – зеленого и красного, а пурпурный цвет M (255,0,255) – красного и синего, в противном случае каждому из основных цветов ставится в соответствие дополнительный цвет (дополняющий основной до белого). Дополнительными цветами для красного является голубой, для зеленого – пурпурный, для синего – желтый. Смешение голубого, пурпурного и желтого цветов должно давать черный цвет, который, однако, выглядит осветленным по сравнению с оригиналом. Поэтому для получения чистого черного цвета при печати цветовая модель CMY расширяется до модели CMYK, содержащей четвертый основной цвет – черный (K – black). Синий ( Blue ) Синий (0 , 0,255 ) Голубой (0 , 255 ,255 ) Черный ,0, (0 0) Пурпурный ( 255 ,0,255 ) Красный ( Red ) Зеленый , (0 255 , 0 ) Красный ( 255 ,0, 0) Желтый ( 255 , , 255 0) Зеленый Green ( ) Белый ( 255 , 255 ,255 ) 20 Кодирование звуковой информации Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. В процессе кодирования непрерывного сигнала производится его временная дискретизация и квантование. Дискретизация заключается в замерах величины аналогового сигнала огромное множество раз в секунду. Полученной величине аналогового сигнала сопоставляется определенное значение из заранее выделенного диапазона: 256 (8 бит) или 65 536 (16 бит). Приведение в соответствие уровня сигнала определенной величине диапазона называется квантованием. Как бы часто ни проводились измерения, все равно часть информации будет теряться. Но чем чаще проводятся замеры, тем точнее будет соответствовать цифровой звук своему аналоговому оригиналу. С одной стороны, чем больше бит отведено под кодирование уровня сигнала (квантование), тем точнее соответствие. С другой стороны, звук хорошего качества будет содержать больше данных и, следовательно, больше занимать места на цифровом носителе информации. Определить информационный объем V цифрового аудиофайла, длительность звучания которого составляет t секунд при частоте дискретизации H и разрешении i битов (квантуют i битами), можно по формуле V = H · i · t. (3) Если требуется определить информационный объем стереоаудиофайла, то полученные вычисления умножаются на 2: V = H · i · t ·2. (4) Измерение количества информации Рассмотрим два подхода к измерению информации – содержательный (вероятностный) и символьный (алфавитный). В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т. д. Согласно К. Шеннону, информативность 21 сообщения характеризуется содержащейся в нем полезной информацией – той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации. Неопределенность некоторого события – это количество возможных исходов данного события. Например, неопределенность погоды на завтра обычно заключается в диапазоне температуры воздуха и возможности выпадения осадков. Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают поразному. Но если число исходов не зависит от суждений людей (например, случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной. Формулу для вычисления количества информации, учитывающую неодинаковую вероятность событий, предложил К. Шеннон в 1948 г. Количественная зависимость между вероятностью события р и количеством информации I в сообщении о нем выражается формулой Шеннона I = –log 2 р. (5) Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить следующим образом: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии. Количество информации для событий с различными вероятностями определяется по формуле (эту формулу также называют формулой Шеннона) (6) Рассмотрим пример. В коробке имеется 100 шаров. Из них 80 белых и 20 черных. Очевидно, вероятность того, что при вытаскивании случайным образом попадется белый шар, больше, чем вероятность попадания черного. Проведем количественную оценку вероятности для каждой ситуации. Обозначим p ч – 22 вероятность, что вытащили черный шар, р б – вероятность, что вытащили белый шар. Тогда: р ч = 20/100 = 0,2, р б = 80/100 = 0,8. Заметим, что вероятность попадания белого шара в 4 раза больше, чем черного. Количество информации в сообщении, что вынутый случайным образом шар является черным, вычисляется по формуле I ч = –log 2 (0,2) = 2,321928 бит. Количество информации в сообщении, что вынутый случайным образом шар является белым, вычисляется по формуле I б = –log 2 (0,8) = 0,321928 бит. Количество информации в сообщении о цвете вынутого случайным образом шара вычисляется по формуле –0,2 log 2 (0,2) – 0,8 log 2 (0,8) = 0,2 · 2,321928 + 0,8 · 0,321928 = 0,721928 бит. Если события равновероятны (p i = 1/N, где N – число возможных событий), то величина количества информации I вычисляется по формуле Р. Хартли: I = log 2 N. (7) Используя формулу (7), можно записать и формулу, которая связывает количество возможных событий N и количество информации I N = 2 I (8) Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. С позиций информатики носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера. Информативность последовательности символов зависит не от содержания сообщения, а определяется минимально необходимым количеством символов для кодирования этой последовательности символов. Алфавитный подход является объективным, т. е. он не зависит от субъекта, воспринимающего сообщение. Смысл сообщения либо учитывается на этапе выбора алфавита кодирования, либо не учитывается вообще. При алфавитном подходе, если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество 23 информации, которое несет каждый символ (информационный вес одного символа), вычисляется по формуле I = log 2 N, (9) где N – мощность алфавита (полное количество символов, составляющих алфавит выбранного кодирования). Тогда мощность алфавита можно вычислить по формуле N = 2 I (10) В алфавите, который состоит из двух символов (двоичное кодирование), каждый символ несет 1 бит (log 2 2 = 1) информации; из четырех символов – каждый символ несет 2 бита информации (log 2 4 = 2); из восьми символов – 3 бита (log 2 8=3) и т. д. Один символ из алфавита мощностью 256 несет в тексте 8 битов (log 2 256 = 8) информации. Если весь текст состоит из k символов, то при алфавитном подходе размер содержащейся в нем информации H определяется по формуле H = k · I, (11) где I – информационный вес одного символа в используемом алфавите. Максимальное количество слов L из m букв, которое можно составить из алфавита мощностью N, определяется по формуле L = N m (12) Примеры решения задач Задача 1. Два игрока играют в «крестики нолики» на поле размером 4х4. Определить, какое количество информации I получит второй игрок после первого хода первого игрока. Решение. Первый игрок может для первого хода выбрать любое поле из 16 возможных (N = 4 · 4=16). Тогда по формуле (7) I = log 2 16 = log 2 2 4 = 4 бита. Количество информации I можно также найти из соотношения (8) 16 = 2 I 2 4 = 2 I I = 4 бита. Ответ: I = 4 бита. 24 Задача 2. В группе 24 студента. За экзамен были получены следующие оценки: 3 пятерки, 12 четверок, 6 троек, 3 двойки. 1) Определить, какое количество информации I содержит сообщение, что студент Романов получил оценку «четыре». 2) Определить, какое количество информации I содержит сообщение об оценке любого студента группы. Решение.1) Вероятность события, что случайным образом выбранный студент получил оценку «четыре», равна р . Используя формулу (5), получим I Ответ: I = 1 бит. 2) Для решения задачи воспользуемся формулой Шеннона (6). Вероятности событий, что случайным образом выбранный студент получил оценку «пять», «четыре», «три», «два», соответственно равны: р , р I = -(р 1 · log 2 р 1 + р 2 · log 2 р 2 + р 3 · log 2 р 3 + р 4 · log 2 р 4 ) = – Ответ: I = 1,75 бита. Задача 3. В коробке лежат красные и синие карандаши, всего в коробке 24 карандаша. Информация о том, что из коробки случайным образом достали синий карандаш, равна 2 битам. Определить, сколько в коробке красных и синих карандашей. Решение. Обозначим за х число синих карандашей в коробке. Для решения задачи воспользуемся формулой (5): 2 = – log 2 р. 25 Из этого соотношения найдем р – вероятность того, что случайным образом вынутый шар является синим: . Теперь определим х из соотношения х = 6. Ответ: В коробке 6 синих и 18 красных карандашей. Задача 4. Растровое графическое изображение 20х20 точек содержит не более 256 цветов. Сколько памяти потребуется для хранения изображения? Решение. Для решения воспользуемся формулой (1). Одна точка может иметь один из 256 цветов (N = 256). Найдем сколько бит i, требуется для ее хранения (битовая глубина) из соотношения: 256 = 2 i i = 8 бит. Для хранения изображения 20х20 точек требуется 20 · 20 · 8 = 3200 бит или 400 байт (3200/8 = 400). Ответ: Для хранения изображения потребуется 400 байт. Задача 5. Сообщение из 30 символов было записано в 8-битной кодировке Windows-1251. После вставки в текстовый редактор сообщение было перекодировано в 16-битный код Unicode. На сколько байт увеличилось при этом количество памяти? Решение. При перекодировке из Windows-1251 в Unicode объем памяти увеличивается в два раза, т. е. если в кодировке Windows-1251 сообщение занимало 30 · 8 = 240 бит, то в кодировкеUnicode сообщение займет 30 · 16 = 480 бит, т. е. количество памяти увеличилось на 480 – 240 = 240 бит, или 240/8 = 30 байт. Ответ: Сообщение увеличилось на 30 байт. Задача 6. Отправлено SMS-сообщение: А не могу без тебя жить! Мне и в дожди без тебя – сушь, Мне и в жару без тебя – стыть, Мне без тебя и Москва – глушь. 26 В мобильном телефоне адресата установлено ограничение размера входящего SMS-сообщения 64 байтами (при превышении этого размера сообщение автоматически делится на части). Каждый символ кодируется 16 битами. На сколько частей будет разбито сообщение? Решение. Всего символов в сообщении 114. Так как каждый символ кодируется 16 битами (2 байтами), то сообщение занимает 114 · 2 = 228 байт. Теперь вычислим, на сколько частей будет разбито сообщение: 228/64 = 3,56. Ответ: Сообщение будет разбито на 4 части. Задача 7. Сообщение содержит 4096 символов. Объем сообщения при использовании равномерного кода составил 1/512 Мбайт. Какова мощность алфавита, с помощью которого записано сообщение? Решение. Определим, какой объем памяти (в битах) занимает один символ. Для этого переведем 1/512 Мбайт в биты и полученный результат разделим на число символов, содержащееся в сообщении: Для определения мощности алфавита используем формулу (10). N = 2 4 = 16 символов. Ответ: Мощность алфавита 16 символов. Задача 8. Скорость передачи данных через ADSL соединения равна 256 000 бит/сек. Передача файла заняла 4 минуты. Определить размер файла в Кбайтах. Решение. Определим размер файла как произведение скорости передачи на время: 256 000 · 4 · 60 бит = 256 000 · 4 · 60/8/1024 Кбайт = 7500 Кбайт. Ответ. Размер файла составляет 7500 Кбайт. Задача 9. Определить информационный объем цифрового стереоаудиофайла, длительность звучания которого составляет 10 секунд при частоте дискретизации 22,05 кГц и разрешении 8 битов (квантуется 8 битами). 27 Решение. Для определения информационного объема цифрового стерео аудио файла воспользуемся формулой (4). V = 22 050·8·10·2 = 3528000(бит) = 3528000/8/1024/1024 (Мбайт) = = 0,42 (Мбайт). Ответ: Информационный объем цифрового стерео аудио файла составляет 0,42 Мбайт. Задача 10. Световое табло состоит из лампочек. Каждая лампочка может находиться в одном из трех состояний («включено», «выключено», «мигает»). Какое наименьшее количество лампочек должно быть на табло, чтобы с его помощью можно было передать 18 различных сигналов. Решение. Воспользуемся формулой (12). Мощность алфавита N = 3. Требуется найти m (наименьшее количество лампочек). Так как в формуле (12) определяется максимальное количество слов, а необходимо передать только 18 сигналов (слов), то m будем находить из соотношения 18 ≤ 3 m . Следовательно, m = 3, 4, 5, … Поскольку нужно найти наименьшее количество лампочек, то m = 3. Ответ: На табло должно быть 3 лампочки. Задача 11. В велокроссе участвуют 720 спортсменов. Устройство регистрирует прохождение промежуточного финиша каждым из участников, записывая его номер с использованием минимально возможного количества бит, одинакового для всех номеров. Каков информационный объем сообщения, записанного устройством после того, как промежуточный финиш прошли 100 велосипедистов? Решение. Для регистрации одного любого номера необходимо 10 бит, поскольку с помощью 10 бит можно закодировать 2 10 = 1024 различных номеров (9 бит будет недостаточно). Для регистрации 100 номеров потребуется 100 · 10 = 1000 бит = 1000/8 байт = 125 байт. Ответ: Информационный объем сообщения равен 125 байт. |