Главная страница
Навигация по странице:

  • Теоретическая часть

  • Энтропия сообщения

  • Полезная информация в сообщении.

  • Избыточность сообщений.

  • Относительная избыточность сообщения.

  • Задания к лабораторной работе

  • Содержание отчета и его форма

  • Контрольные вопросы

  • Лаб2. Теоретическая часть Базовыми понятиями в теории информации являются само понятие информация


    Скачать 394.51 Kb.
    НазваниеТеоретическая часть Базовыми понятиями в теории информации являются само понятие информация
    Дата15.02.2022
    Размер394.51 Kb.
    Формат файлаpdf
    Имя файлаЛаб2.pdf
    ТипДокументы
    #362562

    2. ИЗУЧЕНИЕ ИНФОРМАЦИОННЫХ ХАРАКТЕРИСТИК СООБЩЕНИЙ
    Цели работы: освоить основные понятия теории информации; получить начальные знания, необходимые при изучении методов сжатия информационных сообщений.
    Теоретическая часть
    Базовыми понятиями в теории информации являются: само понятие «информация»,
    «количество информации», «энтропия сообщения», «избыточность сообщения», «данные» и ряд других.
    Несмотря на широкую распространѐнность, понятие информации остаѐтся одним из самых дискуссионных в науке. В международном стандарте ISO/IES 2382:2015 дается такое определение информации: «Информация - это знания относительно фактов, событий, вещей, идей и понятий, которые в определѐнном контексте имеют конкретный смысл».
    Форма представления информации в виде данных позволяет обмениваться информацией.
    Информация есть интерпретация (смысл) такого представления.
    Поэтому в строгом смысле информация отличается от данных, хотя в неформальном контексте эти два термина очень часто используют как синонимы.
    Количество информации I, приходящееся на один символ в сообщении из M символов
    (например, букв русского языка) можно рассчитать по формуле К. Шеннона:
    I=

    где p
    i
    - вероятность появления i символа сообщения. Единицей измерения количества информации в указанной и последующих формулах является бит.
    Если в сообщении используются все символы N исходного алфавита и символы в сообщении равновероятны и взаимонезависимы, то количество информации в выбранном сообщении равно (формула Р. Хартли):
    I = log
    2
    N
    Энтропия сообщения (J) – это мера неопределенности (или непредсказуемости) появления какого-либо символа в сообщении. Наибольшая непредсказуемость имеет место в случае, когда все символы сообщения равновероятны и взаимонезависимы. Количество информации в таком сообщении (формула Р. Хартли) и принимается за величину энтропии сообщения:
    J = log
    2
    N
    Однако, довольно редко символы сообщения равновероятны и взаимонезависимы.
    Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределѐнность появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв встречаются очень редко, то неопределѐнность уменьшается еще сильнее.
    Если символ сообщения представлен последовательностью в n двоичных разрядов, то максимальное число информационных состояний символа сообщения равняется
    N = 2
    n
    и энтропия J
    1 одного символа сообщения будет равна:
    J
    1
    = log
    2
    2
    n
    = n.
    Если код сообщения не двоичный, а предполагает K возможных состояний каждого разряда, то количество символов алфавита источника сообщения будет равно
    N = K
    n
    , а энтропия одного символа сообщения составит
    J
    1
    = log
    2
    K
    n
    .
    Для текстового сообщения
    алфавитом источника сообщения является перечень букв выбранного языка и некоторого количества иных дополнительных символов.
    Если сообщение состоит из отдельных элементов (отдельных символов), энтропию сообщения
    J
    удобнее вычислять через энтропию одного элемента (символа) в сообщении:
    J = J
    1
    х
    m, где J
    1
    - энтропия одного элемента (одного символа) сообщения; m - число элементов
    (символов) в сообщении.
    Полезная информация в сообщении. Полезная информация (I) в сообщении, или просто «информация» - та часть энтропии, которая информативна, т.е. необходима получателю сообщения.
    Полезная информация в сообщении может оказаться меньше, чем энтропия сообщения, по следующим причинам:
    - неравновероятность символов (появление одних символов в сообщении более вероятно, чем появление других);
    - взаимозависимость символов (появление одних символов в сообщении означает изменение вероятности появления других).
    Если в сообщении использованы все символы исходного алфавита и символы в сообщении равновероятны и взаимонезависимы, то количество информации в сообщении будет максимальным (это «полное» сообщение) и оно будет равно энтропии сообщения.
    Соответственно, количество информации в символе (элементе) сообщения будет равно энтропии символа (элемента) сообщения:
    I = J, I
    1
    = J
    1
    .
    Если символы взаимонезависимы, но неравновероятны, то количество полезной информации будет меньше энтропии I1
    1
    ; полезная информация в одном символе будет вычисляться по формуле Шеннона:
    I
    1
    =

    где p
    i
    - вероятность появления i символа сообщения.
    Количество полезной информации I в сообщении (если все символы сообщения содержат одинаковое количество информации) будет равно
    I = I
    1
    * m.
    Избыточность сообщений. Избыточность (R) сообщения, или «абсолютная избыточность» - это та часть энтропии, которая не является информативной для получателя сообщения.
    Согласно определению, избыточность всего сообщения равна
    R = J - I.
    Избыточность, приходящаяся на один символ, равна
    Ri = Ji - Ii.
    Относительная избыточность сообщения. Относительная избыточность сообщения
    (
    r
    ) — процент избыточной информации в сообщении, который может быть вычислен по формуле
    r = R/J = 1 - I/J = R
    1
    /J
    1
    = 1 - I
    1
    /J
    1
    Задания к лабораторной работе
    Задание 1. Подсчитайте энтропию русского алфавита и алфавита, состоящего из 16- разрядных двоичных символов.
    Задание 2. Сообщение строится из символов A, B, C, D, причем вероятности их появления в сообщении соответственно равны 0.2, 0.6, 0.1 и 0.1. Сколько символов нужно послать, чтобы передать не менее 100 двоичных единиц полезной информации? Какова будет абсолютная и относительная избыточность сообщения?

    Задание 3. Подсчитать количество информации в сообщении «Кто обладает информацией, тот правит миром» при кодировании буквами русского алфавита и при иероглифическом кодировании, в котором каждому понятию соответствует один символ.
    Подсчитать избыточность каждого сообщения, считая, что во втором случае возможно использование 200 000 иероглифов,
    Содержание отчета и его форма
    Отчет по лабораторной работе должен включать:

    название лабораторной работы;

    ответы на контрольные вопросы к лабораторной работе;

    формулировка индивидуального задания и его выполнение (индивидуальное задание содержатся в файле «Перечень задач», задачи 1-10) .
    Отчет о выполнении лабораторной работы составляется в письменном виде.
    При сдаче лабораторной работы необходимо подготовиться к устной беседе с преподавателем по контрольным вопросам.
    Контрольные вопросы
    1. Какие показатели описывают информационные характеристики сообщений?
    2. Что означает энтропия сообщения? Каким образом можно рассчитать энтропию сообщения?
    3. Что понимается под «полезной информацией»?
    4. Запишите формулы для расчета полезной информации.
    5. Сформулируйте определение избыточности сообщения.
    6. Какие равенства используются для расчета избыточности?
    7. Что понимается под относительной избыточностью?


    написать администратору сайта