Главная страница

Информатика. Формула Шеннона. Количество информации как мера уменьшения неопределенности знания


Скачать 242.5 Kb.
НазваниеКоличество информации как мера уменьшения неопределенности знания
АнкорИнформатика. Формула Шеннона.doc
Дата22.03.2017
Размер242.5 Kb.
Формат файлаdoc
Имя файлаИнформатика. Формула Шеннона.doc
ТипДокументы
#4061
страница2 из 7
1   2   3   4   5   6   7

Формула Шеннона


   В 1928 г. американский инженер Р. Хартли предложил научный подход к оценке сообщений. Предложенная им формула имела следующий вид:

            I = log2 K ,
Где К - количество равновероятных событий; I - количество бит в сообщении, такое, что любое из К событий произошло. Иногда формулу Хартли записывают так:

            I = log2 K = log2 (1 / р) = - log2 р,
т. к. каждое из К событий имеет равновероятный исход р = 1 / К, то К = 1 / р.

   Задача.

   Шарик находится в одной из трех урн: А, В или С. Определить сколько бит информации содержит сообщение о том, что он находится в урне В.

   Решение.

   Такое сообщение содержит I = log2 3 = 1,585 бита информации.

   Но не все ситуации имеют одинаковые вероятности реализации. Существует много таких ситуаций, у которых вероятности реализации различаются. Например, если бросают несимметричную монету или "правило бутерброда".

   "Однажды в детстве я уронил бутерброд. Глядя, как я виновато вытираю масляное пятно, оставшееся на полу, старший брат успокоил меня:

   -    не горюй, это сработал закон бутерброда.

   -    Что еще за закон такой? - спросил я.

   -    Закон, который гласит: "Бутерброд всегда падает маслом вниз". Впрочем, это шутка, - продолжал брат.- Никакого закона нет. Прсто бутерброд действительно ведет себя довольно странно: большей частью масло оказывается внизу.

   -    Давай-ка еще пару раз уроним бутерброд, проверим, - предложил я. - Все равно ведь его придется выкидывать.

   Проверили. Из десяти раз восемь бутерброд упал маслом вниз.

   И тут я задумался: а можно ли заранее узнать, как сейчас упадет бутерброд маслом вниз или вверх?

   Наши опыты прервала мать…"
   ( Отрывок из книги "Секрет великих полководцев", В.Абчук).

   В 1948 г. американский инженер и математик К Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями.
Если I - количество информации,
         К - количество возможных событий,
         рi - вероятности отдельных событий,
то количество информации для событий с различными вероятностями можно определить по формуле:

            I = - Sum рi log2 рi,
где i принимает значения от 1 до К.

   Формулу Хартли теперь можно рассматривать как частный случай формулу Шеннона:

            I = - Sum 1 / К log2 (1 / К) = I = log2 К.

   При равновероятных событиях получаемое количество информации максимально.

   Задачи.
1. Определить количество информации, получаемое при реализации одного из событий, если бросают
а) несимметричную четырехгранную пирамидку;
б) симметричную и однородную четырехгранную пирамидку.

Решение.

а) Будем бросать несимметричную четырехгранную пирамидку.
Вероятность отдельных событий будет такова:
р1 = 1 / 2,
р2 = 1 / 4,
р3 = 1 / 8,
р4 = 1 / 8,
тогда количество информации, получаемой после реализации одного из этих событий, рассчитывается по формуле:
I = -(1 / 2 log2 1/2 + 1 / 4 log2 1/4 + 1 / 8 log2 1/8 + 1 / 8 log2 1/8) = 1 / 2 + 2 / 4 + + 3 / 8 + 3 / 8 = 14/8 = 1,75 (бит).
б) Теперь рассчитаем количество информации, которое получится при бросании симметричной и однородной четырехгранной пирамидки:
I = log2 4 = 2 (бит).
2. Вероятность перового события составляет 0,5, а второго и третьего 0,25. Какое количество информации мы получим после реализации одного из них?
3. Какое количество информации будет получено при игре в рулетку с 32-мя секторами?

   Физиологи и психологи научились определять количество информации, которое человек может воспринимать при помощи органов чувств, удерживать в памяти и подвергать обработке. Информацию можно представлять в различных формах: звуковой, знаковой и др. рассмотренный выше способ определения количества информации, получаемое в сообщениях, которые уменьшают неопределенность наших знаний, рассматривает информацию с позиции ее содержания, новизны и понятности для человека. С этой точки зрения в опыте по бросанию кубика одинаковое количество информации содержится в сообщениях "два", "вверх выпала грань, на которой две точки" и в зрительном образе упавшего кубика.

   При передаче и хранении информации с помощью различных технических устройств информацию следует рассматривать как последовательность знаков (цифр, букв, кодов цветов точек изображения), не рассматривая ее содержание.

    Считая, что алфавит (набор символов знаковой системы) - это событие, то появление одного из символов в сообщении можно рассматривать как одно из состояний события. Если появление символов равновероятно, то можно рассчитать, сколько бит информации несет каждый символ. Информационная емкость знаков определяется их количеством в алфавите. Чем из большего количества символов состоит алфавит, тем большее количество информации несет один знак. Полное число символов алфавита принято называть мощностью алфавита.

    Молекулы ДНК (дезоксирибонуклеиновой кислоты) состоят из четырех различных составляющих (нуклеотидов), которые образуют генетический алфавит. Информационная емкость знака этого алфавита составляет:

            4 = 2I, т.е. I = 2 бит.

   Каждая буква русского алфавита (если считать, что е=е) несет информацию 5 бит (32 = 2I).

   При таком подходе в результате сообщения о результате бросания кубика , получим различное количество информации, Чтобы его подсчитать, нужно умножить количество символов на количество информации, которое несет один символ.

   Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.

Кодирование информации в компьютере


   Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.


Вид информации

Двоичный код

Числовая

10110011


Текстовая

Графическая

Звуковая

Видео
1   2   3   4   5   6   7


написать администратору сайта