лекции по ОТИ. Введение. Понятие информации. Информация и данные
Скачать 376.35 Kb.
|
Тема: Параметры измерения информации. Содержательный подход к измерению информации. Сообщение – информативный поток, который в процессе передачи информации поступает к приемнику. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными Информация - знания человека ? сообщение должно быть информативно. Если сообщение не информативно, то количество информации с точки зрения человека = 0. (Пример: вузовский учебник по высшей математике содержит знания, но они не доступны 1-класснику) Алфавитный подход к измерению информации не связывает количество информации с содержанием сообщения. Алфавитный подход - объективный подход к измерению информации. Он удобен при использовании технических средств работы с информацией, т.к. не зависит от содержания сообщения. Кол-во информации зависит от объема текста и мощности алфавита. Ограничений на max мощность алфавита нет, но есть достаточный алфавит мощностью 256 символов. Этот алфавит используется для представления текстов в компьютере. Поскольку 256=28, то 1символ несет в тексте 8 бит информации. Вероятностный подход к измерения информации. Все события происходят с различной вероятностью, но зависимость между вероятностью событий и количеством информации, полученной при совершении того или иного события можно выразить формулой которую в 1948 году предложил Шеннон. Качество информации является одним из важнейших параметров для потребителя информации. Оно определяется следующими характеристиками: - репрезентативность – правильность отбора информации в целях адекватного отражения источника информации. Например, в целях большей репрезентативности данных о себе абитуриенты стремятся представить в приемную комиссию как можно больше свидетельств, дипломов, удостоверений и другой информации, подтверждающей их высокий уровень подготовки, что учитывается при зачислении в ВУЗ; - содержательность – семантическая емкость информации. Рассчитывается как отношение количества семантической информации к ее количеству в геометрической мере. Это характеристика сигнала, про который говорят, что «мыслям в нем тесно, а словам просторно». В целях увеличения содержательности сигнала, например, используют для характеристики успеваемости абитуриента не полный перечень его аттестационных оценок, а средний балл по аттестату; - достаточность (полнота) – минимальный, но достаточный состав данных для достижения целей, которые преследует потребитель информации. Эта характеристика похожа на репрезентативность, однако разница состоит в том, что в данном случае учитывается минимальный состав информации, который не мешает принятию решения. Например, абитуриент – золотой медалист может не представлять в приемную комиссию свой аттестат: диплом, подтверждающий получение золотой медали, свидетельствует о полном наборе отличных оценок в аттестате; - доступность – простота (или возможность) выполнения процедур получения и преобразования информации. Эта характеристика применима не ко всей информации, а лишь к той, которая не является закрытой. Для обеспечения доступности бумажных документов используются различные средства оргтехники для их хранения, а для облегчения их обработки используются средства вычислительной техники; - актуальность – зависит от динамики изменения характеристик информации и определяется сохранением ценности информации для пользователя в момент ее использования. Очевидно, что касается информации, которая используется при зачислении, она актуальна, так как само обучение уже закончилось, и его результаты изменены быть не могут, а, значит, остаются актуальными; - своевременность – поступление не позже заранее назначенного срока. Этот параметр также очевиден недавним абитуриентам: опоздание с представлением позитивной информации о себе при поступлении может быть чревато незачислением; - точность – степень близости информации к реальному состоянию источника информации. Например, неточной информацией является медицинская справка, в которой отсутствуют данные о перенесенных абитуриентом заболеваниях; - достоверность – свойство информации отражать источник информации с необходимой точностью. Эта характеристика вторична относительно точности. В предыдущем примере получаемая информация недостоверна; - устойчивость – способность информации реагировать на изменения исходных данных без нарушения необходимой точности. Контрольные вопросы: Какие подходы к измерению информации существуют? Определите содержательный подход к измерению информации. Какой подход измерения информации называется алфавитным? Дайте определение вероятностному подходу. Какими характеристиками определяется информация? Тема: Понятие количества информации. Единицы измерения информации. 1. Измерение информации в быту (информация как новизна). Разные люди, получив одно и тоже сообщение, по-разному оценивают количество информации, содержащееся в нем. Оно зависит от того, насколько ново это сообщение для получателя. При этом подходе трудно выделить критерии, по которым можно было вывести единицу измерения информации. 2. Измерение информации в технике (информация – любая хранящаяся, обрабатываемая или передаваемая последовательность знаков). А) В технике часто используют способ определение количества информации называемый объемным. Он основан на подсчете числа символов в сообщении, т.е. связан с его длиной и не зависит от содержания. Б) В вычислительной технике (ВТ) применяют две стандартные единицы измерения: В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания, и характеризующую неопределенность, которая исчезнет после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии. Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество информации в сообщении о нем равно 0. Чем неожиданней событие, тем больше информации он несет. Лишь при равновероятных событиях: ответ «да» или «нет», несет 1 бит. Единицы измерения количества информации. Для количественного выражения любой величины необходимо определить единицу измерения. Так, для измерения длины в качестве единицы выбран метр, для измерения массы — килограмм и так далее. Аналогично, для определения количества информации необходимо ввести единицу измерения. За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределенность в два раза. Такая единица названа «бит». Если вернуться к опыту с бросанием монеты, то здесь неопределенность как раз уменьшается в два раза и, следовательно, полученное количество информации равно 1 биту. Минимальной единицей измерения количества информации является бит, а следующей по величине единицей является байт, причем 1 байт = 23 бит = 8 бит. В информатике система образования кратных единиц измерения количества информации несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10n, где n = 3, 6, 9 и так далее, что соответствует десятичным приставкам Кило (103), Мега (106), Гига (109) и так далее. Компьютер оперирует числами не в десятичной, а в двоичной системе счисления, поэтому в кратных единицах измерения количества информации используется коэффициент 2n. Так, кратные байту единицы измерения количества информации вводятся следующим образом: 1 Кбайт = 210 байт = 1024 байт; 1 Мбайт = 210 Кбайт = 1024 Кбайт; 1 Гбайт = 210 Мбайт = 1024 Мбайт. Количество возможных событий и количество информации. Существует формула, которая связывает между собой количество возможных событий N и количество информации I: N=2I. По этой формуле можно легко определить количество возможных событий, если известно количество информации. Например, если мы получили 4 бита информации, то количество возможных событий составляло: N = 24= 16. Наоборот, для определения количества информации, если известно количество событий, необходимо решить показательное уравнение относительно I. Например, в игре «Крестики-нолики» на поле 8x8 перед первым ходом существует возможных события (64 различных варианта расположения «крестика»), тогда уравнение принимает вид: 64 = 2I. Так как 64 = 26, то получим: 26 = 2I. Таким образом, I = 6 битов, то есть количество информации, полученное вторым игроком после первого хода первого игрока, составляет 6 битов. Контрольные вопросы: Что называется измерением информации? Какие способы определения количества информации существуют? Дайте определение количества информации. какие единицы измерения информации существуют? Тема: Формула Хартли при определении количества информации. В 1928 г. американский инженер Р. Хартли предложил научный подход к оценке сообщений. Предложенная им формула имела следующий вид: I = log2 K , Где К - количество равновероятных событий; I - количество бит в сообщении, такое, что любое из К событий произошло. Тогда K=2I. Иногда формулу Хартли записывают так: I = log2K = log2 (1 / р) = - log2 р, т. к. каждое из К событий имеет равновероятный исход р = 1 / К, то К = 1 / р. Задача. Шарик находится в одной из трех урн: А, В или С. Определить сколько бит информации содержит сообщение о том, что он находится в урне В. Решение. Такое сообщение содержит I = log2 3 = 1,585 бита информации. Но не все ситуации имеют одинаковые вероятности реализации. Существует много таких ситуаций, у которых вероятности реализации различаются. Например, если бросают несимметричную монету или "правило бутерброда". "Однажды в детстве я уронил бутерброд. Глядя, как я виновато вытираю масляное пятно, оставшееся на полу, старший брат успокоил меня: - не горюй, это сработал закон бутерброда. - Что еще за закон такой? - спросил я. - Закон, который гласит: "Бутерброд всегда падает маслом вниз". Впрочем, это шутка, - продолжал брат.- Никакого закона нет. Просто бутерброд действительно ведет себя довольно странно: большей частью масло оказывается внизу. - Давай-ка еще пару раз уроним бутерброд, проверим, - предложил я. - Все равно ведь его придется выкидывать. Проверили. Из десяти раз восемь бутерброд упал маслом вниз. И тут я задумался: а можно ли заранее узнать, как сейчас упадет бутерброд маслом вниз или вверх? Наши опыты прервала мать…" ( Отрывок из книги "Секрет великих полководцев", В.Абчук). В 1948 г. американский инженер и математик К Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями. Если I - количество информации, К - количество возможных событий, рi - вероятности отдельных событий, то количество информации для событий с различными вероятностями можно определить по формуле: I = - Sum рi log2 рi, где i принимает значения от 1 до К. Формулу Хартли теперь можно рассматривать как частный случай формулы Шеннона: I = - Sum 1 / К log2 (1 / К) = I = log2 К. При равновероятных событиях получаемое количество информации максимально. Задачи. 1. Определить количество информации, получаемое при реализации одного из событий, если бросают а) несимметричную четырехгранную пирамидку; б) симметричную и однородную четырехгранную пирамидку. Решение. а) Будем бросать несимметричную четырехгранную пирамидку. Вероятность отдельных событий будет такова: р1 = 1 / 2, р2 = 1 / 4, р3 = 1 / 8, р4 = 1 / 8, тогда количество информации, получаемой после реализации одного из этих событий, рассчитывается по формуле: I = -(1 / 2 log2 1/2 + 1 / 4 log2 1/4 + 1 / 8 log2 1/8 + 1 / 8 log2 1/8) = 1 / 2 + 2 / 4 + + 3 / 8 + 3 / 8 = 14/8 = 1,75 (бит). б) Теперь рассчитаем количество информации, которое получится при бросании симметричной и однородной четырехгранной пирамидки: I = log2 4 = 2 (бит). 2. Вероятность перового события составляет 0,5, а второго и третьего 0,25. Какое количество информации мы получим после реализации одного из них? 3. Какое количество информации будет получено при игре в рулетку с 32-мя секторами? 4. Сколько различных чисел можно закодировать с помощью 8 бит? Решение: I=8 бит, K=2I=28=256 различных чисел. Физиологи и психологи научились определять количество информации, которое человек может воспринимать при помощи органов чувств, удерживать в памяти и подвергать обработке. Информацию можно представлять в различных формах: звуковой, знаковой и др. рассмотренный выше способ определения количества информации, получаемое в сообщениях, которые уменьшают неопределенность наших знаний, рассматривает информацию с позиции ее содержания, новизны и понятности для человека. С этой точки зрения в опыте по бросанию кубика одинаковое количество информации содержится в сообщениях "два", "вверх выпала грань, на которой две точки" и в зрительном образе упавшего кубика. При передаче и хранении информации с помощью различных технических устройств информацию следует рассматривать как последовательность знаков (цифр, букв, кодов цветов точек изображения), не рассматривая ее содержание. Считая, что алфавит (набор символов знаковой системы) - это событие, то появление одного из символов в сообщении можно рассматривать как одно из состояний события. Если появление символов равновероятно, то можно рассчитать, сколько бит информации несет каждый символ. Информационная емкость знаков определяется их количеством в алфавите. Чем из большего количества символов состоит алфавит, тем большее количество информации несет один знак. Полное число символов алфавита принято называть мощностью алфавита. Молекулы ДНК (дезоксирибонуклеиновой кислоты) состоят из четырех различных составляющих (нуклеотидов), которые образуют генетический алфавит. Информационная емкость знака этого алфавита составляет: 4 = 2I, т.е. I = 2 бит. Каждая буква русского алфавита (если считать, что е=е) несет информацию 5 бит (32 = 2I). При таком подходе в результате сообщения о результате бросания кубика , получим различное количество информации, Чтобы его подсчитать, нужно умножить количество символов на количество информации, которое несет один символ. Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении. Контрольные вопросы: Как выглядит формула Хартли? Как выглядит формула Шеннона? В чем разница между вышеперечисленными формулами? Тема: Закон аддитивности информации и его назначение. В окружающем нас мире предметов, процессов и явлений четко прослеживаются три уровня, ипостаси или плана (название еще не утвердилось): план материальный, план энергетический и план информационный. Сообщение о результатах выборов, например, может придти в глухую отдаленную деревню в виде газетной полосы (на материальном носителе), в виде сообщения по радио (носитель — энергетический) или любым другим способом. Существенно, что полученная информация вовсе не зависит ни от параметров материального носителя (газета, рукописный текст или каменные скрижали — все равно), ни от параметров энергетического (напряженность поля радиостанции может быть как 300 мВ/м, так и 30 мкВ/м, лишь бы была достаточной для приема). Благодаря Клоду Шеннону и другим основоположникам теории передачи информации научились измерять ее количественно, так же, как давно умеем измерять массу и энергию. Еще в 1748 г. трудами М. В. Ломоносова установлены законы сохранения вещества и движения: «... Все перемены, в натуре случающиеся, такого суть состояния, что сколько чего у одного тела отнимется, столько присовокупится к другому... Сей всеобщий естественный закон простирается и в самые правила движения: ибо тело, движущее своей силою другое, столько же оныя у себя теряет, сколько сообщает другому, которое от него движение получает» (Полное собрание сочинений, т. 3, 1952, с. 383). Позднее был сформулирован и закон сохранения энергии, гласящий, что энергия любой замкнутой системы при всех происходящих в ней процессах остается постоянной. Энергия может только превращаться из одной формы в другую и перераспределяться между частями системы. Для незамкнутых систем увеличение или уменьшение энергии равно принятой или переданной энергии другим системам. В современной физике насчитывают довольно много законов сохранения (массы, импульса, момента импульса, энергии, заряда и т. д.). Все они относятся к замкнутым системам (не взаимодействующим с их окружением). Давайте же, пользуясь методом аналогий, распространим законы сохранения и на информационный план бытия, сформулировав, как гипотезу, закон сохранения информации: в замкнутой системе количество информации остается неизменным. Правомочность гипотезы в науке принято проверять приложением ее к практике. Дело это нескорое и непростое, но некоторые примеры, как кажется, хорошо иллюстрируют сформулированный закон. Обратимся к близкому и родному — линии передачи информации (см. рисунок). Оба корреспондента по отдельности, отправитель и получатель, являются, естественно, открытыми системами, поскольку передают и принимают информацию, т. е. взаимодействуют с окружением. Но оба они вместе есть система замкнутая, поскольку взаимодействие происходит внутри нее. Получатель, приняв сообщение, увеличил свою информацию. Если сообщение утеряно, забито шумом и помехами, то ничего страшного — у отправителя то оно осталось. Потому и придуманы протоколы обмена с переспросом, корректирующие коды и тому подобное. Заметим, что отправитель, отослав сообщение, количество своей информации не убавил! По-видимому, в информационном мире несколько иные правила, нежели в энергетическом и материальном. Сообщая информацию, вы ее не теряете, а получая — приобретаете ("научился сам — научи другого!"). Но с точки зрения всей замкнутой системы общее количество информации не убавилось, но и не прибавилось, ведь получатель принял то, что уже есть в системе, а заранее известное сообщение (по Шеннону) информации не добавляет. Хотя с узкой точки зрения получателя информации у него прибавилось. Тут, кажется, намечается и "принцип относительности" в информационном мире. Осмыслив закон сохранения информации (закон аддиьивности), получаем хорошо известный вывод: замкнутые подсистемы, внутри которых произошли уже все возможные передачи сообщений, развиваться и совершенствоваться не могут. Вспомните: "вариться в собственном соку", "загнивающий коллектив" и т. д. Главный принцип развития и совершенствования подсистемы — открытость, способность к обучению, в конечном итоге к обмену, т. е. к передаче и приему информации. Любая радиолюбительская связь — тому подтверждение. Односторонний обмен, в частности, "работа только на прием", иногда тоже не спасает. Пример: за годы "железного занавеса" отечественная радиоэлектроника почти безнадежно отстала от мировой, хотя "работа на прием" шла во всю и "цельнотянутые" серии радиоламп, транзисторов и микросхем выпускаются до сих пор. Американцы не единожды, и даже в конгрессе поднимали вопрос, не наносит ли ущерб стране открытость публикаций в технических журналах и иных изданиях? Теперь, когда гонка технологий ими выиграна, ответ получен. Ущерба и не должно быть, ведь отдавая информацию, ее не теряешь. Конечно, есть и другие немаловажные причины нашего отставания. Не затрагивая общественно-политических, упомянем лишь закрытость, связанную с чрезмерной секретностью. Не убывание информации при ее передаче широко используют в библиотеках, банках данных, справочниках. Вопрос хранения — особый. Можно ли утерять информацию? Для мелких подсистем — да. Люди забывают, библиотечные фонды списывают и уничтожают, магнитные ленты и диски стирают. Но стоит раздвинуть границы системы шире (см. рисунок), как мы видим, что в расширенной системе информация сохраняется. Забытый телефон можно переспросить, утерянные сведения — восстановить по первоисточникам и т. д. Широкий обмен способствует сохранению информации ("слово не воробей, поймают, и вылетишь!"). Здесь надо бы различить, перефразируя Иммануила Канта ("вещь в себе" и "вещь для нас"), понятия информации вообще, и информации, осмысленной нами. Последняя и приобретается и теряется, первая — нет. "Рукописи не горят". Разве законы тяготения не существовали задолго до Ньютона? И разве любое падающее яблоко не несло информацию о них? Просто Исаак Ньютон осмыслил их и представил в сжатой и понятной научному миру форме. В этом и состоит открытие. Индусы говорят больше: "каждый встреченный тобой человек — твой Великий Учитель". Теперь огромное значение приобрел Интернет, явление, чрезвычайно интересное с философской точки зрения. Суммарный объем выкладываемой информации неудержимо растет, а разработчики создают все более совершенные накопители информации, вмещающие этот объем! Это еще одно подтверждение закона сохранения информации (закона аддитивности). Когда появились первые авторучки (вечные перья), сочинили поговорку: "Раньше гусиными перьями писали вечные мысли, теперь же вечными перьями пишут .... мысли!". Что бы сказал автор поговорки, освоив современный компьютер? Помните, любители флейма, ваши сообщения останутся в вечности! Позвольте и мне воспользоваться Интернетом, чтобы сохранить гипотезу о законе сохранения информации. Контрольные вопросы: О чем гласит закон аддитивности? Кто первый заговорил об этом законе? Каково назначение закона? Алфавитный_подход_к_измерению_информации.'>Тема: Алфавитный подход к измерению информации. Как измерить информацию? Часто мы говорим, что, прочитав статью в журнале или просмотрев новости, не получили никакой информации, или наоборот, краткое сообщение может оказаться для нас информативным. В то же время для другого человека та же самая статья может оказаться чрезвычайно информативной, а сообщение — нет. Информативными сообщения являются тогда, когда они новы, понятны, своевременны, полезны. Но то, что для одного понятно, для другого — нет. Вопрос «как измерить информацию?» очень непростой. Существует два подхода к измерению количества информации. Первый подход называется содержательным. В нем информация рассматривается с субъективной точки зрения, т.е. с точки зрения конкретного человека. В этом случае количество информации в сообщении не равно нулю, если сообщение пополняет знания человека. Второй подход называется алфавитным. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода. Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте). Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавит — упорядоченный набор символов, используемый для кодирования сообщений на некотором языке. Мощность алфавита — количество символов алфавита. Двоичный алфавит содержит 2 символа, его мощность равна двум. Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов. Чтобы определить объем информации в сообщении при алфавитном подходе, нужно последовательно решить задачи: Определить количество информации (i) в одном символе по формуле 2i = N, где N — мощность алфавита Определить количество символов в сообщении (m) Вычислить объем информации по формуле: I = i * K. Количество информации во всем тексте (I), состоящем из K символов, равно произведению информационного веса символа на К: I = i * К. Эта величина является информационным объемом текста. Например, если текстовое сообщение, закодированное по системе ASCII, содержит 100 символов, то его информационный объем составляет 800 бит. 2i = 256 I = 8 I = 8 * 100 = 800 Для двоичного сообщения той же длины информационный объем составляет 100 бит. Необходимо так же знать единицы измерения информации и соотношения между ними. Единицы измерения информации Как уже было сказано, основная единица измерения информации — бит. 8 бит составляют 1 байт. Наряду с байтами для измерения количества информации используются более крупные единицы: 1 Кбайт (один килобайт) = 210 байт = 1024 байта; 1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайт; 1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайт. В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как: 1 Терабайт (Тб) = 1024 Гбайт = 240 байта, 1 Петабайт (Пб) = 1024 Тбайта = 250 байта. Контрольные вопросы: Как измеряется информация при содержательном подходе? Что такое алфавит? Что называется мощностью алфавита? Что называется объемом информации? Тема: Данные и их кодирование. Принципы кодирования и декодирования. 1. Коды: прямой, обратный, дополнительный. В компьютерной технике применяются три формы записи (кодирования) целых чисел со знаком: прямой код, обратный код, дополнительный код.. Последние две формы применяются особенно широко, так как позволяют упростить конструкцию арифметико-логического устройства компьютера путем замены разнообразных арифметических операций операцией сложения. Положительные числа в прямом, обратном и дополнительном кодах изображаются одинаково – с цифрой 0 в знаковом разряде. ПРИМЕРЫ. Число 110=12: Число 12710=11111112
Отрицательные числа в прямом, обратном и дополнительном кодах имеют разное изображение. Прямой код. В знаковый ряд помещается цифра 1, а в разряды цифровой части числа – двоичный код его абсолютной величины. ПРИМЕРЫ. Прямой код числа -1: Прямой код числа -127:
Обратный код получается инвентированием всех цифр двоичного кода абсолютной величины числа, включая разряд знака: нули заменяют единицами, а единицы – нулями. ПРИМЕРЫ. Число: -1. Число: -127. Код модуля числа: 0 0000001. Код модуля числа: 0 1111111 Обратный код числа: 1 1111110. Обратный код числа: 1 0000000
Дополнительный код получается образованием обратного кода с последующим прибавлением единицы к его младшему разряду. ПРИМЕРЫ. Дополнительный код числа-1: Дополнительный код числа-127
Обычно отрицательные десятичные числа при вводе в машину автоматически преобразуются в обратный или дополнительный двоичный код и в таком виде хранятся, перемещаются и участвуют в операциях. При вводе таких чисел из машины происходит обратное преобразование в отрицательные десятичные числа. Контрольные вопросы: Какие формы кодирования информации вы знаете? Что происходит в прямом коде? Как получается обратный код? Как получается дополнительный код? Как кодируются положительные и отрицательные числа Тема: Характеристика процесса передачи данных. Режимы и коды передачи данных Структурная схема системы передачи информации. Нужно различать понятия «информация и «сообщение». Под сообщением понимают информацию, выраженную в определенной форме и подлежащую передаче. Сообщение – это форма представления информации. FE: примерами сообщений являются: текст телеграммы, речь оратора, показания измерительного датчика, команды управления и т.д. Структурная схема одной из характерных информационных систем в общем случае может быть представлена как: Сообщение Сигнал Помехи Источник информации Сигнал-помеха Сигнал Информация Прием-ник |