Информатика и информация. Лекция 1 Информатика и информация. Понятие информация

Название	Лекция 1 Информатика и информация. Понятие информация
Анкор	Информатика и информация
Дата	22.03.2022
Размер	370 Kb.
Формат файла
Имя файла	Информатика и информация.doc
Тип	Лекция #409581
страница	10 из 12

1 ... 4 5 6 7 8 9 10 11 12

Кодирование текстового сообщения

Как кодируется текстовое сообщение? Каждому символу ставится в соответствие двоичное число, причем таким образом, что чем дальше символ расположен от начала алфавита, тем больше значение двоичного числа, которое является кодом данного символа. Сколько разрядов (бит) требуется, чтобы закодировать все буквы, знаки препинания, математические и специальные символы? Легко подсчитать:

кириллица (большие и малые буквы)	66
латинские (большие и малые буквы)	52
цифры	10
знаки препинания (.,:;'»!?-)	9
знаки матем. операций (+ - */^)	5
графические символы	114
ИТОГО	256

Таким образом, с помощью клавиатуры можно ввести 256 символов (цифры, буквы русского и латинского алфавита, знаки препинания, математические символы и спецсимволы). Если здесь применить формулу измерения количества информации, то можно выяснить сколько бит потребуется для кодирования одного символа.

К=2ⁿ=256, n=8 бит.

Следовательно, для того, чтобы закодировать слово МАМА потребуется 32 бита или 4 байта. 10001100 10000000 10001100 10000000

Именно в такой форме данное текстовое сообщение и будет закодировано компьютером.

Задача2: Сколько бит информации потребуется для кодирования следующего предложения: С новым годом = 14 байт или 112 бит.

Задача3: Сколько байт потребуется для хранения информации, содержащейся на двух страницах учебника по информатике, если каждая страница содержит 32 строки по 48 символов в строке, а информация о форматировании текста составляет 20 % от размера текста.

Решение:

1. Количество байт информации на двух страницах составляет 32*48*2=3072 байта.

2. Информация о форматировании текста составляет: 3072*0,2=614,4 байта.

Ответ: Для хранения информации потребуется 3072+614,4=3686,4 байта.

Задача4: Сколько целых страниц машинописного текста можно записать на магнитную дискету если:

Емкость дискеты: 1.44 Мб;

Строк на странице: 32;

Символов в строке: 48.

Решение:

1. Количество байт информации на одной странице составит: 32*48=1536 байт.

2. Переводим емкость дискеты в байты: 1.44*1024*1024=1509949,4 байта

Ответ: количество целых страниц текста составит: 1509949,4\1536=983,04=983 страницы.

Стандартные коды в вычислительной технике

Может возникнуть вопрос, почему, например, буква А кодируется именно этой комбинацией нулей и единиц, а не какой-нибудь другой? Очевидно, что разработчики вычислительной техники должны были договориться о том, как кодировать символы. Если этого не сделать, то на каждом компьютере будет свое собственное кодирование, что вызовет большие неудобства при необходимости переноса информации с одного компьютера на другой и, в конечном счете, приведет к «великой путанице».

Первоначально, в реальной жизни, именно так все и происходило. Каждая фирма, выпускающая компьютеры, часто разрабатывала и внедряла свои кодировки, что существенно затрудняло работу. До настоящего времени в мире существует множество различных 8-битовых кодов (КОИ-8, ДКОИ-8, MIC и т.д.).

В 1961 г. американцы решили положить конец этой «анархии» и разработали «Универсальный стандартный код для обмена информацией» ASCII (AmericanStandardCodeforInformationInterchange) для персональных компьютеров. В нем закодированы все символы, имеющиеся на клавиатуре ПК, в определенном алфавитном порядке: чем дальше символ стоит от начала алфавита, тем больше его 8-разрядный код.

ASCII представляет собой таблицу, в которой коды могут быть представлены в десятичной, двоичной, 8- или 16-ричных системах счисления. Таблица состоит из двух частей.

Общая часть:

0-31	управляющие коды (например, при нажатии На клавишу в компьютер поступает код 13, - 27 и т.д.)
32-127	Стандартные коды (например, <ПРОБЕЛ> имеет код 32, <0> - 48, <1> - 49, <9> - 57, <А> - 64, <В>-66. - 90. <*>-42, <+> - 43 и т.д.).

Заметим, что фактически общая часть представляет собой 7-разрядный двоичный код, содержащий 128 различных комбинаций.

Дополнительная часть:

128-256

Дополнительные коды (сюда входят различные дополнительные символы (например, символы для рисования рамок таблиц), включая и русские буквы: <А> - 128, <Б> - 129, <Я> - 159, <а> - 160, <б> - 161) и т.д.

Следует отметить, что большие и маленькие буквы, как латинские, так и русские, имеют собственные коды.

Дополнительная часть может изменяться в зависимости от типа компьютера и страны, куда он поставляется. Фактически эта часть является расширением основного кода ASCII на основе международного стандарта ISO (InternationalStandardsOrganization).

Таким образом, с учетом расширения ISO, в ASCII использованы не 128, а 256 комбинаций 8-битового кода. Возможность замены дополнительной части кода ASCII делает компьютер пригодным для использования в любой стране мира.

Для больших вычислительных систем существует другой международный стандарт - код EBCDIC. Сейчас американцы совместно с японцами разрабатывают единый универсальный 32-разрядный код.

Сейчас существует несколько различных кодовых таблиц для русских букв (КОИ-8, СР-1251, СР-866, Mac, ISO), причем тексты, созданные в одной кодировке, могут неправильно отображаться в другой. Решается такая проблема с помощью специальных программ перевода текста из одной кодировки в другую.

Альтернативная кодировка не подошла для ОС Windows. Пришлось передвинуть русские буквы в таблице на место псевдографики, и получили кодировку Windows 1251 (Win-1251).

В течение долгого времени понятия "байт" и "символ" были почти синонимами. Однако, в конце концов, стало ясно, что 256 различных символов - это не так много. Математикам требуется использовать в формулах специальные математические знаки, переводчикам необходимо создавать тексты, где могут встретиться символы из различных алфавитов, экономистам необходимы символы валют ($, £, ¥). Для решения этой проблемы была разработана универсальная система кодирования текстовой информации - Unicode. В этой кодировке для каждого символа отводится не один, а два байта, т.е. шестнадцать бит. Таким образом, доступно 65536 (2¹⁶) различных кодов. Этого хватит на латинский алфавит, кириллицу, иврит, африканские и азиатские языки, различные специализированные символы: математические, экономические, технические и многое другое. Главный недостаток Unicode состоит в том, что все тексты в этой кодировке становятся в два раза длиннее. В настоящее время стандарты ASCII и Unicode мирно сосуществуют.

1 ... 4 5 6 7 8 9 10 11 12