ОЦЕНКА КОЛИЧЕСТВЕННЫХ ПАРАМЕТРОВ ТЕКСТОВЫХ ДОКУМЕНТОВ. Оценка количественных параметров текстовых документов
Скачать 0.51 Mb.
|
ОЦЕНКА КОЛИЧЕСТВЕННЫХ ПАРАМЕТРОВ ТЕКСТОВЫХ ДОКУМЕНТОВОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ Ключевые словакодовая таблица восьмиразрядный двоичный код информационный объём текста Представление текстовой информации в памяти компьютера Текст состоит из символов - букв, цифр, знаков препинания и т. д., которые компьютер различает по их двоичному коду. Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц. Кодовая таблица 0 – 32 - управляющие символы 33 – 127 – латинские буквы, знаки препинания, цифры, знаки арифметических операций 128 – 255 – буквы национального алфавита ASCII Представление текстовой информации в памяти компьютера Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц. Фрагмент кодовой таблицы ASCII
Представление текстовой информации в памяти компьютера Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц. Коды русских букв в разных кодировках
Стандарт кодирования символов Unicode позволяет пользоваться более чем двумя языками. В Unicode каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов: 216 = 65 536. Информационный объём фрагмента текста I = Ki I - информационный объём сообщения K – количество символов i – информационный вес символа В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен: 8 битов (1 байт) - восьмиразрядная кодировка; 16 битов (2 байта) - шестнадцатиразрядная кодировка. Информационный объём фрагмента текста - это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования. Информационный объём фрагмента текста Задача 1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо: Тысячи путей ведут к заблуждению, к истине - только один. Информационный объём фрагмента текста Задача 1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо: Тысячи путей ведут к заблуждению, к истине - только один. Решение В данном тексте 57 символов (с учётом знаков препинания и пробелов). Каждый символ кодируется одним байтом. Следовательно, информационный объём всего текста - 57 байтов. Ответ: 57 байтов. Информационный объём фрагмента текста Задача 2. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объём слова из 24 символов в этой кодировке. Информационный объём фрагмента текста Задача 2. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объём слова из 24 символов в этой кодировке. Решение. I = 24 2 = 48 (байтов). Ответ: 48 байтов. |