Информатика. Информатика. Упр.1. Последовательность выполнения упражнения 1
Скачать 217.66 Kb.
|
Информатика. Упражнение Представление текстовой информации в кодировках KOI-8, и Цель работы изучить наиболее часто встречающиеся кодировки текстов. Последовательность выполнения упражнения 1 1. Ознакомьтесь с таблицами кодировок ASCII (коды 0 - 127) , KOI-8R (коды 160 - 255) , windows-1251 (коды 128 - 255) и UTF-8 (кириллица. Получите у преподавателя номер варианта текста для кодирования. Варианты приведены в табл. 1. 3. Закодируйте полученный текст последовательно в кодировках KOI-8, windows-1251 итак, как показано в примере Табл. 1. Варианты заданий варианта Текст для кодирования - язык для обучения начинающих 2 Автор Pascal - Никлаус Вирт(Niklaus Какой язык сложнее - C++ или Чем отличается язык C++ от C#? 5 FORTRAN - язык для математических задач - язык для генерации отчётов 7 Автор языка PERL - Ларри Уолл (1987 г - язык для динамических страниц (1996) 9 JavaScript - язык для активных страниц (питон, 1991) - возврат к прошлому? 11 ЭВМ, ЦВМ, АВМ, ПЭВМ, computer, ipad 12 SQL -структурированный язык запросов - сущность-связь 14 HTML - основа всемирной паутины (Автор HTML - Тим Бернерс-Ли (1989 г, HTTP, FTP - протоколы Почтовые протоколы POP 3, IMAP, SMTP 18 MySQL, Oracle, DBI - реляционные СУБД - метка, этикетка, меченый атом - верх, первое место, topless - ? 21 SELECT - главный оператор языка SQL 22 INTRANET - локальная сеть интернет — расширяемый язык разметки -Париж, London - Лондон, Roma - Что больше - 5! * 5! или 6! * 4! +СУБД ACCESS -сетевая или локальная - пакет для растровой графики - пакет для векторной графики 3D Studio MAX - пакет трёхмерной графики - пакет программ для математиков Пример Нужно закодировать строку write - писать (англ.). Результат koi8 w r i t e - писать англ cc 2e 29 cp1251 w r i t e - писать англ eb 2e 29 utf-8 w r i t e - писать англ 28 d0 b0 d0 bd d0 b3 d0 bb 2e Обратите внимание на то, что слово write, пробел, скобки и точка кодируются одинаково во всех трёх кодировках. Кодировки KOI-8R, windows-1251 и UTF-8 состоят из двух частей. В качестве первой части всех перечисленных кодировкок используется кодировка ASCII (коды 0 - 127) , служащая для представления латиницы,цифр и специальных знаков. Вторые части однобайтных кодировок KOI-8R и windows-1251 содержат коды (128 - кириллицы и ряда специальных символов. Кодировка UTF-8 - многобайтная. Предусмотрена длина кода одного символа от одного до шести байт. На практике используются коды длиной до четырёх байт. Русские буквы (кириллица) представляются 16-битными (двухбайтными) кодами где X обозначены двоичные разряды для размещения кода символа в соответствии с таблицей UNICODE. Юникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Представляемые в юникоде символы кодируются целыми числами без знака. Эти числа будем называть кодами символов в юникоде или просто UNICODE. Юникод имеет несколько форм представления символов в компьютере UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). (Англ. Unicode transformation format - Рассмотрим, как кодируется в UTF-8 буква ЖЕ или 0416 16 или 10000 010110 2 . UNICODE в двоичном виде разбивается на две части пять левых бит и шесть правых. Левая часть дополняется до байта признаком 110 двухбайтного кода UTF-8: 11010000. К правой части приписываются два бита 10 признака продолжения многобайтного кода 10010110. Окончательно код буквы Ж в UTF-8 выглядит так 10010110 или D0 96 Таким образом, русская буква кодируется дважды сначала в 11-битный UNICODE, а затем - в 16-битный Рассмотрим, как отличить в закодированном в UTF-8 тексте однобайтные коды от двухбайтных. Представим часть текста ь (а, содержащую двухбайтные коды русских букв ь и аи заключённые между ними однобайтные коды пробела и открывающей скобки в шестнадцатиричном и двоичном коде (табл. 2). Первый байт букв ь и а начинается признаком первого байта двухбайтного кода 110. Вначале второго байта двухбайтного кода стоит признак продолжения кода 10. Все однобайтные коды начинаюся битом Табл. 2. Отличия однобайтных кодов от двухбайтных Символ ь пробел ) а Шестн. код d1 8c 20 28 d0 b0 Двоич. код 11010001 10001100 00100000 00101000 11010000 10110000 http://i.voenmeh.ru/kafi5/Kam.loc/inform/UprINF_1.html Go 10 captures 31 Oct 2016 - 20 Oct 2019 SEP JUL OCT 17 2018 2019 2020 👤 ⍰ ❎ f 🐦 ▾ About this capture |