Тема № 2, вопрос 2. КОДИРОВАНИЕ ТЕКСТА. ФАЙЛЫ. Тема компьютерные и мультимедиа технологии
Скачать 0.99 Mb.
|
1 Тема 2. КОМПЬЮТЕРНЫЕ И МУЛЬТИМЕДИА ТЕХНОЛОГИИ Вопросы лекции: 2. Кодирование текста. Файлы. 2. Кодирование текста. Файлы 2.1. Кодирование текста Код – это система условных знаков для представления информации. Кодирование – это операция преобразования знаков или групп знаков одной знаковой системы в знаки или группы знаков другой знаковой системы. Примером может служить язык жестов или язык Морзе. Люди используют десятичную систему счета, так как имеют десять пальцев. Но любое число можно записать в разных системах исчисления (таблица 1). Таблица 1 – Системы кодирования информации Двоичная (основание – 2) Восьмеричная (основание – 8) Десятичная (основание – 10) Шестнадцатеричная (основание – 16) триады тетрады 0 0 000 0 0 0000 1 1 001 1 1 0001 2 010 2 2 0010 3 011 3 3 0011 4 100 4 4 0100 5 101 5 5 0101 6 110 6 6 0110 7 111 7 7 0111 8 8 1000 9 9 1001 А 1010 B 1011 C 1100 D 1101 E 1110 F 1111 Самый распространенный способ кодирования текстовой информации – это ее двоичное представление. Сама технология двоичного представления информации зародилась еще задолго до появления первых компьютеров. Рис.1 Среди первых устройств, которые использовали двоичный метод кодирования, был аппарат Бодо – телеграфный аппарат, который кодировал информацию в 5 битах в двоичном представлении (рисунок 1). Суть кодировки заключалась в простой последовательности электрических импульсов: 0 – импульс отсутствует; 1 – импульс присутствует. Компьютер – это электрическая машина, работающая на электронных схемах (таблица 2). Сравнительно просто сформировать схемы, выделяя два напряжения. Будем называть напряжения «включено» и «выключено». При этом, сформировать схемы, которые бы были способны надежно различать десять различных напряжений – возможно, но технически существенно сложнее. 2 Таблица 2 – Варианты двоичного кодирования в устройствах Устройства 1 0 Электронные схемы Проводят электрический ток Не проводят электрический ток Участок поверхности магнитного носителя (жесткий диск, флеш-накопитель) Намагничен Размагничен Участок поверхности оптического диска Отражает луч Не отражает луч Каждая цифра машинного двоичного кода (т.е. 0 и 1) несет количество информации, равное 1 бит. Два бита – это четыре комбинации: 1 1, 1 0, 0 1 и 0 0. Каждый добавленный бит удвоит число комбинаций. То есть три бита – это 8 комбинаций, четыре бита – 16 комбинаций, пять – 32 и т.д. Формула, которая связывает количество возможных событий (К) и количество информации (I): К = 2 I По этой формуле можно определить максимальное число символов, которые можно закодировать (символы = возможные события). Мы вводим текст в компьютер при помощи клавиатуры, символы которой мы прекрасно понимаем. Нажимая на какую-то букву, мы отправляем в оперативную память компьютера двоичное представление нажатых клавиш. Каждый отдельный символ будет представлен 8-битной кодировкой. Символы – это не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, пробелы между словами, спецсимволы типа "=", "(", "&" и т.п. Например, буква «А» – это «11000000» (рисунок 2). Рис. 2 Число возможных комбинаций для 1 байта, по приведенной выше формуле, составит: К = 2 8 = 256. При этом, в английском языке 26 букв. Добавляем к ним 10 цифр, пробел, арифметические символы и знаки пунктуации. Получаем минимальное количество комбинаций, которое необходимо – 64. Следовательно, для кодирования текстовой информации 256 комбинаций более чем достаточно. Кодирование текстовой информации в компьютерных устройствах сводится к тому, что каждому отдельному символу присваивается уникальное десятичное значение от 0 и до 255 или его эквивалент в двоичной форме от 00000000 и до 11111111. Люди могут различать символы по их внешнему виду, а компьютерное устройство только по их уникальному коду. Таблица кодировки – это таблица, где каждой букве алфавита, цифре и специальному знаку присвоен уникальный номер – код символа. Все таблицы кодировки являются согласованными, чтобы не возникало путаницы между документами, закодированными по одной таблице, но на разных устройствах. На сегодняшний день существует множество таблиц кодировок. Из-за этого часто возникают проблемы с переносом текстовых документов между устройствами. Так получается, что если текстовая информация была закодирована по одной какой-то таблице, то и раскодирована она может быть только по этой таблице. Если попытаться раскодировать другой таблицей, то в результате получим только набор непонятных символов. Наиболее популярные таблицы кодировки: ASCII, MS-DOS, ISO, Windows, КОИ8, CP866, Mac, CP 1251, Unicode и др. Стандарт ASCII (American Standard Code for Information Interchange) Одной из первых была разработана однобайтовая кодировка ASCII. Каждый символ в этой кодировке закодирован 8-ю битами. 3 Первые 7 бит (128 символов 2 7 =128) в этой кодировке были отданы под символы латинского алфавита, управляющие символы (такие как переносы строк, табуляция и т.д.) и грамматические символы. Они называются основной таблицей ASCII (таблица 3). Рис. 3 Оставшейся 128 комбинацией символов в компьютерах IBM PC кодировали специальные символы, буквы с умляутами (они используются в некоторых европейских языках), комбинации уголков и перекрещивающихся линий для создания псевдографического интерфейса. Таблица 3 – Основная таблица ASCII Эти же дополнительные 128 комбинаций использовали для кодирования других алфавитов. То есть получилось, что первые 128 символов всегда одинаковые, а если хочешь закодировать свой родной язык – используй оставшуюся емкость. Для русского языка использовали кодировки: CP (Code Page) 866 – была в DOS; CP1251 – была в старых версиях Windows; KOI8-R – первая русская кодировка в Интернете. 1 Документ, созданный в одной из национальных кодировок, отображался мешаниной непонятных символов (кракозябрами) у пользователя, который не указал правильную кодировку. Одновременно, существуют языки, использующие более тысячи символов (например, в языковой группе юго-восточной Азии). И даже в расширенных версиях ASCII выделенного объема комбинаций для их кодирования не хватало. 1 Источник для самостоятельного прочтения: https://javarush.ru/groups/posts/1418-kodirovka-teksta-ascii-windows-1251- cp866-koi8-r-i-junikod-utf-8-16-32--kak-ispravitjh-problemu?ysclid=l97g2slt6t655814086 4 Таблица Unicode – универсальные кодировки UTF 8, 16 и 32 При сотрудничестве многих лидеров IT-индустрии, которые были заинтересованы в появлении универсальной кодировки текста, был создан консорциум Unicode (Unicode Consortium). Unicode – это международный стандарт, таблица символов, которая состоит из 1114112 позиций, из которых заполнены 138 тысяч позиций (кодов) для символов всех языков и знаковых систем, начиная от клинописи и заканчивая древними египетскими иероглифами. Представлены и обозначения мер и весов, нотных грамот, математических понятий. Таблица разделена на 17 блоков, по 65536 символов в каждом. Каждый блок содержит свою группу символов. Нулевой блок – базовый, там собраны наиболее употребляемые символы всех современных алфавитов. Во втором блоке находятся символы вымерших языков. Есть два блока отведенные под частное использование. Большинство блоков пока не заполнены. Итого емкость символов юникода составляет от 0 до 10FFFF (в шестнадцатиричном виде). Записываются символы в шестнадцатиричном виде с приставкой «U+». Например, кириллическая заглавная буква М обозначена U+041C. Это значит, что она стоит на пересечении строки 041 и столбца С. Первый базовый блок включает в себя символы от U+0000 до U+FFFF (от 0 до 65 535), а последний семнадцатый блок от U+100000 до U+10FFFF (от 1048576 до 1114111). Таблицу Unicode можно посмотреть здесь: https://unicode-table.com/ru/ На сайте есть поиск по названию символа. Зайдя на страницу символа, вы увидите его номер в Unicode и способ начертания в разных шрифтах. В строку поиска можно вбить и сам знак, даже если вместо него отображается квадратик, чтобы узнать, что это было. Существуют три юникод-кодировки: UTF-32; UTF-16; UTF-8. Цифра в названии кодировки означает количество бит, которое используется для кодирования одного символа. То есть, в UTF-32 для кодировки одного символа используется 4 байта, а в UTF-16 – два байта. Самая используемая кодировка – UTF-8 (Unicode Transformation Format), несмотря на восьмерку в названии, имеет переменную длину. Для изображения символа задействует от 1 до 4 байт, поэтому UTF-8 совместима с кодировкой ASCII. Символы с кодами от 0-го по 127-й кодируются ровно одним байтом. То есть все тексты, закодированные в ASCII одновременно являются и тестами, закодированными в UTF-8. Символы со 128-го по 2074-й кодируются уже двумя байтами. Туда входят практически все мировые алфавиты. Но даже Unicode не решил всех проблем с кодированием текста. Дело в том, что в некоторых языках тексты пишутся не слева-направо, а справа-налево. А иероглифы в некоторых восточных языках вообще пишутся сверху вниз. Рис. 4 В Unicode вместо текста вы видите похожую на рисунок 4 картинку с пустыми квадратиками. В чем же проблема? Все дело в шрифтах. Символы в компьютере – это лишь числа. А шрифты – это изображения символов, понятные человеку, поэтому они содержатся в специальном файле. Шрифт – это художественное произведение и на него распространяются авторские права. Шрифты бывают свободно используемые (устанавливаются вместе с ОС) и платные. Художник не может нарисовать 130 тысяч символов Unicode, поэтому если нужных символов нет в выбранном шрифте, нужно просто выбрать другой шрифт. 5 2.2. Файлы Файл – это определённый объем структурированной информации, объединенной общим смыслом и собранной в одной оболочке. Данные на цифровых носителях хранятся в виде документов – адресуемой области памяти на накопителе, единице, базовом объекте при работе программного обеспечения с данными. Физически файл – это контейнер, внутри которого определённым образом сосредоточена информация. Способ её размещения, позволяющий считывать и записывать данные внутрь контейнера называется форматом. Программы и операционные системы для работы с данными обращаются к файлам как элементарным единицам цифрового объекта. Информацию об адресах ячеек, последовательности обращения к ним для считывания содержимого контейнера им сообщает драйвер файловой системы. Например,в операционной системе UNIX документами являются даже порты и периферийные устройства. Все файлы четко структурированы в зависимости от своих свойств и расширений. А вся эта структура называется файловая система, управление которой осуществляет операционная система компьютера за счет подачи команд пользователем. Здесь все как в хорошей библиотеке все книги (файлы) разложены по своим стеллажам и полочкам (файловая система). А библиотекарь (операционная система) получая запрос от посетителя (пользователь) выдает ему информацию в виде книг. Для идентификации объектов (документов) на дисках применяется адресация. Под адресом подразумевается имя, название, полный путь к объекту. Документ может храниться только на одном диске, и для удобства работы помещаться в каталоги или папки. Это виртуальная структура, содержащая сведения о находящихся в ней объектах. Для обращения к документу используется его полный адрес, включающий: Название диска. Наименование папки (каталога, директории). Имя файла. Расширение файла – идентификатор, указывающий на внутреннюю структуру, формат данных. Пример. C:\Windows\system32\calc.exe: C:\ – устройство хранения, диск – буква английского алфавита. После неё ставится двоеточие. Windows\system32 – иерархия каталогов, путь в папке с объектом. Calc.exe – имя файла, состоит из двух частей: название – calc и указанного через точку расширения – exe. Если объект хранится в сети, перед его полным путём указывают: Метод доставки, протокол: https, ftp. Адрес хоста или узла сети: *********.ru. Для осуществления действий с файлами пользователь использует файловый менеджер, который в Windows называется Проводник, в Mac OS – Finder, в Linux – Nautilus. Даже внешне они похожи, как близнецы-братья. Современные операционные системы – многопользовательские. Для каждой учетной записи пользователя создается отдельная «Домашняя директория». В нее операционная система вкладывает все, что связано с пользователем – документы, личные файлы, содержимое рабочего стола, настройки различных программ, историю просмотра веб-страниц, настройки системы, в том числе выбранные раскладки клавиатуры, и так далее. В Windows и в Mac OS домашние папки пользователей хранятся в директории «Users», в Linux – в директории «Home». Имя или название файла – создается или меняется операционной системой, программами или пользователями. В зависимости от файловой системы имена имеют ограничения по количеству символов. В системе NTFS (стандартной для Windows) количество символов не может быть более 256 символов. В системах FAT количество символов ограничено 8 знаками на имя и 3 знаками на расширение. Установленная операционная система определяет ограничения на символы, используемые в имени файла. Так, в Windows допустимо использование в имени файла символов Unicode за исключением ряда специальных знаков: двойной кавычки, черты и косой черты, вертикальной линии, вопросительного знака, звёздочки, двоеточия, знаков «больше» и «меньше». 6 Для экономии дискового пространства и трафика во время передачи по сети файлы архивируют – сжимают. Существуют компьютерные алгоритмы для уменьшения размеров файлов без потери информации. На самом деле, еще древние римляне и греки умели сжимать информацию без потерь. Такой способ письма назывался стенографией. Некоторые сочетания букв в языках встречаются чаще других, поэтому на письме их можно заменять более короткими символами. Есть и другой способ сжимать информацию. Например, когда вы что-то конспектируете, и в конспекте появляется длинное слово «диверсификация». В конспекте ему можно придумать короткое обозначение, например «Д» в кружочке и использовать только его (рисунок 5). Рис. 5 Программы-архиваторы обычно используют оба этих способа. Компрессия позволяет убирать из файлов избыточность, то есть если в файле много повторяющихся фрагментов, то и коэффициент сжатия будет достаточно большим, и файл сожмется хорошо. Видео, установщики, аудио, многие графические документы сжаты по умолчанию, текстовые (txt, docx) и несжатые типы (bmp, aiff, wav, raw – исходники фото с цифровых камер) архивируются лучше всего. Расширение – не обязательная часть документа. Оно служит для идентификации объектов пользователем, операционной системой и программами, указывает на формат файла. ОС устанавливает взаимосвязь, ассоциацию между разрешением и приложениями. При открытии пользователем документа он автоматически загружается в привязанную к разрешению программу. Выглядит, как несколько последних символов после точки в имени файла. В современной файловой системе NTFS расширение является условностью, в отличие от более ранних версий. Фактически оно виртуально и имя файла может иметь несколько расширений сразу, например «.tar.gz». Среди наиболее распространенных типов можно выделить: .txt – простой текстовый документ; .doc, .docx, .docm, .rtx – форматированный текстовый документ; .xls, .xlsx, .xlsm, .ods, .csv – электронные таблицы; .jpg, .jpeg, .gif, .png – растровая графика; .mp3, .ogg, .wma – музыкальные; .mpeg, .264, .avi – видео; .rar, .zip, .tg – архивы; .exe, .cmd, .bat – исполняемые и др. В одной директории не могут размещаться два объекта с одинаковыми именами и расширениями. Размер файла – каждый файл занимает определённое место на жестких дисках. Размер места измеряется в следующих единицах: 7 Байт (б) = 8 бит Килобайт (кб) =1024 байт Мегабайт (мб) = 1024 кб Гигабайт (гб) = 1024 мб Терабайт (тб) = 1024 гб Петабайт (пб) = 1024 тб Эксабайт (эб) = 1024 пб Зеттабайт (зб) = 1024 эб Йоттабайт (йб) = 1024 зб Время – могут присутствовать время создания, время последнего изменения и время последнего доступа. Для документов в Windows предусмотрены атрибуты – метаданные, дополнительная информация, описывающая их. В Windows предусмотрено четыре атрибута со значением «Активно» либо «Отключено»: Архивный – применяется в резервном копировании, значит, что объект подвергался изменению со времени последнего резервирования. Скрытый – не отображается в Проводнике и файловых менеджерах до включения специального режима. Системный – критически важный для функционирования операционной системы. Только чтение – запрет на изменение документа. Атрибуты нужны, чтобы операционная система могла спрятать от пользователей ряд файлов. Устанавливаются и снимаются атрибуты в свойствах документа, вызываемые правой клавишей мыши (рисунок 6). Рис. 6 Права доступа к файлу – операционная система позволяет задавать права на доступ к файлу отдельным пользователям или группам. К ним относятся права на чтение, запись, удаление и т.д. Администратор компьютера может запретить доступ другому пользователю к некоторым файлам или папкам. Право назначается в виде разрешения или запрещения. Запрет имеет более высокий приоритет, так если доступ к папке и всему её содержимому разрешен, а доступ к конкретному файлу в этой папке запрещен для этого пользователя, то он не сможет открыть этот файл. |