Главная страница
Навигация по странице:

  • Преобразование и обработка данных

  • Представление числовых данных

  • Системы счисления Система счисления

  • Методичка. Учебное пособие В. М. Лопатин издание второе, стереотипное 1 17


    Скачать 4.33 Mb.
    НазваниеУчебное пособие В. М. Лопатин издание второе, стереотипное 1 17
    АнкорМетодичка
    Дата10.01.2023
    Размер4.33 Mb.
    Формат файлаpdf
    Имя файлаLopatin_Informatika-dlya-inzhenerov_RuLit_Me_691929.pdf
    ТипУчебное пособие
    #879085
    страница2 из 16
    1   2   3   4   5   6   7   8   9   ...   16
    Единицы измерения и хранения данных
    Для измерения количества информации используют в основном два подхода.
    1. Символьный (алфавитный) подходоснован на делении информационного блока на простые информационные элементы с последующим подсчетом числа этих элементов. В случае текстового блока простым информационным элементом выбирают символ и для каждого символа используют 1 байт памяти. При записи в памяти каждый байт регистрируется в виде двоичного восьмиразрядного кода.
    Количество информации измеряют при этом простым подсчетом числа символов и выражают его в количестве байтов. Использование числа символов для опреде- ления количества информации в тексте лежит в основе алфавитного подхода.
    Алфавитный подход основан на том, что всякое сообщение можно закодиро- вать с помощью конечной последовательности символов некоторого алфавита.
    Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ (информационный вес одного символа), вычисляется по формуле
    2
    log
    ,
    I
    N
    =
    (1) где N – мощность алфавита (полное количество символов, составляющих алфа- вит выбранного кодирования). Из (1) следует, что мощность алфавита можно вы- числить по формуле
    2 .
    I
    N
    =
    (2)
    В алфавите, который состоит из двух символов (двоичное кодирование), каж- дый символ несет 1 бит (log
    2 2 = 1) информации. Если мощность алфавита состав- ляет четыре символа, то каждый символ несет 2 бита информации
    (log
    2 4 = 2); в алфавите из восьми символов – 3 бита (log
    2 8 = 3) и т. д. Один символ из алфавита мощностью 256 несет в тексте 8 бит (log
    2 256 = 8) информации.
    Если весь текст состоит из k символов, то при алфавитном подходе размер содержащейся в нем информации H определяется по формуле
    ,
    H k I
    = ⋅
    (3) где I – информационный вес одного символа в используемом алфавите.
    13 / 17

    14
    Максимальное количество слов L из m букв, которое можно составить из ал- фавита мощностью N, определяется по формуле
    m
    L N
    =
    (4)
    При увеличении объемов информации используют единицу измерения байт с приставками кило-, мега-, гига- и т. д. Соотношения между единицами измере- ния количества информации представлены в табл. 1.
    Таблица 1
    Единицы измерения количества информации
    Наименование единицы
    Форма записи
    Кол-во единиц
    Кол-во байтов
    Кол-во бит
    Килобайт
    Кбайт
    1024 байт
    2 10 2
    13
    Мегабайт
    Мбайт
    1024 Кбайт
    2 20 2
    23
    Гигабайт
    Гбайт
    1024 Мбайт
    2 30 2
    33
    Терабайт
    Тбайт
    1024 Гбайт
    2 40 2
    43
    Петабайт
    Пбайт
    1024 Тбайт
    2 50 2
    53
    Экзабайт
    Эбайт
    1024 Пбайт
    2 60 2
    63
    При переходе от одной единицы измерения к другой используется два про- стых соотношения:
    1 байт = 8 бит; 1 Кбайт = 1024 байт.
    Используя данные, приведенные в табл. 1, можно выполнять перевод из од- них единиц измерения в другие. Например, для перевода величины 100 Мбайт в биты необходимо выполнить следующие преобразования
    100Мбайт = 100∙1024∙1024 байт = 100∙1024∙1024∙8бит.
    Символьный подход чаще всего применяется для оценки емкости памяти за- поминающих устройств, объема файлов или объема передаваемых сообщений.
    При этом содержание самой информации не учитывается и не принимается во внимание.
    Пример. Рассчитаем мощность алфавита, с помощью которого записано со- общение, содержащее 8192 символа и занимающее объем 1/256 Мбайт.
    Исходные данные:
    k = 8192,
    H = 1/256 Мбайт.
    Найти мощность алфавита N.
    14 / 17

    15
    Решение:
    Мощность алфавита находится по формуле N = 2
    I
    , где I – информационный вес одного символа.
    Информационный вес символа I связан с общим объемом информации фор- мулой I = H/k.
    Определяем значение I, соблюдая размерность исходных данных:
    I = H/k = 1024·1024·8/256·8192=2 10
    ·2 10
    ·2 3
    /2 8
    ·2 13
    = 2 2
    = 4 бит.
    Определяем N = 2 4
    = 16 символов.
    Ответ: Мощность алфавита составляет 16 символов.
    2. Содержательный (вероятностный) подход, в котором учитывается со- держание информации, а точнее – вероятность реализации события. При этом более информативным считается то событие, которое менее вероятно, т. е. менее всего ожидалось. В содержательном подходе для подсчета количества информа- ции I используют формулу Шеннона:
    2
    log
    ,
    I
    P
    = −
    (5) где P – вероятность реализации события.
    Так, при случайном доставании белого шара из коробки, в которой находятся
    6 черных и 2 белых шара, количество информации I, соответствующей этому со- бытию, равно
    2 2
    log 2 / 8 log 4 2 бит.
    I
    = −
    =
    =
    Единицей измерения информации, рассчитанной по формуле (5), является
    бит. 1 бит соответствует ситуации, при которой возможен исход двух равнове- роятных событий, т. е. P = 1/2. Единица измерения «бит», или «bit», получила свое название от английского словосочетания «binary digit» – «двойная цифра».
    В памяти компьютера на физическом уровне бит представлен одной ячейкой, ко- торая может находиться в одном из двух возможных состояний, первое из кото- рых соответствует единице, второе – нулю.
    Наряду с формулой (5), в которой используется логарифм по основанию 2, а единицей измерения служит бит, могут применяться другие основания алго- ритма и другие единицы измерения. Десятичному алгоритму соответствует еди- ница измерения дит (за единицу измерения принимается такое количество ин- формации, которое необходимо для исхода десяти равновероятных событий),а натуральному алгоритму – единица измерения нат.
    Формула (5) предназначена для оценки информативности одиночного собы- тия. Для оценки информативности нескольких событий, имеющих разную веро- ятность, формула Шеннона преобразуется к виду
    2 1
    log
    n
    i
    i
    i
    I
    P
    P
    =
    =−

    ,
    (6) где n – количество ожидаемых событий.
    15 / 17

    16
    Формула (6) отражает также величину изменения энтропии, которое соответ- ствует получению информации I.
    Пример. Определим количество информации, связанное с появлением каж- дого символа в сообщениях, записанных на русском языке при условии: а) появ- ление каждого из 34 символов равновероятно; б) символы в тексте встречаются с разной вероятностью p
    i
    (в соответствии с табл. 2).
    Таблица 2
    Вероятность появления символов в текстах на русском языке
    i
    Символ
    p
    i
    i
    Символ
    p
    i
    i
    Символ
    p
    i
    1
    Пробел 0,175 13
    К
    0,028 24
    Г
    0,012 2
    0 0,090 14
    М
    0,026 25
    Ч
    0,012 3
    Е
    0,072 15
    Д
    0,025 26
    И
    0,010 4
    Ё
    0,072 16
    П
    0,023 27
    X
    0,009 5
    А
    0,062 17
    У
    0,021 28
    Ж
    0,007 6
    И
    0,062 18
    Я
    0,018 29
    Ю
    0,006 7
    Т
    0,053 19
    Ы
    0,016 30
    Ш
    0,006 8
    Н
    0,053 20
    З
    0,016 31
    Ц
    0,004 9
    С
    0,045 21
    Ь
    0,014 32
    Щ
    0,003 10
    Р
    0,040 22
    Ъ
    0,014 33
    Э
    0,003 11
    В
    0,038 23
    Б
    0,014 34
    Ф
    0,002 12
    Л
    0,035 а) При условии равновероятного появления каждый символ несет информа- цию:
    2 2
    log log 34 5,09;
    a
    I
    N
    =
    =
    =
    б) с учетом разной вероятности имеем
    (
    )
    34 2
    2 1
    1
    log log
    4,71 4,71.
    n
    б
    i
    i
    i
    i
    i
    i
    I
    P
    P
    P
    P
    =
    =
    =−
    = −

    = − −
    =


    Округляем в большую сторону для равновероятного случая и получаем
    6 бит,
    a
    I
    =
    а при условии разной вероятности
    5 бит.
    б
    I
    =
    Это значит, что количе- ство информации для каждого символа в тексте на русском языке равно 5 бит, а при упрощенном равновероятном условии – на 1 бит больше.
    Если события равновероятны и возможное число этих событий равно N, то
    P = 1/N,и формула Шеннона при этом преобразуется в формулу Хартли,
    16 / 17

    17 2
    2 1
    log log
    I
    N
    N
     
    = −
    =
     
     
    (7)
    Например, при случайном доставании туза пик из колоды, в которой нахо- дится 32 карты, количество информации I, соответствующей этому событию, равно
    2 2
    log 32 5log 2 5 бит.
    I
    =
    =
    =
    Если же в колоде находится не 32, а 36 карт, то расчет по формуле (7) дает результат
    2
    log 36 5,1 7,
    I
    =
    =
    который означает, что 5 бит будет недостаточно и полученный результат нужно округлить в сторону большего целого значения, т. е. I = 6 бит.
    В содержательном подходе учитывается исключительно вероятность реали- зации события и при этом не имеет значения объем информации, необходимый для регистрации события или сообщения.
    Преобразование и обработка данных
    На практике для измерения количества информации чаще используется сим- вольный подход, в котором наименьшей единицей измерения является байт. При этом группа байтов выстраивается по тематическому признаку и образует файл.
    Ф а й л — это совокупность некоторого числа байтов, которая имеет уникаль- ное собственное имя. Обычно в отдельном файле хранят данные одного типа.
    Файл выступает в виде единицы хранения данных, которая подвергается опера- циям обработки и преобразования.
    Имя файла складывается из имени, котороеприсваивает пользователь, и
    расширения файла.
    Имя, которое присваивает пользователь, может иметь до 256 символов (рус- ских или английских), расширение – 3–4 символа (английских).
    Расширение файла – последовательность символов, отделяемая от имени точкой и предназначенная для идентификации типа файла. Расширение файла отражает формат файла – правила кодирования данных, которые используются в соответствующих программах. Если говорят, что данные сохраняются в неко- тором формате, то это значит, что имеется программа, которая умеет обрабаты- вать этот формат. Файлы, имеющие одинаковую информацию, могут отличаться форматом представления данных. Например, графические файлы, содержащие одинаковое изображение, в разных графических редакторах имеют разное рас- ширение. Перевод файла из одного представления в другое называется перефор-
    матированием, или конвертацией.
    К о н в е р т а ц и я файла – преобразование с видоизменением данных, предна- значенное для перехода к другим условиям обработки. Конвертация выполня- ется с помощью программ, которые называются конверторами. Иногда конвер- тация файла связана с потерей части данных.
    17 / 17

    18
    Сведения о файлах собираются в файловой структуре.
    Файловая структура построена по табличному принципу. В таблицу зано- сятся имена файлов и данные о размещении файлов. При размещении файлов в качестве наименьшей единицы измерения используют один сектор, размер ко- торого фиксирован (обычно 512 байт). Группа секторов объединяется в кластер, размер которого строго не фиксирован (рис. 4). Каждый кластер имеет адрес, ко- торый используется при обращении к данным. Кластер является наименьшей единицей адресации, а данные об адресах кластеров собираются в таблицах фай- ловой структуры [1].
    К л а с т е р – минимальный объем дискового пространства, выделяемый для сохранения файла и состоящий из одного или нескольких смежных секторов.
    Рис. 4. Структурные элементы диска
    При сохранении файла его данные записываются в один или несколько по- следовательно расположенных кластеров. После сохранения файла кластеры становятся занятыми, при этом кроме имени файла сохраняются сведения о его
    размере, дате и времени сохранения, а также адрес первого кластера файла. По- сле каждого преобразования файла его данные перезаписываются на новом ме- сте. Если на диске не хватает свободного неразрывного места для сохранения файла, то возможна фрагментация файла – разделение на части с распределе- нием частей в несмежных кластерах.
    В процессе хранения данные, которые представлены в файлах, могут быть обработаны и преобразованы. Обработка данных включает в себя набор различ- ных операций, некоторые из них перечислены ниже.
    1. Сбор данныхнакопление данных с целью получения достоверной ин- формации, достаточной для принятия решения.
    1 / 17

    19 2. Формализацияприведение данных из разных источников к одинаковой форме с целью сравнения и дальнейшей обработки.
    3. Фильтрацияотсеивание избыточных данных или удаление информаци- онного шума с целью повышения достоверности информации.
    4. Сортировкаперегруппировка данных и их упорядочение по заданному параметру для удобства пользования и доступности.
    5. Архивацияорганизация хранения данных в компактной и доступной форме для снижения затрат и защиты информации.
    6. Защитавключает комплекс мер, направленных на предотвращение ко- пирования, модификации или утраты данных.
    7. Транспортировка – передача или прием данных, осуществляемых между отправителем и получателем, в соответствии с принятыми правилами обмена.
    8. Преобразование – обработка и переформатирование данных или приве- дение к удобной для практического использования форме. Обработку и преобра- зование данных выполняют с помощью специальных программ, каждая из кото- рых предназначена для выполнения специфического набора операций и пред- ставления обработанных данных в новом формате.
    2 / 17

    20
    Представление числовых данных
    Окружающая нас информация всегда существует в закодированной форме.
    Форма кодирования определяется системой, с помощью которой осуществляется представление информации. Известны следующие системы кодирования:
    − естественные человеческие языки – кодирование понятий с помощью речи;
    − азбука Морзе – кодирование алфавита последовательностью коротких и длинных сигналов;
    − система Брайля – кодирование алфавита рельефно-точечным шрифтом
    (для незрячих и плохо видящих людей).
    В общем виде можно сказать, что кодирование – это изменение типа данных или переход от одного формата к другому, более подходящему для хранения, передачи или обработки информации. В информатике и вычислительной технике существует своя система кодирования, которая называется двоичным кодирова-
    нием. Система двоичного кодирования основана на представлении данных через двоичную систему счисления.
    Системы счисления
    Система счисленияспособ записи чисел с помощью заданного набора специальных символов, которые называются цифрами.
    Основаниесистемысчисленияколичество цифр, используемых для за- писи чисел.
    Различают позиционные и непозиционные системы счисления.
    Непозиционнаясистемы счисления– система, в которой символы не ме- няют своего значения при смене их местоположения (позиции) в изображении числа.
    К непозиционной системе относится римская система, используемые в ней обозначения показаны в табл. 3. Запись чисел в римской системе счисления осу- ществляется по простым правилам:
    1) если цифра слева меньше, чем цифра справа, то левая цифра вычитается из правой (IX: 10 – 1 = 9; XС: 100 – 10 = 90);
    Таблица 3
    Непозиционная римская система счисления
    Римские цифры
    Значение
    (обозначаемое количество)
    Римские цифры
    Значение
    (обозначаемое количество)
    I
    1
    C
    100
    V
    5
    D
    500
    X
    10
    M
    1000
    L
    50 3 / 17

    21 2) если цифра справа меньше или равна цифре слева, то эти цифры складыва- ются (VII: 5 + 1 + 1 = 7; XXXV: 10 + 10 + 10 + 5 = 35);
    3) нельзя записывать подряд 4 одинаковых цифры.
    Пример записи числа 984 в римской системе счисления:
    900 – CM, 80 – LXXX, 4 – IV, отсюда 984 = CMLXXXIV.
    В математическом аппарате информатики используются десятичная, двоич-
    ная, восьмеричная и шестнадцатеричная системы счисления (табл. 4). Все эти системы счисления относятся к системам позиционноготипа, в которых вели- чина, обозначаемая цифрой в записи числа, зависит от ее позиции.
    Таблица 4
    Позиционные системы счисления
    Название системы
    Основание системы
    Обозначение
    Цифры и символы для записи чисел
    Двоичная
    2
    Bin
    0 1
    Восьмеричная
    8
    Oct
    0 1 2 3 4 5 6 7
    Десятичная
    10
    Dec
    0 1 2 3 4 5 6 7 8 9
    Шестнадцатерич- ная
    16
    Hex
    0 1 2 3 4 5 6 7 8 9 A B С D E F
    Для перевода чисел из одной системы счисления в другую используют про- стые математические алгоритмы или делают перевод с помощью калькулятора.
    Использование калькулятора, например, позволяет представить и сравнить число R в разных системах счисления:
    R = 1234 10
    = 10011010010 2
    = 2322 8
    = 4D2 16
    В этой записи подстрочный индекс используется для обозначения основания системы счисления. Общая формула для представления числа R в системе счис- ления с основанием q имеет вид:
    0 1
    ·
    ·
    k
    i
    j
    q
    i
    j
    i n
    j
    R
    a q
    a q

    =
    =−
    =
    +


    , (8) где n – количество символов a
    i
    с положительными показателями степеней; k – количество символов a
    j
    с отрицательными показателями степеней.
    Формула (8) позволяет представить любое число в развернутой форме записи:
    386,15 10
    = 3
    ⋅10 2
    + 8
    ⋅10 1
    + 6
    ⋅10 0
    + 1
    ⋅10
    -1
    + 5
    ⋅10
    –2
    ,
    1111, 01 2
    = 1
    ⋅2 3
    + 1
    ⋅2 2
    + 1
    ⋅2 1
    + 1
    ⋅2 0
    + 1
    ⋅2
    –2
    ,
    6ВF,A
    16
    = 6
    ⋅16 2
    + В
    ⋅16 1
    + F
    ⋅16 0
    + A
    ⋅16
    –1 4 / 17

    22
    1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта