Учебник_Информатика. Стандарт третьего поколениян. В. Макарова, В. Б. Волков
Скачать 14.49 Mb.
|
даватель»; • информация о факультетах — в виде информационного объекта «Факультет» и т. п. Свойства информационного объекта определяются информационными пара метрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными (например, вес, стоимость, год), либо признаками (например, цвет, марка машины, фамилия). 32 Глава 1. Представление об информации Пример. Информация о каждом студенте в отделе кадров университета система тизирована и представлена посредством одинаковых реквизитов: • фамилия, имя, отчество; • пол; • год рождения; • место рождения; • адрес проживания; • факультет, где проходит обучение студент, и т. д. Все перечисленные реквизиты характеризуют свойства информационного объ екта «Студент». Кроме выявления общих свойств информационного объекта, классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов. Пример. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию обо всех книгах по определенной тематике, об авторах, абонентах и т. д. Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, прибыли, заказчиках, видах производимой продукции и т. д. Алгоритмы обработки в том и другом случае преследуют разные цели, обрабаты вают разную информацию, реализуются разными способами. В любой стране разработаны и применяются государственные, отраслевые и региональные классификаторы. Например, классифицированы отрасли про мышленности, оборудование, профессии, единицы измерения, статьи затрат и т. д. При классификации широко используются понятия «классификационный при знак» и «значение классификационного признака», которые позволяют установить степень сходства или различия объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное признаком классификации. Синонимом признака классификации является основание деления. Пример. В качестве признака классификации выбирается возраст, который со стоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет. Можно в качестве признаков классификации использовать возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет. 1.6. Основы классификации и структурирования информации 33 Логическим продолжением задачи классификации является задача кластериза ции, которую можно воспринимать как автоматическую классификацию. Главное отличие кластеризации в том, что перечень классов (групп) и их характеристики четко не заданы и определяются в процессе работы алгоритма. Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения класси фикационных признаков. 1.6.1. Иерархическая система классификации Иерархическая система классификации (рис. 1.4) строится следующим образом: □ исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), кото рые образуют 1-й уровень; □ каждый класс 1-го уровня в соответствии с характерным классификационным признаком делится на подклассы, которые образуют 2-й уровень; □ каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т. д. Рис. 1.4. Иерархическая система классификации С учетом достаточно жесткой процедуры построения структуры классификации необходимо перед началом работы определить ее цель, то есть выяснить, какими свойствами должны обладать объединяемые в классы объекты. Эти свойства при нимаются в дальнейшем за признаки классификации. В Н И М А Н И Е --------------------------------------------------------------------------------------------------------------- В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков. В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным зна чением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от 34 Глава 1. Представление об информации семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. • Количество уровней классификации, соответствующее числу признаков, вы бранных в качестве основания деления, характеризует глубину классификации. Достоинства иерархической системы классификации: □ простота построения; □ использование независимых классификационных признаков в различных вет вях иерархической структуры. Недостатки иерархической системы классификации: □ жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; □ невозможность группировать объекты по заранее непредусмотренным сочета ниям признаков. Пример. Поставлена задача — создать иерархическую систему классификации для информационного объекта «Факультет», которая позволила бы классифи цировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором учится студент, возрастной состав студентов, пол студента, для женщин — наличие детей. Система классификации, представленная на рис. 1.5, будет иметь следующие уровни: • 0-й уровень. Информационный объект «Факультет». • 1-й уровень. Выбирается классификационный признак — название факульте та, что позволяет выделить несколько классов с разными названиями факуль тетов, в которых хранится информация обо всех студентах. • 2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому фа культету выделяются три возрастных подкласса студентов. • 3-й уровень. Выбирается классификационный признак — пол. Каждый под класс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы: мужчины и женщины. • 4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет. Созданная иерархическая система классификации имеет глубину классификации, равную четырем. (Факультет) (Коммерческий) (Информационные системы) (До 20 лет) (20-30 лет) (Свыше 30 лет) (До 20 лет) (20-30 лет) (Свыше 30 лет) Рис. 1.5. Пример иерархической системы классификации для информационного объекта «Факультет» 1.6. Основы классификации и структурирования информации 35 1.6.2. Фасетная система классификации Фасетная система классификации в отличие от иерархической позволяет вы бирать признаки классификации независимо как друг от друга, так и от семанти ческого содержания классифицируемого объекта. Признаки классификации на зываются фасетами (facet — рамка). Каждый фасет (Ф*) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение. Пример. Фасет цвет содержит значения: красный, белый, зеленый, черный, жел тый. Фасет специальность содержит названия специальностей. Фасет образование содержит значения: среднее, среднее специальное, высшее. Схема построения фасетной системы классификации в виде таблицы пред ставлена на рис. 1.6. Названия столбцов соответствуют выделенным классифи кационным признакам (фасетам), обозначенным Ф ь Ф 2, ..., Ф„ ..., Ф„ (например: цвет, размер одежды, вес и т. д.). Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обо значенный как Ф 2, содержит значения красный, белый, зеленый, черный и желтый. Процедура классификации состоит в присвоении каждому объекту соответству ющих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования: Ks = ( Ф Ь Ф 2, ..., Ф„ ..., Ф„) Здесь Ф* — г-й фасет; п — количество фасетов. Фасеты Значения фасетов Ф 1 Ф , Фя Ф, Ф„ Рис. 1.6. Фасетная система классификации При построении фасетной системы классификации необходимо, чтобы значе ния, используемые в различных фасетах, не повторялись. Фасетную систему лег ко можно модифицировать, внося изменения в конкретные значения любого фасета. Достоинства фасетной системы классификации: □ возможность достижения большой емкости классификации, то есть исполь зования большого количества признаков классификации и их значений для создания группировок; 36 Глава 1. Представление об информации □ возможность простой модификации всей системы классификации без измене ния структуры существующих группировок. Недостатком фасетной системы классификации является сложность ее по строения, так как необходимо учитывать все многообразие классификационных признаков. Пример. Вернемся к примеру из подраздела «Иерархическая система класси фикации» и для сопоставления разработаем фасетную систему классификации. Сгруппируем и представим в виде таблицы (табл. 1.1) все классификационные признаки по фасетам: • название факультета — фасет с пятью названиями факультетов; • возраст — фасет с тремя возрастными группами; • пол — фасет с двумя градациями; • дети — фасет с двумя градациями. Структурную формулу любого класса можно представить в виде. Ks = (Факультет, Возраст, Пол, Дети). Присвоив конкретные значения каждому фасету, получим следующие классы: • К\ = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети)', • К2 = (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет); • К3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) ит. д. Таблица 1.1. Пример фасетной системы классификации для информационного объекта «Факультет» Название факультета Возраст Пол Дети Радиотехнический До 20 лет М Есть Машиностроительный 20-30 лет Ж Нет Коммерческий Свыше 30 лет Информационные системы Математический 1.6.3. Дескрипторная система классификации Д ля организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классифика ции, язык которой приближается к естественному языку описания информаци онных объектов. Особенно широко она применяется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем: 1. Отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут быть синонимы. 1.6. Основы классификации и структурирования информации 37 2. Выбранные ключевые слова и словосочетания подвергаются нормализации, то есть из совокупности синонимов выбирается один или несколько наиболее употребимых. 3. Создается словарь дескрипторов, то есть словарь ключевых слов и словосочета ний, отобранных в результате процедуры нормализации. Пример. В качестве объекта классификации рассмотрим успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбираем учебную деятельность в высшем учеб ном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т. д. Среди указанных ключевых слов встречают ся синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т. д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т. д. Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: □ синонимические связи указывают некоторую совокупность ключевых слов как синонимов; □ родо-видовые связи отражают включение некоторого класса объектов в более представительный класс; □ ассоциативные связи соединяют дескрипторы, обладающие общими свойствами. Пример. Синонимическая связь: студент — учащийся — обучаемый. Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория. 1.6.4. Классификация информации по разным признакам Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто встречаются ситу ации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. Эти рассуждения особенно актуаль ны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потреби телями, для разных целей. В табл. 1.2 приведена одна из схем классификации циркулирующей в органи зации (фирме) информации. В основу классификации положено пять наиболее 38 Глава 1. Представление об информации общих признаков: место возникновения, стадия обработки, способ отображения, стабильность, функция управления. Таблица 1.2. Классификация информации, циркулирующей в организации Информация По месту возникновения По стабильности По стадии обработки По способу отображения По функции управления Входная Переменная Первичная Текстовая Плановая Выходная Постоянная Вторичная Графическая Нормативно-спра- вочная Внутренняя Промежуточная Учетная Внешняя Результатная Оперативная Место возникновения По признаку места возникновения информацию можно разделить на входную, выходную, внутреннюю, внешнюю. Входная информация — это информация, поступающая в фирму или ее под разделения. Выходная информация — это информация, поступающая из фирмы в другую фирму, организацию (подразделение). Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) может быть определена информация как внутренняя, так и внешняя. Внутренняя информация возникает внутри объекта, внешняя — за пределами объекта. П рим ер. Содержание указа правительства об изменении уровня взимаемых налогов для фирмы является, с одной стороны, внешней информацией, с дру гой — входной. Сведения фирмы, подаваемые в налоговую инспекцию о размере отчислений в госбюджет, являются, с одной стороны, выходной информацией, с другой — внешней по отношению к налоговой инспекции. Стадия обработки По стадии обработки информация может быть первичной, вторичной, проме жуточной, результатной. Первичная информация — это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторич ная информация — это информация, которая получается в результате обработки первичной информации; она может быть промежуточной и результатной. Проме жуточная информация используется в качестве исходных данных для последую щих расчетов. Результатная информация получается в процессе обработки пер вичной и промежуточной информации и служит для выработки управленческих решений. 1.6. Основы классификации и структурирования информации 39 П ример. В художественном цехе, где производится роспись чашек, в конце каждой смены регистрируется общее количество произведенной продукции и ко личество каждым работником расписанных чашек. Это первичная информация. В конце каждого месяца мастер подводит итоги первичной информации. Это, с од ной стороны, вторичная промежуточная информация, а с другой — результатная. Итоговые данные поступают в бухгалтерию, где производится расчет заработной платы каждого работника в зависимости от его выработки. Полученные расчетные данные — результатная информация. Способ отображения По способу отображения информация подразделяется на текстовую и графи ческую. Текстовая информация — это совокупность алфавитных, цифровых и специ альных символов, с помощью которых информация представляется на физическом носителе (бумага, изображение на экране дисплея). Графическая информация — это различного рода графики, диаграммы, схемы, рисунки и т. д. Стабильность По стабильности информация может быть переменной (текущей) и постоянной (условно-постоянной). Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т. п. Постоянная (условно-постоянная) информация — это неизменная и многократно используемая в течение длительного периода времени информация. Постоянная информация может быть справочной, нормативной,плановой: □ постоягшая справочная информация включает в себя описание постоянных свойств объекта в виде устойчивых длительное время признаков (например: табельный номер служащего, профессия работника, номер цеха и т. п.); □ постоянная нормативная информация содержит местные, отраслевые и обще государственные нормативы (например: размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим); □ постоянная плановая информация содержит многократно используемые в фир ме плановые показатели (например: план выпуска телевизоров, план подготовки специалистов определенной квалификации). Функция управления По функциям управления обычно классифицируют экономическую информа цию, при этом выделяют следующие группы: плановая, нормативно-справочная, учетная и оперативная (текущая). |