Главная страница
Навигация по странице:

  • Система управления базами данных

  • Регламентное обслуживание

  • лекции ит в юр деят. Тема базовые типы информационных систем 1 Понятие фактографической информационной системы


    Скачать 67.93 Kb.
    НазваниеТема базовые типы информационных систем 1 Понятие фактографической информационной системы
    Дата27.06.2022
    Размер67.93 Kb.
    Формат файлаdocx
    Имя файлалекции ит в юр деят.docx
    ТипДокументы
    #616904
    страница1 из 5
      1   2   3   4   5

    Тема 2. БАЗОВЫЕ ТИПЫ ИНФОРМАЦИОННЫХ СИСТЕМ

    2.1 Понятие  фактографической информационной системы

     

    Фактографические ИС оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных записей данных.  ИС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, предприятиях, акционерах и т. д.). По своей сути такая ИС представляет собой систему управления базами структурированных данных.

    Важнейшие требования к ИС – хранение и обработка данных – не были реализованы возможностями систем управления файлами, существовавшими в 60-х годах; отсутствовали поддержание логически связанных файлов, средства восстановления данных в системе после сбоев и параллельная работа нескольких пользователей; не был реализован язык манипулирования данными.

    В начале 70-х гг. был разработан новый вид программного обеспечения – системы управлении базами данных, позволивший структурировать, систематизировать и организовать данные для их компьютерного хранения и обработки. 

    База данных (БД) представляет собой совокупность специальным образом организованных данных, хранимых в памяти вычислительной системы и отображающих состояние объектов и их взаимосвязей в рассматриваемой предметной области. 

    Логическую структуру хранимых в базе данных называют моделью представления данных. К основным моделям представления данных (моделям данных) относятся следующие: иерархическая, сетевая, реляционная, постреляционная, многомерная и объектно-ориентированная. 

    Система управления базами данных (СУБД) – это комплекс языковых и программных средств, предназначенный для создания, ведения и совместного использования БД многими пользователями. Обычно СУБД различают по используемой модели данных. Так, СУБД, основанные на использовании реляционной модели данных, называют реляционными СУБД. СУБД предназначена для централизованного управления базой данных как социальным ресурсом в интересах всей совокупности пользователей. СУБД реализуют следующие функции:

    1. Управление данными во внешней памяти. Функция управления данными во внешней памяти включает в себя обеспечение необходимых структур внешней памяти как для хранения непосредственных данных, так и для служебных целей, например для убыстрения доступа к данным в некоторых случаях (обычно используют индексы). 

    2. Управление буферами оперативной памяти. СУБД обычно работают с базами данных значительных размеров; по крайней мере, этот размер превышает доступный объем оперативной памяти. Единственным способом  реального увеличения этой скорости является буферизация данных в оперативной памяти. 

    3. Управление транзакциями. Поддержание механизма транзакций – необходимое условие даже однопользовательских СУБД. При соответствующем механизме управления транзакциями пользователь может почувствовать себя единственным пользователем СУБД.

    4. Журнализация и восстановление БД после сбоев. Поддержание надежного хранения данных в базе требует избыточности хранения данных, причем та их часть, которая используется для восстановления, должна храниться особо надежно. Наиболее распространенный метод поддержания такой избыточности – это ведение журнала изменений базы данных. Если СУБД корректно соблюдает этот протокол, то с помощью журнала можно решить все проблемы восстановления БД после любого сбоя.

    5. Поддержание языков БД. Для работы с БД используются специальные языки, в целом называемые языками баз данных. 

     

    2.2 Проектирование  систем управления базами данных фактографических систем

     

    Особое значение при проектировании имеет предметная областьобъекта. 

    Предметной областью называются элементы материальной системы, информация о которых хранится и обрабатывается в ИС. Информационным отображением всей предметной области экономического объекта служит информационная база ИС. Информационная база состоит из одной или нескольких баз данных. Для описания предметной области необходимы такие термины, как объект, свойство объекта, взаимодействие (связь) объектов, свойство взаимодействия. 

    Объектом называется любой элемент некоторой системы. В экономических приложениях понятие объекта сужается до понятия физического объекта, под которым понимается любой предмет, занимающий место в пространстве. Отдельный предмет часто назывется экземпляром объекта, а различные множества предметов, образованные по заданному принципу, называются типами объектов. 

    Концептуальное проектирование СУБД связано с описанием разнообразных информационных требований пользователей. Результатом этого этапа является высокоуровневое представление информационных требований, например такое, как диаграмма «сущность – связь». Подход к концептуальному проектированию предполагает, что рассматривается представление одного пользователя, например администратора, который понимает требования всех пользователей и объединяет эти требования в полный набор согласованных спецификаций. 

    Концептуальное проектирование оперирует информацией, независимой от любой фактической реализации (т. е. от любой конкретной системы технического или программного обеспечения). В ходе проектирования исследуется возможность преобразования модели в СУБД – зависимое представление.

    При проектировании возможно использовать специальные программные средства  реализации фактографических информационных систем - пакеты программ – CASEсредства (Computer Aided System Engineering). Суть автоматизации в том, что на достаточно простом языке описываются программное обеспечение, концептуальная схема, которая потом преобразуется в логическую схему конкретной СУБД. С помощью CASEтехнологии:

    -    быстрее создают и внедряют БД при меньших затрат;

    -    обеспечивают единый простой интерфейс;

    -    сокращают усилия по обслуживанию приложений;

    -    осуществляют контроль за взаимодействием и полнотой представления;

    -    проводят последовательную декомпозицию сложной задачи.

    Основной недостаток пакетов CASE – упрощенный подход к концептуальному моделированию. 

    Рассмотрим объектное представление или нисходящее проектирование СУБД. Существуют два метода концептуального проектирования: объектное представление и моделирование сущностей. Объектное представление включает формулирование, определение и интеграцию объектов высокого уровня, используемых для построения модели. Основное внимание при этом уделяется интеграции понятий (концепций), представляющих объекты. Попросту говоря, технология этого подхода заключается в объединении элементов, которые в свою очередь могут состоять из отдельных частей. Эти элементы рассматриваются как объекты, объединенные в виде иерархии объектов. 

    Процесс проектирования проходит стадии моделирования представлений и объединения представлений. Видами представлений данных являются: общее представление (с точки зрения организации в целом), прикладное представление, информационное представление и представление событий. Каждому типу представления соответствует особый вид информации:

    1. Цели или ограничения организации. Производственные или коммерческие цели организации, выраженные в терминах требуемой информации. Различные информационные ограничения, такие как требования отчетности, необходимость проверки, управляющие воздействия, а также меры по обеспечению секретности.

    2. Обрабатываемая информация. Информация о существующих и будущих приложениях. Сюда включаются все предполагаемые виды обработки  базы данных.

    3. Информационные структуры и связи. Моделирование общих информационных связей: существующих элементов данных, агрегаций элементов данных и связей, необходимых для отображения деятельности организации или предприятия. Этим обеспечивается основа для специальных и незапланированных запросов.

    4. События и планирование. Сроки представления информации, различных отчетов, сроки решения прикладных задач. Сюда включается как незапланированная (специальная), так и заранее определенная информационная деятельность организации.

    Моделирование представлений заключается в фактическом сборе информации на различных уровнях организации в соответствии с четырьмя видами представлений. При моделировании ПО разбивается на ряд локальных областей, моделируется каждое локальное представление, а затем они объединяются. Выбор локального представления зависит от масштабов ПО. Для удобства в одном локальном представлении желательно использовать 6–7 типов сущностей. Если это не соблюдается, то, возможно, область применения локального представления слишком обширна.

     

               2.3 Понятие документальной информационной системы

     

    Документальные ИС – системы работы с документами на естественном языке – публикации и т.д. они обеспечивают анализ данных при неполном, приближенном представлении смысла. Наиболее распространенный тип ДИС – информационно–поисковые системы (ИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке. 

    Информационный поиск в ИПС -  некоторая последовательность операций, выполняемых с целью отыскания документов, содержащих определенную информацию, или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы. 

    Поисковый массив – массив элементов информации, в котором производится информационный поиск.  

    Существуют следующие  основные виды информационного обеспечения в данных системах:

    • Регламентное обслуживание в форме подготовки и издания обзорных и реферативных информаций, библиографических указателей и т.п., или обслуживание по стандартным запросам;

    • Оповещение отдельных специалистов (абонентов)  о текущих публикациях, представляющих для них потенциальный интерес путем избирательного (адресного) распределения информации (ИРИ) по профилям интересов, сформулированных потребителем, или дифференцированного обслуживания руководителей (ДОР) по мере поступления информации, необходимой для принятия решений;

    • Ретроспективный поиск, т.е. отыскание документов, в которых находятся сведения по конкретным запросам, в массиве всех накопленных источников информации, что может осуществляться либо в форме подготовки тематических подборок, либо в оперативном режиме.

    Имеет место и другая классификация видов информационного обслуживания: по источнику информации, по типам документов, по направленности или адресности, по периодичности или  срочности, по способу доведения документов до потребителя, по назначению, цели.

    Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. В современных условиях распространены режимы обслуживания в форме он-лайнового доступа к базам данных автоматизированных ИПС и предоставления информации на СD.

    Для эффективного информационного обслуживания и навигации необходимо выявить информационные потребности. Поэтому изучение запросов потребителей информации является первоочередной задачей научно – информационной деятельности.  Задача эта довольно сложная, т.к. потребители как правило, не умеют четко формулировать свои потребности, и они уточняются по мере работы с получаемой информацией. 

    Прежде всего, каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой  характеристику, отражающую основное смысловое содержание документа. Простейшим ПОД может являться заглавие документа, переписанное в форме перечня входящих слов.  Устанавливаются правила включения в ПОД существительных в единственном числе и именительном падеже, глаголов – в неопределенной форме или в виде отглагольных существительных и т.п. правил, общих для формирования ПОД и ПОЗ – поискового образа запроса. 

    Для реализации процедуры описания  документов и запросов с помощью ПОД и ПОЗ разрабатывают информационно – поисковые языки (ИПЯ). Для сопоставления ПОД и ПОЗ разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия (КСС).

    Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ.  Поэтому возможна неполнота выдачи документов, либо, наоборот, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска. 

    Документальные ИПС в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию. 

                                                                2.4 Информационно–поисковые языки документальной информационной системы

     

    Информационно-поисковый аппарат включает применение естественного языка для отображения ПОД и ПОЗ, что  связано о значительными трудностями, обусловленными наличием синонимов, омонимов и  неоднозначностей использования терминов естественного языка.  Поэтому появилась необходимость применения искусственных информационно-поисковых языков -  ИПЯ. 

    ИПЯ– является формализованной семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска. 

    Задача ИПЯ – перевод содержания документа в поисковое предписание или поисковый образ документа и перевод содержания запроса пользователя в поисковый образ запроса (поисковое предписание).

    Первоначально в качестве составляющих ИПС выделяли:

    Алфавит (набор буквенных и цифровых символов),

    Слова – формируемые из алфавита с помощью морфологических правил – морфологии;

    Словарь перевода, который может состоять из ключевых слов. Он может иметь сложную структуру, представлять собой тезаурус, который может включать в себя и алфавит, и слова, и словосочетания.

    Правила, отражающие взаимоотношения между словами документа, которые реализуются с помощью правил грамматики – синтаксиса.

     

                2.5 Виды и классификация ИПЯ

     

    1. Иерархические классификации, которые обеспечивают возможность расширения «вниз», т.е. уточнения описания документа, но они отличаются жесткостью, их трудно изменять.

    2. Язык предметных заголовков – как и иерархическая классификация использует фиксированное число предметных классов (часто располагаемых по алфавиту), но для его терминов  обычно не используется определенный код. Язык позволяет любому документу приписывать более чем один термин, почти не имеет структуры и средств для выражения взаимоотношений между терминами.  Этот язык можно считать языком иерархической классификации, но с ослабленной структурой, что облегчает его разработку, но затрудняет изучение и применение (например, в журналах – рубрики, классификаторы специальностей в высшем образовании и т.д.).

    Эти языки иногда называют предкоординированными системами, т.к. семантические комбинации терминов не определены в словарном запасе ИПЯ, а составляются его разработчиками.  Такие языки неизбежно имеют пробелы, в них трудно отражать новые предметные области. Поэтому для более совершенного описания содержания документа стало применяться координатное индексирование или индексирование ключевыми словами:

    1. система ключевых слов с фиксированным словарем (для узкоспециализированных

    ИПС с унифицированной терминологией);

    1. система ключевых слов со свободным словарем (позволяет выбрать для описания документа любые слова, за исключением  союзов и предлогов,  руководствуясь их ролью в отображении содержания документа);

    2. языки с синтаксисом (грамматикой);

    3. языки фасетного индексирования (пример: уточненное описание товара, включая фасон, цвет, цену и др. характеристики товара). Различные роли, которые играют дескрипторы, называются фасетами. Дескриптор – ключевое слово.

    4. язык фраз использует индексирующие фразы, но нет возможности расширения ПОД.

    5. язык пермутационного индексирования. Пермутационный указатель включает контекст каждого слова во фразе и называется указателем ключевых слов. Язык является трудоемким.

    6. естественный язык. Наиболее точно отражает семантику текста, но возникают проблемы с синонимами, омонимами и т.д. Трудоемок, часто неэффективен.

    Т.о. существуют ИПЯ, использующие ключевые слова, дескрипторные ИПЯ без грамматики и с грамматикой, ИПЯ с тезаурусом и т.д.

    При выборе ИПЯ оценивается их эффективность: семантическая сила, многозначность, компактность и стоимость. Оценка ИПЯ – это составная часть проблемы оценки  эффективности ИС, которые мы будем изучать позже. 

     

                2.6 Система индексирования

     

    Процедуру перевода с естественного языка на ИПЯ называют индексированием. 

    Результатом  такого перевода является ПОД (при вводе документов в ИПС)  или ПОЗ (при индексировании запросов пользователя).

    Процедура индексирования связана с большими затратами труда и при неалгоритмическом характере весьма трудоемка и ограничивает семантические возможности ИПЯ. Поэтому большое внимание уделяется возможности автоматизации этого процесса. 

    Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени. 

    Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или Поз наиболее значимых ключевых слов, дескрипторов, фраз.

    Типы систем индексирования:

    1. системы свободного индексирования. Из индексируемого документа выписываются в ПОД слова или словосочетания, которые отражают содержание индексируемого документа.  Элементами ПОД могут быть слова, отсутствующие в этих элементах, но отражающие более точно смысл его текста с точки зрения целей создания ИПС.  Выписанные элементы упорядочиваются в алфавитном порядке.  Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования.  Аналогично из текста запроса формируется ПОЗ.  ((Такой процесс индексирования является неалгоритмичным, т.е. неавтоматизируемым)).

    2. Метод полусвободного индексирования. Из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании. Но выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем – устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД или ПОЗ. 

    3. Метод, основанный на статистическом подходе. Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющих семантических значений. При этом предлагаются различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительском  массиве документов (т.е. в статистической выборке).  Этот способ индексирования может быть алгоритмизирован и автоматизирован. 

    4. Системы индексирования, контролируемые заданным словарем (тезаурусом). Каждое слово текста сравнивается с точностью до основы со словарем, совпавшие слова записываются в ПОД.

      1   2   3   4   5


    написать администратору сайта