Главная страница

Михайлова_НИР. Научных знаний


Скачать 445.42 Kb.
НазваниеНаучных знаний
Дата16.05.2021
Размер445.42 Kb.
Формат файлаdocx
Имя файлаМихайлова_НИР.docx
ТипРеферат
#205686
страница4 из 21
1   2   3   4   5   6   7   8   9   ...   21

Описание стандарта ISO 2788-1986


Одним из основных документов, регламентирующих формат представления тезауруса, является стандарт ISO 2788-1986 [91, 102]. Он предназначен для описания моноязычных тезаурусов и определяет тезаурус, как набор терминов, связанных между собою соответствующими связями.

Основные атрибуты понятий, определенные в этом стандарте приведены

ниже:

  • ScopeNote(SN) комментарий к понятию.

  • TopTerm(TT) помечает понятия на самом верхнем уровне иерархии.

Выделяются следующие связи между понятиями и терминами:

  • USE связь понятия с наиболее предпочтительным термином.

  • UsedFor (UF)–.связь понятия с терминами синонимами.

  • Broader Term (BT) – иерархическая связь между более общим и более узким понятием.

  • Broader Term Generic (BTG) – иерархическая связь между более широким понятием и более узким, когда более узкое понятие определяет разновидность более широкого понятия.

  • Broader Term Partitive (BTP) – иерархическая связь между более широким понятием и более узким, когда более узкое понятие определяет часть более широкого понятия.

  • Related Term (RT) –горизонтальная или ассоциативная связь между двумя понятиями связанных между собою по смыслу, но не являющихся синонимами.

Выделяют также связи Narrower Term (NT), Narrower Term Generic (NTG,)Narrower Term Partitive (NTP), которые являются обратными к связям BT,BTGи BTPсоответственно.
      1. Описание стандарта ISO 25964


Более современной версией предыдущего стандарта является стандарт ISO 25964 [74, 88, 89, 90, 91, 92]. Модель, описываемая этим стандартом, поддерживает мультиязычные тезаурусы и другие типы словарей. Стандарт содержит рекомендации по установлению и поддержанию взаимного соответствия между несколькими тезаурусами или между тезаурусами и словарями других типов, используемых при информационном поиске. Были представлены рекомендации и схемы модели данных для взаимодействия по сети. В основу схем данных взаимодействия положены модель данных протокола Z39.50 [151, 152] (схема данных Zthes) и рекомендации SKOS, базирующейся на RDF-модели представления понятий.

В новом стандарте типы связей предыдущего стандарта ISO 2788-1986 были существенно урезаны для поддержки интероперабельности и четко определено, что связи устанавливаются на уровне концептов/понятий, а не на уровне их терминов. Используются следующие связи:

  • NT более узкое понятие, взаимообратно BT;

  • BT более широкое понятие, взаимообратно NT;

  • USE – связь с понятием, которое используется вместо этого, взаимообратно UF;

  • UF – связь с понятием, вместо которого используется этот, взаимообратная связь USE;

  • RT симметричная связь, определяет связанное понятие;

  • LE – симметричная связь, определяет связь между лингвистически эквивалентными понятиями.

Определяются следующие типы терминов:

  • TT понятие верхнего уровня;

  • NT понятие неверхнего уровня;

  • ND неосновное понятие;

  • NL фиктивное понятие.
    1. Некоторые реализации семантических библиотек


Разными исследовательскими группами реализованы решения для семантических библиотек.
      1. Greenstone3


Рассмотрим в качестве первого примера популярную систему Greenstone3 [83, 84, 85, 86], которая свободно распространяется, и главной целью которой является создание и поддержка пользовательских коллекций цифровых ресурсов самых разнообразных типов в общественных учреждениях. Система разрабатывается в университете Новой Зеландии под руководством Ян Виттен (Ian H. Witten). Система довольно легко настраивается и устанавливается. Пользователи системы могут создавать свои коллекции, включая самые разнообразные типы ресурсов и обеспечить к ним доступ, как через локальную, так и через глобальную сеть.

Рассмотрим далее основную функциональность Greenstone. На базе этого программного обеспечения, существует возможность определять структуру описания электронных документов на основе разнообразных метаданных и объединять их в коллекции. Электронные документы могут иметь различные форматы и содержать большие объемы текста и изображений. Поддерживаются такие функции как полнотекстовый поиск, поиск по метаданным, ставшие уже классическими для цифровых библиотек. Доступ к контенту библиотеки может предоставляться как через Интернет, так и на отдельных носителях (компакт - дисках). Система поддерживает многоязычный пользовательский интерфейс и поддерживает обработку коллекций электронных документов для нескольких языков.

Текстовые электронные документы могут быть структурированы согласно содержанию документа. Это удобно при создании индексов для поиска. Поисковые запросы при этом могут состоять, как из одного слова, так и нескольких фраз.

Как и при формировании описания структуры электронных документов, структура коллекции в системе определяется динамически при ее создании. При этом создается конфигурационный файл, в котором описаны правила использования коллекции. Новые документы в коллекцию включаются, если удовлетворяют условиям, заданным при описании коллекции. Для каждой коллекции создается свой отдельный поисковый индекс, при этом результаты поиска по нескольким коллекциям могут объединяться перед представлением пользователю.

Программное обеспечение состоит из четырех основных модулей

  • серверный (Greenstone Server) его запуск делает компьютер узлом локальной сети Greenstone;

  • локальный интерфейс библиотекаря (Librarian Interface) – в этом модуле идет непосредственный ввод книг в электронную библиотеку;

  • редактор метаданных (Metadata Set Editor) – здесь возможно редактирование существующих либо создание новых наборов метаданных, создание новых единиц классификации;

  • удаленный интерфейс библиотекаря (Remote Librarian Interface).

Фактически интерфейсы поиска и просмотра документов в коллекциях формируются автоматически на основе конфигурации коллекции. Отдельно задаются метаданные, представляемые в интерфейсе просмотра документа, и отдельно помечаются метаданные, которые участвуют в поиске документа в коллекции. Для построения интерфейсов используются также различные классификаторы, которые группируют метаданные по различным признакам.

Из всех изученных систем, Greenstone3 является наиболее близкой по духу к разрабатываемой нами системе. Несмотря на то, что система Greenstone3 достаточно легко устанавливается и настраивается, в ней нет возможности расширения структуры ресурсов коллекций в процессе жизнедеятельности системы. Пользователи системы могут создавать свои коллекции, но возможности специфицировать свою область знаний путем использования тезауруса предметной области и его доопределения путем добавления своих терминов они не имеют. Возможности описания пользователем своей области интересов и ее уточнение, поддержка тематического расширяемого пользователями тезауруса, возможность динамического расширения описания ресурсов и связей между ними - основной недостаток Greenstone3.
      1. JeromeDL


Семантическая библиотека JeromeDL [3] является одной из попыток объединить возможности, предлагаемые концепцией и технологиями Semantic Web, с библиотеками, ориентируясь на тесное взаимодействие с пользователями. Фактически она представляет собой интегрированное приложение для ведения цифровой библиотеки, блогов и сервиса для закладок. В рамках цифровой библиотеки поддерживаются авторитетные файлы (для авторов, редакторов, издательств), таксономии, используемые для классификации по темам, тезаурус WordNet [4] для ключевых слов. Каждый ресурс описывается тремя типами метаданных: структурными, библиографическими и социальными. Каждый тип метаданных поддерживается соответствующими сервисами. Пользователю предоставляется комбинированное представление на основе этих метаданных. Основные модели для описания ресурсов, пользователей и их взаимодействия - это библиографическая онтология MarcOnt [5], онтология FOAF [6], модель знаний SKOS [7, 49] для описания таксономий.

Основным недостатком, на наш взгляд, является ориентированность только на библиографические данные, слабая поддержка интеграции данных с другими источниками в рамках системы частности, с ресурсами из LOD). При необходимости добавления нового типа ресурсов приходится вносить изменения в систему на программном уровне. Одним из преимуществ этой системы является поддержка, помимо сервиса традиционного атрибутного поиска, сервисов семантического поиска данных на естественном языке, доступ к данным на языке запросов SPARQL [8] для возможности машинной обработки. Следует отметить, что система распространяется бесплатно, но на момент написания этого текста ссылка была недоступна.
      1. Europeana


Одной из глобальных реализованных цифровых библиотек является проект Europeana [9], который интегрирует данные из институтов культурного наследия Европы. Многоуровневая организация провайдеров контента предназначена для автоматической оценки контента на соответствие модели данных EDM (Europeana Data Model) [10], которая была разработана в рамках проекта. В рамках этой модели данных определены наборы классов и свойств для описания объектов культурного наследия. Одно из преимуществ EDM - это возможность соблюдения принципов связанных данных при описании ресурсов.

Масштаб этой библиотеки одновременно является и одним из препятствий для возможности «индивидуальной тематической» работы пользователя и скорее позволяет причислить ее к глобальным семантическим библиотекам, среди которых также можно указать DBpedia [11], являющуюся ядром облака LOD.
    1. Постановка задачи и логическая схема исследования


Как видно из приведенного краткого обзора, в последнее время одним из основных направлений работ по созданию информационных систем стало создание их на основе высокоуровневых онтологий. Опираясь на основные концепции DELOS DLRM, адаптировав онтологию BWW [103] для своих целей и используя методику построения модели информационной системы, была поставлена задача разработкисемантическойбиблиотекидля некоторой научной предметной области.

Основные идеи при определении стиля моделирования ресурсов библиотеки при разработке системы были позаимствованы из концепции адаптивных моделей данных, разработанной еще в 90-х годах.

Исходя из вышесказанного, была сформулирована задача создания такой информационной системы для библиотек, которая могла бы учитывать все разнообразие различных типов ресурсов определенной научной предметной области, которые могут в ней храниться и при этом поддерживать ее терминологическое описание. Одна из основных решаемых задач в контексте системы – это обеспечение возможности интегрирования данных из источников поддерживающих семантическое описание модели данных. Фактически такая система должна представлять собой конструктор для создания цифровой библиотеки любой направленности и с адаптируемой моделью контента хранимых данных. Адаптируемая модель данных позволит описывать произвольную модель данных контента библиотеки в рамках фиксированной в терминах тезауруса предметной области.

Для реализации этой системы выделены следующие задачи, реализуемые в данной работе:

  1. разработка онтологического представления контента библиотеки, которое позволяло бы описывать любые типы ресурсов, включаемых в библиотеку;

  2. разработанная модель представления должна легко интегрироваться с любой предметной областью, представление которой ограничивается набором ее терминов в виде некоторой таксономии (линейный словарь, классификатор, тезаурус);

  3. разработка расширяемой понятийной модели представления тезауруса для поддержки сложно структурированных отраслевых тезаурусов научного знания;

  4. разработка информационной системы библиотеки, в основу модели данных которой положена разработанная онтологическая модель контента библиотеки;

  5. представление данных разработанной информационной системы библиотеки должно быть согласовано с требованиями, предъявляемыми к данным и источникам в рамках LOD;

  6. реализовать поддержку семантической разметки описаний контента библиотеки с помощью тезауруса предметной области;

  7. информационная система библиотеки должна поддерживать для пользователей возможность определения круга своих интересов с использованием предметного тезауруса, с возможностью его расширения для терминологического расширения, интересующего пользователя направления.
  1. 1   2   3   4   5   6   7   8   9   ...   21


написать администратору сайта