Михайлова_НИР. Научных знаний
Скачать 445.42 Kb.
|
Практическая значимостьПредложенные в работе модели, подходы и алгоритмы применены для создания программного обеспечения научных электронных библиотек для некоторой ПО. Программное обеспечение создается на основе явного описания модели ресурсов высокоуровневых понятий научной предметной области, с использованием технологий Semantic Web. Разработанные прототипы программных систем могут быть использованы для конструирования научных семантических электронных библиотек с использованием технологий Semantic Web. Анализ основных концепций для построения семантических библиотекВ этом разделе приведен краткий обзор и анализ основных концепций и инструментов, которые легли в основу работы. В конце раздела приведен обзор некоторых информационных систем, реализующих функциональность, характерную для семантических библиотек. Парадигма Semantic WebС появлением парадигмы Semantic Web для формализации знаний в различных предметных областях стали активно использоваться онтологии [17, 18, 93, 94, 95]. Как правило, эти знания представлены терминами и атрибутами, отражающими онтологические связи между ними. При формализации знаний появляется возможность проводить семантическую обработку информации. Используются также правила вывода, позволяющие делать заключения об имеющихся или вновь поступивших данных. Данные и онтология с правилами вывода вместе представляют собой базу знаний некоторой предметной области. Это фактически краткое описание классического подхода к определению базы знаний для любой предметной области. При этом данные предметной области имеют определенную структуру, зафиксированную в онтологии. Для облегчения процесса автоматической обработки информации в сети некоторое время назад была предложена концепция LOD [45, 46, 47, 127] для размещения и описания данных, опирающаяся на уже имеющиеся наработки парадигмы Semantic Web. Единицей описываемых данных в Semantic Web является ресурс. Каждый ресурс обозначает какой–либо реальный объект, понятие или явление и имеет идентификатор URI (Unified Resource Identificator) [39], который используется для описания знаний о сущности. Эти знания представляются в соответствии с моделью данных RDF (Resource Definition Framework) в виде троек «субъект - предикат – объект». Организация специального пространства связанных данных Linked Data основывается на практических решениях для публикации и связывания структурированных данных. Термин LOD описывает ту часть данных Linked Data, которая находится в открытом доступе и соответствует основным принципам LOD. Идея LOD оказалась очень привлекательной для различных организаций, многие из которых включили свои источники данных в это облако. Оказались провязаны самые различные типы ресурсов, которые представляют интерес для пользователей библиотек с точки зрения обогащения данных как структурно, так и семантически [62, 118, 119]. Парадигма Semantic Web позволяет структурировать описания ресурсов и представлять их в виде RDF, основываясь на онтологиях. Онтология любой предметной области определяет ее понятия, их тип, структуру, совокупность словарей и классификаторов, которые представляют тезаурус предметной области, обеспечивает доступ к знаниям предметной области в разных источниках. Онтологии позволяют выработать и зафиксировать общее понимание области знания и представить знания в виде, удобном для их автоматизированной обработки, обеспечить возможность получения и накопления новых знаний, а также возможность многократного их использования. Тезаурус же обеспечивает терминологическую поддержку предметной области, облегчает навигацию по разделам предметной области [73, 74, 81, 82]. Таким образом, библиотеки рассматриваются как хранилища структурированных разнообразных данных с возможностью их интеграции в облако LOD и возможностью определения их тематической направленности. При этом подразумевается, что поддерживается вся традиционная для электронных библиотек функциональность: создание, редактирование, поиск, идентификация ресурсов. Ниже в работе приводится представление онтологии модели данных такой библиотеки, архитектура приложения и описана реализация прототипа этого приложения на примерах разных предметных областей. Исходя из возможностей, предоставляемых применением семантических технологий, пользователь библиотеки получает расширенную функциональность для работы с ресурсами библиотеки, имея возможность описывать область своих интересов в терминах предметной области. Это позволит ему организовывать и описывать собственные коллекции и ресурсы, при необходимости детализируя как описания ресурсов, так и свою область интересов, посредством уточнения ее терминов, создавая свой микротезаурус. Где микротезаурус представляет набор выделенных пользователем терминов, возможно дополненных новыми понятиями и связями, как между самими понятиями, так и между этими понятиями и контентом библиотеки. ОнтологииКлассическое определение онтологии принадлежит Т. Груберу «Онтология — это точная спецификация концептуализации» [94]. Под концептуализацией подразумевается абстрактное представление предметной области, тогда как спецификация определяет набор понятий этой предметной области и отношений между ними. Итак, онтология обозначает совокупность понятий, используемых для описания на концептуальном уровне некоторой предметной области. Это описание представляется в таком виде, чтобы оно могло использоваться для машинной обработки. Состав базовых конструкций онтологии независимо от того, для какой области она создается, одинаков: понятия, атрибуты, отношения, экземпляры. Языком описания онтологий является язык OWL, являющийся стандартом W3C, в свою очередь являющийся расширением схем RDF и RDFS. При конструировании новой онтологии можно импортировать извне уже имеющиеся и использовать их понятия при описании предметной области в рамках создаваемой онтологии. Онтологии можно классифицировать по различным параметрам (в зависимости от того, с какой целью их классифицируют). Рассмотрим наиболее общую классификацию и определим решаемые нами задачи соответственно этой классификации. Высокоуровневые онтологии. Такие онтологии описывают наиболее общие понятия (пространство, время, материя, объект, событие, действие и т. д.), которые независимы от конкретной проблемы или области [63]. Ориентированные на предметную область. Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования в своей области. Ориентированные на задачу. Это онтологии, используемые конкретной прикладной программой и содержащие термины, которые используются при разработке программного обеспечения, выполняющего конкретную задачу. Прикладные онтологии описывают понятия, которые зависят как от онтологии задач, так и от онтологии предметной области. Примером может служить онтология производства автомобилей определенной марки. В области цифровых библиотек изначально распространение получили так называемые библиографические онтологии, которые описывают типы ресурсов библиотеки, их состав и взаимосвязи. Рассмотрим краткое описание некоторых онтологий, которые часто встречаются в контексте цифровых библиотек, и пример онтологии, ориентированной на построение информационных систем. Онтология AKT Reference Ontology [144] или кратко AKT разработана в целях унификации доступа к библиографической информации в 2003г. И хотя проект был закрыт, данные на сегодняшний момент в AKT предоставлены более чем в 200 источниках таких как: DBLP [145], Citeseer [146], CORDIS [147], EPSRC [148], ACM [149], IEEE [150] и т.д. Объединяет несколько онтологий, из которых интерес представляет основная онтология Portal Ontology, которая содержит понятия для описания персон и публикаций. Данные разнородны и опираются на очень узкие подмножества этой онтологии. Многие поля, имеющиеся в этой богатой онтологии, остаются незаполненными при описании реальных данных. Изначально Dublin Core (DC) [54] представляет собой набор понятий, используемых для описания разнообразных типов ресурсов, из которых 15 являются обязательными для описания. Элементы DC часто повторно используются, дополняются и конкретизируются в других онтологиях. DC охватывает огромное количество источников, включая DBpedia [11], являющийся фактически центром облака LOD. Онтология FOAF [59, 60] уже является практически стандартом для описания персон и их отношений с другими ресурсами. Используется в разнообразных контекстах и может использоваться для описания в любых сценариях с участием персон. Часто также включается и конкретизируется в других онтологиях. Онтология BIBO [58] предназначена для описания библиографических данных, включает в себя понятия из других онтологий (таких, как DC и FOAF), расширяя и конкретизируя их понятия, которые используются при описании ее классов. Содержит 38 видов документов, содержит понятия, необходимые для описания персон и публикаций. Охватывает такие источники, как Британская Национальная Библиотека, DBpedia и т.д. ТезаурусыВ данной работе тезаурусы рассматриваются как множество терминов, которые описывают определенные понятия предметной области (используется как синоним, также равнозначное обозначение концепт предметной области) и набор различных семантических связей между ними. Наличие таких связей явно указывает на смысловую связь между понятиями предметной области. При этом для представления понятия предметной области используются связанные с ним термины. Главным образом, тезаурус предназначен для поддержки тематической организации информации и поиска. В других подходах для тематической организации и поиска информации могут использовать с одной стороны классификаторы, с другой - инструменты полнотекстового поиска. Подход, основанный на тезаурусах, находится посередине этих подходов и аккумулирует в себе достоинства обоих. Использование классификаторов предполагает наличие предварительно заданного набора тем с поставленным им в соответствие некоторым кодом. Каждый классифицируемый объект должен быть помечен тематическим кодом. Преимуществом классификаторов является то, что по четко обозначенной теме можно получить полный набор объектов, соответствующих тематике классификатора, но для этого требуется предварительная работа по разнесению объектов по соответствующим темам. Полнотекстовый поиск дает возможность задать запросы на естественном языке. Главный недостаток полнотекстового поиска — это то, что для поиска по одной теме, возможно, придется составлять несколько запросов, так как формулировка искомого может быть выражена несколькими способами. Тезаурус же позволяет, используя разные термины, относящиеся к одному концепту/понятию, осуществлять поиск по концептам на естественном языке с помощью этих терминов. Выделяют основную связь между понятиями тезауруса – это связь между более широкими и более узкими понятиями. Существуют два основных подвида такой связи: связь «часть–целое», когда одно понятие, является частью другого понятия; связь «класс - экземпляр», когда одно понятие обозначает элемент класса, обозначаемого другим понятием. Выделяют также связь «синонимии», когда одно понятие может быть выражено несколькими терминами, являющихся синонимами. Среди терминов, относящихся к одному понятию, выделяют предпочтительный термин, который наиболее точно обозначает конкретное понятие. Остальные термины являются менее предпочтительными и являются синонимами. Существуют также горизонтальные (или ассоциативные) связи между понятиями тезауруса, которые выражают дополнительную смысловую связь между ними. Структура понятия тезауруса может состоять из различных элементов и, например, содержать пояснения к ним, раскрывая его смысл и определяя его использование. При использовании тезауруса для классификации информационных ресурсов, поисковые запросы по коллекциям этих ресурсов могут уточняться на основе терминов используемого тезауруса и его семантических связей, что, несомненно, повышает точность поиска и полноту в смысле пертинентности. |