научная исследовательская работа. НИР. Аналитический обзор семантических методов поиска данных в распределенных вычислительных системах
Скачать 0.53 Mb.
|
Семантический поискСемантическая система – система, которая «понимает» содержание статей, которые обрабатываются в виде системы смысловых понятий и выделяет главное, говоря грубо, «о чем говориться в статье». Это дает огромные возможности для семантического поиска, автоматическому реферированию и кластеризации, так как система ищет не сам запрос, а то, что за ним стоит. Семантический способ – это не просто ответ по заданному запросу, а также взаимодействие пользователя с системой. Семантическим запросом может быть не только слово, но и документ и на выходе мы получим семантические связанные документы. Если указан профиль пользователя, то это так семантический запрос, который может действовать в «фоновом «режиме. Ответ на семантический запрос состоит из следующих компонентов: Прямой ответ на вопрос и другая информация, касающаяся запрошенных и связанных с ними понятий. Семантические понятия, семантически связанные с понятиями запроса, которые могут представлять собой как ответ на вопрос, так и средство для «уточнения» запроса. Текстовые документы, мультимедийные объекты, ссылки на сайты по теме, которые раскрывают и описывают запрашиваемое смысловое понятие. ОнтологияВ общих чертах под онтологией можно понимать, что это система понятий некоторой предметной области, она представляется как набор сущностей, соединенных различными отношениями. Онтологию используются как источники данных во многих компьютерных приложениях (извлечение знаний, поиск информации и т.д.), она позволяет быстрее и легче обрабатывать большой объем данных. Данный способ представления знаний помогает приложениям распознавать те семантические отличия, которые понятны людям, но не компьютеру. Само понятие онтология было известно давно, но по отношению к компьютерным технологиям лишь недавно. Полноценная разработка онтологии именно в этом смысле началась лишь в конце 90-х. Это достаточно новая разрабатываемая отрасль прикладной лингвистики. На данный момент создан ряд обширных онтологий, которые включают в себя понятия OMEGA, SUMO, DOLCE и другие. Онтология известна широко в областях, которые занимаются обработкой данных на естественном языке. Логично предположить, что, используя онтологию в различных приложениях, необходимо было создать стандартизованные способы ее представления. Самые известные языки онтологии - RDF и OWL. Так же возникло большое количество редакторов для того чтобы создать, изменить и пополнить онтологию. Структура онтологии.В общем виде структура онтологии выглядит так: Понятия Отношения Аксиомы Отдельные экземпляры Понятия рассматриваются как концептуализация класса всех представителей некоторой сущности или отношения. Каждый класс описывает группы индивидуальных сущностей, которые объединены наличием некоторых общих свойств. Понятия могут быть описаны различными отношениями, они связывают понятия и описывают их. Самый распространённый тип отношений-категоризация (Другие названия данного типа - отношение IS-A, класс – подкласс, лингвистика, гипоним – гипероним, родовидовое отношение, отношение a-kind-of). Аксиомы задают условия соотнесения категорий и отношений, они выражают очевидные утверждения, которые связывают понятия и отношения. Если говорить проще, аксиома -это утверждение в готовом виде, из которого онтология может вывести другие утверждения. Экземпляры - это отдельные представители класса сущностей или явлений, то есть конкретные элементы какой-либо категории. К онтологиям можно отнести так же ряд структур, которые отличаются разной степенью формализованности: Глоссарий Простая таксономия Тезаурус Понятийная структура с произвольным набором отношений Полностью аксиоматизированная теория Онтологический язык Web. Синтаксическое взаимодействие сетей- необходимое условие для того, чтобы множественные приложение могли обработать данные и работать с ними как с информацией. Семантическое взаимодействие сетей требует преобразования между терминами, для это необходим контент-анализ. Данный контент-анализ требует формальных, а также подробных спецификаций моделей доменов, именно они определяют используемые термины и связи между ними. Подобные формальные модели доменов иногда называют онтологиями. Онтологический язык Web (Web Ontology Language), рекомендуемый консорциумом W3C, помогает в выражении онтологий. Рабочий онтологический язык (Ontology Working Language, сокр. OWL) добавляет больше словарных возможностей для описания свойств и классов, чем RDF или схема RDF. Он позволяет описывать связи между классами, мощность множеств, более подробную типологию свойств и их характеристики. Онтологический язык Web на основе OWL разработан для того, чтобы приложения моли работать с информацией. OWL предоставляет дополнительные словарные возможности вместе с семантикой. OWL включает три подъязыка: полный OWL (OWL Full), OWL DL и облегченный OWL (OWL Lite). Рассмотрим их немного подробнее: OWL Full – это полная версия языка Web. Данный язык использует все базисные элементы языка OWLи позволяет смешивать их случайным образом с RDF и его схемой. OWL DL – нужен для пользователей, которые хотят использовать максимум выразительных средств без потери вычислительных возможностей. OWL DL это подъязык OWL FULL с некоторыми ограничениями- разделение типов. OWL Lite – для пользователей, которым нужна не просто классификационная иерархия и простые ограничительные возможности. Примерами онтологии является всем известный сайт Amazon.com. Пример онтологии в виде предложения. Основным критерием при выборе онтологии было удобство ее использования, как и для семантического анализа текста, так и для эффективной организации поиска. Так же для упрощения системы сделали допустимым обработку с ошибками вспомогательной информации. В онтологии, которую я анализирую в данной работе, простые семантические объекты можно разделить на классы: Люди, материальные предметы, нематериальные предметы, различные организации. Показатели, действия. Характеристики. Числовая информация, период времени. Основа информации - это «узлы», которые образовались смысловыми сочетаниями понятий второго класса и первого. Объекты различных типов заполняют свободные роли. Уточню, что объекты первого класса конкретизируют действия и показатели. В качестве «узкообразующего» объекта могут выступать так же и объекты первого класса. Данный подход аналогичен многим известный в западной лингвистике фреймам. Узел может входит в другой и образует систему слаженных узлов. Характеристики, которые я применяю к первому и второму классу, можно считать второстепенной информацией, применительно к поисковым задачам. Например, в выражениях «сохраняются низкие цены на нефть», «стабильные поставки нефти в Европу» выделенные курсивом атрибуты имеют меньшую значимость, чем другие объекты. Такая информация не входит в узлы. Она привязывается к определенному месту в документе. Рисунок 3 показывает семантическое преобразование одной несложной фразы. Цветные прямоугольники - элементы шаблонов узлов, а прямоугольники над ними – элементы узла, построенного по данному шаблону. Рисунок 3 - Семантическое преобразование фразы. При данном подходе мы имеем 2 вида информации: Определенный узел существует. Этот узел существует в определенных местах документа с определенными атрибутами, числовыми значениями и периодами времени. Такое разделение существенно повысит скорость обработки и поиска информации, так как сначала ищем релевантные запросу узлы, а потом уже фильтруем по вспомогательным параметрам. |