научная исследовательская работа. НИР. Аналитический обзор семантических методов поиска данных в распределенных вычислительных системах
Скачать 0.53 Mb.
|
Семантический поиск 7 Онтология 8 Структура онтологии. 9 Преобразование текста в семантическое представление. 12 Основные этапы. 13 Принцип работы семантического поиска. 15 Реферат Записка 28 с., 4 таб., 6 рис., 6 источников, 1 прил.. РАСПРЕДЕЛЕННАЯ ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА, СЕМАНТИЧЕКСКИЙ ПОИСК, СТЕММИНГ ПОТЕРА, ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ Объектом исследования данной курсовой работы является обзор методов поиска информации в распределенных вычислительных системах. Цели работы: Иследовать методы поиска инфрмации Изучить алгоритмы поиска; Провести сравнительный анализ алгоритмов поиска в вычислительных распределенных системах; Изучить преобразование текста в семантическое представление В результате исследования были изучены методы преобразование текста в семантическое представление в распределенных вычислительных системах. Таким образом, проведенное иследование показало, что самым эффективным оказался латентно-семантический анализ, наиболее быстрым - метод стемминга Портера. ВведениеПроблема поиска и извлечения необходимой информации возникла задолго до появления интернета. Актуальность проблемы целенаправленного поиска информации, соответствующей запросам и потребностям пользователя, т.е. релевантной и пертинентной информации, в последние годы существенно возросла. Многократное увеличение информационных потоков, циркулирующих между пользователями, динамичное развитие информационных ресурсов приводит к тому, что пользователь уже не в состоянии самостоятельно, без технической поддержки, находить требуемую информацию. Интенсивный рост информационных потоков также свидетельствует о необходимости постоянного совершенствования методов, приемов и технологий обработки данных. Следовательно, для обеспечения быстрого поиска необходимой информации пользователю необходимо применять все более совершенные навигационные сервисы и приемы поиска соответствующих его потребностям информационных ресурсов. В последние годы большое внимание стало уделяться поиску информации на основе работы с семантикой. Методы семантического поиска также известны, как смысловой поиск или поиск по смыслу текстов. В данной работе будут проанализированы различные семантические методов поиска данных в распределенных вычислительных системах. Теоретическая частьРаспределенная вычислительная система (РВС) – это набор соединенных каналами связи независимых компьютеров, которые с точки зрения пользователя некоторого программного обеспечения выглядят единым целым» Рисунок 1 – Виды вычислительных систем Ресурсом называется это любая программная или аппаратная сущность, представленная или используемая в распределенной сети. Например: компьютер; устройство хранения; файл; коммуникационный канал; сервис и т.п. Узел – это общий термин, обозначающий любое устройство в распределенной вычислительной системе. Узел, предоставляющий одну (или несколько) функциональных возможностей часто называют сервисом. Сервер – это поставщик информации в РВС (например, вебсервер). Клиент – это потребитель информации в РВС (например, веббраузер). Пир – это узел, совмещающий в себе как клиентскую, так и серверную часть (т.е. и поставщик и потребитель информации одновременно). Сервис – это сетевая сущность, предоставляющая определенные функциональные возможности (например, вебсервер может предоставлять сервис передачи файлов по протоколу HTTP). В рамках одного узла могут предоставляться несколько различных сервисов. Ниже видны взаимоотношения между этими терминами. Рисунок 2 – Взаимоотношения составляющих РВС Как гласит Википендия : Информационный поиск (англ. nformationretrieval) — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске. Термин «информационный поиск» впервые был использован Кельвином Муром. Опубликован и употребляется в литературе с 1950. В первое время системы автоматизированного информационного поиска (ИП), или информационно-поисковые системы (ИПС), использовались лишь для управления информационным бумом в научной литературе. Большинство университетов и публичных библиотек стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение системы информационного поиск получили с появлением сети Интернет. Поиск информации состоит из четырех этапов: определение информационной потребности и формулировка информационного запроса; определение совокупности возможных держателей информационных массивов ; извлечение информации из выявленных информационных массивов; ознакомление с полученной информацией и оценка результатов поиска. Поиск принято делить на следующие виды: Полнотекстовый поиск — поиск по всему содержимому документа. Поиск по метаданным — это поиск по неким атрибутам документа. Поиск изображений — поиск по содержанию изображения. Методы поиска: Адресный поиск -ищет по чисто формальным признакам, указанных в запросе. Семантический поиск – ищет по всему содержимому. Документальный - ищет в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя. Фактографический – ищет факты, которые нужны по запросу. |