Реферат. Реферат. Информационно-поисковые системы. Их виды и особенности.. Информационнопоисковые системы. Их виды и особенности
Скачать 33.97 Kb.
|
Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Сибирский государственный университет телекоммуникаций и информатики» Реферат по дисциплине «Теоретические основы информатики» на тему «Информационно-поисковые системы. Их виды и особенности» Выполнил: аспирант гр. АИ-16 Аненков А.Д. Проверил: доцент Кафедры ПМиК д.т.н., проф. Барахнин В.Б. Новосибирск - 2017 Содержани 1.Понятие информационно-поисковых систем 3 2.Как работают информационно-поисковые системы 6 ВведениеПоиск информации — одна из вечных проблем человеческого сообщества. Эволюция поиска стимулировалось различными проблемами, связанными с обеспечением поиска и доступа к информационным источникам. Объемы информации, которые создает человечество ежесекундно, могли бы оказаться недоступными, если бы информацию невозможно было бы найти. Сначала информационный поиск касался научных публикаций и библиотечных каталогов, однако вскоре он распространился и на другие сферы. Развитие поиска, научные инновации и инженерные решения привели к созданию информационно-поисковых систем, которые на сегодняшний день представляют собой полностью автоматизированные технические комплексы, работающие по определенным алгоритмам, обслуживаемые персоналом и постоянно развиваемые. Данный реферат посвящен современным информационно-поисковым системам. Будут рассмотрены классификация таких систем, сферы применения, основные определения, алгоритмы поиска и ранжирования. Поскольку в настоящее время главным информационным пространством, двигателем прогресса, и источником электронных документов можно назвать Интернет, в реферате основной акцент будет сделан на поиске в Интернете. Однако, помимо современных алгоритмов поиска, будут упомянуты и решения им предшествующие. Рассмотрение информационно-поисковых систем как средств информационного поиска в Интернете является актуальным: год от года огромные массивы информации доступные в глобальной сети растут всё больше. Кроме того, данный рост делает актуальным и задачу предоставления пользователям всё более совершенных средств информационного поиска. Понятие информационно-поисковых системИнформационно-поисковые системыПрежде чем приступить к описанию и классификации информационно-поисковых систем (Iformation Retrieval System), требуется уточнить соответствующую терминологию. Основные определения в области поиска информации, информационно-поисковых языков регламентируются двумя государственными стандартами РФ: ГОСТ 7.73–96 «Поиск и распространение информации» [1] и ГОСТ 7.74–96 «Информационно-поисковые языки» [2]. Согласно определению, в ГОСТ 7.73–96, совокупность информационных массивов и связанного с ними справочно-поискового аппарата, а также комплекса технических средств для осуществления информационного поиска в них называется информационно-поисковой системой (ИПС). Также можно дать и более простое определение: информационно-поисковая система — это комплекс аппаратно-программных средств для поиска, переработки и хранения информации. Важно отличать ИПС от систем, выполняющих только выдачу информации (например, документов) по заранее известным адресам хранения, на что, например, было обращено внимание в работе Михайлова А.И. и др. «Основы информатики» [3], а также в монографии Шокин Ю.И., Федотов А.М., Барахнин В.Б. «Проблемы поиска информации» [4]. Кроме того, на сегодняшний день все современные ИПС, как правило, автоматизированы. Под автоматизированной информационно-поисковой системой, согласно того же ГОСТ 7.73–96 [1], понимается ИПС, реализованная на базе электронно-вычислительной техники. В дополнение к представленным выше определениям ИПС хочется также отметить, что помимо технических средств, важной составляющей является и персонал, который разрабатывает и обслуживает такие системы. Главная задача ИПС состоит в поиске информации релевантной информационным потребностям пользователя. Текст, выражающий информационную потребность, называется информационным запросом, а под релевантностью же понимается соответствие полученной информации данному запросу [1]. Релевантность является качественной характеристикой информационного поиска, но не единственной (см. главу про оценку эффективности ИПС). Для того чтобы информацию стало возможным искать, документы, содержащие эту информацию, должны быть представлены в виде поискового образа документа — текста, выражающего основное смысловое содержание и состоящего из искусственных лексических единиц — информационно-поискового языка [2]. Данный процесс представления называется индексированием. Стандартный подход к оценке информационно-поисковых систем опирается на понятие релевантных и нерелевантных документов [15]. Документ является релевантным, если он соответствует заданной информационной потребности, а не просто содержит все слова из пользовательского поискового запроса. Тем не менее, оценить работу ИПС только лишь по одной релевантности довольно сложно, в связи с чем, можно дополнительно выделить следующие основные понятия: точность выдачи — доля релевантной информации в выдаче поисковой системы; полнота выдачи — доля выданной релевантной информации по отношению к числу невыданной релевантной информации; потери информации — доля невыданной релевантной информации; информационный шум — доля выданной нерелевантной информации; чувствительность — доля выданной релевантной информации по отношению к сумме числа выданной релевантной и числа невыданной релевантной информации; специфичность — доля невыданной нерелевантной информации. На практике для сравнения поисковых систем используются усредненные графики зависимости полноты от точности выдачи [13]. Чтобы избежать сравнения пар полнота-точность, однозначные оценки, например, E-мера [14]: , где P– точность, R – полнота, b – отношение значимости полноты и точности. Классификация информационно-поисковых системИнформационно-поисковые системы отличаются принципами организации хранения данных, алгоритмами обработки информации и др. [11]. Различия ИПС между собой позволяют выделить среди них следующие классы: поисковые каталоги; полнотекстовые поисковые системы; метапоисковая система. Поисковые каталоги, как и в целом все ИПС, создаются для упрощения навигации по существующим ресурсам. В поисковых каталогах документы, содержащие информацию, вручную регистрируются, проходят модерацию и получают оценку своей «полезности». Документы могут быть зарегистрированы и автоматически при помощи робота (см. описание полнотекстовых ИПС ниже). Основой каталогизирующих ИПС служит некоторая иерархическая структура организации информации т. е. упорядочивание информации по разделам, категориям, рубрикам и др. Переходя по нужным категориям пользователь находит нужный документ. В дополнение к иерархической структуре возможен поиск документов в каталоге по пользовательскому запросу. Поисковым каталогам свойственен тот недостаток, что поиск документов пользователем может осуществляться только по предложенной классификационной системе. Полнотекстовые ИПС выполняют поиск страниц, извлечение гиперссылок, индексацию найденной информации в базе данных (Google, Яндекс). Сбором данных занимается специальный автономный индексирующий робот – «Паук» (Spider). «Паук» постоянно или периодически проводит анализ содержимого и сохраняет результаты в базу данных на сервере поисковой системы. Изначально роботу дается список веб-серверов, которые необходимо проидексировать [12]. В процессе работы индексирующий робот осуществляет обход данных серверов по гиперссылкам на страницах. Т.о. на основе начального списка серверов строится база данных для всех достижимых веб-страниц. Целостность данных и их актуальность проверяется путем повторного обхода роботом. Обработкой пользовательских поисковых запросов и формированием информационных выдач занимается система выдачи результатов. В ней заданы алгоритмы ранжирования документов в соответствии с их релевантностью. Подробнее о работе подобных алгоритмов можно прочитать в разделе 2 «Как работают информационно-поисковые системы». Метапоисковая ИПС представляет собой некий агрегатор результатов поиска из других ИПС: она отправляет поисковой запрос одновременно другим нескольким поисковым системам (каталогам и полнотекстовым ИПС). Получив результаты работы других ИПС, метапоисковая система удаляет дубликаты, объединяет и ранжирует их в общем списке, после чего передает этот список пользователю. Как работают информационно-поисковые системыПрограммные алгоритмы поискаПрежде чем рассмотреть программные алгоритмы работы поисковых систем, следует отметить, что информация в данном разделе была собрана в основном благодаря статье Сегаловича И.В. «Как работают поисковые системы» [5], автор которой являлся сооснователем поисковой системы «Яндекс», а также информационно-справочной системы «Национальный корпус русского языка». Как и любая компьютерная программа, современная автоматизированная информационно-поисковая система работает со структурами данных и в соответствии с программными алгоритмами. В качестве примеров можно привести алгоритмы, в основе которых лежит использование: суффиксных деревьев, сигнатур, инвертированных файлов и др. Наиболее простым является алгоритм последовательного просмотра документов без предварительного индексирования, который, помимо всего прочего, заключается в прямом переборе строк текста документов. Несмотря на кажущуюся наивность такого подхода, существует немало алгоритмов и структур данных по этой области, направленных на сокращение времени поиска. Примеры таких алгоритмов хорошо описаны, например, в книгах Т. Кормена «Алгоритмы: построение и анализ» [6] или Р. Седжевика «Алгоритмы на языке программирования C++» [7]. Реализация последовательного поиска возможна не только в виде программы, но и в виде аппаратного решения, что существенно ускоряет поиск. Например, некоторыми поисковыми системами в Интернете (не существующая ныне поисковая система Fast) [5] раньше использовались аппаратные чипы, которые занимались логикой прямого поиска упрощенных регулярных выражений. Прямой информационный поиск работает напрямую с оригинальными документами, что, в отличие от индексирования, которое ведет к нормализации и упрощению терминов, не вносит искажений. Это можно назвать преимуществом данного вида поиска поскольку предоставляет большие возможности по нечеткому и приближенному поиску. А недостатком прямого поиска, как уже отмечалось выше, является скорость работы алгоритмов. Алгоритмы информационного поиска на базе инвертированных файлов основаны на простейшей структуре данных, описанной в виде файла, который хранит упорядоченный список слов и позиций, в которых это слово встречалось. Аналогом такой структуры данных из реальной жизни когда-то служил «конкорданс»1. Программный поисковой алгоритм ищет нужное слово в файле и загружает в память вычислительной системы уже развернутый список позиций. В наиболее простом случае инвертированный файл содержит только номер документа и число употреблений какого-либо слова в нём, что подпадает под классическую теорию информационного поиска. Как и с любым алгоритмом, существует немало работ, направленных как на сокращение времени поиска по такому файлу, так и на способы хранения информации в файле с целью экономии дискового пространства. Однако, стоит отметить, что сжатие инвертированных файлов используется редко т. к. наиболее ценным ресурсом считается процессорное время, а не дисковое пространство [5]. Алгоритмы на основе сигнатур и суффиксных деревьев не получили широкого распространения. Математические модели поискаПростейшие программные алгоритмы поиска позволяют искать какую-либо информацию, но если мы говорим о достаточно огромном количестве информации, потоках пользовательских запросов, и максимально эффективном поиске, то в этом случае не обойтись без математических моделей. Модель поиска представляет собой некую математическую формулу, позволяющую программному алгоритму принять решение: какой документ считать найденным и как этот документ ранжировать. Семейства моделей можно условно разделить в зависимости от отношения к искомым ключевым словам. Например, в традиционной модели поиска лежит догадка, что ключевые слова взаимонезависимы. Документы, которые не содержат искомых ключевых слов никогда не будут найдены. Такие модели точны, но в реальности пользователь желает найти документы, скорее относящиеся к общей тематике запроса, а не только по ключевым словам. Поэтому существуют семейства моделей, «умеющие» искать по смыслу. Рассмотрим вкратце примеры вышеназванных семейств математических моделей поиска. В традиционном информационном поиске существуют следующие примеры семейств моделей: теоретико-множественные, алгебраические и вероятностные. Среди этих моделей стоит выделить векторную и вероятностную модели. В основе векторной модели лежит предположение, что чем больше частота встречаемости какого-либо ключевого слова в документе по сравнению с этой встречаемостью в других документах, тем выше вес данного документа к искомому ключевому слову. Таким образом документы упорядочены по убыванию вероятности встречаемости ключевых слов. В вероятностной модели релевантность рассматривается как вероятность того, что какой-либо документ может заинтересовать пользователя. Для того чтобы это работало, необходимо собрать некий первоначальный набор релевантных документов, которые или уже ранее интересовали пользователя или были предложены ему в качестве таковых программным алгоритмом. На практике такая модель широкого распространения не получила. Человеку легко понять, что один и тот же смысл можно выразить разными словами. Документ может быть наполнен информацией, не содержащей всех ключевых слов, но тем не менее хорошо подходить под то, что хочет найти пользователь. Нужен поиск по смыслу. Примером модели поиска по смыслу может служить латентно-семантическое индексирование (поиск скрытого смысла). В основе данной алгебраической модели лежит сингулярное разложение прямоугольной матрицы. В качестве элемента матрицы выступает частотная характеристика, показывающая степень связи ключевого слова и некоторого документа [8, 9]. Более совершенные и современные поисковые алгоритмы основаны на применении нейронных сетей. Особенности работы поиска в ИнтернетеПоскольку современные автоматизированные информационно-поисковые системы представлены в основном поисковыми системами по Интернету, следует отметить дополнительные параметры, которые должны учитываться программными алгоритмами поиска для того чтобы выдать по запросу пользователя действительно релевантный документ. Во-первых, для поисковой системы недостаточно проанализировать только лишь внутреннее содержимое какого-либо документа. Алгоритм поиска должен учитывать цитируемость документа, его авторов, положение на web-сайте, посещаемость, авторитетность источника и др. Во-вторых, алгоритмы индексирования должны быть защищены от попыток искусственно подделать релевантность поиска. Примером такой «атаки» может послужить насыщение какого-либо документа (или web-страницы) популярными ключевыми словами. В-третьих, для осуществления корректного ранжирования результатов выдачи немаловажной задачей поисковой системы является обновление и синхронизация огромных объемов текстов на разных языках, в различных кодировках, дублированием и т. д. Безусловно, это далеко не все задачи и вызовы, стоящие перед современной поисковой системой. Их количество постоянно растет, и оно настолько большое, что современным поисковым системам в Интернете (Google, Яндекс) постоянно приходиться применять более «умные» и совершенные алгоритмы поиска. Применение нейронных сетейКритерии релевантности информации в Интернете, как и сами размеры информации в нём, постоянно растут. Также растет и количество факторов, влияющих на ранжирование. Например, стали учитываться ссылки на документы, стал важен регион мира, из которого пользователь выполняет поисковой запрос, стало важным и само поведение пользователей. В какой-то момент перед крупными технологическими компаниями пришло осознание, что лучше всего научить вычислительную машину какие признаки использовать для ранжирования и как их комбинировать. Примером поискового алгоритма, основанного на машинном обучении, может служить алгоритм «Королёв», используемый компанией «Яндекс» в настоящий момент [10]. Данный алгоритм основан на сравнении семантических векторов поисковых запросов пользователя и содержимого web-страницы целиком. Преобразованием текста web-страницы в семантические векторы занимается нейронная сеть. Векторы страниц вычисляются заранее на этапе индексирования. При выполнении пользовательского поискового запроса, алгоритм сравнивает вектор запроса с уже заранее вычисленными нейросетью векторами страниц. Такая схема работы позволяет ещё на раннем этапе ранжирования подобрать страницы, соответствующие смыслу поискового запроса. Кроме того, дополнительные смысловые связи устанавливаются и со схожими поисковыми запросами других пользователей. Прежде, чем нейронная сеть сможет полноценно функционировать, её необходимо обучить на основе поисковой статистики. Статистика учитывает страницы, на которые переходят пользователи по разным запросам, и сколько времени эти пользователи там проводят. Кроме того, сотрудники поисковых компаний или сами пользователи могут оценивать результаты работы нейронной сети и тем самым улучшать качество поиска в будущем. ЗаключениеВ данном реферате были рассмотрены основные виды автоматизированных информационно-поисковых систем с акцентом на использование в сети Интернет. Приведены их описание и классификация, даны основные определения. Хочется отметить, что в реферате, помимо прочих, были использованы литературные источники, связанные с отечественной транснациональной компанией «Яндекс», в частности описание работы нейронных сетей в контексте ранжирования и описание алгоритмов поиска от одного из основателей данной поисковой системы Сегаловича В.С. Проблеме поиска информации и, в частности, информационно-поисковым системам посвящено множество книг, монографий и других работ. Автор реферата старался простым языком донести до читателя основные принципы функционирования современных поисковых систем. Список литературыГОСТ 7.73-96. Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения. [Электронный ресурс]. URL: http://vsegost.com/Catalog/91/9181.shtml ГОСТ 7.74-96. Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения. [Электронный ресурс]. URL: http://vsegost.com/Catalog/27/27744.shtml Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. — М.: Наука, 1968. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации. — Новосибирск: Наука, 2010. Сегалович И.В. Как работают поисковые системы. — Мир Internet. 2002. №10. С. 24—32. Кормен Р., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — МЦНМО, 2000. Sedgewick R. Algorithms in C++. — Addison-Wesley, 1992. Furnas G.W., Deerwester S., Dumais S.T., Landauer T.K., Harshman R.A., Streeter L.A., Lochbaum K.E. Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure. — ACM SIGIR, 1988. Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. Indexing by Latent Semantic Analysis. — JASIS, 1990. Как Яндекс научил искусственный интеллект понимать смысл документов. [Электронный ресурс]. URL: https://habrahabr.ru/company/yandex/blog/336094/ Брезицкая В.В., Зеленков П.В., Прохорович Г.А., Перанцева А.В., Храпунова В.В. Классификация информационно-поисковых систем. — Решетневские чтения, 2015. Козлов Д.Д. Информационно-поисковые системы в Internet: текущее состояние и пути развития. Технологический обзор. Москва, 2000. Солтон Дж. Динамические библиотечно-информационные системы. — М.: Мир, 1979. C.J. van Rijsbergen. Information retrieval. — London, Butterworths, 1979. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. 1Корконданс — алфавитный перечень всех слов какого-либо текста с указанием контекстов их употребления. |