Итм реферат. Курсовая работа Поиск информации в Интернете
Скачать 1.66 Mb.
|
2.2 Средства поиска информацииПо принципу организации и использования средства поиска можно выделить следующие инструменты: · поисковые машины — являются ключевым инструментом поиска информации, поскольку содержат индексы большинства web-серверов Интернета. Однако именно это достоинство оборачивается их главным недостатком. На любой запрос они выдают обычно чрезмерно большое количество информации, среди которой только незначительная часть является полезной, после чего требуется значительный объем времени для ее извлечения и обработки; · специализированные средства поиска — представляют собой «программы-пауки», которые в автоматическом режиме просматривают web-страницы, отыскивая на них нужную информацию. Механизм их работы близок к механизму, который используют поисковые системы для построения своих индексных таблиц. Выбор между первыми и вторыми представляет собой классический выбор между применением универсальных или специализированных средств; · каталоги — как и поисковые машины, используются посетителями Интернета для нахождения необходимой информации. Каталог представляет собой иерархически организованную структуру, в которую данные заносится по инициативе пользователей. Как следствие, объем информации в них несколько ограничен по сравнению с поисковыми системами, но в то же время более упорядочен благодаря лежащей в их основе иерархической тематической структуре. 2.3 Методы поиска информацииБолее или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен при помощи двух основных методов, которые, в зависимости от его целей и задач, могут быть использованы по отдельности или в комбинации друг с другом: · использование поисковых систем — сегодня этот метод является одним из основных при проведении предварительного поиска. Его применение основано на ключевых словах, которые передаются системе в качестве аргумента поиска. Результатом является список ресурсов Интернета, подлежащих детальному рассмотрению. Получение наиболее релевантного результата требует проведения предварительной работы по составлению тезауруса; · поиск по гипертекстовым ссылкам — поскольку все сайты Интернета связаны между собой гиперссылками, поиск информации может быть произведен путем последовательного просмотра с помощью браузера связанных ссылками web-страниц. К этому виду поиска также относится использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников. Такой метод наиболее трудоемок, однако «ручной» просмотр web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, требующего глубокого анализа. Он может быть также более эффективен при проведении повторных циклов или просмотре вновь образованных ресурсов. 2.4 Поиск с использованием поисковых машинНаиболее широко используемым, но в то же время наиболее сложным является метод поиска с использованием поисковых систем. Его широкая распространенность обусловлена тем, что поисковые системы содержат в себе индексы громадного количества сайтов и при правильно сформированном запросе можно сразу же получить ссылки на интересующие ресурсы. Сложность метода состоит в том, что для того, чтобы результат был качественным, необходимо уметь выбрать наиболее подходящие поисковые системы, правильно формулировать запросы к ним, учитывать их особенности и функциональные возможности. Двоякая характеристика данного метода связана с тем, что проведение эффективного поиска требует одновременного решения двух противоположных задач: увеличении охвата с целью извлечения максимального количества значимой информации и уменьшении охвата с целью минимизации шумовой информации. Нетрудно увидеть, что одновременно осуществить и то и другое довольно сложно, хотя найти оптимальное соотношение все-таки возможно. 2.5 Составление и выполнение запросов к поисковым машинамЭто наиболее сложный и трудоемкий этап, связанный с обработкой значительного количества информации, большая часть которой обычно является шумовой. После получения первоначальных результатов возможно уточнение запросов с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска, и данные с ресурсов, признанных релевантными, собираются для последующего анализа. Как формат, так и семантика запросов может варьироваться в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы должны составляться так, чтобы область поиска была максимально конкретизирована и сужена, то есть предпочтение следует отдавать использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится их пробная реализация — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации. Языки запроса различных машин поиска в основном являются сочетанием следующих функций: · осуществление поиска документов при помощи операторов булевой алгебры AND, OR, NOT. AND (И) — содержащих все термины, соединенные им, OR (ИЛИ) — искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) — поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором; · осуществление поиска документов при помощи операторов расстояния, ограничения порядка следования и расстояния между словами. NEAR — второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; FOLLOWED BY — термины следуют в заданном порядке; ADJ — термины, соединенные оператором, являются смежными; · возможность усечения терминов — использование символа * вместо его окончания термина; позволяет включить в искомый список все слова, производные от его начальной части шаблона; · учет морфологии языка — машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск; · возможность поиска по словосочетанию, фразе; · ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.); · ограничение по дате опубликования документа; · ограничение на количество совпадений терминов; · возможность поиска графических изображений; · чувствительность к строчным и прописным буквам. Результат запроса, то есть выведенный системой список ссылок на найденные ресурсы, обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации. |