Реферат Поиск информации в сети. Поиск информации в Интернет Каталоги ресурсов
Скачать 34.41 Kb.
|
Введение Поиск информации в Интернет Каталоги ресурсов Информационные основы поиска информации в Интернет Поиск документов на русском языке Язык запросов поисковой системы Яндекс Основные методы поиска информации в Интернете Поисковые системы Заключение Список использованных источников Введение В наш ХХI век, владение информацией, говорит о том, что человек образован и респектабелен. Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы – результат того стоит. Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. В просторечии под поисковой системой – подразумевают веб-сайт, на которой размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы – является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании-разработчика поисковой системы. Поиск информации в Интернет Сегодня можно смело утверждать, что Интернет является самым большим хранилищем информации из всех когда-либо известных человечеству. На тысячах компьютеров хранятся сотни миллионов документов, которые ждут своих потребителей. Посредством Интернет можно просматривать каталоги крупнейших библиотек мира, ознакомиться с экспозициями наиболее известных музеев, выбрать оптимальную траекторию перелета через континенты, заказать билеты, забронировать места в гостиницах, ознакомиться с самыми современными программными продуктами, получить их бесплатные (freeware) демонстрационные версии или протестировать условно бесплатные (shareware) экземпляры, заказать по каталогам книги, одежду, бытовые товары и т.д. и т.п. Подавляющее большинство пользователей Интернет выступают одновременно и как источники (реклама, информация о фирмах, научные труды, персональные curriculum vitae и т.д.), и как потребители информации. Естественно, что эта информация имеет весьма многоплановый характер и, будучи бесполезной для одной категории пользователей, может представлять жизненно важный интерес для другой. Основная проблема получения информации через глобальную сеть заключается в том, что вся информация находится в Интернет одновременно и задача пользователя сводится к ее «фильтрации» с целью получить без потерь необходимую информацию и не растрачивать понапрасну силы на ознакомление с документами, не имеющими отношения к интересующей вас предметной области. Интернет часто сравнивают с мировой информационной свалкой, в которой теоретически может находиться все, что заинтересует пользователя, но главной задачей является найти именно то, что нужно. По данным социологических опросов, проводимых опять таки через Интернет, только 35% пользователей находят нужную им информацию, 60% удовлетворены результатами поиска только частично, а оставшиеся 5% жалуются, что не смогли найти что-либо полезное для себя. Говоря о поиске информации в Интернет, следует с самого начала предупредить, что доступ к большому числу информационных ресурсов и систематизированный поиск информации в них часто предоставляется владельцами этих ресурсов после предварительной регистрации за плату, и эта плата может оказаться достаточно значительной. Нельзя не упомянуть также об одной из «опасностей», подстерегающих неопытного пользователя практически на всех страницах Интернет - будь то бесплатная электронная почта или поисковые машины. Это рекламная информация. Многие сайты бесплатны для вас по той причине, что живут за счет размещаемой на них рекламы. Деньги платит рекламодатель. Весьма красочные моргающие, анимированные и прочие привлекательные картинки (их называют баннерами, banner - англ. - знамя, заголовок) располагаются в самых заметных местах экрана - тем более дорогих, чем более посещаемой является конкретная страница. Баннеры предлагают вам одним щелчком мыши или что-то весьма интересное узнать, или что-то выиграть, или на что-то подписаться, или стать членом какого-то клуба... Соблазн велик! Страшного, конечно, ничего нет, но нужно помнить, что за посещение «бесплатных» рекламируемых сайтов вам придется платить собственным временем, в том числе — затрачиваемым на закрытие многочисленных рекламных окон, появляющихся при попытке покинуть страницу, на которую вас заманили. Как же найти в Интернет нужную информацию? Самый простой способ получения информации в Интернет — это знать URL интересующего вас ресурса, а еще лучше иметь закладку — тогда не надо даже набирать адрес и не будет проблемы с опечатками. Иначе информацию в Интернет приходится искать самостоятельно. Для этого существуют различные инструменты: поисковые машины (поисковики), индексированные каталоги (рубрикаторы), рейтинги, метапоисковые системы и тематические списки ссылок, онлайновые энциклопедии и справочники. Каталоги ресурсов В каталогах (классификаторах, рубрикаторах) ресурсов используется иерархическая (древовидная) организация информации. Это дает пользователю возможность вести просмотр, перемещаясь по иерархии тематических рубрик, и постепенно сужать поле поиска до необходимых размеров. При использовании классификаторов к интуиции и опыту пользователя «добавляется» интеллектуальная мощь создателей рубрик и коллективов, которые их наполняют. Это особенно полезно для начинающих: подобранная в рубриках информация, как правило, оказывается значительно богаче, чем можно было себе представить, начиная поиск по конкретному вопросу. Если проводить аналогии с обычными библиотечными каталогами, то каталоги ресурсов похожи на систематический каталог библиотеки. Это совокупность рубрик, расположенных в определенном порядке - от общего к частному. Ссылки рассортированы по тематическим рубрикам и снабжены аннотациями, вы переходите от одной рубрики к другой, читаете, ищете, выбираете — как в каталоге любой библиотеки. Компании, владеющие такими каталогами, непрерывно проводят огромную работу, исследуя, описывая и каталогизируя содержимое WWW-серверов и других сетевых ресурсов по всему миру. Результатом таких усилий является огромный иерархический каталог, на верхнем уровне которого собраны самые общие понятия, а элементы самого низкого уровня представляют собой ссылки на отдельные WWW-страницы и сервера вместе с кратким описанием их содержимого. Конечно, никто не даст гарантий, что такой каталог охватывает все содержимое Сети: ведь составляют его все-таки люди, а людям свойственно уставать и ошибаться. Но возможная неполнота и даже однобокость подбора материалов в таких каталогах с лихвой окупается тем, что не под силу никакому компьютеру — осмысленностью отбора. Поисковые каталоги бывают общего назначения и специализированные. Поисковые каталоги общего назначения включают в себя ресурсы самого разного профиля. Специализированные каталоги объединяют только ресурсы, посвященные определенной тематике. Им часто удается достичь лучшего охвата ресурсов из своей области и построить более адекватную рубрикацию. К категориям каталогов относят также тематические подборки ссылок с аннотациями (часто с возможностью поиска и с рейтингом сайтов). Информационные основы поиска информации в Интернет Рассмотрим некоторые понятия теории информационного поиска. Итак, у вас возникает потребность найти информацию по определенной теме — ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов -подходит или не подходит. В теории информационного поиска вместо слова «подходит» используют термин «пертинентный документ», а вместо «не подходит» - «не пертинентный». Слово «пертинентный» происходит от английского «pertinent», что значит «относящийся к делу, подходящий по сути». Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше»). Эта цель недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются «шумом». Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов (раз мы видим только пертинентные документы, нет никакой уверенности в том, что и среди тех документов, которые не попались нам на глаза, тоже не окажутся пертинентные). Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий ощущает себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно. Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые «понимает» ИПС - должен быть сформулирован ЗАПРОС. Запрос редко может точно выразить информационную потребность. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот. Известна американская ИПС, которая на запрос, состоящий из единственного слова «Russia» (Россия), выдает список документов, в первом из которых этого слова нет вообще, но зато есть слово «Gagarin». Этот документ нерелевантен, но пертинентен для массовой американской аудитории. В случае, когда ищется информация о шлюпочных якорях (кошках), запрос, состоящий из слова «кошка», почти в любой ИПС дает массу релевантных, но непертинентных документов. Поиск документов на русском языке Еще несколько лет назад о появлении мощных поисковых систем, помогающих в нахождении документов на русском языке, можно было лишь мечтать. Достаточно сложная морфология русского языка затрудняла эту задачу, не позволяя напрямую применить проверенные западные алгоритмы. Еще одна проблема русскоязычного Интернета — это наличие нескольких национальных сетевых кодировок. Для обычного англоязычного Web-сервера эта проблема решается просто. К русскоязычной поисковой машине предъявляются более жесткие требования. Дело в том, что далеко не все серверы поддерживают все или по крайней мере основные кодировки. Часть из них поддерживает или только KOI-8, или только Windows 1251, и только примерно треть поддерживает все или 2-3 основные кодировки. Если вы вводите запрос в окне поискового сервера в определенной кодовой странице, то не сможете найти ту информацию, которая существует в другой кодировке на серверах, поддерживающих какую-либо одну кодировку, если ваши кодовые страницы не совпадают. Для получения полной информации вам придется воспользоваться всеми кодировками, поддерживаемыми поисковыми серверами. Среди поисковых систем, работающих с русскоязычными документами, можно выделить как международные Web-индексы, так и системы, разработанные и внедренные белорусскими и российскими компаниями. Google, http://www.google.com/ Очень дружелюбная и понятная пользователю система поиска информации в сети Интернет (включая русскоязычный Интернет). Возможность поиска картинок и новостей в конференциях Usenet. Сегодня Google осуществляет поиск по трем миллиардам веб страниц и прочно укрепился на первом месте по популярности среди поисковых машин. Yahoo!, http://www.yahoo.com/ Yahoo! — наиболее популярный во всем мире и самый крупный (более 1 млн. узлов) каталог Интернет, осуществляет поиск на всех основных европейских языках, обладает развитым языком запросов и режимом усложненного поиска. Имеется партнерское соглашение с AltaVista, поэтому запрос может быть перенаправлен туда; дает также доступ к БД Inktomi, результаты поиска в которой предоставляются после выдачи всех результатов из собственного каталога. Система поиска в тематических каталогах не имеет себе равных в Web; ведется по ключевым словам, категориям иерархии, ссылкам и регистрационной информации. AltaVista, http://www.altavista.net/ Alta Vista по праву считается самой большой и авторитетной поисковой системой, одной из первых предоставившая возможность поиска информации на разных языках, поиска графических, аудио- и видео ресурсов, поиск в новостях, архивах и т.д. Использует тематический каталог ресурсов LookSmart и предлагает два способа поиска информации в Web: традиционный поиск по ключевому слову и набор поисковых каталогов. Поиск в категориях можно вести по ключевому слову или перемещаться внутри категорий. Ореп.bу, http://www.open.by/ Каталог Ореn.bу (http://www.open.by/) является одним из лучших рубрикаторов белорусского Интернета. Структура каталога построена по принципу известного каталога Yahoo! Удобная организация информации по разделам, наличие рекомендуемых создателями подборок популярных и полезных адресов, поиск информации по описанию ресурса, возможность открыть бесплатный почтовый ящик и другое делают этот сайт привлекательным и для начинающего пользователя и для профессионала. Акавiта, http://akavita.by/ Служба Акавiта с 1999 года представляет статистические услуги для белорусских веб-сайтов и является белорусской поисковой системой и каталогом интернет-ресурсов. Служба охватывает свыше 50% белорусских интернет-ресурсов, в каталог занесены около 5000 адресов. tut.by, h ttp://www. tut.bу/ Белорусский портал tut.by открылся 5 октября 2000 года. Является одним из основных пунктов входа в Интернет для белорусских пользователей. Полноценная поисковая система по белорусскому интернету. Дополнительные сервисы — почта, новости, форумы, поиск работы и т.д. Rambler, http://www.rambler.ru Рамблер — один из самых популярных в русскоязычном Интернете портал, объединивший поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. В состав интернет-холдинга входят: * портал Рамблер, * новостная интернет-газета Лента.ру, * медицинский сайт Doctor.ru, * онлайновый клуб родителей Mama.ru, * картографический сервис NaKarte.ru, * телекоммуникационное подразделение «Рамблер Телеком». Рамблер активно развивается, расширяя количество сервисов и информационных ресурсов, среди которых выделим информационный сайт юридической тематики «Рамблер-Право» ("http://law.rambler.ru/), предназначенный как для широкого круга лиц, так и для специалистов в области права. Яndex, http://yandex.ru Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. В абсолютных цифрах (включая зарубежных пользователей) ежедневная аудитория Яндекса составила в марте 2004 года около 1,8 миллиона человек, ежемесячная - свыше 11 миллионов. Самая популярная страница в российском Интернете - страница с результатами поиска на Яндексе: каждый месяц почти 9 миллионов человек читают ее свыше 200 миллионов раз. Среди служб Яндекса - поиск в интернете и каталог сайтов, платежная система и последние новости, энциклопедии и словари, система фильтрации спама и каталог товарных предложений магазинов, электронная почта, хостинг и многое другое. Апорт, http://www.aport.ru Поисковая система, поддерживающая более 1 млн. Web-документов и более 10 тыс. Web-узлов. Отличительная особенность — развитые средства морфологического анализа русского и английского языков. Учитываются синтаксическая связь между запросами, род, число, склонение и спряжение заданного слова. Можно использовать булевы операторы, поддерживаются пять кириллических кодировок. Возможны уточнение поиска по разделам каталога и серверам, поиск с переводом запроса на английский язык и наоборот. MetaBot.Ru, http://www.metabot.ru/ Мета-поисковая система MetaBot.Ru была создана по итогам масштабных исследований и призвана объединить лучшие качества лучших поисковых систем в единый поисковый проект с общим интерфейсом и общим синтаксисом запросов. Язык запросов поисковой системы Яндекс Как трактуются слова, независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы. Например, по запросу 'путина' найдется и президент, и сезон интенсивного рыболовства. А по запросу 'Путина' - президент и те случаи упоминания рыболовного сезона, когда он написан с большой буквы (например, если с него начинается предложение). По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак'!'. Естественно-языковый поиск Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие-либо слова из результата поиска, поставьте перед каждым из них"-". Например, запрос 'частные объявления продажа велосипедов', выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с "+" 'частные объявления продажа ^-велосипедов' покажет объявления о продаже именно велосипедов. Если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос 'путеводитель по парижу -агентство -тур' Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-" надо писать через пробел от предыдущего и слитно с последующим словом, вот так: 'рак -гороскоп'. Основные методы поиска информации в Интернете Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом: Непосредственный поиск с использованием гипертекстовых ссылок. Использование поисковых машин. Поиск с применением специальных средств. Анализ новых ресурсов. Непосредственный поиск с использованием гипертекстовых ссылок Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, “ручной” просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое “копание” уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска. Использование поисковых машин Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению. Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса. Поиск с применением специальных средств Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ – спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки. Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен. Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств. Анализ новых ресурсов Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике. Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области. Поисковые системы Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. Основными критериями качества работы поисковой машины – являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML – данных разного типа. Улучшение поиска — это одна из приоритетных задач сегодняшнего Интернета. История поисковых систем Одним из первых инструментов поиска в интернете (до WWW) был Archie. Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой, то есть индексирующей ресурсы при помощи робота, поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона. Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 была открыта поисковая машина Яндекс. В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик Nigma, поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака ключевых слов. Nigma тоже экспериментировала с визуальной кластеризацией. Заключение Поиск, с применением поисковых машин – является самым распространенным и эффективным методом поиска чего-то конкретного в сети Интернет. Хотя остальные методы ничем не хуже, только они применяются очень редко и только в том случае, если при помощи поисковой машины ничего нельзя найти. Пользоваться поисковыми машинами удобно и легко. Список использованных источников Бирюков Б.М. Интернет-справочник по образованию.- М.: Экзамен, 2002.- 480 с. Грей Алекс. Интернет / Пер. с англ. А.Лебедева.- М: ACT: Олимп, 2002.-191 с: ил. Грошев СВ. Интернет - быстро и обо всем: Рус. и англ. программы /Грошев СВ., Коцюбинский А.О.- М.: Технолоджи - 3000, 2002.- 256 с:ил. Денисов Артем. Интернет / Денисов А.,Вихарев И.,Белов А.- СПб.:Питер; М.; Харьков; Мн., 2002.- 464с: ил. Дьяконов В.П. Интернет. Настольная книга пользователя. - 4-е изд.,перераб. и доп.- М: СОЛОН-Р, 2002.- 656с: ил. http://www.ucheba.ru – Учёба.RU http://textbook.vadimstepanov.ru/index.html – интернет в профессиональной информационной деятельности http://www.proweb.ru/articles/oglavlenie/glava4/poisk – Группа компаний “Вебдом” http://newsmir.ucoz.ru/load/1-1-0-9 – Лента новостей http://simbiont-club.webzone.ru/search.htm – поисковые системы http://www.seoded.ru/ssilki/poiskoviki.html – seoded.ru |