Главная страница
Навигация по странице:

  • INTERNATIONAL BANKING INSTITUTE

  • 7.2.1. Представление о глобальной сети Интернет

  • IP-адреса компьютеров в Интернет

  • Класс Адрес Количество сетей Количество хостов

  • Доменная система имен в Интернет

  • 7.2.2. Сервисы Интернет

  • Назначение электронной почты

  • Приложение Outlook Express

  • Браузер Internet Explorer

  • Файл/Сохранить объект как

  • Сервис/Свойства обозревателя

  • 7.2.3. Поиск информации в Интернет

  • Поиск в тематических каталогах

  • 7.2.4. Основы задания критериев поиска

  • Название поисковой системы Адрес страницы помощи Примеры использования

  • (Крым история) (туризм|турагентство) Найденные документы будут содержать слова "Крым" и "история", но при этом будут отсеяны страницы турагентств С2(мужчины женщины)

  • интернет. Тема глобальная сеть интернет


    Скачать 0.52 Mb.
    НазваниеТема глобальная сеть интернет
    Анкоринтернет
    Дата21.12.2021
    Размер0.52 Mb.
    Формат файлаdoc
    Имя файла5_R7_T2.doc
    ТипТесты
    #313017


    ТЕМА 7.2. ГЛОБАЛЬНАЯ СЕТЬ ИНТЕРНЕТ

    Цели:

    ознакомиться:

    • с сервисами Интернет;

    • с технологией работы в средах браузера Интернет Explorer;

    • с технологией работы с электронной почтой Outlook Express;

    • с критериями поиска гипертекстовых документов и файлов.

    Оглавление

    7.2.1. Представление о глобальной сети Интернет
    7.2.2. Сервисы Интернет
    7.2.3. Поиск информации в Интернет
    7.2.4. Основы задания критериев поиска

    Версия для печати
    Хрестоматия
    Практикумы
    Презентации
    Тьюторы
    Тесты

    7.2.1. Представление о глобальной сети Интернет

    Назначение сети Интернет

    Интернет – это объединение множества глобальных сетей. Технологии Интернет строятся на основе эталонной модели взаимодействия ISO OSI . Протоколы транспортного и сетевого уровня, используемые в Интернет, - TCP/IP.

    Множество серверов Интернет образуют общее информационное пространство, в котором реализованы многие информационные сервисы. Сервисы, доступные пользователю обеспечиваются прикладным (седьмым) уровнем взаимодействия. Пользователь Интернет может иметь доступ:

    • к файловым серверам - для работы с его архивами по поиску и считыванию файлов;

    • к почтовым серверам - для отправки и получения сообщений и файлов по электронной почте;

    • к web–серверам, - для просмотра гипертекстовых документов Интернет;

    • к различным базам данных, размещенных в Интернет;

    • к серверам IP-телефонии;

    • к поисковым системам Интернет.  

    IP-адреса компьютеров в Интернет

    Каждый компьютер в сети должен иметь уникальный IP-адрес. Клиент может получать этот адрес на время установки сеанса.

    Адрес компьютера в Интернет состоит из 4-х байт. Байты отделяются друг от друга точками, например:

    123.24.35.64

    Каждое из чисел не больше 255, так как всего на адрес выделено 32 разряда. Начало адреса содержит информацию о том, частью какой из сетей является компьютер. Правое число идентифицирует компьютер, которому пакет предназначается.

    Существует несколько типов IP-адресов (табл.1) – A, B, C, D, E. В зависимости от типа 32 разрядный адрес делится на разное количество полей, определяющих номера сети и номера узла. От этого зависит количество сетей и компьютеров в них.

    Таблица 1. Адреса классов сетей

    Класс

    Адрес

    Количество сетей

    Количество хостов

    А

    1-126

    126

    16,7 млн

    B

    128-191

    16383

    65 533

    C

    192-223

    2 млн

    254

    D

    224-239

    -

    -

    E

    240-255

    -

    -

    В адресах класса A восемь бит выделены для сетевого адреса и 24 бита для адреса узла. Если старший бит первого октета (8 бит) установлен в ноль (0), адрес принадлежит к классу A. Соответственно, возможное значение для данного октета от 0 до 127, реальный диапазон 1-126. Таким образом, возможное количество сетей для класса А - 126, так как для адреса сети зарезервировано только восемь бит и первый бит должен быть ноль. Однако, так как для адреса узла доступно 24 бита, каждая сеть может иметь

    224 = 16 777 214 узлов.

    Это сети серверов Интернет верхнего уровня.

    В адресах класса B 16 бит выделены для адреса сети и 16 бит для адреса узла. Класс B характеризуется заполнением старших битов первого октета адреса (первые 2 бита) бинарной маской «10». Это дает значения октета в диапазоне от 128 до 191. Так как первые два бита уже используются, остается 14 бит для уникального адреса сети и число возможных комбинаций - 16,383, а число адресов узлов - 65,533.

    В адресах класса C 24 бита определено для адреса сети, остальные 8 бит - для адреса узла. Адреса класса C имеют заполнение старших битов первого октета «110», что дает диапазон адресов 192-223. В классе C только последний октет используется для адреса узла, что ограничивает максимальное число узлов в сети до 254. Так как для уникального адреса сети доступен только 21 бит (три бита уже установлены в 110), поэтому число возможных сетей - 2,097,151.

    Адреса класса D имеют диапазон значений от 224 до 239. Эти адреса используются для указания группы узлов, зарегистрированных как члены multicast group. Группа multicast group подобна списку рассылки электронной почты. Можно послать данные группе узлов, указав их multicast адрес после специальных настроек.

    В адресах класса E первые четыре бита первого октета - «1111». Эти адреса расположены в диапазоне 240-254. Этот класс адресов не используется для стандартных IP-адресов. На адреса данного класса часто ссылаются, как на экспериментальные, или как на исследовательский класс.

    Доменная система имен в Интернет

    Данные пересылаются от одного компьютера сети к другому при наличии уникального IP-адреса, но для удобства компьютеры имеют также адреса в символьной форме (доменные адреса), которые хранятся на DNS–серверах (Domain Name Server) в таблицах соответствия.

    Каждый уровень системы имен называется доменом. Домен назначается сетевым группам. Домены отделяются друг от друга точками, например,

    vxcern.cern.ch;

    nic.ddn.mil.

    Имя может содержать различное количество доменов, но практически их не более пяти. Как правило, используется 2, 3, очень редко – 4.

    Доменные имена читаются справа налево. Существует два вида доменных адресов – составленные по принципу принадлежности к организациям и по территориальному принципу.

    Первый слева, младший домен - это название рабочей станции. Имя этого компьютера поддерживается группой, к которой он относится. Группа входит в более крупное подразделение, например город, и, в свою очередь, является частью сети, принадлежащей стране. В именах доменов в США редко используют существующий домен US , а по традиции предпочитают использовать домены, образованные по организационному принципу:

    • gov – государственные;

    • mil – военные;

    • edu – образовательные;

    • net – сетевые организации.

    Эти названия доменов сложились исторически.

    Примеры адресов.

    1. microsoft.com - имеет старший домен – com - коммерческие организации.

    2. hermitage.ru - имеет старший домен ru – страна Россия.

    Когда используется доменное имя компьютера, оно должно быть преобразовано в IP-адрес, который запрашивается на специальных DNS-серверах. Это узлы, обладающие соответствующей базой данных этих имен (см. таб.2). Обработка адреса начинается с его правого конца, т.е. сначала разыскивается адрес в самой большой группе адресов, потом постепенно поиск сужается. Доменные адреса используются пользователями, но связь происходит по IP-адресам, поэтому во время сеанса связи на DNS-серверах происходит поиск соответствующего доменному адресу IP-адреса.

    Таблица 2. Соответствие доменных имен IP адресам



    7.2.2. Сервисы Интернет

    Представление о сервисах Интернет

    В 1989 году Тим Бернерс-Ли предложил руководству международного центра высоких энергий (CERN) проект распределенной гипертекстовой системы, которую он назвал World Wide Web (WWW) - Всемирная паутина. Первоначально идея системы состояла в том, чтобы при помощи гипертекстовой навигационной системы объединить все множество информационных ресурсов CERN в единую информационную систему.

    Технология оказалась удачной и дала толчок к развитию одной из самых популярных в мире глобальных информационных систем.

    Большинство пользователей глобальной компьютерной сети Интернет ассоциирует сеть с сервисами, которые предоставляются пользователю тремя основными информационными технологиями:

    • технологией передачи сообщений и файлов по электронной почте (e-mail) и технологией проведения телеконференций;

    • технологией работы с файловыми архивами (FTP);

    • технологией доступа к гипертекстовым документам с помощью системы World Wide Web.

    Технология World Wide Web успешно распространяется благодаря своей простоте, надежности обмена данными (обеспечивающимися протоколами межсетевого обмена семейства TCP/IP) и удобному современному интерфейсу, используемому для доступа к разнообразным сетевым ресурсам. Вследствие удобства интерфейса все сервисы Интернет становятся возможными через World Wide Web , а именно:

    • доступ к базам данных в Интернет;

    • поиск информации;

    • IP-телефония;

    • IRC (Интернет Relay Chat) – разговор в режиме реального времени, допускающий одновременное общение нескольких пользователей в одном информационном пространстве;

    • ICQ – общение с пользователями этого сервиса после фильтрации нужных контактов. Возможность общения в реальном времени и отложенного общения.

    Назначение электронной почты

    Электронная почта обеспечивает отправление и получение сообщений, пересылку вложенных в них файлов разных форматов, подписку на получение рассылки документов на определенную тему, отправку открыток и др.

    Обеспечивается этот сервис почтовыми серверами. Стандартные протоколы для входящей почты - POP 3 (Post Office Protocol); для исходящей - SMTP (Simple Mail Transfer Protocol), IMAP.

    Адреса электронной почты состоят из двух частей, например,

    user@nevalink.spb.ru

    где до символа @ ("at") находится учетная запись (логин или имя пользователя), а после этого символа - адрес почтового сервера, Символ @ ("at") является разделителем.

    Для того, чтобы пользоваться этим сервисом, необходимо зарегистрировать почтовый адрес, получить пароль доступа к почтовому ящику. Также нужно определить, какое приложение (почтовый клиент) будет использоваться для работы с электронной почтой. В последнее время получили широкое распространение приложения The Bat, Outlook Express.

    Приложение Outlook Express

    Outlook Express – это приложение, обеспечивающее пересылку и получение сообщений, хранение информации в почтовых папках, работу с адресной книгой, создание сообщений на бланках, вложение файлов разных форматов в сообщения. Использование программы дает возможность работы в отложенном режиме (Off Line), что обеспечивает более дешевый доступ.

    Для того, чтобы приложение работало на компьютере, в учетные записи почтового клиента необходимо добавить свой почтовый адрес, логин, пароль и указать другие параметры для получения сервиса электронной почты – имя почтового сервера и пр.

    Наличие адреса электронной почты дает возможность участвовать в телеконференциях, подписываться на услуги в сети Интернет, участвовать в опросах, получать образовательные услуги, писать в форумы и пр.

    Файловые архивы

    Множество файловых серверов глобальных сетей хранят архивы файлов различных форматов. Для того, чтобы иметь доступ к каталогам таких компьютеров, необходимо получить доступ к файловому серверу – логин, пароль и указание доступных каталогов. Существуют специальные программы для перекачки файлов, которые позволяют выкладывать файлы на файловый сервер и, наоборот, скачивать файл с сервера на свой компьютер. Протокол передачи файлов называется FTP (File Transfer Protocol).

    Важным понятием является URL (Universal Resource Locator) – адрес ресурса в сети, который содержит указание протокола передачи, адреса компьютера, перечисление папок, которые нужно открыть, и имя файла. В случае ресурса, хранящегося на FTP–сервере, его адрес будет выглядеть, например, так:

    FTP://met ok.kiev.ua/pub/soft/arch/winrar.exe ;

    Из адреса видно, что это указание на файл winrar.exe , который хранится на файловом сервере (ftp) на украинском компьютере, что видно из домена страны – ua , и домена второго уровня (города) - kiev. За именем компьютера следует перечисление вложенных папок (каталогов), в которых находится этот файл. Файл доступен по протоколу передачи файлов - ftp.

    Протокол передачи файлов используется также для "закачки" на сервер гипертекстовых страниц своего сайта.

    World Wide Web

    Широкое распространение получил сервис, называемый World Wide Web (Всемирная паутина). Этот сервис предоставляет пользователю возможность просматривать гипертекстовые документы, которые содержат не только тексты, но и графику, музыку, видео, анимации. На страницах гипертекста можно найти ссылки, которые позволяют загружать другие документы и легко перемещаться от одного к другому ресурсу.

    Гипертекстовые документы, содержащие текстовые поля для ввода информации пользователя, кнопки альтернативного выбора, списки для выбора пользователем данных (рис. 1), позволяют осуществлять диалог с пользователем. Пользователь может заполнять специальные формы данными для регистрации в базах данных, поиска информации. Например, он может заказать гостиницу, билет на авиарейс, зарегистрировать свой почтовый ящик, заказать и оплатить товар.



    Рис. 1. Страница сайта для регистрации номера в гостинице

    Сервисы Интернет становятся доступными через World Wide Web.

    Для описания документов сети используется язык гипертекстовой разметки (HTML - Hyper Text Markup Language). Он позволяет использовать обычный текстовый файл, который:

    • можно создать в любом текстовом редакторе на любой аппаратной и программной платформе;

    • отвечает стандартам кодов US ASCII;

    • имеет небольшой объем.

    Гипертекстовые ссылки, устанавливающие связи между текстовыми документами, постепенно стали объединять самые различные информационные ресурсы, в том числе звук и видео, в результате чего возникло новое понятие — гипермедиаресурс.

    Указатель ресурсов URL в случае гипертекстового документа, находящегося на web - сервере, адрес будет выглядеть так:

    http://www.hermitage.ru/russia/history/peter_first.html ;

    Из адреса видно, что документ (файл с расширением html), находится на сервере www.hermitage.ru , в папках russia и history. Доступен по протоколу передачи гипертекста - http.

    Примеры URL:

    • http://www.kiae.ru/rus/info/science. html

    где http:// - это указание протокола передачи гипертекста ( hypertext transfer protocol );

    где:

    www.kiae.ru - адрес компьютера;

    rus - название папки;

    info название другой папки;

    science.html - имя файла (расширение html указывает на содержание гипертекста).

    • http://www.ibi .spb.ru/rasp/exams/3.htm

    В этом адресе указан адрес страницы с расписанием экзаменов на сайте www.ibi.spb.ru в папке rasp, во вложенной в нее папке exams

    • http://www.sas.com/offices/europe/russia/software/spds/clsrv. gif

    Этот адрес содержит указание на графический файл файл clsrv.gif , который находится на сервере www.sas.com и для того, чтобы его открыть нужно войти последовательно во все папки, представленные в списке.

    Браузер Internet Explorer

    Просмотр документов Интернет осуществляется специальными программами–браузерами. Их назначение отрывать файл с гипертекстом и форматировать его в соответствии с тем, что содержит код этого файла. Широкое распространение получил браузер Microsoft Internet Explorer.

    Документы загружаются в окно браузера после указания адреса в адресной строке. Адрес (URL) может сохраняться в списке адресов просмотренных сайтов.



    Рис. 2. Создание папок в папке Избранное

    Адреса просмотренных сайтов можно запоминать в папке Избранное и обращаться к ним повторно. В папке Избранное можно создать другие папки для хранения ссылок на разные темы (рис.2).

    Найденную в Интернет информацию можно сохранять в разных форматах, таких как:

    • текстовый файл, при этом указывается кодировка кириллицы;

    • только гипертекст. Такой тип файла позволяет сохранить форматирование, на страницах остаются выделенные для изображений участки, но сами изображения при таком сохранении необходимо сохранять отдельно;

    • web-страница полностью. В таком формате сохраняется не только саму страницу с гипертекстом, но и автоматически создается папка с именем Имя_страницы. files , в которую помещаются все ресурсы страницы.

    Если необходимо сохранять только графические файлы или другие объекты – вызывается контекстное меню, позволяющее вызвать команду Файл/Сохранить объект как.

    Настройки браузера позволяют отказаться от загрузки ненужных пользователю ресурсов, например от звуков, анимации, графики. Команда Сервис/Свойства обозревателя на вкладке Дополнительно открывает список опций, которые может включить или отключить, используя флажки.

    IP-телефония

    Телефонные серверы IP-телефонии связаны с клиентами через обычные телефонные линии и могут соединить их с любым телефоном или компьютером мира через Интернет.

    Сервер принимает стандартный телефонный сигнал, оцифровывает его (если в исходном виде он был нецифровым), значительно сжимает, разбивает на пакеты и отправляет через Интернет по назначению с использованием протокола TCP/IP. Для того, чтобы осуществить междугородную (международную) связь, нужно иметь доступ к телефонному серверу вблизи отправителя сигнала и доступ к серверу в том месте, куда исходит звонок.

    7.2.3. Поиск информации в Интернет

    Поиск информации в Интернет осуществляется с помощью поисковых систем.

    Существуют поисковые системы, предназначенные для поиска web -документов, для поиска файлов на файловых серверах и для поиска данных по конкретным вопросам в специальных базах данных, например, для поиска адресов людей. Все поисковые системы в Интернет доступны пользователю в окне браузера.

    Поиск файлов

    Файловые серверы (FTP -серверы) хранят в своих архивах множество файлов. Поиск файлов, доступный пользователю через поисковые системы файлов дает пользователю возможность довольно быстро отобрать необходимые файлы и скопировать на локальный компьютер.

    Адрес русскоязычной системы поиска файлов во Всемирной паутине – http://www.filesearch.ru . Если известно имя файла, оно вводится в строку запроса. Например, (рис. 2), нужно найти файл winzip.exe. Для этого используем точное имя файла winzip.exe. Результат поиска – списки адресов FTP серверов с указанием папок, в которых находится нужный файл, то есть списки URL.



    Рис. 3. Строка запроса поисковой системы FILESEARCH

    Если точное имя неизвестно, можно ввести его шаблон. Например,

    шаблон имени *rar*.exe обозначает любые имена файлов с расширением exe , в имени которых использовано сочетание символов rar. Справа и слева от него в имени могут быть другие символы.



    Рис. 4. Форма расширенного поиска Файловой поисковой системы

    Можно вводить ключевые слова в строку запроса, если об имени файла существуют лишь предположения.

    В поисковой системе http://www.filesearch.ru (рис. 4) имеется возможность расширенного поиска. Такой поиск позволяет указывать в готовой форме запроса критерии отбора и другие параметры поиска. Например, можно выбрать тип файла, страну поиска.

    Поиск в тематических каталогах

    Среди поисковых систем Web – ресурсов принято различать тематические каталоги и поисковые машины.

    Тематические каталоги – представляют собой гипертекстовые каталоги, имеющие иерархическую структуру, в которых подобраны ссылки на ресурсы. Подбор информации в такие каталоги организуют специалисты. Просмотр и добавление новых ресурсов осуществляется медленнее чем в автоматизированных системах поиска.

    Поиск в таких системах представляет собой переход от главного рубрикатора к подкаталогам по гиперссылкам и далее, к вложенным каталогам. В результате пользователь получает список адресов документов на нужную тему.

    Примером глобального тематического каталога является каталог YAHOO. (www.yahoo.com ).

    Один из наиболее популярных русскоязычных тематических каталогов – это каталог APORT (www.aport.ru ). Он представлен главным рубрикатором, имеющим 14 основных рубрик. Для поиска нужной информации достаточно определить, к какой из рубрик может относиться разыскиваемая информация.

    На рисунке 5 под полем запроса Искать отображается один из промежуточных этапов поиска информации в тематическом каталоге АПОРТ. Видно, что пользователь выбрал рубрику Культура и искусство, в ней – каталог Библиотеки, в нем – рубрику Электронные библиотеки. Текущий каталог позволяет определить вид литературы: медицинская, научная, художественная.



    Рис. 5. Промежуточный этап поиска информации в тематическом каталоге АПОРТ.

    Для поиска информации нужно знать тему документа, возможные рубрики, в которых документ может находиться. Необходимо анализировать каждый шаг перехода к подкаталогам. Если полученные темы подкаталогов не соответствуют ожиданиям пользователя, нужно вернуться назад и задать другие критерии, то есть выбрать другую рубрику.

    Кроме того, (рис. 5) пользователь может воспользоваться и другими критериями отбора, которые организованы также в виде каталогов. Имеется алфавитный перечень документов. Можно задавать в качестве критериев отбора документов географические признаки (указания страны и некоторых городов).

    Если результаты поиска многочисленны, можно использовать и такой инструмент отбора информации как поле поискового запроса, которое обеспечивает фильтрацию информации по заданным критериям внутри рубрики или во всем каталоге.

    Поисковые машины

    Поисковые машины или поисковые указатели - системы, осуществляющие автоматизированный поиск информации в своих индексных базах. Базы индексов собираются и обновляются автоматизированным способом. Запросы пользователя и результаты поиска обрабатываются тоже автоматизированной системой.

    Весь процесс состоит из:

    • подготовки, поддержки и обновления индексной базы;

    • поиска информации по запросу пользователя;

    • предоставления пользователю результатов.

    Сбором информации поисковой системы занимаются специальные программы “роботы-пауки”, которые периодически обходят страницы Интернет с заданными URL, скачивают их в базу данных, а затем архивируют и перекладывает в хранилища суточными порциями. Роботы могут размещаться на нескольких машинах, и каждая из машин может выполнять свое задание. Например, робот на одной машине может собирать новые страницы, которые еще не были известны поисковой системе, а на другой - страницы, которые ранее уже были скачаны.

    В хранилище информация может разбиваться на части для распределенной обработки другими машинами. Специальная программа-индексатор осуществляет обработку найденных страниц последовательно порциями. Такие программы могут обрабатывать страницы на нескольких машинах. В результате формируется несколько индексных баз.

    После этого все базы сливаются в одну. Если имеется несколько страниц с одинаковыми адресами, то некоторые системы выбирают наиболее свежие версии; если при скачивании URL было сообщение об ошибке 404 (в случае, если запрашиваемая страница не существует), ее временно можно удалить из индексной базы. Те страницы, которые имеют одинаковое содержимое, но различные URL, могут объединяться в один документ. Все эти действия позволяют избавиться от избытка страниц.

    Поиск в индексных базах осуществляется пользователем по ключевым словам и другим критериям с использованием языка запросов.

    Язык запросов позволяет отсеивать ненужную информацию, постепенно уточняя критерии поиска. Проблема поисковых указателей в отборе слишком большого количества ссылок на документы. Среди отвечающих запросу по форме и смыслу документов часто встречаются повторяющиеся документы, не соответствующие заданному критерию поиска.

    Результаты поиска называют релевантными (соответствующими тому, что нужно пользователю) и нерелевантными.

    Индексная база является одной из основных характеристик поисковой системы. Важными ее параметрами являются объем индексной базы (т.е. количество документов), частота обновления базы. Эти параметры влияют на такие характеристики работы поисковой машины как полнота, актуальность, точность.

    Полнота - это отношение количества найденных документов к общему числу документов Интернет, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 90 страниц, содержащих словосочетание "История Колизея", а по запросу найдено всего 45, то полнота поиска будет 0,5.

    Полнота поиска зависит от качества системы сбора и обработки информации. Постоянный рост количества документов в сети предполагает развитие поисковых систем, увеличения их индексной базы и скорости ее обновления для более эффективного отбора информации. Проблема может решаться за счет параллельного исполнения задачи разными машинами. Чем больше документов появляется в сети, тем большее количество документов должно быть проиндексировано поисковой машиной.

    Актуальность – это время, которое проходит с момента публикации документов в сети Интернет, до занесения их в индексную базу. Если информация о событиях публикуется с небольшой задержкой времени, информация является актуальной. На актуальность влияет частота обновления индексной базы. В некоторых системах база обновляется один раз в неделю, в других – в две недели. Например, система Rambler обновляется полностью за неделю. Имеются, однако, и части индексных баз – "быстрые базы", в которых основные документы могут обновляться два раза в день. В таких базах индексируют самые популярные сайты, необходимую справочную информацию, которая должна постоянно обновляться, чтобы оставаться актуальной.

    Совершенствование качества обработки запросов решаются различными методами. Одна и та же информация может запрашиваться часто. Особенно это относится к популярным темам. Если запрос уже обрабатывался в течение некоторого интервала времени, результаты поиска могут предоставляться пользователю некоторыми поисковыми машинами из "кэша".

    Некоторые системы могут выделять устойчивые обозначения, например язык С++, или сочетание б/у для повышения точности и сокращения времени на обработку на этапах. Например запрос С++ мог бы обрабатываться как отдельно латинское С, отдельно плюс и еще один плюс, что привело бы к поиску многих нерелевантных документов, например, документов, содержащих формулы.

    Точность – это степень соответствия найденных документов запросу пользователя. Чем выше точность, тем эффективнее поиск. Ее можно оценить как отношение соответствующих критерию поиска документов ко всем документам, формально отвечающим запросу. Например, если по запросу "Цены гостиницы Астория" находится 100 документов, в 25 из них содержится словосочетание "Цены гостиницы Астория", а в остальных присутствуют просто эти слова, например, "Он жил в маленькой гостинице. Напротив находились окна "Астории". Цены в ресторанах были высокие”. В таком случае точность поиска можно считать равной 25/100 (

    0,25).

    Точность существенно зависит от возможностей синтаксического анализа поисковой системы, а также от искусства задания запроса пользователем.

    7.2.4. Основы задания критериев поиска

    Запрос представляет собой последовательность ключевых слов, содержащую операторы языка запросов. Он предназначен для задания критерия поиска. Пользователь может уточнять поиск по отдельным запросам несколько раз. Для этого нужно как можно точнее определять ключевые слова, относящиеся к теме запроса. Кроме этого можно ограничивать или увеличивать количество найденных документов, используя мощное средство - язык поисковых запросов.

    Простейший запрос – это ключевое слово, определяющее тему документа. Практически все российские поисковые машины обрабатывают запросы, приводя слова к нормализованной форме, то есть пользователю не нужно заботиться о падежных окончаниях, формах глаголов. Поисковые системы учитывают любые из них, например, глагол пошел будет приведен к неопределенной форме идти.

    Необходимо исключать из запроса так называемые стоп-слова. Это предлоги, союзы артикли. Любой документ содержит эти слова, и указание их в качестве критерия поиска приведет к избыточным результатам и, соответственно значительно снизит качество поиска.

    Многие поисковые машины используют кавычки для отбора документов по словосочетаниям. То, что указано в кавычках включая стоп-слова, порядок слов, знаки препинания, будет использовано как образец для поиска точно такой же словоформы. Это повышает точность поиска, но уменьшает его полноту, поскольку фраза, заключенная в кавычки, может быть неточной. Кроме того, если слова в кавычках совпадают со словами в документе, но не находятся в том же порядке, документ не будет отобран.

    Использование логического оператора OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту. Результат использования этого оператора – объединение множеств, содержащих ключевые слова, объединенные этим оператором. Например, если пользователь ищет информацию о театре и задает запрос:

    "балет ИЛИ опера",

    то отбираются документы, в которых упоминаются только балет, только опера, балет и опера вместе.

    Наоборот, оператор И, объединяющий ключевые слова, отберет пересечение множеств документов. Например, нужно отобрать документы о стиле ампир в интерьере. Для этого нужно задать запрос

    "интерьер И ампир",

    который отбирает пересечение множеств документов, содержащих слова и интерьер и ампир одновременно.

    Оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Особенно важно использовать этот оператор, чтобы избавиться от документов, содержащих лишнюю информацию, которой много в Интернет. Это, например, информация о продажах электронных книжных магазинов, реклама, многочисленные резюме, которые представляются системами практически на каждый запрос, предложения туров, которые могут сопутствовать большому множеству документов, хотя кажутся не относящимися к теме туризма.

    Например, пользователь ищет информацию о генуэзской крепости. Получает в результате предложения тур фирмы во время поездки в Крым посетить генуэзскую крепость в Судаке. Как бы не уточнялся запрос с помощью функции И:

    (("генуэзская крепость" И "история")И "средние века"),

    предложения туристической фирмы выдаются среди найденных документов. Использование оператора NOT может избавить от лишних документов. Например,

    ("генуэзская крепость" И "история")И "средние века") NOT (туризм| поездка).

    Для повышения точности можно также задавать расстояние между словами. Этот оператор задается по-разному в поисковых системах. Если в искомом словосочетании порядок слов сохраняется, например, Эйфелева башня, то в запросе для повышения точности имеет смысл ограничить расстояние.

    Это позволяет отсеивать документы, в которых указанные слова разбросаны по тексту, и, скорее всего, эти документы не являются релевантными для пользователя.

    Увеличить точность можно с помощью повторного поиска в найденном. То есть уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам предыдущего поиска. Таким образом, круг найденных документов сужается.

    В последнее время также широкое распространение получили формы расширенного запроса, который дает пользователю вводить в соответствующие поля нужную информацию. Например, дату документа или список обязательных ключевых слов и слов, которые не должны присутствовать в документе.

    В каждой поисковой системе можно найти Помощь или Справку, объясняющую правила поиска, расширенного поиска и использования языка запросов именно этой поисковой машиной. Наиболее распространенные операторы языка запросов, реализуют множество критериев отбора информации с помощью рассмотренных выше логических функций И, ИЛИ, И НЕ.

    Каждая поисковая система имеет свои правила поиска. Но, сходство операторов языка запросов и их обозначений при определении критериев поиска позволяет быстро освоить их. В таблице 3 приведены ссылки на страницы с описанием языка поисковых запросов для некоторых российских поисковых систем.

    Наиболее популярными поисковыми машинами российской части Интернет являются такие, как Aport, Rambler, Yandex, Google (не российская, но русскоязычная система).

    Таблица 3. Ссылки на языки поисковых запросов

    Название поисковой системы

    Адрес страницы помощи

    Примеры использования

    Yandex

    http://help.yandex.ru/search/?id=481939

    волки OR овцы
    В найденных документах будут встречаться или слово "волки", или "овцы", или и то, и другое

    Rambler

    http://www.rambler.ru/doc/help.shtml#1

    выставки & (Москва | Петербург)
    Найденные документы будут содержать информацию о выставках в Москве или Петербурге

    лекарства!антибиотики
    Найденные документы будут содержать информацию о лекарствах, которые не являются антибиотиками

    Aport

    http://www.aport.ru/help/?p=3

    (Крым & история) (туризм|турагентство)
    Найденные документы будут содержать слова "Крым" и "история", но при этом будут отсеяны страницы турагентств

    С2(мужчины женщины)
    В найденных документах между словами "мужчины" и "женщины" будет не более двух других слов

    Метапоисковые системы – используют методы, привлекающие к обслуживанию запросов пользователя сразу нескольких разных поисковых систем для более эффективного результата поиска.

    Результаты поиска пользователь получает в виде списка адресов документов. Поисковые машины добавляют в эти ссылки небольшие аннотации – чаще цитаты из найденных документов. Цитата из найденного документа часто помогает определить, насколько полезную информацию содержит найденный документ. Цитаты экономят время отбора и помогают пользователю формировать повторный запрос.

    Поисковая машина находит тысячи документов. Их число тоже представлено пользователю. Неточные запросы пользователя, не совершенство поисковых машин приводят к отбору большого числа ненужной информации. Для обеспечения большей релевантных запросу пользователя существует возможность сортировки по разным параметрам. Например, по дате, по популярности.

    В результатах поиска часто бывают представлены ссылки на недоступные документы. Это случается, когда документ удален из сети, перенесен на другой сайт, но некоторое время его текс хранится в индексной базе.

    Пользователь должен добиваться отбора такого количества страниц, которое возможно просмотреть хотя бы по цитатам.

    Интернет среди поисковых служб имеет и такие, по которым можно найти почтовые адреса, телефоны, адреса электронной почты людей. Пример такой системы – People Search, вызываемой в Yahoo. После обработки запроса пользователь может получить кроме адресов карту местности, на которой изображено, где находится указанный в адресе дом.

    Пользователи Интернет, зная адреса баз данных, могут искать и заказывать билеты на самолеты и поезда, книги и другие товары, искать работу и предлагать свои вакансии.

    Система отбирает по ключевым словам множество содержащих их документов.






    написать администратору сайта