Информационные технологии в профессиональной деятельности. Api (Application Programming Interface, интерфейс прикладного программирования)
Скачать 164.03 Kb.
|
Тема 2.3 Технология поиска информации в ИнтернетКомпьютерная сеть Интернет – это глобальная сеть, которая включает сети различных уровней, компьютеры и терминалы (для ввода и отображения данных). Подключение удаленных пользователей и локальных сетей к сети Интернет осуществляется через маршрутизаторы имеющие интегрированные интерфейсы для приема оптического сигнала и беспроводной сети. Максимальная скорость передачи которую может обеспечить маршрутизатор достигает 1 Гбит/с по оптическому интерфейсу, и до 600 Мбит/с по беспроводной сети (стандарт 802.11n) Например, когда на один из интерфейсов маршрутизатора (входной интерфейс) поступает пакет, адресованный узлу из другой присоединенной сети, он продвигается на выходной интерфейс, к которому присоединена сеть назначения. Получив кадр на входной интерфейс, маршрутизатор: Декапсулирует пакет из кадра. Из заголовка пакета считывает IP-адрес узла назначения. С помощью маски вычисляет адрес сети назначения. Обращается к таблице маршрутизации, чтобы определить, на какой выходной интерфейс, ведущий к сети назначения, произвести коммутацию пакета. На выходном интерфейсе инкапсулирует пакет в новый кадр и отправляет его в направлении адресата назначения. Подобная последовательность действий, выполняемая центральным процессором (ЦП) маршрутизатора, получила название программной коммутации. При создании компьютерных сетей является важным обеспечение совместимости по электрическим и механическим характеристикам и совместимости информационного обеспечения (программ и данных) по системе кодирования и формату данных. Структура Интернет напоминает паутину, в узлах которой находится мощное коммуникационное оборудование, принадлежащее, например, Министерствам Связи каждой из стран. Существуют также коммерческие организации, предоставляющие доступ к Интернет частным и юридическим лицам. Такие организации называются провайдерами (ISP). ISP (Internet Service Provider) – организация, которая предоставляет возможность подключения к сети Internet. По сути дела, провайдер является коммерческой компанией – посредником между частными или юридическими лицами, желающими иметь доступ к ресурсам Интернет, и телекоммуникационным оборудованием, необходимым для доступа к спутниковым линиям связи. При заключении договора с провайдером, он предоставляет необходимое программное обеспечение, адрес электронной почты и доступ к различным сервисам Internet. Услуги провайдера, как правило, являются платными. Способы подключения интернета от провайдера к клиенту Подключение по локальной сети. Модемное соединение. Подключение по технологии DOCSIS. Подключение через сотовый телефон. Подключение через спутниковую тарелку. Подключение по технологиям WiMax. В Интернет все данные пересылаются в виде пакетов. Пакет – это специальная последовательность бит, несущих собственно данные, а также служебную информацию об адресах получателя и отправителя информации, номере пакета, коды для проверки его целостности и другие. Общая длина пакета составляет от 100 до 2000 байт. Каждый пакет может продвигаться по сети своим маршрутом, что делает сеть не зависимой от аварии или блокировки отдельного узла. Перенаправлением пакетов в зависимости от нагрузки сети занимаются маршрутизаторы. А временное хранение пакетов в местах пересылки позволяет выполнить проверку их целостности и перезапросить поврежденные пакеты. Основу сети Интернет составляет группа протоколов TCP/IP. Протокол TCP (Transmission Control Protocol) – транспортного уровня, он управляет тем, как происходит передача информации (данные «нарезаются» на пакеты и маркируются). IP (Internet Protocol) – протокол сетевого уровня, добавляет к пакету IP-адреса получателя и отравителя и отвечает на вопрос, как проложить маршрут для доставки информации. Каждый компьютер, включенный в сеть – хост, имеет свой уникальный IP-адрес. Этот адрес выражается четырьмя байтами, например: 234.049.123.101, и регистрируется в Информационном центре сети – Inter NIC или в Network Solutions Inc (NSI). Организация IP-адреса такова, что каждый компьютер, через который проходит TCP-пакет, может определить, кому из ближайших «соседей» его нужно переслать. Для удобства пользователей в Интернет введена доменная адресация. Домены – группы компьютеров, имеющие единое управление и образующие иерархическую структуру. Доменное имя отражает иерархию доменов и состоит из сегментов, разделенных точкой. Например, interweb.spb.ru – адрес электронной справочной системы в Санкт-Петербурге. Самый последний (справа) называется именем домена верхнего уровня. Среди них различают географические и тематические. Географические адреса, чаще двухбуквенные, определяют принадлежность владельца имени к сети определенной страны. Например, ru – Россия, de – Германия, us – Соединенные Штаты и др. Тематические адреса, обычно трех- и четырехбуквенные, позволяют определить сферу деятельности их владельцев. Например, edu – образовательные учреждения, com – коммерческие организации, store – Интернет-магазины. Для установления соединения между компьютерами в сети нужно знать адрес домена, включающего этот компьютер. Технологии поиска С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может, или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы. Web-технология – WorldWideWeb (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи. При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходят поисковые инструменты. Поисковые инструменты Поисковые инструменты – это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию: Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц). Большинство поисковых инструментов предлагают два способа поиска - simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Поисковые машины (search engines) Машины веб-поиска – это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы). Каталоги (directories) Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого. Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает возможность точнее определить, насколько соответствует содержание сервера цели поиска. Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru Базы данных адресов (addresses database) Базы данных адресов – это специальные поисковые серверы, которые обычно используют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В записях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном адресе, организации и почтовом адресе за определенную плату. Крупнейшей англоязычной базой данных адресов можно назвать: http://www.lookup.com Поисквархивах Gopher (Gopher archives) Gopher – это взаимосвязанная система серверов (Gopher-пространство), распределенная по Интернет. В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только просматривать иерархически организованное оглавление и выбирать файл по названию. С помощью специальной программы (Veronica) такой поиск можно сделать и автоматически, используя запросы, построенные на ключевых словах. Так, например, корневой сервер в архивах Gopher содержит следующую информацию: Информация о Gopher Компьютерная информация Дискуссионные группы Развлечения и игры Подсистемы файлового сервера Internet (ftp) Библиотеки Новости Другие серверы Gopher и информационные серверы Телефонные книги Система поиска FTP файлов (FTP Search) Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher. Система поиска в конференциях Usenet News USENET NEWS – это система телеконференций сообщества сетей Интернет. На Западе этот сервис принято называть новостями. Близким аналогом телеконференций являются и так называемые «эхи» в сети FIDO. Подробнее ознакомиться с правилами пользования сервисом можно на странице http://groups.google.com/intl/ru/googlegroups/tour/index.html Системы мета-поиска Для быстрого поиска в базах сразу нескольких поисковых систем лучше обратиться к системам мета-поиска. Системы мета-поиска – это поисковые машины, которые посылают Ваш запрос на огромное количество разных поисковых систем, затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет. Наиболее популярная в мире система мета-поиска Search.com. Системы поиска людей Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить: WhoWhere? – поиск адресов e-mail. Следовательно, к этапам поисковых систем относятся: Сбор данных Индексация Поиск информации Ранжирование |