Глава 12
ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ РАБОТА
В ГЛОБАЛЬНЫХ ИНФОРМАЦИОННЫХ СЕТЯХ
12.1. Этапы проведения системных исследований
с использованием информационных систем
При проведении системных исследований в открытых сетях и общедоступных массивах информации обычно выделяют три рабочие фазы.
Первая из них
- подготовительная, включающая в свою очередь два этапа: декомпозицию запроса и определение необходимых для поиска средств. Декомпозиция запроса - это выделение конструкций, для которых возможен результативный поиск, а определение необходимых средств - это выбор программных ресурсов (обычно поисковых машин), которые позволят найти содержательные ссылки для выделенных конструкций. Вопросы декомпозиции и выбора средств мы подробно поясним ниже на конкретных примерах.
Вторая фаза - собственно поиск, третья - обработка результатов поиска. Обработка результатов поиска включает в первую очередь оценку его полноты, адекватность полученной информации сформулированному первичному запросу и анализ ее достоверности. В первой части книги указано, что одним из важнейших методологических правил аналитических исследований социально- экономических и политических явлений и процессов является требование максимальной полноты информации, на основе которой вырабатываются знания, необходимые для менеджериальных решений, прогнозов, совершенствования стратегии и тактики управленческой деятельности.
В рассмотренном в п. 10.3. примере о композиторе В
ИРАЛЬДИНИ запрос был сформулирован корректно, информация получена полная, вот только недостоверная. Что навело нас на такую мысль? В первую очередь, сходство текстов и их цитирование в различных ссыл- ках и найденных источниках. Далее, в источниках приведены недостоверные и несуществующие ссылки, например, упомянут несуществующий биограф
В
ИРАЛЬДИНИ
О
РЛОВ
-С
ОКОЛЬСКИЙ
В свою очередь, поиск работ данного автора ни к чему не приводит.
Следовательно, проверка достоверности полученных данных потребовала дополнительного поиска и перекрестных проверок.
В настоящее время известно немало примеров того, как специально подготовленная дезинформация весьма сильно сказывалась на деловой репутации финансовых учреждений, в первую очередь коммерческих банков.
Технология информационной атаки достаточно проста - формируется значительное количество ложных статей или комментариев в сети, посвященных неработоспособности подразделений банка или принадлеясащих ему банкоматов, публикуются сведения
«из достоверных источников» о предполагаемом лишении лицензии и т.д. Такие данные вполне способны вызвать панику среди вкладчиков, массовое изъятие денежных средств из банка, а непродуманная позиция руководства банка и аналитиков - ускорить процесс потери доверия
96
Фазы поиска с первой по третью могут выполняться несколько раз для получения достоверных и полных результатов. На практике к трем рассмотренным фазам необходимо прибавить еще четвертую фазу - подготовка заключения аналитика и передача его лицам, заказавшим поисковые работы и принимающим решения на основе полученных результатов.
Как мы отмечали выше, профессиональный поиск, как составная часть ССИ, предполагает исполнение некоторого заказа с вытекающими отсюда обязательствами перед заказчиком. Эти обязательства и являются источником трех дополнительных требований
97
:
• контроль полноты охвата ресурсов;
• контроль достоверности информации, полученной в результате поиска;
96. М
ИНАЕВ
С. Media Sapiens. Повесть о третьем сроке. - М.: Изд-во «Астрель». - 311 с.
97. Т
АЛАНТОВ
М. Профессиональный поиск в Интернете: полнота, достоверность, скорость // КомпьютерПресс. - 1999. - № 7. - Режим доступа: Шр//www.cpress.ru
402 403
• высокая скорость проведения поиска.
Заказчик вправе потребовать от аналитика, помимо собственно результатов поиска, еще и некоторых гарантий по указанным выше пунктам. Такие гарантии может дать лишь человек, хорошо осведомленный в тонкостях распределения и движения информационных потоков в Интернете.
Контроль полноты охвата ресурсов является необходимым требованием, так как системный аналитик не может подменять поиск и систематизацию полной информации установкой на поиск «хотя бы чего- нибудь», так как даже в малой частице пропущенной информации могут содержаться сведения, способные радикально повлиять на весь ход и выводы заказанного системного анализа.
Полномасштабный сбор информации в Интернете по какому-либо вопросу во многих случаях выводит аналитика за пределы широко освоенного Web- пространства в область малодоступных баз данных, региональных телеконференций и даже персональных дневников, размещенных в сети. Знание всех основных существующих на сегодняшний день типов ресурсов
Сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа становится необходимым условием успешного планирования и проведения поисковых работ.
Контроль достоверности информации, полученной из Сети в результате поиска, разумеется, может производиться разными средствами. Традиционными способами проверки являются: локализация источников информации, альтернативных данному; сверка фактического материала, установление частоты использования одного источника другими; выяснение статуса документа и рейтинга узла, на котором он находится средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов; анализ отдельных элементов организации узла с целью оценки квалификации поддерживающих его специалистов.
404
Так, в примере с вымышленным композитором Ви- ральдини легко установить, что тексты ссылок являются практически полными цитатами друг относительно друга, что не позволяет выявить альтернативные источники информации и заставляет предположить намеренное «впрыскивание» информации. Далее, изучение
статуса и рейтинга большинства узлов, где размещены ссылки, позволяет сделать вывод о том, что большинство из них является личным ресурсом либо размещено на общедоступных серверах типа
narod.ru. Дополнительной информацией к размышлению служит то, что в тематических каталогах и электронных энциклопедиях сведений об этом композиторе нет.
Пишу для размышлений дает и анализ несуществующей библиографии о композиторе. Далее устанавливаем прямую связь между именем владельца бесплатного нотного архива, где размещены ноты
«произведений»
Виральдини, и фантастическим романом того же автора, где фигурирует одноименный композитор.
Скорость проведения поиска в Сети. Если не принимать во внимание технические характеристики подключения пользователя, то скорость проведения поиска зависит, в основном, от двух факторов. Это грамотное планирование поисковой процедуры и навыки работы с ресурсом выбранного типа. Под составлением плана поисковых работ понимается, как мы говорили выше, декомпозиция запроса и определение ключевых для поиска средств. При этом необходим выбор поисковых сервисов и инструментов, отвечающих специфике задачи и, что крайне важно, последовательности их применения в зависимости от ожидаемой результативности.
Для решения проблемы поиска информации в
Интернете существует целый ряд поисковых систем. Их основная задача - давать ответы на вопросы пользователей. Например, если мы «спросим» у поисковой системы, где в виртуальном пространстве находится Российская Национальная библиотека, то она в ответе укажет на ссылку (адрес в сети Интернет), воспользовавшись которой мы окажемся на сервере библиотеки. Без поисковых
405
систем пришлось бы наугад перебирать адреса. Может быть, мы даже нашли бы когда-нибудь нужный адрес
(http://www. rnb. ru).Поисковые системы можно условно разделить на два класса. Первый - это автоматические роботы- индексаторы, т.е. в нашей терминологии - субъекты
КС, которые без участия человека постоянно сканируют информационное пространство Интернета и индексируют (т.е. устанавливают связи между понятиями и содержанием страниц) почти все, что им попадется. Результаты своей работы они заносят в базу данных, из которой потом извлекается ответ на запрос пользователя. Такие системы должны постоянно
«передвигаться» по Интернету: искать новые документы и обновлять старые. Для этого они подключены к Сети через мощные каналы связи.
Второй класс - тематические каталоги, которые с самого начала были созданы не для того, чтобы собрать под свою крышу абсолютно все. В каталогах вся информация рассортирована по темам, причем в них содержится информация, обработанная человеком. Это означает, что по каждому ресурсу Интернета (страница, документ, сайт, сервер) составляется краткая справка: содержание, ссылки на другие ресурсы, автор, фирма и т.п. Ценность информации в каталогах значительно выше, чем в автоматических индексах, но, к сожалению, ее и значительно меньше. Стоит заметить, что многие каталоги не бесплатны, особенно это касается тех, которые содержат коммерческую информацию. Вот несколько рекомендаций по практическому нахождению информации с помощью поисковых систем:
•
необходимо иметь в виду, что ответы на один и тот же вопрос в различных поисковых системах не совпа дают, поэтому для получения полного ответа на свой во прос надо провести поиск с помощью нескольких поис ковых систем;
• при первом ознакомлении с интересующей темой лучше всего начинать с тематических каталогов.
12.2. Обзор поисковых системРусскоязычным пользователям, которым нужно найти что-то в Рунете (в доменной зоне имен «.га»), лучше всего начинать поиск с российских поисковых систем, и в первую очередь - с поисковой машины
Япйех. Для следующих этапов поиска вполне подойдут
Rambler и
Mail.ru. Во многих случаях уточнить результаты поиска в
Япйех можно с помощью глобальной поисковой системы
Google.Русская буква «Я» среди латинских в названии
Япйех не ошибка, а пожелание авторов системы. В английском варианте название становится более читаемым -
Yandex. Но в любом случае перед нами весьма перспективная поисковая машина (слово «машина» - это также изыск авторов), которая находится по адресу: http://www.yandex.ru.
Поисковая система
Япйех за последнее время несколько раз меняла свой дизайн и расширяла сервисные функции, а в локализованной версии
Internet Explorer 5 вошла в число признанных
Microsoft поисковых систем. Теперь у поисковой системы два адреса в
Интернете: http://www.yandex.ru и http://www.ya.ru. По первому адресу находится портал, где можно найти информацию, получить доступ к новостям, создать свой почтовый ящик. По второму адресу располагается веб-страница, на которой имеется только форма для ввода запроса.
Сегодня
Япйех декларирует, что работает в режиме обработки запроса на естественном языке, а также утверждает, что такой возможности нет у других поисковых систем. В идеале это означает, что машина ищет не просто по всем словам, указанным в запросе, а
«с пониманием смысла». Вы вводите слово или фразу, а ответ дается в соответствии со смысловой нагрузкой запроса. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел»,
«шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос
«отзывали» - документы, содержащие слово «отозвали».
406 407
При
составлении запросов надо учесть, что
Япс1ех использует сложный язык запросов, синтаксис которого только в общих чертах совпадает с языками запросов у других поисковых систем, например:
+<стюво> - искать документы, в которых присутствует данное слово. Запрос доска объявлений + велосипед покажет все объявления о продаже велосипедов;
-<
слове» - требует отобрать документы, в которых не содержится данное слово;
а<слово><слово>п- поиск документа с образцом фразы;
<слово><слово> - поиск документа, в котором содержится первое слово, но отсутствует второе.
При поиске следует учесть, что
Япйех различает строчные и прописные буквы (это зависит от режима обработки запроса).
Поисковая машина
Япйех обладает самым быстрым механизмом обновления и поиска новой информации.
Можно примерно считать, что для этого требуется 1-2 недели. Но полностью весь Рунет она не просматривает, хотя количество выдаваемых ссылок максимально среди остальных поисковых систем.
На
Япйех кроме поисковой машины вы найдете каталог интернет-ресурсов и другие интересные сервисы. Например, в ряде случаев может быть интересна система «Закладки», которая разрешает пользователям сохранять личные закладки в каталоге, размещенном в Интернете.
Информационно-поисковая система
Rambler («Праздношатающийся»), несмотря на англоязычное название, изначально была создана для поиска по серверам русского сектора Сети. Ее адрес в Интернете - http://www.rambler.ru. Она работает с 1996 г. и содержит миллионы документов. До недавнего времени она также была единственной из всех российских поисковых систем, которые признавались фирмой
Microsoft.Мода на создание интернет-порталов не обошла и
Rambler - там вы найдете не только поисковую систему, но и новости, бесплатную почтовую службу, словари и многое другое.
Rambler индексирует не только
Рунет, но также начала работу с русскоязычными сай-
408 тами в Германии (http://www.rambler.de) и Болгарии
(http://www.rambler.bg). Это первый опыт выхода российской поисковой системы за пределы России и
СНГ.
Сама поисковая система состоит из двух малосвязанных фрагментов: поисковой системы
Rambler и системы добровольной классификации сайтов
Rambler-ТОР100. Обе составляющие прекрасно уживаются вместе и дополняют друг друга. При этом важно подчеркнуть, что их не следует путать - поиск в разных частях дает различные результаты.
Для перехода к
Rambler-TOPlOO (это наиболее распространенное название) на главной странице существует гиперссылка Рейтинг
Rambler-Top 100.
Сам каталог представляет собой набор таблиц со ссылками, рассортированными по темам. Выводится одновременно по двадцать ссылок, причем первая двадцатка - наиболее престижная, так как дает значительное повышение рейтинга посещаемости сайта.
Главная особенность данного каталога состоит в том, что владельцы сайтов
сами регистрируются в определенном разделе, помещая на одной из страниц своего сайта счетчик посетителей сайта.
Приведем перечень наиболее популярных адресов, не упоминавшихся ранее. Порядок следования поисковых систем и каталогов примерно соответствует их популярности:
• Mail.ru-http://mail.ru;
• WWW.ru - http://www.ru;
• К
ИРИЛЛ И
М
ЕФОДИЙ
- http://www.km.ru;
• И
ВАН
С
УСАНИН
- http://www.susanin.net.
В последнее время одной из самых популярных глобальных поисковых систем стала
Google (http:// www.google.com или http://www.google.com.ru).
Созданная русским программистом, переехавшим жить и работать в Силиконовую Долину, она отлично справляется не только с англоязычными документами, но и с поиском в кириллице. С 2003 г.
Google предлагает пользоваться своим сервисом почти на сотне различных языков.
Google обладает уникальными возможностями:
409
даже результаты поиска по Рунету у нее оказываются более полными, чем у Япс1ех. Можно рекомендовать после поиска в Япйех воспользоваться внизу на странице результатов поиска ссылкой Google, что автоматически передаст запрос из Hndex в Google. Ниже мы рассмотрим практическую работу с Google более подробно.
Самая именитая поисковая система - AltaVista - обладает наиболее быстрым механизмом поиска, а также самой большой базой данных о ресурсах современного
Интернета. К сожалению, у AltaVista медленный темп обновления базы данных, но это беда всех систем, претендующих на глобальный охват Интернета. Первая страница
AltaVista
находится по адресу http://www.altavista.com. Заметим, что эта наиболее авторитетная поисковая система начала работать еще в декабре 1995 г. В AltaVista существуют два варианта запроса:*простой (Simple Search) и расширенный
(Advanced). Можно задать страну, серверы которой надо просмотреть для составления ответа.
Yahoo! - один из самых популярных тематических каталогов. Информация в нем организована по темам и подтемам, что в сочетании с отличной поисковой системой дает возможность успешно использовать
Yahoo! в качестве отправной точки для поиска нужного документа в Интернете. Каталог Yahoo! имеет национальные разделы ряда стран, ссылки на которые можно найти внизу главной страницы. Первая страница
Yahoo! расположена по адресу http://www.yahoo.com, где вы сразу можете воспользоваться двумя основными методами работы с каталогом - поиску по ключевым словам и иерархическому дереву разделов (категорий).
При движении по каталогу вы увидите путеводные значки, например:
• значки с надписями New приглашают познако миться с новыми, недавно появившимися в каталоге ги перссылками;
• число в скобках информирует о количестве гиперс сылок в подразделе;
• символ @ означает, что данный подраздел относит ся к другому разделу каталога.
410
В мире существует необычайно много различных поисковых систем и каталогов, но для российского пользователя интересны в первую очередь те системы, которые заглядывают в Рунет. Соответственно, наш список продолжает Lycos (http://www.lycos.com или http://www. lycos.ru), которая имеет объем индекса страниц Рунета почти на уровне Rambler. Кроме того, интересна поисковая система
Northern
Light
(http://www.northern.com). Ссылки на другие поисковые системы и каталоги мы сможем всегда найти в каталоге
Yahoo!. Также можно воспользоваться любезностью разработчиков браузеров, которые предлагают уже готовые ссылки на самые нужные поисковые системы.
Поиск программного обеспечения - всегда «головная боль» для пользователя. К счастью, Интернет предоставляет необыкновенные возможности для
«мгновенного» получения программ, когда они нужны.
Единственная возникающая при этом проблема - найти нужную программу, причем желательно без вирусов.
Для решения такой задачи существуют специальные интернет-каталоги с программами или гиперссылками на сайты авторов программ.
Самый популярный каталог программ - Shareware.com,
расположенный по адресу http://shareware.cnet.com. Это один из старейших каталогов. Через него доступно более четверти миллиона программ. Каталог располагает хорошей поисковой системой с развитым языком запросов. Подробности о поисковой системе можно узнать по гиперссылке Help. Отметим только, что регистр букв в запросе не учитывается, а ключевые слова могут содержать символ *, обозначающий последовательность любых символов. После выбора нужной программы
(загрузочного файла) вы получаете сообщение о том, где находятся копии этого файла. В отличие от менее комфортных аналогов, вам надо выбрать, с какого сервера вы будете загружать файл (то есть оценить максимально короткий путь от сервера к вашему компьютеру).
Запоминающийся своим дизайном, каталог программ
Tucows находится по адресу http://www.tucows.com. Рос-
411
сийские пользователи Интернета, похоже, с помощью этого сервера чаще всего получают программное обеспечение.
Он более «дружественен» для посетителей нашей страны, чем другие подобные системы. Для каждой программы в каталоге есть гиперссылка на сайт автора и его электронный адрес. Заинтересовавшую вас программу лучше всего «скачивать» с сервера автора программы. В
Рунете также имеются свои каталоги программ, которые, хотя и не могут соперничать с зарубежными собратьями, но предоставляют русскоязычный интерфейс, позволяющий быстрее разобраться с тем, где и что находится.
Каталог драйверов (программного обеспечения для различного компьютерного оборудования, например, видео- или сетевых карт, фотокамер)
Driver.ru появился в Интернете совсем недавно, но завоевал популярность у пользователей, которые ищут драйверы для видеокарт, цифровых камер и прочих завлекательных устройств.
Конечно, здесь вы не найдете абсолютно все, но для почти всех продающихся в России адаптеров и устройств здесь можно найти нужный драйвер. Кроме того, этим каталогом молено пользоваться как отправной точкой для дальнейшего поиска драйверов.
Российский сервер, размещенный по адресу http:// www.download.ru, поддерживается фирмой
Elcomsoft. В основе создания каталога программ лежит простая истина
- надо поддерживать российских программистов, чтобы потом не пришлось
«импортировать умные головы». Поэтому здесь нет программ для взламывания защиты программных пакетов, ворованных программ и прочих атрибутов хакеров. В каталоге работает поисковая система, но можно найти нужную программу и по тематическим разделам.
Все программное обеспечение, представленное на сервере, - русскоязычное (или многоязычное) и создано российскими программистами или фирмами. Все программы проверены, но если возникают проблемы, то через почтовую рассылку дается информация о происшествии. Другой российский каталог программ -
ListSoft -находится по адресу http://www.listsoft.ru.
412
В заключение можно отметить, что при проведении
ССИ в общедоступных массивах информации после выполнения подготовительной фазы, определяющей объект поиска, в первую очередь желательно просмотреть тематические каталоги, а затем - определить поисковую машину, наиболее пригодную для решения задачи. Обработка результатов поиска включает в первую очередь оценку его полноты, адекватность полученной информации сформулированному первичному запросу и анализ ее достоверности с применением других поисковых систем.