Системный анализ. 2009_Ракитов АИ и др_Системный анализ и аналитические исследован. Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40
Скачать 2.27 Mb.
|
12.3. Практическое использование поисковых машин Теперь обратимся к практическому аспекту использования поисковой системы и рассмотрим 98 , который становится все более популярным. Так, по информации инженера по программному обеспечению Google Мэта Катса, уже в 2002 г. «каждый месяц Google индексировал 3 миллиарда веб- документов, в том числе более трех миллионов новых страниц каждый день». Google использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по запросу. Для этого Google анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей запроса. Кроме того, Google предпочитает страницы, на которых введенные ключевые слова расположены по тексту документа недалеко друг от друга. Каждый раз в списке найденных страниц Google показывает отрывок из текста, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте. Другой способ увидеть ключевые слова - загрузить страницу по ссылке «Сохранено в кэше». Недостаток этого способа (но иногда это рассматривается как преимущество) в том, что вы видите не ту страницу, которая есть сегодня, а ту, которая сохранена в базе Google. Tpe- 98. Ющук Е.Л. Конкурентная разведка: маркетинг рисков и возможностей. - М.: Изд-во деловой литературы «Вершина», 2006. 413 тий способ - традиционный для просмотра текста в браузере - заключается в том, чтобы использовать функцию браузера «найти на текущей странице», в которую вводятся искомые слова. По умолчанию при написании слов запроса через пробел Google ищет документы, содержащие все слова запроса. Это соответствует оператору «логическое И». Например: [Кошки собаки верблюды зебры носороги] Логическое «ИЛИ» пишется с помощью оператора OR. Обратите внимание, что оператор OR должен быть написан заглавными буквами. Относительно недавно появилась возможность написания логического «ИЛИ» в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе. Например: [Таксы длинношерстные OR гладко шерстные] * Интересно, что Google может показать и те страницы, на которых нет ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу: таксы длинношерстные гладкошерстные». Надо помнить, что Google не чувствителен к регистру букв. Все буквы воспринимаются как прописные вне зависимости от того, как их вводили в поисковую строку. Запросы [Эйфелева Башня] и [эйфелева башня] дадут одинаковые результаты. Весьма важным для поиска является понятие «стоп-слов». К стоп-словам относятся большинство артиклей английского языка, союзов и предлогов русского языка. В руководствах указано, что Google, подобно большинству поисковых машин, игнорирует стоп-слова и, как и многие другие, имеет механизм принудительного включения стоп-слов в результаты поиска. В реальности ситуация несколько иная: Вводим по-русски предлог [в]. Результаты 1-10 из примерно 48600000 для в. Вводим по-английски артикль [the]. Результаты 1-10 из примерно 8670000000 для the. 414 Бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В руководстве Google приводится пример с запросом «Star Wars Episode h, где римская единица представляет собой латинскую букву «/» (Аи). Если сделать запрос [Star Wars Episode I], то результат будет: Результаты 1-10 из примерно 13200000 для Star Wars Episode I. В том числе в выдаче появятся слова «Episode II», «Episode IV» и т.п. Если сделать запрос [Star Wars Episode +/), то результат будет: Результаты 1-10 из примерно 9290000 для Star Wars Episode +1. И в него войдут только тексты, содержащие слово «Episode I». Google не поддерживает морфологию слов. Слова надо вводить в нужных словоформах. Отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы убедиться в правильности утверждения об отсутствии поддержки морфологии, возьмем словосочетание, по которому можно увидеть все без исключения результаты. На эту роль подходит знаменитая «Глокая куздра» - искусственная лексико- фонетическая конструкция, соответствующая естественному звучанию русского языка, которая ассоциируется с некоторым животным. Запрос: [глокая куздра] Результат: 3 документа. Запрос: [глокую куздру] Результат: 1 документ. Запрос: [глокой куздре] Результат: Не найдено ни одного документа, соответствующего запросу «глокой куздре». Для сравнения, по всем трем запросам Яндекс давал на момент написания этой главы одинаковый результат. Поскольку Google выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли вве- 415 сти в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск и проверить достоверность получаемой информации. Если же добавлять эти слова к уже имеющемуся запросу, то молено иногда излишне сузить диапазон результатов. Как известно, информационный мусор часто встречается при составлении запроса. Чтобы его удалить, стандартно используются операторы исключения - логическое «НЕ». В Google такой оператор представлен знаком «минус». Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова. Запрос: [Журавль колодец] Результаты 1-10 из примерно 778 для Журавль колодец. Запрос: [Журавль колодец-птица] Результаты 1-10 из примерно 715 для Журавль колодец-птица. Запрос: [Журавль-колодец-птица] Результаты 1-10 из примерно 120000 для Журавль- колодец-птица. Запрос: [Журавль-колодец-птица-птиц] Результаты 1-10 из примерно 106000 для Журавль- колодец-птица-птиц. Запрос: [Журавль-колодец-птица-птиц-журавли] Результаты 1-10 из примерно 104000 для Журавль- колодец-птица-птиц-журавли. Последовательное исключение ненужных конструкций постепенно приведет аналитика к обозримому перечню документов, подлежащих изучению. Достаточно часто аналитику приходится искать некоторую точную фразу, не допуская ее интерпретации в поисковой машине. Искать точную фразу на практике требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляют собой стабильно повторяющееся словосочетание. Чтобы справиться с такой задачей при помощи Google, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи). Напри- 416 мер, введем весьма актуальную для политического прогноза цитату: «Политик должен уметь предсказать, что произойдет завтра, через неделю, через месяц и через год. А потом объяснить, почему этого не произошло». Результаты поиска: Мания пиара - Статьи - Консалтинговая Группа АРМ Политик должен уметь предсказать, что произойдѐт завтра, через неделю, через месяц и через год. А потом объяснить, почему этого не произошло... www.arm-group.ru/rus/talks/articles/politics/prmania/ - 30k - Сохранено в кэше - Похожие страницы Restime: Единая служба спасения от скуки! - Статьи - Екатеринбург Политик, как и астролог, должен уметь предсказать, что произойдет завтра, через неделю, через месяц и через год. А потом объяснить, почему этого не ... restime911.ru/articles.html - 37k - Сохранено в кэше - Похожие страницы И, наконец, третья ссылка указывает нам на автора этого мудрого высказывания: Уинстон Черчилль ... заключается в умении предсказать, что может произойти завтра, на следующей неделе, через месяц, через год. А потом объяснить, почему этого не произошло... www.aforism.info/%D3%E8%ED%Fl%F2%EE%ED+%D7%E 5%F0%F7%E8%EB%EB%FC.html - 39k - Сохранено в кэше - Похожие страницы Поиск цитат является весьма важным инструментом, поскольку в некоторых случаях позволяет существенно расширить границы поиска, включив в него ресурсы или людей, ассоциированных с содержанием цитаты. Google воспринимает как знаки, связывающие слова в единую фразу, не только кавычки, но и такие символы как дефис, слэш (косая черта), точка, знак равенства, апостроф. Результаты 1-10 из примерно 27400 для мать-и-мачеха. Результаты 1-10 из примерно 27300 для мать/и/мачеха. Результаты 1-10 из примерно 27300 для мать= и=мачеха. Результаты 1-10 из примерно 27300 для мать.и.мачеха. Результаты 1-10 из примерно 27300 для мать'и'мачеха. Во многих источниках встречается такая информация, будто поисковая строка Google вмещает 10 слов или 417 что Google проводит поиск только по 10 словам. Однако в эксперименте эти данные не подтвердились. Для проверки достаточно ввести запрос из 23 произвольно выбранных слов [крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]. Результаты 1 - 3 из примерно 5 для крупа мука яйца масло соль церец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр. Pecmopau.Ru | Кулинария \ Кулинарные рецепты \ Вторые блюда\ (салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез) ... (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр) ... www.restoran.ru/indsx.phtml?t= l&pid=2516 В кэш подчеркнуты все 23 слова и в тексте они также присутствуют. Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат, естественно, меняется, но все слова в выдаче по-прежнему выделены Google, [крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр] Результаты 1 - 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр. Приведем аналогичный, но более близкий аналитикам пример: [верховенство конституция закон народовластие политика плюрализм свобода равенство граждан неотчуждаемость прав]. Закон в России! Законодательство в России. Обзоры и консультации. ruslife.ru - 12k - Сохранено в кэше - Похожие страницы Глоссарий, ги: Демократия верховенства конституции и законов; - народовластия и политического плюрализма; - свободы и равенства граждан; - неотчуждаемости прав человека. glossary.ru/cgi-bin/ gl_sch2.cgi?RElsuqwgyo9 - 30k -Сохранено в кэше - Похожие страницы В сентябре 2006 г. появились публикации, в которых было сказано, что Google позволяет вводить в строку запроса до 32 слов. Эта информация соответствует действительности. Но и 32 слова для поиска в системе Google не предел. Существует особый прием, усечение слова до его корня, называемый стеммингом. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова. Иным полезным для аналитика механизмом является техника поиска по маске (wildcard), которая представляет собой написание базового слова (или части слова), после которого идет символ маски - «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника необходима, когда неизвестно точное написание конкретного слова, либо когда целесообразно включить все возможные варианты слова в поиск. Например, по запросу [тарт*] получают как «тарталетку», так и «тартар». Google эти технологии не поддерживает, однако он поддерживает вариант, когда вместо целого слова вводится звездочка. Например, по запросу: [красная * площадь] будет выдано: «Красная и Манежная площади», с подчеркиванием всех этих слов, в том числе буквы «и». В какой-то степени это похоже на поиск с расстоянием между словами. По запросу: [красная * площадь - "красная площадь"] будут получены результаты «Красная (Семеновская) площадь», где слово «Семеновская» не считается релевантным и не подчеркивается Google. В таб. 22 рассмотрим дополнительные операторы, которыми принято называть специализированные кон- 418 419 струкции, позволяющие получить дополнительную информацию о поиске. Поисковая машина хранит версию текста, которая проиндексирована поисковым роботом, в специальном хранилище в формате, называемом кэшем. Кэширован- ную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины, и сопровождается надписью наверху страницы, что это страница из кэша. Там же содержится информация о времени создания кэши- рованной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Если мы хотим, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe и адреса страницы. Например: [cache:www.bstm.ru библиотека]. Таблица 22 Оператор cache Позволяет извлечь версию страницы, если оригинальная страница недоступна Оператор info Позволяет увидеть информацию, которая известна об этой странице Оператор site Ограничивает поиск конкретным доменом Оператор link Позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос Оператор allinurl Поиск будет ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы Оператор related Описывает страницы, которые «похожи» на какую-то конкретную страницу Оператор define Выполняет роль толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора Оператор info позволяет увидеть информацию, которая известна Google об этой странице. Заметим, что пробела между оператором info: и именем запрашиваемой страницы быть не должно. Оператор site ограничивает поиск конкретным доменом. Таким образом, если сделать запрос: [маркетинг разведка sitewww.acfor-tc.ru], то результаты будут получены со страниц, содержащих слова «маркетинг» и «разведка» именно в домене «acfor-tc.ru», а не в других частях Интернета. Оператор link позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Если запрос начать с оператора allintitle, что переводится как «Все в заголовке», то Google выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега Title в HTML). Например, запрос [allintitle: википедия яндекс] даст результаты, где слова «википедия» и «яндекс» содержатся внутри тега Title на просмотренных поисковой машиной страницах. Оператор intitle показывает страницы, в которых только то слово, которое стоит непосредственно после оператора intitle:, содержится в заголовке, а все остальные слова запроса могут быть в любом месте текста. Если поставить оператор intitle: перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle. Оператор allinurl. Если запрос начинается с оператора allinurl, то поиск будет ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы. Оператор allinurl работает только со словами, но не со служебными фрагментами адреса страницы. Такие специальные символы, как слэш или точка, не окажут влияния на результат. Оператор inurl. Слово, которые расположено непосредственно слитно с оператором inurl, будет найдено только в адресе страницы Интернета, а остальные слова - в любом месте такой страницы. Если оператор inurl: поставить перед каждым словом запроса, это будет эквивалентно использованию оператора allinurl: Оператор inurl: работает только со словами, но не со служебными фрагментами адреса страницы. Такие 420 421 специальные символы, как слэш или точка, опять лее не окажут влияния на результат. Оператор related. Этот оператор описывает страницы, которые «похожи» на какую-то конкретную страницу. Например, запрос [related:cbr.ru] (cbr.ru является официальным сайтом Центрального Банка РФ) дает результат: Результаты: 1-10 из приблизительно 28 подобных cbr.ru. (0,13 секунд). Banco Central do Brasil Banco Central do Brasil. www.bcb.gov.br/ - 67k - 20 час. назад - Сохранено в кэше - Похожие страницы Федеральная служба государственной статистики. Сведения о комитете. Основные социально-экономические показатели России. Российская государственная статистика. Электронные версии официальных публикаций ... www.gks.ru/ - 90k - 21 час. назад - Сохранено в кэше - Похожие страницы Министерство финансов Российской Федерации Официальная информация министерства, включающая проект налогового кодекса, отчетность об исполнении Федерального бюджета РФ, нормативные и методические ... www. minfin.ru/ - 42k - Сохранено в кэше - Похожие страницы Высший Арбитражный Суд Российской Федерации Сведения об арбитражной системе РФ. Федеральные арбитражные суды субъектов РФ. Законодательство об арбитражных судах. Новости судебно-арбитражной практики и ... www.arbitr.ru/ - 33k - 21 час. назад - Сохранено в кэше - Похожие страницы Официальный сайт Государственной Думы Официальный сервер. История и регламент Государственной Думы, информация о ее законодательной деятельности. Депутатский корпус. Законодательство РФ. www.duma.gov.ru/ - 2к - Сохранено в кэше - Похожие страницы Банк Москвы Сведения о банке и филиальной сети. Реквизиты и список руководства банка. Финансовое положение банка. www.mmbank.ru/ - 42k - 21 час. назад - Сохранено в кэше - Похожие страницы ВТБ 24 - кредиты, ипотека, кредитные карты, автокредитование ... ВТБ 24 - розничные банковские услуги: ипотека, автокредитование, потребительские кредиты. Ипотечное кредито- вание, интернет-банкинг, депозиты, ... www.vtb24.ru/ - 36k - Сохранено в кэше - Похожие страницы РТС. Фондовая биржа «Российская Торговая Система» Ведущая фондовая биржа России. Торги ценными бумагами: акциями, облигациями, фьючерсами и опционами. Информация о торгах on-line, www.rts.ru/ - 68k - Сохранено в кэше - Похожие страницы Bank of Israel - Shalom! Press Releases. The Composite State-of-the-Economy Index for January 2008 Up by 0.3 Percent 19.2.2008. The Expected Rate of Inflation and Changes in the ... www.bankisrael.gov.il/firsteng.htm - 44k - Сохранено в кэше - Похожие страницы В данном случае мы видим очень интересный результат поиска, который позволил выявить похожие сайты не только по содержанию, но и по стилю и дизайну Оператор define выполняет роль своего рода толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора. Например: [define: разведка] дает результат «Определения разведка в интернете: совокупность мер для сбора данных о действительном или возможном противнике». Интересной особенностью оператора define: является его способность искать определения фразам. В качестве фразы он понимает все слова, написанные после оператора, в том числе и написанные без кавычек, просто через пробел. Например: [define: большой взрыв) дает результат «Определения большой взрыв в Интернете: Большой Взрыв -взрывной процесс, в котором, по данным современной науки, наша Вселенная родилась из так называемой космологической сингулярности, ru.wikipedia.org/wiki/ Большой_Взрыв». Весьма важной областью деятельности аналитика является работа с различными числовыми данными (см. часть III). В частности, в Google есть возможность искать диапазоны между числами. Для того чтобы найти все страницы, содержащие числа в некоем диапазоне «от - до», надо между этими крайними значениями поставить две точки. Например, по запросу [численность населения 1913..1917] будут выданы страницы: 422 423 Народная энциклопедия городов и регионов России. Города. Санкт ... Подчиненные поселки городского типа, численность населения на 1.01.2000 ... Вскоре после начала Первой мировой войны актом от 18 (31) августа 1914 г. ... rfdata.al.ru/auto/city/18/667.HTM с выделенным числом «1914», а также: Известия Уральского государственного университета № 9(1998... За 192 года своего существования с 1723 по 1915 г. численность населения города увеличилась в 28 раз, достигнув 112 тыс. чел. Следует отметить, что город ... proceedings.usu.ru/.../0009(03_05-1998)&xsln=showArticle. xs lt&id=a 14&doc=.. / content.jsp с выделенным числом «1915». Кнопка «Мне повеЗет» расположена на главной странице Google. По этой кнопке Google выдает наиболее релевантный, с точки зрения поисковой системы, результат. Обычно это помогает при быстром поиске какой-то фактической информации, когда не требуется подробного изучения вопроса. После нажатия кнопки «Мне повезет» вы попадаете непосредственно на сайт, который Google предлагает в качестве искомого. Например, запрос по кнопке «Мне повезет» [активные формы] открывает непосредственно сайт одноименной консалтинговой компании: http://www.acfor.ru. Для тех, кто в целом понимает, как работает поисковая машина, но не хочет запоминать операторы запросов и при этом согласен на потерю части информации, подойдет страница расширенного поиска. Такие страницы, по мере развития и «поумнения» поисковых машин, становятся всѐ более популярными не только у обывателей, но и у профессиональных аналитиков. |