Главная страница
Навигация по странице:

  • Принципы работы поисковых систем

  • Роботы современных поисковых систем также решают другие задачи

  • Конверсия в чистый текст

  • Лингвистическая обработка.

  • Взаимодействие пользователя и поисковой системы обычно производится через веб-интерфейс.

  • Навигационные запросы

  • Классические модели поиска

  • Маркетинг. Интернет маркетинг. Учебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях


    Скачать 6.86 Mb.
    НазваниеУчебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях
    АнкорМаркетинг
    Дата31.01.2020
    Размер6.86 Mb.
    Формат файлаdocx
    Имя файлаИнтернет маркетинг.docx
    ТипУчебное пособие
    #106588
    страница42 из 67
    1   ...   38   39   40   41   42   43   44   45   ...   67


    Поисковое продвижение

    В оглавление

    Самый желанный посетитель - тот, с которым удается вступить в полноценный взаимовыгодный диалог. Это возможно тогда, когда мы встречаем не случайного прохожего, а человека, искренне заинтересованного в нашем продукте или услуге; когда мы можем реально помочь ему решить те или иные задачи, квалифицированно ответить на интересующие его вопросы.

    Первым этапом решения любой задачи является поиск вариантов этого решения. Поэтому большинство визитов в глобальную паутину начинается с посещения поисковой системы. Общепризнанным мировым лидером в этом сегменте принято считать Google, однако среди российских пользователей большей популярностью по-прежнему пользуется Яндекс. Ежедневная аудитория Яндекса, по данным собственной статистики (https://statyandex.ru/), составляет более 30 миллионов человек, из них около 22 миллионов используют поиск. Среди них практически всегда найдутся те люди, с которыми нам бы хотелось вступить в деловые отношения.

    Свой сформулированный интерес пользователи адресуют поисковой системе в виде поискового запроса. Вторая сторона потенциального диалога находится в более сложном положении. Какие именно сайты будут показаны в ответ на поисковый запрос, определяет поисковик, причем критерии, которыми он руководствуется, не афишируются.

    Именно поэтому появляется необходимость в такой услуге, как поисковое продвижение. Интернет-ресурс должен не просто отвечать ожиданиям пользователей, но и соответствовать представлениям поисковых машин о том, как он должен выглядеть, чтобы соответствовать этим ожиданиям. А это совсем не одно и то же. Глобальная цель специалистов по продвижению в поисковиках и заключается в приведении сайта в соответствие с этими представлениями. Познакомимся с работой «поисковиков» поближе.

    Принципы работы поисковых систем

    Поисковую систему можно представить себе как совокупность нескольких программных модулей: поисковые роботы (также именуемые пауками, ботами или краулерами), индексатор документов, обработчик пользовательских запросов. Для непосредственного общения с пользователями используется интерфейс предоставления результатов поиска.

    Основная задача поискового робота состоит в сборе адресов страниц, по которым будет составляться индекс, и выкачивании содержания этих страниц. Начальный список адресов, обычно содержащий наиболее популярные сайты, в поискового робота загружают разработчики. Далее робот обходит имеющиеся у него адреса, дополняя свой список адресами, встреченными на просмотренных страницах. Очередь обхода страниц может быть реализована как последовательно по списку, так и по определенным атрибутам, например, частота обновления или популярность. Следует учесть, что страница, на которую не ведет ни одной ссылки, никогда не будет просмотрена поисковым роботом автоматически. В этом случае её необходимо вручную добавить в начальный список адресов, используя сервисы регистрации новых веб-страниц, предоставляемые разработчиками поисковых систем.

    Роботы современных поисковых систем также решают другие задачи

    • Загрузка изображений

    • Мониторинг обновлений

    • Проверка доступности страниц

    • Анализ контента

    • Сбор контента в альтернативных формах, таких как rss и atom,и многое другое

    Ниже приведены примеры имен роботов поисковой системы Яндекс с кратким описанием их задач. Проверить актуальность этой информации можно в системе помощи Яндекса.

    1. Mozilla/5.0 (compatible; YandexBot/3.0; +//yandex.com/bots) - основной индексирующий робот.
    2. Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +//yandex.com/bots) -индексирующий робот.
    3. Mozilla/5.0 (compatible; YandexRCA/1.0; +//yandex.com/bots) - робот RCA.
    4. Mozilla/5.0 (compatible; YandexImages/3.0; +//yandex.com/bots) - индексатор Яндекс. Картинок.
    5. Mozilla/5.0 (compatible; YandexVideo/3.0; +//yandex.com/bots) - индексатор Яндекс.Видео.
    6. Mozilla/5.0 (compatible; YandexMedia/3.0; +//yandex.com/bots) - робот, индексирующий мультимедийные данные.
    7. Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +//yandex.com/bots) - робот поиска по блогам, индексирующий комментарии постов.
    8. Mozilla/5.0 (compatible; YandexFavicons/1.0; +//yandex.com/bots) - робот, индексирующий пиктограммы сайтов (favicons).
    9. Mozilla/5.0 (compatible; YandexWebmaster/2.0; +//yandex.com/bots) - робот сервиса Яндекс. Вебмастер.
    10. Mozilla/5.0 (compatible; YandexPagechecker/1.0; +//yandex.com/bots) - робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки.
    11. Mozilla/5.0 (compatible; YandexImageResizer/2.0; +//yandex.com/bots) - робот мобильных сервисов.
    12. Mozilla/5.0 (compatible; YandexDirect/3.0; +//yandex.com/bots) - робот Яндекс.Директа, особым образом интерпретирует robots.txt.
    13. Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +//yandex.com/bots) - «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией.
    14. Mozilla/5.0 (compatible; YandexCalendar/1.0; +//yandex.com/bots) - робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.
    15. Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +//yandex.com/bots) - «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок.
    16. Mozilla/5.0 (compatible; YandexAdNet/1.0; +//yandex.com/bots) - робот рекламной сети Яндекса.
    17. Mozilla/5.0 (compatible; YandexMetrika/3.0; +//yandex.com/bots) - робот Яндекс.Метрики.
    18. Mozilla/5.0 (compatible; YandexNews/3.0; +//yandex.com/bots) - робот Яндекс.Новостей.
    19. Mozilla/5.0 (compatible; YandexNewslinks; +//yandex.com/bots) - «простукивалка» Яндекс. Новостей, используется для проверки ссылок из новостных материалов.
    20. Mozilla/5.0 (compatible; YandexCatalog/3.0; +//yandex.com/bots) - «простукивалка» Яндекс. Каталога, используется для временного снятия с публикации недоступных сайтов в каталоге.
    21. Mozilla/5.0 (compatible; YandexAntivirus/2.0; +//yandex.com/bots) - антивирусный робот, который проверяет страницы на наличие опасного кода.
    22. Mozilla/5.0 (compatible; YandexMarket/1.0; +//yandex.com/bots) - робот Яндекс.Маркета.
    23. Mozilla/5.0 (compatible; YandexVertis/3.0; +//yandex.com/bots) - робот поисковых вертикалей.
    24. Mozilla/5.0 (compatible; YandexForDomain/1.0; +//yandex.com/bots) - робот почты для домена, используется при проверке прав на владение доменом.
    25. Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +//yandex.com/bots) - робот, определяющий зеркала сайтов.

    Cобираемая роботами коллекция веб-документов имеет свои особенности

    • Большое количество документов (

    3 млрд документов только в рунете)

  • Децентрализованность (распределенность)

  • Неоднородность по содержанию, типу

  • Документы часто содержат противоречивую информацию

  • Большое количество некачественных, спамных, неинформативных документов

    Сырой текстовый материал, выкачанный поисковыми роботами, передается индексирующему модулю (индексному роботу) или индексатору. Для составления индекса требуется выбрать все слова из предоставленных текстов и расположить их в алфавитном порядке вместе с номерами страниц и служебной информацией о каждой странице. Для этого индексатор выполняет следующие действия:

    • Конверсия в чистый текст - удаление графики, html-разметки, видео и других элементов.

    • Выборка слов. На этом этапе потребуется определить, что такое «слово» для поисковой системы: являются ли словами числа, наборы букв (скажем, WT123Y), даты и т. п. Часто определение «слова» не совпадает с общим языковым понятием и определяется разработчиками поисковой системы по-своему. Аналогично (т. е. «по-своему») в поисковой системе определяются служебные символы и разделители слов, к которым обычно кроме знаков препинания относят html-теги. Отдельной группой выделяют стоп-слова - неважные, служебные слова, такие как предлоги, союзы, сокращения и цифры. Раньше ради экономии ресурсов такие слова не индексировались, но в настоящее время и стоп-слова присутствуют в индексе.

    • Лингвистическая обработка. Алгоритм приведения к начальным грамматическим формам носит название машинной морфологии. Приведение к начальной форме имеет ряд подводных камней, связанных с устройством языка. Обозначим три из них. Во-первых, слова в языке могут иметь много различных словоформ, все из которых необходимо правильно преобразовывать. Во-вторых, не все словоформы однозначно приводятся к начальной форме. Так, например, словоформа «день» может относится как к существительному «день», так и к глаголу «деть». Аналогичные проблемы со словоформами «печь», «стали», «для» и многими другими. В-третьих, не для всех слов поисковая машина может знать начальную форму. В таком случае она может либо сохранить слово в той форме, в которой оно было употреблено, либо использовать алгоритмы нечеткой морфологии - построить вероятностную гипотезу о возможных окончаниях на основе схожести с известными ей словами.

    • Внесение в индекс. Поисковые машины используют два типа индексов - прямой и обратный. Прямой - сопоставление документу списка встреченных в нем слов. Обратный - слову сопоставляется список документов, в которых оно есть. Логично, что для быстрого поиска лучше всего подходит обратный индекс. Для поиска цитат или составления кратких описаний страниц в результатах поиска используется прямой индекс, являющийся частичной сжатой копией Интернета.

    • Взаимодействие пользователя и поисковой системы обычно производится через веб-интерфейс. Пользователь может вводить свой запрос в поисковую строку и настраивать параметры поиска. В ответ поисковая система проводит предварительную обработку запроса, находит релевантные результаты и ранжирует их определенным образом (обычно по релевантности). К предварительной обработке запросов относят исправление опечаток, неправильной раскладки клавиатуры, определение типа запроса, поиск синонимов.

    • Релевантность - соответствие содержания документа информационной потребности пользователя. Следует учитывать, что для поисковой машины крайне затруднительно определить, действительно ли документы соответствуют потребности пользователя.

    Зачастую сам пользователь не способен ответить на этот вопрос. Обычно о релевантности судят по косвенным признакам, таким как наличие и количество ключевых слов в документе, авторитетность ресурса, количество ссылок на документ и многие другие.

    Частично представление о релевантных запросу документах можно получить, определив целевой тип запроса. выделяют четыре типа запросов:

    • Навигационные запросы, например, «сайт нгу», «википедия». Пользователь, вводящий навигационный запрос, хочет найти конкретный, определенный сайт.

    • Информационные запросы, например, «расписание поездов новосибирск-москва». В этом случае пользователя интересует определенная информация, но для него не принципиально, на каком ресурсе он ее получит.

    • Транзакционные запросы, например, «купить пластиковые окна», «скачать игру». В этом случае пользователь хочет совершить некоторое действие – купить, скачать, позвонить. Транзакционные запросы – самый интересный тип для владельцев интернет-магазинов и других продающих сайтов.

    • Нечеткие запросы, например, «квартира», «мобильник». В этом случае намерения пользователя не заложены в запрос и остаются для поисковой системы неясными.

    Подбор релевантных документов производится при помощи построенного ранее обратного индекса. Поисковая система Яндекс также использует так называемую фильтрацию по кворуму. Идея кворума в поиске состоит в отсечении заведомо нерелевантных документов, где кворум - это некоторый порог, при достижении которого документ допускается к ранжированию.

    Обозначим в качестве весов слов их «важность в запросе». Один из способов математически подсчитать вес слова можно по формуле [3]. Тогда, описывая кворум как



    где Softness - варьируемый параметр, а QL - длина запроса в словах, можно выразить функцию фильтрации в виде:



    где Q - запрос, D - документ, а w(qi) - веса слов, выражаемые как



    где DFq - частота слова в коллекции.

    Другими словами, если взвешенная сумма весов слов на странице достаточно велика, чтобы можно было судить о полноте ответа на заданный пользователем запрос, документ допускается к ранжированию.

    Следующий этап работы поисковой системы - ранжирование, или упорядочение результатов поиска по их релевантности. В этот момент поисковая система строит функцию релевантности, сопоставляя паре «документ-запрос» положительное действительное число, отражающее «степень релевантности документа запросу». Точные принципы построения такой функции являются строго охраняемой коммерческой тайной поисковой системы, однако существуют три пути получения достаточно достоверных знаний об основах работы того или иного ранжирующего алгоритма.

    Этими путями являются изучение теоретических основ информационного поиска - научной дисциплины, имеющей достаточно серьезную историю и багаж знаний, знакомство с открытыми данными, предоставляемыми время от времени самими поисковыми системами и, наконец, экспериментальный подход.

    Классические модели поиска

    В булевой модели поиска обрабатываются запросы, построенные с помощью логических операторов, таких как И, ИЛИ, НЕ. Обратный индекс поисковой системы представляется в виде матрицы инцидентности (табл. 5), где строки соответствуют словам, а столбцы - документам. Поиск релевантных документов легко проводится с помощью логических операций со столбцами матрицы.

    Таблица 5. Булева модель поиска



    Основная проблема булевой модели в том, что в ней отсутствует ранжирование. В векторной модели релевантность является аналогом расстояния между документом и запросом, которые представляются в виде многомерных векторов. Обычно векторы имеют размерность, равную количеству различных слов в коллекции, и каждая компонента соответствует встречаемости слова в документе или запросе. Обозначим документ как D, запрос - Q и зададим в пространстве векторов метрику и скалярное произведение.

    Векторная модель поиска оперирует двумя важными в информационном поиске параметрами.

    • Частота встречаемости слова в документе (tf - term frequency), выражаемая в виде количества заданных слов в документе или в виде плотности:



    • Обратная частота встречаемости слова в коллекции (idf - inverse document frequence), обычно рассчитываемая по формуле:



    где N– количество документов в коллекции, N1 – количество документов, содержащих слово t.

    Используя весовые произведения по словам (wt,D = tft,D x idft и wt,Q = tft,Q x idft) в документе и в запросе, можно получить простейшую функцию релевантности в векторной модели:



    представляющую собой косинус угла между вектором-документом и вектором-запросом, вычисленный через скалярное произведение.

    Принцип вероятностного ранжирования был сформулирован Купером так: если ответ системы ранжирует документы на основе статистической вероятности пользы документа для пользователя, задавшего запрос, причем вероятность подсчитывается на основе данных, доступных поисковой системе, то этот ответ будет лучшим из тех, которые можно получить на основе использованных данных.

    Формально задача вероятностного ранжирования может быть сформулирована как оптимизационная задача, в которой документ показывается в результатах поиска только в том случае, когда его добавление не снизит общую стоимость возвращаемых результатов. Наиболее известная формула вероятностного ранжирования носит название Okapi BM25, впервые использованная в поисковой системе Okapi Лондонского городского университета в 1980-1990-х гг. Для построения функции релевантности используется несколько важных допущений, первые два из которых в общем случае неверны.

    • Релевантность одного документа не зависит от релевантности других документов.

    • Слова независимы между собой, то есть появление одного из них не связано с наличием других.

    • Распределение слов в документе может быть использовано для оценки вероятности релевантности документа запросу.

    Формула OkapiBM25 использует рассмотренные выше характеристики tf, idf , а также относительные длины документов. Оценка релевантности каждого документа считается как сумма весов термов запроса в документе:



    где веса подсчитываются как:



    где Qwt - вес слова в запросе, dl - длина документа, avdl - средняя длина документа, nq - количество слов в запросе. Обычно k1 = 2, b = 0,75.

    В частности, если принять k1 = 2, k2 = 0, k3 = ∞, b = 0,75, то



    Позже классическая формула 0kapiBm25 была модифицирована в формулу 0kapiBM25F, учитывающую месторасположение слов запроса в документе. Документы разбивались на области Fi, i = 1,..,n, например заголовок документа, основной текст, служебные элементы, и для каждой области задавался вес wi, i = 1, n.

    Коэффициенты взвешенной частоты встречаемости слова в этом случае вычисляются как



    Веса слов запроса в документе равны





    Языковые модели основываются на теории связи Шеннона. В этой модели оценивается вероятность того, что пользователь ввел запрос, чтобы получить рассматриваемый документ. Другими словами, базис подхода состоит в том, что запросы порождаются документами. Это не лишено смысла, поскольку пользователь, формируя запрос, примерно представляет себе, что именно он хочет увидеть в документе. В статистической языковой модели документы ранжируются по принципу максимального правдоподобия Pmle того, что запрос Q был порожден документом D - P(Q|D) . Простая униграммная модель оценивает соответствие документа запросу как:



    Поэтому если документ не содержит хотя бы одного слова из запроса, P(Q|D) = 0. Чтобы избежать этого, было предложено использовать «резервную» модель и сглаживающие функции. В первом случае



    где С - некоторая языковая модель, α - нормирующий коэффициент, подобранный таким образом, чтобы сумма вероятностей была равна 1. При использовании сглаживающей функции





    Основным преимуществом языковой модели, пожалуй, является более гибкое по сравнению с векторной и вероятностной моделями использование свойств естественного языка.

    Для иллюстрации влияния теоретических изысканий на конкретные прикладные алгоритмы рассмотрим алгоритм ранжирования Atr, предложенный компанией Яндекс в 2006 г.

    Для каждого запроса вычисляется Score(D) - показатель релевантности документа запросу:



    где Wsingle - встречаемость слова в документе, Wpair - встречаемость пар слов в документе, WAllWords - наличие всех слов в документе, Wphrase - встречаемость запроса целиком, WHalfPhrase - наличие многих слов в документе, WPRF - дополнительный коэффициент, полученный при использовании подхода pseudo-relevance feedback, проводимого в два этапа. На первом этапе коэффициент не используется, на втором этапе он подсчитывается как похожесть документа на документы с наивысшим рангом, подсчитанным на первом шаге. Основой для подсчета встречаемости стала формула Okapi BM25:



    значения tft,D подсчитываются также для лемм. Учет лемм вместо слов позволяет улучшить качество поиска. В качестве p лучшие результаты были получены при значении p = 1 — e-1,5CF|D| , где CF - количество вхождений леммы в коллекцию, |D| - число документов в коллекции. Этот коэффициент аппроксимирует вероятность того, что документ относится к слову запроса.

    При подсчете коэффициента Wpair рассматриваются несколько случаев, каждому из которых соответствует определенный вес из интервала [0,1].

    • Слова идут подряд.

    • Слова идут через слово.

    • Слова идут в обратном порядке.

    • В запросе слова идут через слово, а в тексте - подряд.

    Вес пар вычисляется как



    где fpair,D - количество вхождений пары в документ с учетом весов.

    «Бонус» за наличие в документе всех слов и «антибонус» за отсутствие некоторых слов:



    где Nmiss - количество отсутствующих слов. «Бонус» за наличие всей фразы целиком:



    И, наконец, бонус за наличие значительного числа слов из запроса. «Значительное» означает, что сумма IDF присутствующих слов не менее половины суммы idf всех слов запроса



    Хотя алгоритм Atr использует TF и IDF и берет за основу формулу Okapi DM25, он явно учитывает тип вхождений слов в документы и их взаимодействие между собой. Подобный подход являлся частью ранжирующего алгоритма в поисковой системе Яндекс до 2009 г.

    При ранжировании документов может учитываться не только текст документа. Есть и другие признаки, свидетельствующие о релевантности документа запросу пользователя. В первую очередь следует отметить тексты ссылок, ведущие на ранжируемый документ. При введении данного фактора разработчики поисковых систем руководствовались соображением, что если владелец сайта ссылается на другую страницу каким-либо текстом, то можно быть уверенным в том, что данная информация присутствует на странице, и чем больше количество таких ссылок, тем выше эта вероятность. Каким образом можно учесть в формуле ранжирования информацию о текстах ссылок? Обычно тексты всех ссылок объединяются в единый текст - анкор-файл. Разумеется, он существенно отличается от естественного текста: одни слова встречаются в нем очень часто, служебных слов (предлогов, союзов) может быть слишком мало, и все эти слова не образуют связного текста. Поэтому анкор-файл рассматривается отдельно от текста документа, но по тем же принципам.

    • В векторной модели подсчитывается угол между вектором анкор-файла и вектором запроса.

    • В вероятностной модели подсчитывается значение BM25 (анкор-файл, запрос).

    • В языковой модели анкор-файл рассматривается как дополнение к основному документу.

    Показатель релевантности, вычисленный для анкор-файла, обычно умножается на заданный коэффициент и суммируется с показателем релевантности текста, и ранжирование производится по итоговому значению. Другие метрики могут учитываться иначе: например, повторным упорядочением документов, признанных релевантными на первой итерации, или с помощью операторов умножения, взятия минимума, максимума, среднего.

    Наиболее популярными среди дополнительных метрик являются:

    • содержимое метатегов description и keywords

    • наличие ключевых слов в URL документа или тип URLa (статический или динамический)

    • HTML-разметка: наличие заголовков, визуального оформления, структурирование текста атрибуты и описания изображений

    • показатели качества документа (актуальность предоставляемой информации, частота обновления документа, наличие нерабочих элементов, например битых ссылок, авторитетность - участие в рейтингах, каталогах, ссылочная авторитетность)

    К последнему пункту относят технологии PageRank от Google, тИЦ (тематический индекс цитирования) и вИЦ (взвешенный индекс цитирования) от Яндекс. Принцип ссылочной авторитетности может быть выражен так: если страница А ссылается на страницу B, то страница А считает, что страница B - важная страница. Если на страницу указывают много важных ссылок, то ее ссылки на другие страницы также становятся более важными. Текст ссылки при этом не используется. У этой технологии есть недостаток: далеко не все ссылки являются рекомендациями. Они могут быть поставлены как навигационный элемент между страницами, лицензионное требование или услуга. Кроме этого, с помощью ссылок люди активно воздействуют на поисковые системы, снижая тем самым эффективность показателей ссылочной авторитетности.

    Алгоритм PageRank представлен Ларри Пейджем в 1998 г., и на его основе в том же году была запущена поисковая система Google. В настоящее время этот показатель практически не используется при ранжировании документов, хотя влияние ссылочных связей сохранилось.

    PageRank представляет собой числовую характеристику страницы. Ее подсчет производится итерационным способом по формуле



    где PR(A) - PageRank страницы A, d - коэффициент затухания (обычно равный 0,85), Г - ссылающиеся страницы, C(T) - количество исходящих ссылок. На рис. 94 приведен пример вычисления PageRank для четырех страниц. На этом примере видно наличие обратной связи между страницами А и С: на первой итерации страница А увеличивает PageRank страницы С, но на следующей получается обратный эффект: страница С увеличивает PageRank страницы А.



    Рис. 94. Пример подсчета PageRank: а - шаг 1, б - шаг 2, в - шаг 3

    Каким образом можно повысить PageRank страницы?

    1. Получать ссылки со страниц с высоким PageRank и малым числом исходящих ссылок.

    2. Грамотно проставлять исходящие ссылки со страниц.

    3. Строить внутреннюю навигационную структуру и связи страниц с целью создания максимальной обратной связи.
    1   ...   38   39   40   41   42   43   44   45   ...   67


  • написать администратору сайта