Маркетинг. Интернет маркетинг. Учебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях
Скачать 6.86 Mb.
|
Методы изучения алгоритмов работы поисковой системы При изучении любой поисковой системы наиболее разумным представляется подход «черного ящика», на «входы» которого мы можем оказывать воздействие, а на «выходе» регистрировать результат этого воздействия. В этом случае мы можем не иметь представления о том, что происходит внутри системы и, тем не менее, определить основные принципы её функционирования. Поисковые системы оперируют практически неограниченным множеством входных и выходных данных. Исследование «черных ящиков» - достаточно известная научная проблема, и на сегодня выработано множество методов, одним из которых является статистический корреляционный анализ. Его цель применительно к данной задаче установить имеющиеся закономерности между входами и выходами системы. Входами поисковиков являются: характеристики страниц сети Интернет, запросы и их параметры, выходом - результат работы алгоритма ранжирования по запросу или «выдача». Несложные системы веб-обмена позволяют накопить любой необходимый для анализа набор откликов поисковой системы на тестовые запросы. Применяя к данным, полученным таким образом, корреляционный анализ, можно определять степень зависимости места в выдаче от той или иной характерной особенности структуры страниц. Если некоторая метрика имеет стабильно большой по модулю коэффициент корреляции для различных запросов, то можно предположить, что она определенно имеет сильное влияние на работу алгоритма ранжирования исследуемой поисковой системы. Суть корреляционного анализа заключается в следующем. Пусть существуют две величины Х и У, для которых известны соответствующие друг другу пары значений (Xi,Yi), i = 1,2,..N. Исходя из положения о том, что результат работы поисковой системы - ранжированный список, в анализе используем коэффициент ранговой корреляции Спирмена: где R(Yi) - ранг i-го значения Y, R(Xi) - ранг i-го значения Х. Значение коэффициента корреляции, диапазон изменения которого лежит в интервале от -1 до 1, говорит о связи следующим образом: модуль определяет степень связи между величинами (чем он больше, тем связь сильнее). Знак определяет характер связи. Положительное значение коэффициента говорит о том, что при увеличении Х соответствующее значение Y будет возрастать, а если коэффициент отрицателен - убывать. При этом выявленная связь будет носить не функциональный, а принципиальный характер. Если взять за Х характеристику, влияние которой на ранжирование мы исследуем, а за Y - позиции документов в результатах поиска, то можно при помощи коэффициента корреляции определить степень и характер статистической связи между ними. Естественно, никакой функциональной зависимости между этими величинами быть не может, так как места - это качественные (или ранговые) меры, а значения характеристик документа - количественные. Однако наличие статистической связи между ними может говорить о том, что в текстовом ранжировании исследуемая метрика или некоторая функция от нее имеет определенное влияние, сила которого определяется модулем коэффициента корреляции, а характер - знаком. Данный метод исследования принципов текстового ранжирования состоит из следующих этапов. Этап 1. Формирование множества данных для анализа. Делается подборка запросов, максимально исключающая влияние ссылочного фактора. Например, запросы из непопулярных слов или запросы, задающие поиск по одному сайту. Чем больше различных запросов используется для проведения анализа, тем выше их статистическая значимость. Этап 2. Вычисление числовых характеристик. Характеристики для исследования выбираются на основе проведенных предварительных наблюдений или возникающих в процессе исследования поисковых систем гипотез. Этап 3. Вычисление коэффициентов корреляции. Этап 4. Анализ результатов. Если некоторая характеристика на различных запросах имеет устойчиво высокий по модулю коэффициент корреляции, то делается вывод о том, что она влияет на текстовое ранжирование. При этом если коэффициент больше нуля, то зависимость прямая (с увеличением характеристики увеличивается место документа в результатах поиска), если меньше нуля - обратная (с увеличением характеристики уменьшается место документа в результатах поиска). Стоит подчеркнуть, что точно определить формулу вычисления структурной характеристики, используемой в том или ином методе ранжирования, затруднительно. Поэтому если некоторая метрика по результатам анализа признана влияющей на формирование выдачи, то это не значит, что она присутствует в алгоритме именно в таком же виде, но вероятность ее тесной связи с истинной характеристикой высока. Представленная выше формула предназначена для вычисления коэффициента парной корреляции, т. е. между двумя величинами. При расчете коэффициента для каждой из характеристик влияние других факторов не учитывается. Поэтому, так как в алгоритме ранжирования одновременно используется несколько факторов, коэффициенты парной корреляции для каждого из них будут невысоки. Для решения этой проблемы можно использовать множественные и частные коэффициенты корреляции. Имея результаты таких наблюдений, можно строить гипотезы о влиянии и пороговых значениях факторов, моделировать экспериментальные страницы (или сайты) и проверять эти гипотезы. Экспериментальные методы исследования поисковых алгоритмов состоят из двух уровней. Первый подразумевает использование тестовых страниц, специально создаваемых для проверки влияния того или иного фактора. Второй - внедрение подтвержденных результатов на страницах реальных сайтов. Примером подобного исследования может служить оценка влияния длины заголовка страницы (title) на ранжирование. На первом уровне были созданы 10 тестовых страниц с близким по текстовым параметрам содержанием (объем текста, количество вхождений слов заголовка в текст страницы, число абзацев, средняя длина предложений и т. п.). Для половины страниц составлены короткие заголовки (не более 75 символов), для второй - длинные (более 150 символов). Подобраны три запроса, каждый из которых имеет одно вхождение в каждый заголовок. После индексации сняты позиции всех страниц по каждому запросу. В результате получили, что из 15 замеров для страниц с короткими заголовками в 14 случаях они оказались выше страниц с длинными. Сделан очевидный вывод о необходимости сокращать избыточно длинные заголовки страниц. После этого данный подход реализован на нескольких сайтах, что также дало положительный результат. Надо отметить, что проведение даже правильно построенного эксперимента не дает 100 % ответа на вопрос о влиянии того или иного фактора. Наличие очень большого числа параметров в формуле ранжирования может приводить к ложным срабатываниям в таких экспериментах за счет опосредованного влияния. К тому же следует помнить о том, что сами ранжирующие формулы различаются для разных регионов и разных типов запросов. В итоге то, что дает очевидный положительный эффект в московской выдаче по коммерческому запросу, может не сработать или даже привести к ухудшению позиций в другом регионе или при работе с некоммерческим сайтом. Все это говорит о том, что «волшебной таблетки SE0» не существует, практически каждый проект и даже запрос требует кроме обязательного списка работ по оптимизации еще и творческого, а зачастую и исследовательского подхода. Тем не менее, существуют вполне определенные мероприятия, гарантированно улучшающие позиционирование сайта в результатах поиска. Язык поисковых запросов Анализ поисковой выдачи только с использованием простых запросов не всегда достаточно информативен. Поисковые системы предлагают для продвинутых пользователей специальный язык запросов, с помощью которого можно получить более точные и информативные результаты поиска. Язык запросов (табл. 6) представляет собой набор операторов, задающих соотношение между словами запроса или определенные настройки поиска. Наиболее популярные настройки могут быть заданы и с помощью графического интерфейса. Таблица 6. Язык запросов яндекса |