Маркетинг. Интернет маркетинг. Учебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях

Название	Учебное пособие Компания Intelsib, совместное издание с нгу поделиться в соц сетях
Анкор	Маркетинг
Дата	31.01.2020
Размер	6.86 Mb.
Формат файла
Имя файла	Интернет маркетинг.docx
Тип	Учебное пособие #106588
страница	43 из 67

1 ... 39 40 41 42 43 44 45 46 ... 67

Машинное обучение в алгоритмах ранжирования

С ростом Интернета поисковым системам становится все сложнее ранжировать документы. Алгоритмы становятся менее эффективными, поскольку признаки релевантности, на которых они основываются, являются косвенными и легко накручиваются веб-мастерами. Многообразие документов и запросов приводит к осознанию того, что для разных запросов и разных документов следует использовать различные наборы признаков. Учитывая огромное количество документов и запросов, которые можно использовать в качестве обучающей выборки, естественным шагом для разработчиков поисковых систем стало использование машинного обучения, позволяющего автоматически подобрать ранжирующую модель. Обучающая выборка состоит из множества пар документов и запросов и указания оценки для каждой пары. Оценки могут быть такими, как «витальный», «релевантен», «нерелевантен», «не определено». Цель ранжирующей модели - приблизить и обобщить способ ранжирования в обучающей выборке на новые данные с достаточной точностью в некоторой заданной метрике.

Как правило, модель обучается на всем множестве факторов, с помощью которых можно описать пару «запрос-документ». Многие поисковые системы используют небольшое количество (5-15) факторов, а некоторые сложные факторы могут выступать в качестве самостоятельных функций релевантности.

Используемые факторы разделяются на три группы.

Внутренние факторы, определяемые для каждого документа коллекции локально, такие как количество или размер графических изображений.
Внешние факторы, получаемые при анализе коллекции документов в виде графа. Примером такого фактора может быть количество внешних ссылок на документ.
Поведенческие факторы, характеризующие поведение пользователя при просмотре результатов поиска и документа, например время, проведенное на странице, или взаимодействие с интерактивными элементами.

Другая классификация использует наличие или отсутствие зависимости фактора от запроса.

Статические факторы, т. е. зависящие только от документа, но не от запроса. Например, объем текста документа или среднее число просмотров за день.
Факторы, зависящие только от запроса, такие как наличие в запросе слов, определяющих местоположение пользователя.
Динамические факторы, т. е. зависящие и от запроса, и от документа. Например, наличие слов запроса в заголовке документа или количество внешних ссылок с текстом, содержащим слова запроса.

Чтобы построить ранжирующую модель, разработчики поисковых систем решают несколько задач: построение обучающей выборки, выбор обучающейся модели и метода обучения, проведение обучения, тестирование, корректировка модели. Выбранная модель должна быть устойчивой к переобучению - явлению, при котором модель очень хорошо работает на обучающих данных, и плохо - на тестовых. Проблема переобучения связана с выявлением в обучающей выборке случайных зависимостей, которые отсутствуют в генеральной совокупности. В частности, система может определять ложные факторы, будто бы свидетельствующие о релевантности.

Ранжирующие модели, построенные методами машинного обучения, в настоящее время используются во многих современных поисковых системах, среди которых Яндекс, Yahoo и Bing. В июле 2013 г. собственный поиск с использованием подобной технологии запустила компания Mail.ru. Отношение мирового гиганта Google к использованию машинного обучения иное. В интервью в начале 2008 г. директор по исследованиям в компании Google питер Норвиг заявил, что их поисковая система ещё не готова окончательно доверить ранжирование алгоритмам машинного обучения, мотивируя это тем, что, во-первых, автоматически созданные модели могут повести себя непредсказуемо на новых классах запросов, не похожих на запросы из обучающей выборки, по сравнению с моделями, созданными людьми-экспертами. Во-вторых, создатели текущего ранжирующего алгоритма Google уверены в том, что их модель способна решать задачи более эффективно, чем машинное обучение.

Алгоритм ранжирования Яндекс

Модель поиска Яндекс основана на обучении деревьев принятия решений и носит название «Matrixnet». по словам создателей, модель устойчива к переобучению и способна эффективно подбирать значимые для ранжирования факторы в зависимости от запроса и документов (рис. 71).

Рис. 71. Схема работы системы Matrixnet

При построении функции ранжирования поисковая машина Яндекс учитывает более 400 факторов. Разумеется, не все они используются при ранжировании определенной пары «запрос-документ». В качестве обучающей выборки рассматривается множество пар «запрос-документ», с которым сопоставляется оценка релевантности, предложенная асессорами (профессиональными оценщиками соответствия документа запросу). Оценки каждого документа являются качественными и принимают такие значения, как «витальный», «нерелевантный», «неопределенно» и другие. Впоследствии качественным оценкам сопоставляется численная мера rel, а каждая пара «запрос-документ» описывается вектором (f₁(q,d), f₂(q,d),..., f_M(q,d)), где q - запрос, d - документ, f_i,i = 1,M - функции, определяющие значения факторов пары (q, d).

Для построения регрессии функции релевантности, заданной с помощью обучающей выборки, используются деревья решений. Оптимизационная задача, к которой сводится задача регрессии, имеет вид

где fr - функция релевантности, F - класс доступных функций, L - мера расстояния rel - оценка релевантности, n - число элементов в задачнике.

Функция fr ищется в виде:

где функции h_k (q, d) принадлежат некоторому простому семейству H.

Функция fr(q,d) строится итерационно, на каждой итерации добавляется одно новое слагаемое α_kh_k(q,d). На каждой итерации для нахождения коэффициента α_k и функции h_k(q,d) выполняется алгоритм, состоящий из трех шагов.

Аппроксимация градиента функции релевантности. Вектор градиента g={g_(g,d)} для функции ошибки вычисляется как

где функция fr рассматривается как вектор чисел, проиндексированный номерами примеров из задачника.

Выбор функции h_k(q,d) как функционального приближения градиента g={g_(g,d)} при решении оптимизационной задачи:

Выбор параметра α_k. Для этого решается однопараметрическая оптимизационная задача:

В качестве класса простых функций H рассматривается семейство деревьев решений (рис. 72), разбивающих область решений на несколько областей. Для выбора оптимального дерева решений используется жадный алгоритм, заключающийся в принятии локально оптимальных решений на каждом этапе, при допущении, что конечное решение также окажется оптимальным.

Рис. 72. Пример дерева решений

В результате алгоритм Matrixnet строит функцию релевантности, по значениям которой поисковая машина ранжирует результаты поиска. Глубина деревьев ограничена шесть уровнями. Особенностью алгоритма является использование кусочно-постоянных функций. Это приводит к тому, что в некоторых случаях небольшое изменение фактора влечет сильное изменение значения функции релевантности. Как и все системы машинного обучения, Matrixnet является «черным ящиком».

Но вид функции релевантности и влияние каждого фактора скрыты как от пользователя системы, так и от самих создателей, поэтому приведенная модель ранжирования является «черным ящиком». Как однажды отметил Андрей Гулин, разработчик системы Matrixnet: «We're surprised when SEOs ask how to rank my site, because I don't know» («Мы удивляемся, когда SEO-специалисты спрашивают нас, как ранжируются их сайты, поскольку мы этого не знаем»).

Кейс. Как удержать позиции в ТОП в 23 регионах одновременно?

Клиент – компания ТракторДеталь - российская компания, дилер по поставке лесо-заготовительной, строительной спецтехники и запасных частей к ней

При обращении в Intelsib в августе 2014 г. компания «Трактородеталь» уже имела опыт продвижения в поисковых системах, однако не очень успешный. На момент начала работы основными требованиями клиента были гарантии попадания в ТОП всего списка запросов и высокий уровень внимания к проекту на этапе сопровождения.

Сфера деятельности компании «Трактородеталь» - продажа новой и б/у лесозаготовительной, строительной техники, а также запчастей к ним. Ключевая особенность проекта -одновременное продвижение сразу в 23 регионах России. Для решения задачи SEO-специалисты Intelsib создали и оптимизировали 22 поддомена, для каждого региона (примеры: //kirov.traktorodetal.ru/, //spb.traktorodetal.ru/ и т. д.). В результате возникла новая сложность - из-за большого количества поддоменов нагрузка на хостинг возросла, что привело к периодическим сбоям в работе сайта. Было принято решение по переносу сайта на более мощный хостинг.

Для повышения позиций в выдаче были проведены классические виды работ. Кроме этого на всем сайте были настроены человекопонятные URL страниц: адреса вида //www.traktorodetal.ru/?portfolio=repair были исправлены на //www.traktorodetal.ru/remontnaya-baza. Вывод запросов в ТОП был постепенным, но уверенным. Полный список запросов был выведен на 5-й месяц работы.

Стоит отметить слаженную работу клиента и Intelsib. Все предложенные доработки по сайту оперативно внедрялись. Так, реализована опция подмены номеров на всех поддоменах для отслеживания звонков с поисковых систем. Для удобства поиска информации на сайте была изменена структура каталога товаров, кроме того он был пополнен новыми позициями с описанием и иллюстрациями.

На текущий момент посещаемость сайта выросла вдвое. Рост трафика можно оценить по графику, сравнивая период до начала сотрудничества (август 2014 г.) и после старта работ.

1 ... 39 40 41 42 43 44 45 46 ... 67