Для Герасимова 2. Разработка модели потребительских предпочтений на основе данных рекомендательной сети epinions com
Скачать 2.87 Mb.
|
Формирование выборкиПеред тем, как проводить кластеризацию пользователей, нужно определиться, какие товарные категории мы будем рассматривать при подсчете отзывов. На сайте epinions.com товарные категории имеют многоуровневую иерархическую структуру. На верхнем уровне находятся такие категории: Cars & Motosports – в эту категорию входят все транспортные средства, а также дополнительное оборудование для них Computers & Internet – компьютерное и сетевое оборудование, программное обеспечение и веб-сервисы Education – учебные заведения и образовательные программы Electronics – аудиотехника, видеотехника, фотоаппаратура, коммуникационное оборудование Games – игры для ПК и других платформ Home & Garden – бытовая техника, кухонные принадлежности, инструменты, материалы для ремонта, товары для домашних животных, товары для сада Hotels & Travel – гостиницы, авиакомпании, достопримечательности, круизы, горнолыжные курорты и т.п. Kids & Family – игрушки, коляски и другие товары для детей Books - книги Movies - фильмы Newspapers & Magazines – газеты и журналы Music – музыкальные записи и музыкальные инструменты Media – категория для информационных и развлекательных источников, которые не относится к фильмам, книгам, газетам и журналам, например, театральных постановок и телесериалов Restaurants & Gourmet – рестораны, продукты питания, алкогольные напитки и табачные изделия Sports & Outdoors – товары для различных видов спорта, стадионы, парки, спортивные клубы Wellness & Beauty – косметика, гигиенические принадлежности, пищевые добавки, лекарства и т.п. При этом, так как сайт управляется самими пользователями, структура поддерживается не очень хорошо и на разных страницах сайта существует в разных версиях. Вот, например, каталог категории товаров для спорта и активного отдыха. Рисунок 3.2.10 – Фрагмент товарного каталога сайта Epinions Поиск по всем категориям и подкатегориям этого каталога работает корректно. При этом на страницах с отзывами пользователей товары категории Sports & Outdoor представлены следующими категориями: Parks, Staduims & Arenas, Sports & Outdoor(включает все оставшиеся подкатегории). Некоторые другие категории, например, Electronics, имеют высокую степень детализации на всех страницах. В исходных данных товарные категории имеют разную степень детализации. Например, как уже было сказано, категория Sports & Outdoor имеет низкую степень детализации, а Electronics и Home & Garden – высокую. Всего в исходных данных осталось 300 категорий, после удаления неактуальных. Степень детализации при анализе нужно выбирать в зависимости от задачи. Если требуется лучше узнать состав аудитории сайта, то нужно выбирать низкий уровень детализации и объединить некоторые категории. Если нужно исследовать какой-либо определенный сегмент, скажем, туристический, то лучше оставить детализацию для категорий, которые относятся к туризму, на самом высоком уровне и вообще не рассматривать остальные категории. В нашей задаче будем рассматривать аудиторию сайта целиком, поэтому категории нужно будет объединять. При объединении желательно, во-первых, получить не слишком много категорий, чтобы не повышать сильно степень детализации каких-либо категорий, и не затруднять интерпретацию результата. Во-вторых, при объединении нужно постараться не потерять слишком много информации для требуемого в исследовании уровня детализации. Если, например, в нашей задаче включить кухонные принадлежности и ручной инструмент в категорию товаров для дома, то это может помешать отделить мужскую аудиторию сайта от женской. Категории «Круизы», «Гостиницы» и «Горнолыжные курорты» не так сильно пострадают от объединения в категорию «Туризм», так как высокий уровень детализации для этой категории нам, вероятно, не потребуется. Из исходных данных было сформировано 30 категорий. Перечислим их и поясним кратко, что они в себя включают. Полную таблицу соответствия между исходными и объединенными категориями можно найти в приложении А.
Таблица 3.2.10 – Товарные категории, использованные для кластеризации пользователей сайта Epinions Не стоит включать всех пользователей в выборку для кластеризации. Если у пользователя мало отзывов, то о его интересах ничего сказать нельзя из-за нехватки информации. Если у пользователя очень много отзывов, то это тоже не всегда позволяет судить о его интересах. Так как, когда отзывов слишком много, можно предположить, что автор пишет обо всем подряд ради привлечения читателей. Лучше всего выбрать для кластеризации пользователей, у которых отзывов не слишком много, но и не слишком мало. Это, с одной стороны, говорит о том, что пользователю нравится делиться опытом с другими членами сообщества. С другой стороны, такой пользователь выбирает, о чем ему писать. Это в какой-то мере отражает его интересы. |