Для Герасимова 2. Разработка модели потребительских предпочтений на основе данных рекомендательной сети epinions com
Скачать 2.87 Mb.
|
на тему: «Разработка модели потребительских предпочтений на основе данных рекомендательной сети epinions.com» ОглавлениеВведение 4 1Методология 7 1.1Источник данных 7 1.1.1Выбор источника данных 7 1.1.2Структура сайта epinions.com 10 1.2Технологии 15 1.2.1Сбор данных 15 1.2.2Преобразование и анализ данных 26 1.3Аналитические методы 27 1.3.1Выявление групп пользователей 27 1.3.2Модель потребительских предпочтений 33 2Техническая реализация 34 2.1Сбор данных с сайта www.epinions.com 34 2.1.1Стратегия сбора данных 35 2.1.2Построение базы данных 36 2.1.3Извлечение данных с веб-страниц 39 2.1.4Наполнение базы данных 44 2.2Преобразование и анализ данных 48 2.2.1Выявление групп пользователей 48 2.2.2Оценка потребительских предпочтений 56 3Анализ и результаты 62 3.1Формат данных 63 3.2Формирование выборки 65 3.3Оценка предпочтений по полной выборке 69 3.4Кластеризация и групповые предпочтения 71 3.4.15 кластеров 72 3.4.210 кластеров 87 3.4.3Выводы 107 Заключение 110 Библиографический список 113 Приложения 115 Приложение А. Соответствие между исходными и объединенными товарными категориями 116 Приложение Б. Исходные тексты программ 123 epintable.py 124 epinhelper.py 126 epinparsers.py 130 epcrawler.py 135 epindb.py 137 transform_user_reviews.r 140 get_rating_data.r 141 Приложение В. Результаты анализа для случаев 6-9 кластеров 143 6 кластеров 144 7 кластеров 159 8 кластеров 176 9 кластеров 189 ВведениеОбъем информации в мире постоянно растет, и все большая ее часть создается или сохраняется в сети Интернет. В накоплении знаний теперь участвует каждый пользователь глобальной сети. В Интернете любой может поделиться своим мнением по какому-либо вопросу, и это мнение тут же станет доступным всем остальным пользователям. Обилие доступных данных различной природы открывает огромные возможности перед многими научными и практическими областями. Выборки большого объема позволяют эффективно проверять эмпирические гипотезы и находить новые закономерности, никому ранее не известные. Потребности в обработке больших массивов информации породили новую область знаний, называемую Data Science. Она объединяет в себе методы из статистики, информатики и направлена на сбор и обработку больших объемов данных с целью обеспечения потребностей различных предметных областей. Маркетинг – одна из тех сфер, которые могут успешно пользоваться информацией, которую создают пользователи Интернета. В условиях глобальной конкуренции производители должны быстро и адекватно реагировать на малейшие изменения рыночных трендов, вкусов и интересов потребителей. Современные методы сбора и обработки данных расширяют возможности традиционных маркетинговых исследований, позволяют получать более точные результаты с меньшими трудозатратами. Ценные источники маркетинговой информации, имеющиеся в Интернете – это сайты, на которых пользователи могут оставлять отзывы на различные товары и выставлять им оценки. Оставляя отзывы, активные потребители, сами того не подозревая, сообщают о себе много важной информации: о своих интересах, предпочтениях при выборе товаров, приверженности бренду. Тщательное исследование большого количества отзывов может позволить производителям лучше определить целевую аудиторию своей продукции, выявить наиболее важные потребительские свойства товара. Эта информация может оказаться полезной для производителя при разработке новых продуктов и планировании маркетинговых кампаний. Одним из сайтов, позволяющих пользователям оставлять отзывы, является американский ресурс epinions.com. Несмотря на меньшую популярность по сравнению с некоторыми другими аналогичными веб-сервисами, он хорошо подходит для маркетингового анализа благодаря активному пользовательскому сообществу и строгим требованиям к содержанию и формату отзывов. Целью данной работы является исследование потребительских предпочтений аудитории сайта epinions.com для цифровых фотокамер с учетом интересов пользователей. Для достижения цели нужно получить большую выборку данных с сайта, разделить выборку пользователей на группы по интересам и оценить предпочтения для каждой подвыборки. Задачами дипломной работы являются: Сбор маркетинговых данных с веб-сайта epinions.com. Требуется построить систему для автоматизированного сбора данных о товарах, пользователях и отзывах со страниц сайта epinions.com. Система должна извлекать и хранить данные с тысяч страниц и быть способной работать продолжительное время. Определение состава пользовательской аудитории сайта epinions.com. Требуется разбить пользователей сайта на группы в соответствии с их интересами, воспользовавшись отзывами, которые оставляют пользователи на различные товары. Построение модели потребительских предпочтений для цифровых фотокамер. На основе собранных данных об оценках товаров требуется построить математическую модель, которая бы позволила выявить наиболее важные для пользователей характеристики фотокамер. Сравнение потребительских предпочтений. При помощи полученной модели потребительских предпочтений требуется определить, как различаются предпочтения в выявленных ранее группах пользователей. Объектом данной работы является пользовательская аудитория сайта epinions.com, а предметом исследования – качественный состав пользователей и их предпочтения при выборе цифровых камер. Методология исследования опирается на теорию статистического анализа данных, современные информационные технологии и средства программирования. В работе были применены методы кластеризации и регрессии, как одни из действенных методов выделения закономерностей в данных большого объема. Для реализации процедур сбора и обработки данных были использованы базы данных, средства синтаксического разбора веб-страниц, языки программирования Python и R. Научная новизна данной дипломной работы состоит в том, что в ней для выявления групп потребителей были успешно применены методы кластеризации текстовых документов, что позволило улучшить качество разбиения и упростило интерпретацию результатов. Структура дипломной работы состоит из трех глав. В первой главе подробнее рассказывается о решаемых задачах, о том, какие информационные технологии и аналитические методы были использованы в работе, а также даются необходимые теоретические сведения о наиболее важных из них. Во второй главе – практической, излагается программная реализация процессов сбора и подготовки исходных данных к анализу. В третьей главе, аналитической, речь идет о порядке проведения анализа, приводятся его результаты и делаются выводы по ним. В конце приводится список использованной литературы. |