Для Герасимова 2. Разработка модели потребительских предпочтений на основе данных рекомендательной сети epinions com
Скачать 2.87 Mb.
|
Анализ и результатыПроцесс автоматизированного сбора данных занял более 4 суток чистого времени. В базу данных загружена информация в объеме:
Таблица 2.2.7 – Объем загруженных данных Данные были преобразованы в табличный вид, пригодный для обработки в R, способами, указанными в разделах 2.2.1-2.2.5 и 2.3.1. В этом разделе на основе полученных данных будет проведен обзор аудитории сайта epinions.com и выявление основных групп пользователей. Также будет выполнен анализ потребительских предпочтений для цифровых камер и сравнение этих предпочтений для разных групп пользователей. Для этого нужно выполнить следующие шаги: Построить линейную регрессионную модель для полной выборки отзывов на фотокамеры Разбить выборку пользователей на кластеры по интересам Разбить выборку отзывов на фотокамеры в соответствие с разбиением пользователей так, чтобы отзывы пользователей каждого кластера составляли отдельную подвыборку Построить регрессионные модели для каждой из выборок, полученных на предыдущем шаге и сравнить их коэффициенты Формат данныхНапомним кратко формат исходных данных. Оценки фотокамер Приведем фрагмент таблицы с данными об отзывах на фотокамеры.
Таблица 3.1.8 – Фрагмент исходных данных об оценках фотокамер Камера обладает пятью свойствами: надежность (durability), простота использования (eou), скорость работы (lag), емкость аккумулятора (battery), качество изображения(picture). Для каждой камеры также известна общая оценка(overall), идентификатор отзыва, в котором выставлена оценка(review_id), и идентификатор пользователя, оставившего отзыв(reviewer_id). Каждая оценка выставляется по шкале 1-5, оценки по некоторым свойствам могут отсутствовать. Таблица содержит 3012 строк. Пользователи Каждый пользователь представлен в виде вектора, в котором содержится количество отзывов, который этот пользователь оставил в каждой из рассматриваемых товарных категорий. Приведем фрагмент таблицы с данными о пользователях. О выборе степени детализации категорий будет рассказано ниже.
Таблица 3.1.9 – Фрагмент исходных данных о пользователях Всего в таблице 35047 строк. |