Главная страница

Для Герасимова 2. Разработка модели потребительских предпочтений на основе данных рекомендательной сети epinions com


Скачать 2.87 Mb.
НазваниеРазработка модели потребительских предпочтений на основе данных рекомендательной сети epinions com
Дата11.06.2022
Размер2.87 Mb.
Формат файлаdocx
Имя файлаДля Герасимова 2.docx
ТипДокументы
#584719
страница9 из 16
1   ...   5   6   7   8   9   10   11   12   ...   16

Оценка предпочтений по полной выборке


В выборку включим тех пользователей, которые оставили от 20 до 500 отзывов. Таким образом, исключаются те пользователи, интересы которых нельзя определить из-за недостатка отзывов, а также пользователи, которые имеют слишком много отзывов, что также может помешать выявлению интересов.

В выборке учитываются все категории из предыдущего раздела. Это поможет получить максимально полное представление об аудитории сайта.

Попробуем оценить предпочтения пользователей по всей выборке. Пользователи из выборки оставили на фотокамеры 1773 отзыва с детальными оценками, из них 1259 имеют оценки по всем характеристикам.

Построим регрессионную модель с учетом оценок по всем характеристикам:
lm(overall durability + eou + battery + lag + picture, data=cameras1)

Результат:

Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = cameras1)
Residuals:

Min 1Q Median 3Q Max

-3.3496 -0.3515 0.0409 0.4537 1.8543
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.87663 0.13029 -6.729 2.60e-11 ***

durability 0.42316 0.02710 15.614 < 2e-16 ***

eou 0.18487 0.02416 7.651 3.97e-14 ***

battery 0.11266 0.02009 5.608 2.51e-08 ***

lag 0.12039 0.02450 4.914 1.01e-06 ***

picture 0.39796 0.02459 16.187 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.67 on 1253 degrees of freedom

(474 observations deleted due to missingness)

Multiple R-squared: 0.5841, Adjusted R-squared: 0.5824

F-statistic: 351.9 on 5 and 1253 DF, p-value: < 2.2e-16

Если судить по модели, общая оценка формируется по такой формуле:

overall = -0.87663 + 0.42316*durability + 0.18487*eou + 0.11266*battery + 0.12039*lag + 0.39796*picture

На общую оценку больше всего влияет надежность фотоаппарата и качество получаемого изображения. В меньшей степени на оценку влияют: простота использования, емкость аккумулятора и скорость срабатывания. Эти выводы выглядят правдоподобными, что позволяет оправдать применение такой модели для дальнейшего анализа.
    1. Кластеризация и групповые предпочтения


Главная цель кластеризации – исследовать аудиторию сайта, то есть узнать, на какие группы по интересам можно разделить пользователей. Для этого нужно выявить, какие группы интересов повторяются при разном числе кластеров. Если такие группы сохраняются при увеличении числа кластеров или меняются предсказуемым образом, то их можно считать окончательным результатом кластеризации. Выбирая число кластеров, нужно руководствоваться требуемым уровнем их детализации.

При интерпретации кластера рассматривается его центр и выделяются категории, весовые коэффициенты по которым выше, чем в среднем по выборке (см. раздел 2.2.7). Такие категории будем называть ключевыми для кластера. Кластеризация выполнялась при числе кластеров от 5 до 10. Для каждого числа кластеров алгоритм К-средних был выполнен 200 раз со случайными начальными центроидами. За окончательный результат принималось разбиение с наименьшей внутриклассовой суммой расстояний (см. раздел 2.2.7)

Регрессионные модели строятся для каждого кластера при каждом варианте кластеризации. Для оценки предпочтений требуется, чтобы пользователи группы имели достаточное количество отзывов на фотокамеры. Коэффициенты моделей сравниваются путем сравнения их доверительных интервалов: если они не пересекаются, то коэффициенты (то есть потребительские предпочтения) отличаются. Более подробную информацию о графиках доверительных интервалов, использованных при анализе, можно найти в разделе 2.3.4.

Ниже представлены результаты кластеризации для случаев 5 и 10 кластеро и дается их интерпретация. Остальные случаи приведены в приложении В.
      1. 5 кластеров




Рисунок 3.4.11 – Диаграмма центра кластера 1 для случая 5 кластеров

[1] "Points: 456"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-3.2096 -0.3153 0.0612 0.4217 1.5723
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.06429 0.22521 -4.726 3.07e-06 ***

durability 0.34943 0.04428 7.892 2.28e-14 ***

eou 0.18599 0.03933 4.730 3.02e-06 ***

battery 0.15204 0.03344 4.547 7.01e-06 ***

lag 0.09457 0.03976 2.379 0.0178 *

picture 0.51660 0.03991 12.944 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6648 on 450 degrees of freedom

(135 observations deleted due to missingness)

Multiple R-squared: 0.5967, Adjusted R-squared: 0.5922

F-statistic: 133.1 on 5 and 450 DF, p-value: < 2.2e-16

Ключевые категории: Beauty, Health, Pets, Cooking, Food and Drink, Garden, Office, Travel
Интерпретация кластера: судя по ключевым категориям, в этом кластере сильны «женские» интересы: красота и здоровье, животные, домашнее хозяйство
Количество отзывов на фотокамеры: 456
Качество регрессионной модели: все коэффициенты значимы


Рисунок 3.4.12 – Диаграмма центра кластера 2 для случая 5 кластеров

[1] "Points: 184"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-2.32877 -0.36882 -0.00209 0.38214 1.48039
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.34200 0.28966 -1.181 0.23930

durability 0.35560 0.06145 5.787 3.18e-08 ***

eou 0.22742 0.06101 3.727 0.00026 ***

battery 0.09414 0.04451 2.115 0.03582 *

lag 0.06267 0.05303 1.182 0.23886

picture 0.40011 0.05449 7.343 7.20e-12 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6216 on 178 degrees of freedom

(118 observations deleted due to missingness)

Multiple R-squared: 0.6245, Adjusted R-squared: 0.6139

F-statistic: 59.19 on 5 and 178 DF, p-value: < 2.2e-16
Ключевые категории: Kids and Family, Theater, Internet, Newspapers and Magazines, Books, Cars and Motorcycles, Cooking, Home, Restaurants, TV
Интерпретация кластера: пользователи из этого кластера, по-видимому, домохозяйки с детьми. Отметим, что кластер фактически формируется вокруг одной категории - Kids and Family.
Количество отзывов на фотокамеры: 184
Качество регрессионной модели: незначим коэффициент при переменной lag, а также постоянный член модели



Рисунок 3.4.13 – Диаграмма центра кластера 3 для случая 5 кластеров

[1] "Points: 82"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.75090 -0.39478 0.07382 0.47795 1.85108
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.42362 0.57505 -2.476 0.01553 *

durability 0.40357 0.11940 3.380 0.00115 **

eou 0.27916 0.10077 2.770 0.00704 **

battery 0.05001 0.08052 0.621 0.53639

lag 0.13915 0.09144 1.522 0.13221

picture 0.51284 0.10582 4.846 6.5e-06 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7027 on 76 degrees of freedom

(37 observations deleted due to missingness)

Multiple R-squared: 0.6049, Adjusted R-squared: 0.5789

F-statistic: 23.27 on 5 and 76 DF, p-value: 4.222e-14

Ключевые категории: Books, Games, Movies, Music
Интерпретация кластера: кластер, собранный из любителей фильмов, компьютерных игр, музыки и книг. Вообще, на эти товары отзывов в Интернете оставляется особенно много, поскольку они очень распространены и доступны, и каждый имеет по ним свое мнение. Именно это их и объединяет. При увеличении числа кластеров, данная группа наверняка будет разделяться.
Количество отзывов на фотокамеры: 82
Качество регрессионной модели: незначимы коэффициенты при переменных: battery, lag



Рисунок 3.4.14 – Диаграмма центра кластера 4 для случая 5 кластеров

[1] "Points: 252"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-2.26381 -0.37549 0.00749 0.45453 1.41683
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.48599 0.23272 -6.385 8.47e-10 ***

durability 0.56756 0.05562 10.205 < 2e-16 ***

eou 0.29626 0.05064 5.850 1.56e-08 ***

battery 0.09806 0.04249 2.308 0.0219 *

lag 0.09819 0.05358 1.833 0.0681 .

picture 0.34915 0.05338 6.541 3.51e-10 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6219 on 246 degrees of freedom

(91 observations deleted due to missingness)

Multiple R-squared: 0.7403, Adjusted R-squared: 0.7351

F-statistic: 140.3 on 5 and 246 DF, p-value: < 2.2e-16
Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Games, Garden, Home, Internet, Office, Photo and Optics, Software, Sports and Outdoor, Travel, Tool and Accessories
Интерпретация кластера: этот кластер является в некоторой степени противоположностью кластеру 1, так как в нем преобладают «мужские» интересы
Количество отзывов на фотокамеры: 252
Качество регрессионной модели: незначим коэффициент при переменной lag


Рисунок 3.4.15 – Диаграмма центра кластера 5 для случая 5 кластеров

[1] "Points: 285"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.88145 -0.40165 0.03608 0.48530 1.44014
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.92790 0.38810 -2.391 0.017472 *

durability 0.44923 0.06948 6.466 4.50e-10 ***

eou 0.10965 0.05202 2.108 0.035925 *

battery 0.09072 0.04527 2.004 0.046036 *

lag 0.22269 0.06195 3.595 0.000384 ***

picture 0.32800 0.05764 5.691 3.19e-08 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6486 on 279 degrees of freedom

(93 observations deleted due to missingness)

Multiple R-squared: 0.428, Adjusted R-squared: 0.4178

F-statistic: 41.76 on 5 and 279 DF, p-value: < 2.2e-16
Ключевые категории: Alcohol, Education, Magazines and Newspapers, Restaurants, Sport and Outdoor, Tobacco, Tools and Accessories
Интерпретация кластера: если судить по ключевым категориям, этот кластер составляет молодежная аудитория мужского пола, но подозрение вызывает большое количество категорий, которые мало представлены в других кластерах. Возможно, в этом кластере оказались люди с большим количеством отзывов в редких категориях(Alcohol, Education, Tobacco, Tools and Accessories)
Количество отзывов на фотокамеры: 285
Качество регрессионной модели: все коэффициенты значимы
Все кластеры, кроме последнего, легко интерпретировать, и автор, будучи хорошо знакомым с исходными данными, может подтвердить, что такие группы пользователей на сайте действительно наблюдаются. С точки зрения построения моделей потребительских предпочтений, лучше всего подходят кластеры 1, 4 и 5. В них достаточно много отзывов с оценками, поэтому регрессионные модели в них показывают лучшую значимость.

Сравнение групповых предпочтений

Рисунок 3.4.16 – График предпочтений по надежности для 5 кластеров



Рисунок 3.4.17 – График предпочтений по качеству снимка для 5 кластеров



Рисунок 3.4.18 – График предпочтений по автономной работе для 5 кластеров



Рисунок 3.4.19 – График предпочтений по простоте использования для 5 кластеров



Рисунок 3.4.20 – График предпочтений по скорости срабатывания для 5 кластеров

После сравнения коэффициентов регрессионных моделей для каждого кластера, можно сделать следующие выводы о предпочтениях потребителей:

  • У представителей кластера 4(«мужской») требования к надежности выше, чем в целом по выборке, и выше, чем у представителей класса 1(«женский»)

  • У представителей кластера 1(«женский») требования к качеству изображения выше, чем у представителей кластера 4(«мужской»), выше, чем у представителей кластера 5(«неопределенный»), и выше, чем в целом по выборке

  • У представителей кластера 4(«мужской») выше требования к простоте использования, чем у представителей кластера 5(«неопределенный»)


      1. 10 кластеров




Рисунок 3.4.21 – Диаграмма центра кластера 1 для случая 10 кластеров

[1] "Points: 255"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-3.2773 -0.3483 0.0470 0.4470 1.5742
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.70175 0.35336 -4.816 2.55e-06 ***

durability 0.39743 0.06512 6.103 3.96e-09 ***

eou 0.37235 0.06015 6.191 2.45e-09 ***

battery 0.05553 0.04090 1.358 0.176

lag 0.08164 0.05518 1.480 0.140

picture 0.52715 0.06200 8.502 1.74e-15 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6669 on 249 degrees of freedom

(93 observations deleted due to missingness)

Multiple R-squared: 0.5563, Adjusted R-squared: 0.5474

F-statistic: 62.44 on 5 and 249 DF, p-value: < 2.2e-16

Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Internet, Office, Photo and Optics, Software, Sports and Outdoor, Travel, Tool and Accessories
Интерпретация кластера: этот кластер составляет мужская аудитория сайта.
Количество отзывов на фотокамеры: 255
Качество регрессионной модели: незначимы коэффициенты при переменных: lag и battery
Изменения кластера: кластер устойчив и становился более выраженным по мере увеличения количества кластеров



Рисунок 3.4.22 – Диаграмма центра кластера 2 для случая 10 кластеров
[1] "Points: 32"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.01887 -0.29341 0.06585 0.30004 1.20186
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.33296 1.14469 0.291 0.77346

durability 0.51822 0.17578 2.948 0.00667 **

eou -0.07522 0.15450 -0.487 0.63044

battery 0.07478 0.09977 0.749 0.46029

lag 0.29595 0.11435 2.588 0.01559 *

picture 0.16331 0.24146 0.676 0.50480

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5441 on 26 degrees of freedom

(25 observations deleted due to missingness)

Multiple R-squared: 0.5181, Adjusted R-squared: 0.4254

F-statistic: 5.59 on 5 and 26 DF, p-value: 0.001258

Ключевые категории: Alcohol, Education, Sports and Outdoor, Tool and Accessories
Интерпретация кластера: по мнению автора, этот кластер смысла не несет. Он возник в результате работы алгоритма, сконцентрировавшись вокруг редкой категории(Alcohol, Tools and Accessories)
Изменения кластера: кластер выделился из кластера 5(случай 5 кластеров), который также был построен на основе редких категорий и был плохо подвержен интерпретации.



Рисунок 3.4.23 – Диаграмма центра кластера 3 для случая 10 кластеров
[1] "Points: 490"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-3.01322 -0.45837 0.03777 0.50797 1.73565
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.40820 0.23314 -1.751 0.080603 .

durability 0.39115 0.04478 8.735 < 2e-16 ***

eou 0.12484 0.03944 3.166 0.001645 **

battery 0.14605 0.03569 4.092 5.01e-05 ***

lag 0.15525 0.04357 3.563 0.000403 ***

picture 0.29451 0.03953 7.451 4.29e-13 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6841 on 484 degrees of freedom

(156 observations deleted due to missingness)

Multiple R-squared: 0.4956, Adjusted R-squared: 0.4904

F-statistic: 95.12 on 5 and 484 DF, p-value: < 2.2e-16
Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Cooking, Food and Drink, Garden, Home, Office, Sports and Outdoor, Travel
Интерпретация кластера: к этому кластеру относятся пользователи, интересы которых не могут быть выявлены при данном количестве кластеров, а также пользователи, оставившие много отзывов
Количество отзывов на фотокамеры: 490
Качество регрессионной модели: значимы все коэффициенты, кроме коэффициента при постоянном члене.
Изменения кластера: кластер изначально не был выражен(случай 5-6 кластеров), но затем постепенно приобрел свои очертания как группа пользователей без явных интересов. При дальнейшем увеличении числа кластеров эта группа может разделиться. Это будет означать, что интересы некоторых пользователей алгоритму удалось выявить.


Рисунок 3.4.24 – Диаграмма центра кластера 4 для случая 10 кластеров
[1] "Points: 207"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-3.1831 -0.3136 0.0494 0.3923 1.4152
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.21481 0.25166 -4.827 2.74e-06 ***

durability 0.47530 0.05925 8.022 8.46e-14 ***

eou 0.10737 0.05665 1.895 0.059482 .

battery 0.16577 0.04570 3.628 0.000363 ***

lag 0.06974 0.05843 1.194 0.234035

picture 0.50996 0.05675 8.986 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6307 on 201 degrees of freedom

(59 observations deleted due to missingness)

Multiple R-squared: 0.7332, Adjusted R-squared: 0.7265

F-statistic: 110.5 on 5 and 201 DF, p-value: < 2.2e-16

Ключевые категории: Cooking, Food and Drink, Garden, Health, Home, Internet, Kids and Family, Newspapers and Magazines, Office, Pets, Restaurants
Интерпретация кластера: этот кластер составляет, по-видимому, женская аудитория с интересом к домашним животным
Количество отзывов на фотокамеры: 207
Качество регрессионной модели: значимы все коэффициенты, кроме eou и lag.
Изменения кластера: кластер выделился на этом этапе из других кластеров, представляющих женскую аудиторию.



Рисунок 3.4.25 – Диаграмма центра кластера 5 для случая 10 кластеров
[1] "Points: 83"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-2.01591 -0.35347 0.04479 0.44131 1.41345
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.23162 0.48869 -2.520 0.013797 *

durability 0.61842 0.10727 5.765 1.61e-07 ***

eou 0.22826 0.09112 2.505 0.014355 *

battery 0.04778 0.08162 0.585 0.559960

lag 0.08819 0.08563 1.030 0.306268

picture 0.37194 0.10413 3.572 0.000615 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6619 on 77 degrees of freedom

(16 observations deleted due to missingness)

Multiple R-squared: 0.652, Adjusted R-squared: 0.6294

F-statistic: 28.86 on 5 and 77 DF, p-value: 2.261e-16

Ключевые категории: Beauty, Cooking, Food and Drink, Health, Home, Office, Pets, Restaurants
Интерпретация кластера: этот кластер составляют женщины, уделяющие много внимания своему здоровью и внешности
Количество отзывов на фотокамеры: 83
Качество регрессионной модели: незначимы коэффициенты: battery и lag.
Изменения кластера: кластер выделился на ранних этап из других кластеров, представляющих женскую аудиторию сайта и продемонстрировал устойчивость



Рисунок 3.4.26 – Диаграмма центра кластера 6 для случая 10 кластеров
[1] "Points: 29"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.05303 -0.41416 0.06824 0.26173 1.22825
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.08453 0.76858 -0.110 0.913375

durability 0.59296 0.13826 4.289 0.000274 ***

eou 0.12521 0.12849 0.975 0.339936

battery 0.10924 0.12798 0.854 0.402148

lag -0.10473 0.14127 -0.741 0.465972

picture 0.26432 0.10663 2.479 0.020950 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5298 on 23 degrees of freedom

(36 observations deleted due to missingness)

Multiple R-squared: 0.7137, Adjusted R-squared: 0.6515

F-statistic: 11.47 on 5 and 23 DF, p-value: 1.225e-05

Ключевые категории: Education, Sports and Outdoor, Tool and Accessories, Theater, Tobacco, TV
Интерпретация кластера: по мнению автора, этот кластер смысла не несет. Он возник в результате работы алгоритма, сконцентрировавшись вокруг редких категорий (Education, Tobacco)
Изменения кластера: кластер выделился из кластера 5(случай 5 кластеров), который также был построен на основе редких категорий и был плохо подвержен интерпретации.



Рисунок 3.4.27 – Диаграмма центра кластера 7 для случая 10 кластеров
[1] "Points: 31"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.16721 -0.31335 -0.09965 0.39038 1.40445
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.3277 0.7943 -0.413 0.6834

durability 0.2183 0.1738 1.256 0.2207

eou 0.3265 0.1449 2.253 0.0333 *

battery -0.0763 0.1366 -0.558 0.5815

lag 0.2762 0.1657 1.667 0.1080

picture 0.3621 0.1404 2.579 0.0162 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.635 on 25 degrees of freedom

(15 observations deleted due to missingness)

Multiple R-squared: 0.6745, Adjusted R-squared: 0.6094

F-statistic: 10.36 on 5 and 25 DF, p-value: 1.809e-05
Ключевые категории: Books, Movies, Music
Интерпретация кластера: этот кластер составляют те, кто пишет главным образом о книгах, фильмах и музыке.
Количество отзывов на фотокамеры: 31
Качество регрессионной модели: незначимы все коэффициенты, кроме eou и picture
Изменения кластера: кластер выделился на первом этапе(случай 5 кластеров) и существовал всегда в дальнейшем. При увеличении количества кластеров эта группа будет разделятья, так как многие пользователи пишут, например, только о фильмах или только о книгах


Рисунок 3.4.28 – Диаграмма центра кластера 8 для случая 10 кластеров
[1] "Points: 30"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-0.94723 -0.32557 0.02497 0.30067 0.86455
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.84426 0.53984 -1.564 0.13093

durability -0.14460 0.19440 -0.744 0.46419

eou 0.52852 0.14404 3.669 0.00121 **

battery 0.02172 0.10511 0.207 0.83803

lag 0.05458 0.13136 0.415 0.68148

picture 0.80379 0.16578 4.849 6.1e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5492 on 24 degrees of freedom

(24 observations deleted due to missingness)

Multiple R-squared: 0.8575, Adjusted R-squared: 0.8278

F-statistic: 28.88 on 5 and 24 DF, p-value: 2.06e-09

Ключевые категории: Books, Cars and Motorcycles, Cooking, Health, Home, Internet, Kids and Family, Newspapers and Magazines, Restaurants, Theater, TV
Интерпретация кластера: этот кластер, по-видимому, составляют домохозяйки с детьми.
Количество отзывов на фотокамеры: 30
Качество регрессионной модели: незначимы все коэффициенты, кроме eou и picture
Изменения кластера: кластер выделился на первом этапе(случай 5 кластеров) и продемонстрировал устойчивость.



Рисунок 3.4.29 – Диаграмма центра кластера 9 для случая 10 кластеров
[1] "Points: 4"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

ALL 4 residuals are 0: no residual degrees of freedom!
Coefficients: (2 not defined because of singularities)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 11 NA NA NA

durability -4 NA NA NA

eou 1 NA NA NA

battery 2 NA NA NA

lag NA NA NA NA

picture NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom

(2 observations deleted due to missingness)

Multiple R-squared: 1, Adjusted R-squared: NaN

F-statistic: NaN on 3 and 0 DF, p-value: NA

Ключевые категории: Books, Movies
Интерпретация кластера: этот кластер составляют те, кто пишет главным образом о книгах и фильмах.
Количество отзывов на фотокамеры: 4
Качество регрессионной модели: регрессионную модель построить не удалось
Изменения кластера: кластер выделился на предыдущем этапе(случай 9 кластеров) из кластера, в котором главными категориями были фильмы, музыка и книги. Это вызвано тем, что отзывы на эти категории концентрируются в разных сочетаниях



Рисунок 3.4.30 – Диаграмма центра кластера 10 для случая 10 кластеров
[1] "Points: 98"
Call:

lm(formula = overall durability + eou + battery + lag + picture,

data = x)
Residuals:

Min 1Q Median 3Q Max

-1.41342 -0.46212 -0.09501 0.43355 1.43945
Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.29367 0.43682 -0.672 0.5031

durability 0.18193 0.09183 1.981 0.0506 .

eou 0.18517 0.08126 2.279 0.0250 *

battery 0.14426 0.06557 2.200 0.0303 *

lag 0.07576 0.07203 1.052 0.2957

picture 0.56403 0.08183 6.892 6.72e-10 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6274 on 92 degrees of freedom

(48 observations deleted due to missingness)

Multiple R-squared: 0.6663, Adjusted R-squared: 0.6481

F-statistic: 36.74 on 5 and 92 DF, p-value: < 2.2e-16
Ключевые категории: Computer, Games, Internet, Movies, Software, Sports and Outdoor, Theater
Интерпретация кластера: этот кластер составляют геймеры, то есть любители компьютерных игр
Количество отзывов на фотокамеры: 98
Качество регрессионной модели: незначимы коэффициенты при переменных lag и durability, а также коэффициент при свободном члене
Изменения кластера: кластер выделился на ранних этапах и продемонстрировал устойчивость

Сравнение групповых предпочтений



Рисунок 3.4.31 – График предпочтений по автономной работе для 10 кластеров



Рисунок 3.4.32 – График предпочтений по надежности для 10 кластеров



Рисунок 3.4.33 – График предпочтений по скорости срабатывания для 10 кластеров



Рисунок 3.4.34 – График предпочтений по простоте использования для 10 кластеров



Рисунок 3.4.35 – График предпочтений по качеству снимка для 10 кластеров

После сравнения коэффициентов регрессионных моделей для каждого кластера, можно получить статистические доказанные выводы о предпочтениях потребителей:

  • У представителей кластера 1(«мужской») требования к качеству изображения выше, чем у представителей кластера 3(«без определенных интересов»)

  • У представителей кластера 4(женщины, любящие домашних животных) требования к качеству изображения выше, чем у представителей кластера 3(«без определенных интересов»)

  • У представителей кластера 1(«мужской») требования к простоте использования выше, чем у представителей кластера 3(«без определенных интересов»), выше, чем у представителей кластера 4(женщины, любящие домашних животных) и выше, чем в целом по выборке


      1. Выводы


Сделаем выводы по различным аспектам проведенного анализа.

Состав пользовательской аудитории

После рассмотрения нескольких вариантов кластеризации, среди пользователей сайта epinions.com можно выделить следующие группы (номера кластеров указаны для случая 10 кластеров):

  • пользователи, которые пишут главным образом о книгах, фильмах или музыке (кластер 7)

  • пользователи с “мужскими” интересами, которые пишут об электронике и автомобилях (кластер 1)

  • любители компьютерных игр, которые пишут главным образом об электронных развлечениях (кластер 10)

  • женщины, которые ориентированы на семью и пишут в основном о хозяйстве и детских товарах (кластер 8)

  • женщины с обычными интересами, которые пишут о косметике, домашних животных и в меньшей степени о домашнем хозяйстве (кластер 5)

  • пользователи, не имеющие выраженных интересов (кластер 3)

При увеличении количества кластеров появиляются новые группы, более точно отражающие интересы пользователей. Мы можем видеть это в случае 10 кластеров, когда представители группы с обычными женскими интересами разделились на тех, кто больше внимания уделяет домашним животным (кластер 4) и тех, кто больше заботится о своей внешности. То же самое можно сказать о группе любителей фильмов, книг и музыки. Из этого кластера выделилась группа тех, кто пишет главным образом о фильмах и книгах, но в меньшей степени о музыке (кластер 9 в случае 10 кластеров).

Увеличение количества кластеров приведет к уменьшению размера групп, что, в свою очередь, не позволит построить регрессионную модель потребительских предпочтений. Кроме того, для разработки маркетинговых кампаний мелкие группы могут не подойти, так как в этом случае принятые решения могут себя не окупить.

При кластеризации устойчиво сохранялись кластеры, возникшие вокруг категорий, в которых мало отзывов (Алкоголь, Табак, Образование, Инструменты). Это кластеры 2 и 6 в случае 10 кластеров. Это объясняется применением весовой функции tf-idf. Большой вес получили категории, отзывы на которые в целом встречаются редко, но в большом количестве – у отдельных пользователей. Эта особенность метода слишком сильно повышаем важность определенных категорий, что не дает оснований считать указанные кластеры полноценными пользовательскими группами. .

Интересно отметить высококонцентрированные группы. Это группы, в которых одна или несколько ключевых категорий имеют очень высокий средний показатель. К таким группам можно отнести домохозяек, «геймеров» (любителей компьютерных игр), а также любителей книг, фильмов и музыки.

Можно также отметить, что мужская аудитория сайта имеет более однородные интересы, чем женская.

Потребительские предпочтения пользователей

Для оценки потребительских предпочтений использовалась вся совокупность пользователей, а также те группы, где количество отзывов на фотокамеры позволило построить регрессионные модели с точными оценками коэффициентов: «женская» группа, «мужская» группа, группа с неопределенными интересами и «геймеры».

Анализ позволил выявить важность потребительских качеств фотокамер для пользователей. На общую оценку более всего влияют надежность и качество изображения. Наименее важные свойства – емкость аккумулятора и скорость срабатывания затвора. Простота использования имеет среднюю важность. Эти наблюдения подтверждаются как для полной выборки, так и для групп при разных вариантах кластеризации.

Если говорить о сравнении предпочтений между группами пользователей, то по мере рассмотрения вариантов кластеризации, удалось выявить следующие различия:

  • У представителей «мужского» кластера требования к качеству изображения выше, чем у пользователей без определенных интересов (случай 7, 10 кластеров)

  • У представителей «мужского» кластера требования к простоте использования выше, чем у представителей «женского» кластера (случай 10 кластеров), выше, чем у пользователей без определенных интересов (случай 8, 9, 10 кластеров), и выше, чем в целом по выборке (случай 8, 9 кластеров)

  • У представителей «мужского» кластера требования к надежности выше, чем в целом по выборке (случай 5, 9 кластеров), выше, чем у пользователей без определенных интересов(случай 9 кластеров) и выше, чем у представителей «женского» кластера (случай 5 кластеров)

  • У представителей «женского» кластера требования к качеству изображения выше, чем у представителей «мужского» кластера(случай 5 кластеров), выше, чем у пользователей без определенных интересов(случай 10 кластеров), и выше, чем в целом по выборке(случай 5 кластеров)

Как легко заметить, различия в предпочтениях удалось выявить только для крупных групп. Это связано с тем, что коэффициенты регрессионной модели для более мелких групп имели плохую точность, что не позволяло их сравнивать.

Отметим также, что различия в предпочтениях не всегда подтверждаются при различных вариантах кластеризации. Одна из возможных причин – случайный выбор алгоритмом начальных центров кластеров. В качестве другой причины можно назвать пользователей, которых в силу их интересов можно отнести к нескольким кластерам, в разультате чего при разных вариантах кластеризации они попадают в разные кластеры. Вторая причина кажется автору более правдоподобной, чем первая, так как окончательные центроиды для соответствующих групп не сильно отличаются при разном количестве кластеров, что и позволяет нам выделять устойчивые группы.
1   ...   5   6   7   8   9   10   11   12   ...   16


написать администратору сайта