В выборку включим тех пользователей, которые оставили от 20 до 500 отзывов. Таким образом, исключаются те пользователи, интересы которых нельзя определить из-за недостатка отзывов, а также пользователи, которые имеют слишком много отзывов, что также может помешать выявлению интересов.
В выборке учитываются все категории из предыдущего раздела. Это поможет получить максимально полное представление об аудитории сайта.
Попробуем оценить предпочтения пользователей по всей выборке. Пользователи из выборки оставили на фотокамеры 1773 отзыва с детальными оценками, из них 1259 имеют оценки по всем характеристикам.
Построим регрессионную модель с учетом оценок по всем характеристикам: lm(overall durability + eou + battery + lag + picture, data=cameras1)
Результат:
Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = cameras1) Residuals:
Min 1Q Median 3Q Max
-3.3496 -0.3515 0.0409 0.4537 1.8543 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.87663 0.13029 -6.729 2.60e-11 ***
durability 0.42316 0.02710 15.614 < 2e-16 ***
eou 0.18487 0.02416 7.651 3.97e-14 ***
battery 0.11266 0.02009 5.608 2.51e-08 ***
lag 0.12039 0.02450 4.914 1.01e-06 ***
picture 0.39796 0.02459 16.187 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.67 on 1253 degrees of freedom
(474 observations deleted due to missingness)
Multiple R-squared: 0.5841, Adjusted R-squared: 0.5824
F-statistic: 351.9 on 5 and 1253 DF, p-value: < 2.2e-16
Если судить по модели, общая оценка формируется по такой формуле:
overall = -0.87663 + 0.42316*durability + 0.18487*eou + 0.11266*battery + 0.12039*lag + 0.39796*picture
На общую оценку больше всего влияет надежность фотоаппарата и качество получаемого изображения. В меньшей степени на оценку влияют: простота использования, емкость аккумулятора и скорость срабатывания. Эти выводы выглядят правдоподобными, что позволяет оправдать применение такой модели для дальнейшего анализа.
Кластеризация и групповые предпочтения Главная цель кластеризации – исследовать аудиторию сайта, то есть узнать, на какие группы по интересам можно разделить пользователей. Для этого нужно выявить, какие группы интересов повторяются при разном числе кластеров. Если такие группы сохраняются при увеличении числа кластеров или меняются предсказуемым образом, то их можно считать окончательным результатом кластеризации. Выбирая число кластеров, нужно руководствоваться требуемым уровнем их детализации.
При интерпретации кластера рассматривается его центр и выделяются категории, весовые коэффициенты по которым выше, чем в среднем по выборке (см. раздел 2.2.7). Такие категории будем называть ключевыми для кластера. Кластеризация выполнялась при числе кластеров от 5 до 10. Для каждого числа кластеров алгоритм К-средних был выполнен 200 раз со случайными начальными центроидами. За окончательный результат принималось разбиение с наименьшей внутриклассовой суммой расстояний (см. раздел 2.2.7)
Регрессионные модели строятся для каждого кластера при каждом варианте кластеризации. Для оценки предпочтений требуется, чтобы пользователи группы имели достаточное количество отзывов на фотокамеры. Коэффициенты моделей сравниваются путем сравнения их доверительных интервалов: если они не пересекаются, то коэффициенты (то есть потребительские предпочтения) отличаются. Более подробную информацию о графиках доверительных интервалов, использованных при анализе, можно найти в разделе 2.3.4.
Ниже представлены результаты кластеризации для случаев 5 и 10 кластеро и дается их интерпретация. Остальные случаи приведены в приложении В.
5 кластеров
Рисунок 3.4.11 – Диаграмма центра кластера 1 для случая 5 кластеров
[1] "Points: 456" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-3.2096 -0.3153 0.0612 0.4217 1.5723 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.06429 0.22521 -4.726 3.07e-06 ***
durability 0.34943 0.04428 7.892 2.28e-14 ***
eou 0.18599 0.03933 4.730 3.02e-06 ***
battery 0.15204 0.03344 4.547 7.01e-06 ***
lag 0.09457 0.03976 2.379 0.0178 *
picture 0.51660 0.03991 12.944 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6648 on 450 degrees of freedom
(135 observations deleted due to missingness)
Multiple R-squared: 0.5967, Adjusted R-squared: 0.5922
F-statistic: 133.1 on 5 and 450 DF, p-value: < 2.2e-16
Ключевые категории: Beauty, Health, Pets, Cooking, Food and Drink, Garden, Office, Travel Интерпретация кластера: судя по ключевым категориям, в этом кластере сильны «женские» интересы: красота и здоровье, животные, домашнее хозяйство Количество отзывов на фотокамеры: 456 Качество регрессионной модели: все коэффициенты значимы
Рисунок 3.4.12 – Диаграмма центра кластера 2 для случая 5 кластеров
[1] "Points: 184" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-2.32877 -0.36882 -0.00209 0.38214 1.48039 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.34200 0.28966 -1.181 0.23930
durability 0.35560 0.06145 5.787 3.18e-08 ***
eou 0.22742 0.06101 3.727 0.00026 ***
battery 0.09414 0.04451 2.115 0.03582 *
lag 0.06267 0.05303 1.182 0.23886
picture 0.40011 0.05449 7.343 7.20e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6216 on 178 degrees of freedom
(118 observations deleted due to missingness)
Multiple R-squared: 0.6245, Adjusted R-squared: 0.6139
F-statistic: 59.19 on 5 and 178 DF, p-value: < 2.2e-16 Ключевые категории: Kids and Family, Theater, Internet, Newspapers and Magazines, Books, Cars and Motorcycles, Cooking, Home, Restaurants, TV Интерпретация кластера: пользователи из этого кластера, по-видимому, домохозяйки с детьми. Отметим, что кластер фактически формируется вокруг одной категории - Kids and Family. Количество отзывов на фотокамеры: 184 Качество регрессионной модели: незначим коэффициент при переменной lag, а также постоянный член модели
Рисунок 3.4.13 – Диаграмма центра кластера 3 для случая 5 кластеров
[1] "Points: 82" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.75090 -0.39478 0.07382 0.47795 1.85108 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.42362 0.57505 -2.476 0.01553 *
durability 0.40357 0.11940 3.380 0.00115 **
eou 0.27916 0.10077 2.770 0.00704 **
battery 0.05001 0.08052 0.621 0.53639
lag 0.13915 0.09144 1.522 0.13221
picture 0.51284 0.10582 4.846 6.5e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.7027 on 76 degrees of freedom
(37 observations deleted due to missingness)
Multiple R-squared: 0.6049, Adjusted R-squared: 0.5789
F-statistic: 23.27 on 5 and 76 DF, p-value: 4.222e-14
Ключевые категории: Books, Games, Movies, Music Интерпретация кластера: кластер, собранный из любителей фильмов, компьютерных игр, музыки и книг. Вообще, на эти товары отзывов в Интернете оставляется особенно много, поскольку они очень распространены и доступны, и каждый имеет по ним свое мнение. Именно это их и объединяет. При увеличении числа кластеров, данная группа наверняка будет разделяться. Количество отзывов на фотокамеры: 82 Качество регрессионной модели: незначимы коэффициенты при переменных: battery, lag
Рисунок 3.4.14 – Диаграмма центра кластера 4 для случая 5 кластеров
[1] "Points: 252" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-2.26381 -0.37549 0.00749 0.45453 1.41683 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.48599 0.23272 -6.385 8.47e-10 ***
durability 0.56756 0.05562 10.205 < 2e-16 ***
eou 0.29626 0.05064 5.850 1.56e-08 ***
battery 0.09806 0.04249 2.308 0.0219 *
lag 0.09819 0.05358 1.833 0.0681 .
picture 0.34915 0.05338 6.541 3.51e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6219 on 246 degrees of freedom
(91 observations deleted due to missingness)
Multiple R-squared: 0.7403, Adjusted R-squared: 0.7351
F-statistic: 140.3 on 5 and 246 DF, p-value: < 2.2e-16 Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Games, Garden, Home, Internet, Office, Photo and Optics, Software, Sports and Outdoor, Travel, Tool and Accessories Интерпретация кластера: этот кластер является в некоторой степени противоположностью кластеру 1, так как в нем преобладают «мужские» интересы Количество отзывов на фотокамеры: 252 Качество регрессионной модели: незначим коэффициент при переменной lag
Рисунок 3.4.15 – Диаграмма центра кластера 5 для случая 5 кластеров
[1] "Points: 285" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.88145 -0.40165 0.03608 0.48530 1.44014 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.92790 0.38810 -2.391 0.017472 *
durability 0.44923 0.06948 6.466 4.50e-10 ***
eou 0.10965 0.05202 2.108 0.035925 *
battery 0.09072 0.04527 2.004 0.046036 *
lag 0.22269 0.06195 3.595 0.000384 ***
picture 0.32800 0.05764 5.691 3.19e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6486 on 279 degrees of freedom
(93 observations deleted due to missingness)
Multiple R-squared: 0.428, Adjusted R-squared: 0.4178
F-statistic: 41.76 on 5 and 279 DF, p-value: < 2.2e-16 Ключевые категории: Alcohol, Education, Magazines and Newspapers, Restaurants, Sport and Outdoor, Tobacco, Tools and Accessories Интерпретация кластера: если судить по ключевым категориям, этот кластер составляет молодежная аудитория мужского пола, но подозрение вызывает большое количество категорий, которые мало представлены в других кластерах. Возможно, в этом кластере оказались люди с большим количеством отзывов в редких категориях(Alcohol, Education, Tobacco, Tools and Accessories) Количество отзывов на фотокамеры: 285 Качество регрессионной модели: все коэффициенты значимы Все кластеры, кроме последнего, легко интерпретировать, и автор, будучи хорошо знакомым с исходными данными, может подтвердить, что такие группы пользователей на сайте действительно наблюдаются. С точки зрения построения моделей потребительских предпочтений, лучше всего подходят кластеры 1, 4 и 5. В них достаточно много отзывов с оценками, поэтому регрессионные модели в них показывают лучшую значимость.
Сравнение групповых предпочтений
Рисунок 3.4.16 – График предпочтений по надежности для 5 кластеров
Рисунок 3.4.17 – График предпочтений по качеству снимка для 5 кластеров
Рисунок 3.4.18 – График предпочтений по автономной работе для 5 кластеров
Рисунок 3.4.19 – График предпочтений по простоте использования для 5 кластеров
Рисунок 3.4.20 – График предпочтений по скорости срабатывания для 5 кластеров
После сравнения коэффициентов регрессионных моделей для каждого кластера, можно сделать следующие выводы о предпочтениях потребителей:
У представителей кластера 4(«мужской») требования к надежности выше, чем в целом по выборке, и выше, чем у представителей класса 1(«женский») У представителей кластера 1(«женский») требования к качеству изображения выше, чем у представителей кластера 4(«мужской»), выше, чем у представителей кластера 5(«неопределенный»), и выше, чем в целом по выборке У представителей кластера 4(«мужской») выше требования к простоте использования, чем у представителей кластера 5(«неопределенный»)
10 кластеров
Рисунок 3.4.21 – Диаграмма центра кластера 1 для случая 10 кластеров
[1] "Points: 255" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-3.2773 -0.3483 0.0470 0.4470 1.5742 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.70175 0.35336 -4.816 2.55e-06 ***
durability 0.39743 0.06512 6.103 3.96e-09 ***
eou 0.37235 0.06015 6.191 2.45e-09 ***
battery 0.05553 0.04090 1.358 0.176
lag 0.08164 0.05518 1.480 0.140
picture 0.52715 0.06200 8.502 1.74e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6669 on 249 degrees of freedom
(93 observations deleted due to missingness)
Multiple R-squared: 0.5563, Adjusted R-squared: 0.5474
F-statistic: 62.44 on 5 and 249 DF, p-value: < 2.2e-16
Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Internet, Office, Photo and Optics, Software, Sports and Outdoor, Travel, Tool and Accessories Интерпретация кластера: этот кластер составляет мужская аудитория сайта. Количество отзывов на фотокамеры: 255 Качество регрессионной модели: незначимы коэффициенты при переменных: lag и battery Изменения кластера: кластер устойчив и становился более выраженным по мере увеличения количества кластеров
Рисунок 3.4.22 – Диаграмма центра кластера 2 для случая 10 кластеров [1] "Points: 32" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.01887 -0.29341 0.06585 0.30004 1.20186 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.33296 1.14469 0.291 0.77346
durability 0.51822 0.17578 2.948 0.00667 **
eou -0.07522 0.15450 -0.487 0.63044
battery 0.07478 0.09977 0.749 0.46029
lag 0.29595 0.11435 2.588 0.01559 *
picture 0.16331 0.24146 0.676 0.50480
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5441 on 26 degrees of freedom
(25 observations deleted due to missingness)
Multiple R-squared: 0.5181, Adjusted R-squared: 0.4254
F-statistic: 5.59 on 5 and 26 DF, p-value: 0.001258
Ключевые категории: Alcohol, Education, Sports and Outdoor, Tool and Accessories Интерпретация кластера: по мнению автора, этот кластер смысла не несет. Он возник в результате работы алгоритма, сконцентрировавшись вокруг редкой категории(Alcohol, Tools and Accessories) Изменения кластера: кластер выделился из кластера 5(случай 5 кластеров), который также был построен на основе редких категорий и был плохо подвержен интерпретации.
Рисунок 3.4.23 – Диаграмма центра кластера 3 для случая 10 кластеров [1] "Points: 490" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-3.01322 -0.45837 0.03777 0.50797 1.73565 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.40820 0.23314 -1.751 0.080603 .
durability 0.39115 0.04478 8.735 < 2e-16 ***
eou 0.12484 0.03944 3.166 0.001645 **
battery 0.14605 0.03569 4.092 5.01e-05 ***
lag 0.15525 0.04357 3.563 0.000403 ***
picture 0.29451 0.03953 7.451 4.29e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6841 on 484 degrees of freedom
(156 observations deleted due to missingness)
Multiple R-squared: 0.4956, Adjusted R-squared: 0.4904
F-statistic: 95.12 on 5 and 484 DF, p-value: < 2.2e-16 Ключевые категории: Audio and Video, Cars and Motorcycles, Communication, Computer, Cooking, Food and Drink, Garden, Home, Office, Sports and Outdoor, Travel Интерпретация кластера: к этому кластеру относятся пользователи, интересы которых не могут быть выявлены при данном количестве кластеров, а также пользователи, оставившие много отзывов Количество отзывов на фотокамеры: 490 Качество регрессионной модели: значимы все коэффициенты, кроме коэффициента при постоянном члене. Изменения кластера: кластер изначально не был выражен(случай 5-6 кластеров), но затем постепенно приобрел свои очертания как группа пользователей без явных интересов. При дальнейшем увеличении числа кластеров эта группа может разделиться. Это будет означать, что интересы некоторых пользователей алгоритму удалось выявить.
Рисунок 3.4.24 – Диаграмма центра кластера 4 для случая 10 кластеров [1] "Points: 207" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-3.1831 -0.3136 0.0494 0.3923 1.4152 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.21481 0.25166 -4.827 2.74e-06 ***
durability 0.47530 0.05925 8.022 8.46e-14 ***
eou 0.10737 0.05665 1.895 0.059482 .
battery 0.16577 0.04570 3.628 0.000363 ***
lag 0.06974 0.05843 1.194 0.234035
picture 0.50996 0.05675 8.986 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6307 on 201 degrees of freedom
(59 observations deleted due to missingness)
Multiple R-squared: 0.7332, Adjusted R-squared: 0.7265
F-statistic: 110.5 on 5 and 201 DF, p-value: < 2.2e-16
Ключевые категории: Cooking, Food and Drink, Garden, Health, Home, Internet, Kids and Family, Newspapers and Magazines, Office, Pets, Restaurants Интерпретация кластера: этот кластер составляет, по-видимому, женская аудитория с интересом к домашним животным Количество отзывов на фотокамеры: 207 Качество регрессионной модели: значимы все коэффициенты, кроме eou и lag. Изменения кластера: кластер выделился на этом этапе из других кластеров, представляющих женскую аудиторию.
Рисунок 3.4.25 – Диаграмма центра кластера 5 для случая 10 кластеров [1] "Points: 83" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-2.01591 -0.35347 0.04479 0.44131 1.41345 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.23162 0.48869 -2.520 0.013797 *
durability 0.61842 0.10727 5.765 1.61e-07 ***
eou 0.22826 0.09112 2.505 0.014355 *
battery 0.04778 0.08162 0.585 0.559960
lag 0.08819 0.08563 1.030 0.306268
picture 0.37194 0.10413 3.572 0.000615 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6619 on 77 degrees of freedom
(16 observations deleted due to missingness)
Multiple R-squared: 0.652, Adjusted R-squared: 0.6294
F-statistic: 28.86 on 5 and 77 DF, p-value: 2.261e-16
Ключевые категории: Beauty, Cooking, Food and Drink, Health, Home, Office, Pets, Restaurants Интерпретация кластера: этот кластер составляют женщины, уделяющие много внимания своему здоровью и внешности Количество отзывов на фотокамеры: 83 Качество регрессионной модели: незначимы коэффициенты: battery и lag. Изменения кластера: кластер выделился на ранних этап из других кластеров, представляющих женскую аудиторию сайта и продемонстрировал устойчивость
Рисунок 3.4.26 – Диаграмма центра кластера 6 для случая 10 кластеров [1] "Points: 29" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.05303 -0.41416 0.06824 0.26173 1.22825 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08453 0.76858 -0.110 0.913375
durability 0.59296 0.13826 4.289 0.000274 ***
eou 0.12521 0.12849 0.975 0.339936
battery 0.10924 0.12798 0.854 0.402148
lag -0.10473 0.14127 -0.741 0.465972
picture 0.26432 0.10663 2.479 0.020950 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5298 on 23 degrees of freedom
(36 observations deleted due to missingness)
Multiple R-squared: 0.7137, Adjusted R-squared: 0.6515
F-statistic: 11.47 on 5 and 23 DF, p-value: 1.225e-05
Ключевые категории: Education, Sports and Outdoor, Tool and Accessories, Theater, Tobacco, TV Интерпретация кластера: по мнению автора, этот кластер смысла не несет. Он возник в результате работы алгоритма, сконцентрировавшись вокруг редких категорий (Education, Tobacco) Изменения кластера: кластер выделился из кластера 5(случай 5 кластеров), который также был построен на основе редких категорий и был плохо подвержен интерпретации.
Рисунок 3.4.27 – Диаграмма центра кластера 7 для случая 10 кластеров [1] "Points: 31" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.16721 -0.31335 -0.09965 0.39038 1.40445 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.3277 0.7943 -0.413 0.6834
durability 0.2183 0.1738 1.256 0.2207
eou 0.3265 0.1449 2.253 0.0333 *
battery -0.0763 0.1366 -0.558 0.5815
lag 0.2762 0.1657 1.667 0.1080
picture 0.3621 0.1404 2.579 0.0162 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.635 on 25 degrees of freedom
(15 observations deleted due to missingness)
Multiple R-squared: 0.6745, Adjusted R-squared: 0.6094
F-statistic: 10.36 on 5 and 25 DF, p-value: 1.809e-05 Ключевые категории: Books, Movies, Music Интерпретация кластера: этот кластер составляют те, кто пишет главным образом о книгах, фильмах и музыке. Количество отзывов на фотокамеры: 31 Качество регрессионной модели: незначимы все коэффициенты, кроме eou и picture Изменения кластера: кластер выделился на первом этапе(случай 5 кластеров) и существовал всегда в дальнейшем. При увеличении количества кластеров эта группа будет разделятья, так как многие пользователи пишут, например, только о фильмах или только о книгах
Рисунок 3.4.28 – Диаграмма центра кластера 8 для случая 10 кластеров [1] "Points: 30" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-0.94723 -0.32557 0.02497 0.30067 0.86455 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.84426 0.53984 -1.564 0.13093
durability -0.14460 0.19440 -0.744 0.46419
eou 0.52852 0.14404 3.669 0.00121 **
battery 0.02172 0.10511 0.207 0.83803
lag 0.05458 0.13136 0.415 0.68148
picture 0.80379 0.16578 4.849 6.1e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5492 on 24 degrees of freedom
(24 observations deleted due to missingness)
Multiple R-squared: 0.8575, Adjusted R-squared: 0.8278
F-statistic: 28.88 on 5 and 24 DF, p-value: 2.06e-09
Ключевые категории: Books, Cars and Motorcycles, Cooking, Health, Home, Internet, Kids and Family, Newspapers and Magazines, Restaurants, Theater, TV Интерпретация кластера: этот кластер, по-видимому, составляют домохозяйки с детьми. Количество отзывов на фотокамеры: 30 Качество регрессионной модели: незначимы все коэффициенты, кроме eou и picture Изменения кластера: кластер выделился на первом этапе(случай 5 кластеров) и продемонстрировал устойчивость.
Рисунок 3.4.29 – Диаграмма центра кластера 9 для случая 10 кластеров [1] "Points: 4" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
ALL 4 residuals are 0: no residual degrees of freedom! Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11 NA NA NA
durability -4 NA NA NA
eou 1 NA NA NA
battery 2 NA NA NA
lag NA NA NA NA
picture NA NA NA NA Residual standard error: NaN on 0 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 3 and 0 DF, p-value: NA
Ключевые категории: Books, Movies Интерпретация кластера: этот кластер составляют те, кто пишет главным образом о книгах и фильмах. Количество отзывов на фотокамеры: 4 Качество регрессионной модели: регрессионную модель построить не удалось Изменения кластера: кластер выделился на предыдущем этапе(случай 9 кластеров) из кластера, в котором главными категориями были фильмы, музыка и книги. Это вызвано тем, что отзывы на эти категории концентрируются в разных сочетаниях
Рисунок 3.4.30 – Диаграмма центра кластера 10 для случая 10 кластеров [1] "Points: 98" Call:
lm(formula = overall durability + eou + battery + lag + picture,
data = x) Residuals:
Min 1Q Median 3Q Max
-1.41342 -0.46212 -0.09501 0.43355 1.43945 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.29367 0.43682 -0.672 0.5031
durability 0.18193 0.09183 1.981 0.0506 .
eou 0.18517 0.08126 2.279 0.0250 *
battery 0.14426 0.06557 2.200 0.0303 *
lag 0.07576 0.07203 1.052 0.2957
picture 0.56403 0.08183 6.892 6.72e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.6274 on 92 degrees of freedom
(48 observations deleted due to missingness)
Multiple R-squared: 0.6663, Adjusted R-squared: 0.6481
F-statistic: 36.74 on 5 and 92 DF, p-value: < 2.2e-16 Ключевые категории: Computer, Games, Internet, Movies, Software, Sports and Outdoor, Theater Интерпретация кластера: этот кластер составляют геймеры, то есть любители компьютерных игр Количество отзывов на фотокамеры: 98 Качество регрессионной модели: незначимы коэффициенты при переменных lag и durability, а также коэффициент при свободном члене Изменения кластера: кластер выделился на ранних этапах и продемонстрировал устойчивость
Сравнение групповых предпочтений
Рисунок 3.4.31 – График предпочтений по автономной работе для 10 кластеров
Рисунок 3.4.32 – График предпочтений по надежности для 10 кластеров
Рисунок 3.4.33 – График предпочтений по скорости срабатывания для 10 кластеров
Рисунок 3.4.34 – График предпочтений по простоте использования для 10 кластеров
Рисунок 3.4.35 – График предпочтений по качеству снимка для 10 кластеров
После сравнения коэффициентов регрессионных моделей для каждого кластера, можно получить статистические доказанные выводы о предпочтениях потребителей:
У представителей кластера 1(«мужской») требования к качеству изображения выше, чем у представителей кластера 3(«без определенных интересов») У представителей кластера 4(женщины, любящие домашних животных) требования к качеству изображения выше, чем у представителей кластера 3(«без определенных интересов») У представителей кластера 1(«мужской») требования к простоте использования выше, чем у представителей кластера 3(«без определенных интересов»), выше, чем у представителей кластера 4(женщины, любящие домашних животных) и выше, чем в целом по выборке
Выводы Сделаем выводы по различным аспектам проведенного анализа.
Состав пользовательской аудитории
После рассмотрения нескольких вариантов кластеризации, среди пользователей сайта epinions.com можно выделить следующие группы (номера кластеров указаны для случая 10 кластеров):
пользователи, которые пишут главным образом о книгах, фильмах или музыке (кластер 7) пользователи с “мужскими” интересами, которые пишут об электронике и автомобилях (кластер 1) любители компьютерных игр, которые пишут главным образом об электронных развлечениях (кластер 10) женщины, которые ориентированы на семью и пишут в основном о хозяйстве и детских товарах (кластер 8) женщины с обычными интересами, которые пишут о косметике, домашних животных и в меньшей степени о домашнем хозяйстве (кластер 5) пользователи, не имеющие выраженных интересов (кластер 3)
При увеличении количества кластеров появиляются новые группы, более точно отражающие интересы пользователей. Мы можем видеть это в случае 10 кластеров, когда представители группы с обычными женскими интересами разделились на тех, кто больше внимания уделяет домашним животным (кластер 4) и тех, кто больше заботится о своей внешности. То же самое можно сказать о группе любителей фильмов, книг и музыки. Из этого кластера выделилась группа тех, кто пишет главным образом о фильмах и книгах, но в меньшей степени о музыке (кластер 9 в случае 10 кластеров).
Увеличение количества кластеров приведет к уменьшению размера групп, что, в свою очередь, не позволит построить регрессионную модель потребительских предпочтений. Кроме того, для разработки маркетинговых кампаний мелкие группы могут не подойти, так как в этом случае принятые решения могут себя не окупить.
При кластеризации устойчиво сохранялись кластеры, возникшие вокруг категорий, в которых мало отзывов (Алкоголь, Табак, Образование, Инструменты). Это кластеры 2 и 6 в случае 10 кластеров. Это объясняется применением весовой функции tf-idf. Большой вес получили категории, отзывы на которые в целом встречаются редко, но в большом количестве – у отдельных пользователей. Эта особенность метода слишком сильно повышаем важность определенных категорий, что не дает оснований считать указанные кластеры полноценными пользовательскими группами. .
Интересно отметить высококонцентрированные группы. Это группы, в которых одна или несколько ключевых категорий имеют очень высокий средний показатель. К таким группам можно отнести домохозяек, «геймеров» (любителей компьютерных игр), а также любителей книг, фильмов и музыки.
Можно также отметить, что мужская аудитория сайта имеет более однородные интересы, чем женская.
Потребительские предпочтения пользователей
Для оценки потребительских предпочтений использовалась вся совокупность пользователей, а также те группы, где количество отзывов на фотокамеры позволило построить регрессионные модели с точными оценками коэффициентов: «женская» группа, «мужская» группа, группа с неопределенными интересами и «геймеры».
Анализ позволил выявить важность потребительских качеств фотокамер для пользователей. На общую оценку более всего влияют надежность и качество изображения. Наименее важные свойства – емкость аккумулятора и скорость срабатывания затвора. Простота использования имеет среднюю важность. Эти наблюдения подтверждаются как для полной выборки, так и для групп при разных вариантах кластеризации.
Если говорить о сравнении предпочтений между группами пользователей, то по мере рассмотрения вариантов кластеризации, удалось выявить следующие различия:
У представителей «мужского» кластера требования к качеству изображения выше, чем у пользователей без определенных интересов (случай 7, 10 кластеров) У представителей «мужского» кластера требования к простоте использования выше, чем у представителей «женского» кластера (случай 10 кластеров), выше, чем у пользователей без определенных интересов (случай 8, 9, 10 кластеров), и выше, чем в целом по выборке (случай 8, 9 кластеров) У представителей «мужского» кластера требования к надежности выше, чем в целом по выборке (случай 5, 9 кластеров), выше, чем у пользователей без определенных интересов(случай 9 кластеров) и выше, чем у представителей «женского» кластера (случай 5 кластеров) У представителей «женского» кластера требования к качеству изображения выше, чем у представителей «мужского» кластера(случай 5 кластеров), выше, чем у пользователей без определенных интересов(случай 10 кластеров), и выше, чем в целом по выборке(случай 5 кластеров)
Как легко заметить, различия в предпочтениях удалось выявить только для крупных групп. Это связано с тем, что коэффициенты регрессионной модели для более мелких групп имели плохую точность, что не позволяло их сравнивать.
Отметим также, что различия в предпочтениях не всегда подтверждаются при различных вариантах кластеризации. Одна из возможных причин – случайный выбор алгоритмом начальных центров кластеров. В качестве другой причины можно назвать пользователей, которых в силу их интересов можно отнести к нескольким кластерам, в разультате чего при разных вариантах кластеризации они попадают в разные кластеры. Вторая причина кажется автору более правдоподобной, чем первая, так как окончательные центроиды для соответствующих групп не сильно отличаются при разном количестве кластеров, что и позволяет нам выделять устойчивые группы.
|