выводы 1 задания docx. Признак Возраст
Скачать 11.93 Kb.
|
В начале определим статистические характеристики отдельных признаков. Для этого используем инструмент «Анализа данных» «Описательная статистика». Признак «Возраст». Возраст
Диапазон изменения возраста - от 21 до 76 лет. Средний возраст покупателей равен почти 45 лет., стандартное отклонение – 15,514 года, коэффициент вариации – 15,514/45*100 = 34,47% - выборка неоднородна по возрасту, существует небольшая положительная асимметрия по возрасту; эксцесс – отрицательный. Графически распределение покупателей по возрасту изображено на рис. 1. (применен инструмент «Гистограмма»): Рис. 1. Гистограмма распределения по признаку «Возраст». Отчетливо видно три кластера распределения – поблизости возраста 28 лет, 53 года и 54 года. Факторы «Пол», «Жилье», «Образование» и «Количество детей» дискретные. Первые три фактора принимают лишь два значения 0 и 1. Признак «Доход». Доход Среднее 55504 Стандартная ошибка 1873,23 Медиана 53450 Мода 46600 Стандартное отклонение 29618,41 Дисперсия выборки 877249943,8 Эксцесс -0,493 Асимметричность 0,416 Интервал 120500 Минимум 10200 Максимум 130700 Сумма 13876000 Счет 250 Диапазон изменения дохода - от 10200 до 130700 долл. Средний доход покупателей равен 55504 руб, стандартное отклонение – 29618,41 руб, коэффициент вариации – 53,36% - выборка неоднородна по доходу, существует положительная асимметрия по доходу; эксцесс – отрицательный. Гистограмма распределения по признаку «Доход» (рис. 2): Рис. 2. Гистограмма распределения по признаку «Доход». По данному признаку распределение имеет локальный максимум в районе 18200 долл. и основной максимум – в районе 58400 долл. Признак «Количество детей». Кол-во детей Среднее 0,876 Стандартная ошибка 0,066 Медиана 1 Мода 0 Стандартное отклонение 1,040 Дисперсия выборки 1,081 Эксцесс -0,565 Асимметричность 0,856 Интервал 3 Минимум 0 Максимум 3 Сумма 219 Счет 250 Диапазон изменения признака - от 0 до 3 долл. Среднее количество детей покупателей равно 0,876, стандартное отклонение – 1,040, коэффициент вариации – 118,72% - выборка неоднородна по признаку, существует положительная асимметрия; эксцесс – отрицательный. Признак «Средняя покупка». Ср_Покупки Среднее 735,31 Стандартная ошибка 47,04 Медиана 584 Мода 0 Стандартное отклонение 743,80 Дисперсия выборки 553235,6 Эксцесс 1,950 Асимметричность 1,231 Интервал 3918 Минимум 0 Максимум 3918 Сумма 183828,5 Счет 250 Диапазон изменения средней покупки - от 0 до 3918 долл. Среднее значение равно 735,31 руб, стандартное отклонение – 743,8 руб, коэффициент вариации – 101,15% - выборка неоднородна по средней покупке, существует положительная асимметрия по доходу; эксцесс – положителен Применим инструмент Гистограмма (рис. 3). Рис. 3. Гистограмма распределения по признаку «Средняя покупка». Мы видим, что распределение по данному признаку подобно распределению по признаку «Доход», то есть между ними существует связь. Признак «Покупка» Покупки Среднее 1184,03 Стандартная ошибка 57,419 Медиана 950,825 Мода #Н/Д Стандартное отклонение 907,88 Дисперсия выборки 824245,3 Эксцесс 2,047 Асимметричность 1,298 Интервал 5517,577 Минимум 46,55 Максимум 5564,127 Сумма 296008,2 Счет 250 Диапазон изменения покупки - от 46,55 до 5564,127 долл. Среднее значение равно 1184,03 руб, стандартное отклонение – 907,88 руб, коэффициент вариации – 76,67% - выборка неоднородна по средней покупке, существует положительная асимметрия по доходу; эксцесс – положителен Определим степень связи между признаками. Применим инструмент «Корреляция» пакета «Анализ данных». Результат: Возраст Пол Жилье Брак Образование Доход Кол-во детей Ср_Покупки Покупки Возраст 1,0000 Пол -0,0512 1,0000 Жилье -0,0955 0,0647 1,0000 Брак -0,0233 0,0799 0,2485 1,0000 Образование 0,1255 -0,0554 -0,0229 -0,0323 1,0000 Доход 0,0038 0,2163 0,4504 0,6303 0,0201 1,0000 Кол-во детей 0,0083 -0,0597 0,0164 0,0260 0,0549 0,1259 1,0000 Ср_Покупки -0,0549 0,1404 0,2782 0,3798 -0,3008 0,5423 -0,2566 1,0000 Покупки -0,0077 0,1320 0,3385 0,4665 -0,2725 0,6624 -0,2656 0,5825 1,0000 Для дальнейшей работы обозначим: х1 – факторный признак «Возраст»; х2 – факторный признак «Пол»; х3 – факторный признак «Жилье»; х4 – факторный признак «Брак»; х5 – факторный признак «Образование»; х6 – факторный признак «Доход»; х7 – факторный признак «Количество детей»; х8 – факторный признак «Средняя величина покупки»; у – результативный признак «Покупка». Можно записать выводы между признаком х1 «Возраст» и результативным признаком у связь очень слабая – коэффициент корреляции всего (-0,0077). Между остальными факторными признаками х и у связь значима |