Главная страница

анализ данных. 1 Кластерный анализ 4


Скачать 309.97 Kb.
Название1 Кластерный анализ 4
Дата25.05.2022
Размер309.97 Kb.
Формат файлаdocx
Имя файлаанализ данных.docx
ТипРеферат
#549608
страница4 из 4
1   2   3   4
.

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.

В качестве примера проведем дисперсионный анализ для определения влияния средней высоты (Н) на видовое число (f). Исходные данные для расчета показаны в таблице.

Исходные данные для дисперсионного анализа влияния средней высоты на видовое число

Hi, м

Видовые числа, fij •1000

fij

ni

i

1

2

3

4

5

22

455, 436, 466, 467, 446, 483

2753

6

458, 8

24

467, 446, 502, 448, 429

2292

5

458, 4

26

465, 466, 417, 510, 480

2238

5

467, 6

28

502, 489, 442, 530, 467, 501

2931

6

488, 5

30

452, 467, 456, 433, 467, 456

2731

6

455, 2

32

503, 483, 458, 451, 469

2364

5

472, 8

34

446, 427, 430

1303

3

434, 3

36

468, 434, 407, 370

1679

4

419, 8







Σ18391

Σ40

=460

Здесь изучается влияние средней высоты древостоя на величину среднего видового числа условно одновозрастных спелых ельников. При расчетах на компьютерах суммы , и удобнее вычислять по формулам

=

=

= ,

а вместо исходных данных использовать их отклонения от некоторого начального значения, например, от общего среднего , что упрощает расчеты. Групповые средние приведены в колонке 5. Число групп k=8, общее число наблюдений n = 40. Общее среднее =460. Перейдем к отклонениям от среднего (таблица 6) и вычислим показатели, необходимые для применения формул.

Из таблицы 18.5 = 36195, = 14587, = 36195 - 14587 = 21608. Результаты вычислений запишем в таблицу 6, учитывая, что число степеней свободы для групповой дисперсии paвно k-1=8-1=7, для общей N -1=40-1=39, а для внутригрупповой N -k =40-8=32.

Вычисление сумм квадратов в однофакторном дисперсионном анализе

Hi,

м

fij - =xij

xij

mi

i





22

-5, -24, +6, +7, -14, +23

7

6

-1, 2

1411

8, 6

24

+7, -14, +42, -12, -31

-8

5

-1, 6

3114

12, 8

26

+5, +6, -43, +50, +20

+38

5

+7, 6

4810

288, 8

28

+42, +29, -18, +70, +7, +41

+171

6

+28, 5

9559

4873, 5

30

-8, +7, -4, -4, -27, +7

-29

6

-4, 8

923

138, 2

32

+43, +23, -2, -9, +9

+64

5

+12, 8

2544

819, 2

34

-14, -33, -30,

-77

3

-25, 7

2185

1981, 5

36

+8, -26, -53, -90

-161

4

-40, 2

11649

6464, 2







-9

40

-0, 23

36195

14587

Итоги однофакторного дисперсионного анализа

Тип дисперсии

Сумма квадратов

Число степеней свободы

Оценка дисперсии

Межгрупповая

14587

7

2084

Внутригрупповая Общая

21608

36195

32

39

675

928

Статистическая характеристика (Fвыч), полученная из, равна Fвыч = 2084/675 =3, 09. При а=0, 05 табличное значение F, взятое из приложения Ж, при ν=7 и N -k=32 будет равно 2, 3. Так как Fвыч > Fтабл., то гипотезу об отсутствии влияния высоты на среднее видовое число древостоя отклоняют: средние в генеральной совокупности не все равны между собой, а зависят от значения средней высоты.

Для расчета методом множественного сравнения предположим, что необходимо выяснить, для каких значений высот можно составить единые таблицы, использующие средние видовые числа. Испытаем, например, возможность объединения высот 22, 24, 26 в одну группу, остальных — во вторую. Функция сравнения по

= (458, 8+458, 4+467, 6) - (488, 5+455, 2+472, 8+434, 3+419, 8) = 7, 5

а оценка дисперсии по

=

Постоянную s находим из

s=[(8-1) F0, 05 (7, 32)]1/2 = (72, 3)1/2 4, т. е. для вероятности 0, 95 имеем доверительный интервал 7, 5 - 4 • 3, 85 7, 5+4 • 3, 85 или —7, 9 22, 9.

Так как доверительный интервал содержит ноль, нет оснований объединять материал в указанные группы в зависимости от значении высоты.

В данном примере изменена постановка задачи: вместо однофакторного применен двухфакторный анализ (включен дополнительно средний диаметр), после чего удалось удовлетворительным образом сгруппировать материал. Далее используем корреляционное отношение и расчет мощности критерия. Проверим Н0 несколько иначе. Вычислим корреляционное отношение 2, равное отношению межгрупповой дисперсии к сумме квадратов (таблица 7): = 14587 / 36195 = 0, 403. Гипотеза Н0: 2 = 0 равносильна Н0: 1 = 2... = k. Проверим Н0: 2 = 0 при альтернативной На: 2 > 0. Из приложения Т находим критические значения 2 =0, 387 при k1 =7, k2 =32, т.е. гипотезу об отсутствии влияния высоты на видовое число при а =0, 05 отклоняем.

4 КОЭФФИЦИЕНТ РЕГРЕССИИ: СТАТИСТИЧЕСКОЕ ЗНАЧЕНИЕ

Коэффициент регрессии показывает, насколько в среднем величина одного признака y изменяется при изменении на единицу меры другого, корреляционно связанного с Y признака X. Этот показатель определяют по формуле

или .

Здесь значения s умножают на размеры классовых интервалов λ, если их находили по вариационным рядам или корреляционным таблицам.

Коэффициент регрессии можно вычислить минуя расчет средних квадратичных отклонений sy и sx по формуле

или .

Если же коэффициент корреляции неизвестен, коэффициент регрессии определяют следующим образом:

или .

Для расчета коэффициента регрессии возьмем данные задачи пункта 2.

Из табличных данных и промежуточных расчетов, проведенных в пункте 2, следует, что



Выборочные дисперсии:





Следовательно, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:



 Значимость коэффициента корреляции.
Выдвигаем гипотезы:
H0: rxy = 0, нет линейной взаимосвязи между переменными;
H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкритдвусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.



По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим



Принятие H0

Отклонение H0, принятие H1

95%

5%

2.306

10.54


СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

  1. Гашев С. Н. Математические методы в биологии: анализ биологических данных в системе Statistica. — М.: Юрайт. 2020. 208 с.

  2. Козлов А.Ю. Статистический анализ данных в MS Excel: Учебное пособие / А.Ю. Козлов, В.С. Мхитарян, В.Ф. Шишов. — М.: Инфра-М, 2018. — 80 c.

  3. Кравченко А. И. Анализ и обработка социологических данных. Учебник. — М.: КноРус. 2020. 498 с.

  4. Кулаичев А.П. Методы и средства комплексного анализа данных: Учебное пособие / А.П. Кулаичев. — М.: Форум, 2018. — 160 c.

  5. Миркин Б. Г. Введение в анализ данных. — М.: Юрайт. 2020. 175 с.

  6. Мхитарян В. С. Теория планирования эксперимента и анализ статистических данных. — М.: Юрайт. 2020. 491 с.

  7. Нархид Н. Apache Kafka. Потоковая обработка и анализ данных / Н. Нархид. — СПб.: Питер, 2019. — 320 c.

  8. Ниворожкина Л.И. Статистические методы анализа данных: Учебник / Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга. — М.: Риор, 2018. — 320 c.

  9. Панкратова Е.В. Анализ данных в программе SPSS для начинающих социологов / Е.В. Панкратова, И.Н. Смирнова, Н.Н. Мартынова. — М.: Ленанд, 2018. — 200 c.

  10. Рафалович В. Data mining, или интеллектуальный анализ данных для занятых. Практический курс / В. Рафалович. — М.: SmartBook, 2018. — 352 c.

  11. Салин В. Н., Чурилова Э. Ю. Статистический анализ данных цифровой экономики в системе "Statistica". Учебно-практическое пособие. — М.: КноРус. 2019. 240 с.

  12. Сидняев Н. И. Теория планирования эксперимента и анализ статистических данных. — М.: Юрайт. 2020. 496 с.

  13. Симчера В.М. Методы многомерного анализа статистических данных / В.М. Симчера. — М.: Финансы и статистика, 2018. — 400 c.

  14. Тюрин Ю.Н. Анализ данных на компьютере: Учебное пособие / Ю.Н. Тюрин, А.А. Макаров; Науч. ред. В.Э. Фигурнов. — М.: ИД ФОРУМ, 2017. — 368 c.



1   2   3   4


написать администратору сайта