Главная страница

корреляция. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. Виды и формы связей, различаемые в статистике


Скачать 276.72 Kb.
НазваниеВиды и формы связей, различаемые в статистике
Анкоркорреляция
Дата12.12.2022
Размер276.72 Kb.
Формат файлаpptx
Имя файлаКОРРЕЛЯЦИОННЫЙ АНАЛИЗ.pptx
ТипДокументы
#840486

Виды и формы связей, различаемые в статистике

  • Функциональная связь — это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результативного признака.
  • Чаще всего функциональные связи наблюдаются в явлениях, описываемых математикой, физикой и другими точными науками.

    Например, при у = √x— связь между у и х является строго функциональной, но значению х = 4 соответствует не одно, а два значения y1 = +2; y2= -2.

  • Стохастическая связь — это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений.
  • Всегда имеет место влияние случайного. Появляющиеся различные значения зависимой переменной – реализации случайной величины.
  • Проявление стохастических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимопогасятся и зависимость, если она имеет существенную силу, проявится достаточно отчетливо.
  • В социально-экономической жизни приходится сталкиваться со многими явлениями, имеющими вероятностный характер.
  • Например, уровень производительности труда рабочих стохастически связан с целым комплексом факторов: квалификацией, стажем работы, уровнем механизации и автоматизации производства, интенсивностью труда, простоями, состоянием здоровья работника, его настроением, атмосферным давлением и др.
  • Полный перечень факторов неизвестен.
  • Кроме того, неодинаково действие любого известного фактора на уровень производительности труда каждого рабочего.
  • Изменение атмосферного давления, к примеру, значительно снижает работоспособность рабочих, страдающих заболеваниями сердечно-сосудистой системы, и практически не сказывается на производительности труда здоровых. В результате – при одинаковых возможностях наблюдается распределение значений дневной выработки рабочих.
  • Такое распределение носит условный характер, поскольку оно связано с фиксированными значениями факторных признаков.
  • Различия условных распределений имеют выраженную направленность связи (например, выработка растет с повышением квалификации рабочего). Эту направленность связи можно раскрыть более наглядно, если ограничиться рассмотрением только одного аспекта стохастической связи – изучением вместо условных распределений лишь одного их параметра – условного математического ожидания (частные случаи стохастической связи – корреляционная и регрессионная).
  • Корреляционная связь — это зависимость среднего значения результативного признака от изменения факторного признака; в то время как каждому отдельному значению факторного признака Х может соответствовать множество различных значений результативного (Y).
  • Степень выраженности связи между вариационными рядами отражает понятие корреляция.

    Связь может быть слабой, средней, сильной.

    Количественно взаимосвязь между случайными величинами определяет коэффициент корреляции - r

Коэффициент корреляции

одним числом дает представление о направлении и силе связи между признаками (явлениями);

пределы его колебаний от 0 до +1

  • Если r<0, то это означает, что с увеличением величины Х1 соответствующие им значения Х2 второго вариационного ряда в среднем также уменьшаются.
  • Если r>0, то с увеличением значений одной величины другая также в среднем возрастает.
  • Если r=0, то это означает, что случайные величины Х1 и Х2 абсолютно независимы.
  • Если r=1 между параметрами существует прямо пропорциональная функциональная зависимость.

Методические требования к использованию коэффициента корреляции

  • Измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту).
  • Расчет может производиться с использованием как абсолютных, так и производных величин.

Схема оценки корреляционной связи по коэффициенту корреляции


Сила связи

Направление связи

Прямая (+)

Обратная (-)

Сильная

От +1 до +0,7

От -1 до -0,7

Средняя

От +0,699 до +0,3

От -0,699 до -0,3

Слабая

От +0,299 до 0

От -0,299 до 0

Связь, при которой коэффициент корреляции равен + 1,0 или – 1,0, называется полной (функциональной).

Методы определения коэффициента корреляции и формулы

  • Метод квадратов (метод Пирсона);
  • Ранговый метод (метод Спирмена).

Рекомендации к применению метода квадратов (Пирсона)

  • Требует нормальности распределения;
  • Когда признаки имеют только количественное выражение.

1) Метод квадратов

а) построить вариационные ряды для каждого из сопоставляемых признаков;

б) определить для каждого вариационного ряда средние величины;

в) найти отклонения ( и ) каждой варианты от средней соответствующего вариационного ряда;

г) полученные отклонения перемножить ( ) и просуммировать

( )

д) каждое отклонение возвести в квадрат и просуммировать по каждому ряду ( и )

е) подставить полученные значения в

формулу расчета коэффициента корреляции:

Рекомендации по применению метода ранговой корреляции (Спирмена)

  • Не требует какого-либо определенного распределения;
  • Когда признаки не только количественные, но и атрибутивные;
  • Когда ряды распределения признаков имеют открытые варианты
  • (например, стаж работы до 1 года).

2) Ранговый метод

а) составить два ряда из парных сопоставляемых признаков, обозначив первый и второй ряд, соответственно, x и y.

При этом представить первый и второй ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив того значения первого ряда, которым они соответствуют;

в) определить разность рангов между x и y ( d )

d = x – y;

г) возвести полученную разность рангов в квадрат ( );

д) получить сумму квадратов разности ( ) и подставить полученные значения в формулу:

  • где n – число пар ранжированных наблюдений.
  • Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле
  • Значение коэффициента считается существенным, если tнабл > tкрит (α ;k = п — 2).

Статистическая значимость корреляции

Для метода Пирсона

Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n-2), где n – число парных вариант.

Критерий t должен быть равен или больше табличного, соответствующего вероятности p ≥ 95 %




t=

rxy

Значение критерия t (по Н.А. Плохинскому)


n' (число

наблюдений - 1)

(P) Вероятность безошибочного прогноза

n' (число

наблюдений - 1)

(P) Вероятность безошибочного прогноза

95%

99%

99,9%

95%

99%

99,9%

1

12,7

63,7

637,0

11

2,2

3,1

4,4

2

4,3

9,9

31,6

12

2,2

3,1

4,3

3

3,2

5,8

12,9

13

2,2

3,0

4,1

4

2,8

4,6

8,6

14-15

2,1

3,0

4,1

5

2,6

4,0

6,9

16-17

2,1

2,9

4,0

6

2,4

3,7

6,0

18-20

2,1

2,9

3,9

7

2,4

2,5

5,3

21-24

2,1

2,8

3,8

8

2,3

3,4

5,0

25-28

2,1

2,8

3,7

9

2,3

3,3

4,8

29-30

2,0

2,8

3,7

10

2,2

3,2

4,6

При этом значимым считается такой коэффициент корреляции, когда при определенном числе степеней свободы он равен или больше табличного, соответствующего степени безошибочного прогноза

p ≥ 95 %.

Если объем выборки больше 50, нужно применить критерий Стьюдента:


rxy



t=

Задание №1

  • Врач-исследователь выясняет зависимость площади пораженной части легких у людей, заболевших эмфиземой легких, от числа лет курения. Статистические данные, собранные им в некоторой области, имеют следующий вид: Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при α = 0,05.

Задание №2

  • В. Ернайчик (W. Jernajczyk. Latency of eye movement and other REM sleep parameters in bipolar depression. Biol. Psychiatry,21:465—472, 1986), изучая физиологию сна при депрессии, столкнулся с необходимостью оценки тяжести этого заболевания.
  • Шкала депрессии Бека основана на опроснике, заполняемом самим больным. Она проста в применении, однако специфичность ее недостаточна.
  • Применение шкалы депрессии Гамильтона более сложно, поскольку требует участия врача, но именно эта шкала дает наиболее точные результаты.
  • Тем не менее автор был склонен использовать шкалу Бека. В самом деле, если ее специфичность недостаточна для диагностики, то это еще не говорит о том, что ее нельзя использовать для оценки тяжести депрессии у больных с уже установленным диагнозом.
  • Сравнив оценки по обеим шкалам у 10 больных, В. Ернайчик получил следующие результаты.
  • Насколько согласованы оценки?

Номер больного

Оценка по шкале депрессии Бека

Оценка по шкале депрессии Гамильтона

1

20

22

2

11

14

3

13

10

4

22

17

5

37

31

6

27

22

7

14

12

8

20

19

9

37

29

10

20

15

Задание №3

  • Исследуя проницаемость сосудов сетчатки, Дж. Фишман и соавт. (G. A. Fishman et al. Blood-retinal barrier function in patients with cone or cone-rod dystrophy. Arch. Ophthalmol, 104:545—548, 1986) решили выяснить, связан ли этот показатель с электрической активностью сетчатки. Позволяют ли полученные данные говорить о существовании связи?

Проницаемость сосудов сетчатки

Электрическая активность сетчатки

19,5

0,0

15,0

38,5

13,5

59,0

23,3

97,4

6,3

119,2

2,5

129,5

13,0

198,7

1,8

248,7

6,5

318,0

14

438,5

Задание №4

  • методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

Регрессионный анализ

Регрессия

– это функция, позволяющая по средней величине одного признака определить среднюю величину другого признака.

  • В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, — зависимой.
  • это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго.
  • Подбор упрощенной аппроксимации связи между переменными с помощью математической модели
  • Количественное измерение эффекта с помощью коэффициента регрессии
  • Для прогноза

Уравнение регрессии

Μy/x=α+βx

α — значение у в точке х = 0 (коэффициент сдвига)

β — коэффициент наклона.

ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ

  • Метод наименьших квадратов
  • Oценка параметров уравнения регрессии α и β. Обозначим их выборочные оценки соответственно а и b.

    Тогда,

    y=a+bxуравнение прямой для выборочной совокупности.

Какая прямая лучше?

  • Коэффициент сдвига
  • Угол наклона
  • Азотистый баланс — разность между количеством азота, который попадает в организм с пищей, и количеством азота, выводимого из организма, — важный показатель полноценности питания. Отрицательный азотистый баланс свидетельствует о том, что организм не получает достаточно белка. Нормы суточного потребления белка, рекомендуемые Всемирной органи­зацией здравоохранения и Японским комитетом питания, рас­считаны главным образом на мужчин. Целью исследования К. Канеко и Г. Койке (К. Kaneko, G. Koike. Utilization and requirement of egg protein in Japanese women. J. Nutr. Sci. VitaminoL (Tokyo), 31:43—52, 1985) было определить количество белка в рационе, необходимое для поддержания нулевого азотистого баланса у японских женщин. Связь суточного потребления азота и азотистого баланса определили при калорийности суточного рациона 37 и 33 ккал/кг. Были получены следующие данные:

Калорийность суточного рациона

37 ккал/кг

33 ккал/кг

Потребление азота, мг/кг

Азотистый баланс, мг/кг

Потребление азота, мг/кг

Азотистый баланс, мг/кг

49

-30

32

-32

47

-22

32

-20

50

-29

32

-17

76

-22

51

-10

77

-15

53

-20

99

-10

51

-18

98

-11

52

-21

103

-10

74

4

118

-1

72

-16

105

-4

74

-14

100

-13

98

6

98

-14

97

-7

Найдите уравнения регрессии для обеих групп. Изобразите на одном рисунке результаты наблюдений и линии регрессии.

Для группы 37 ккал/кг найдите величину потребления азота, обеспечивающую нулевой азотистый баланс.

Задача №2

  • По данным из таблицы вывести уравнение линейной регрессии.
  • Нанести на график исходные данные и линию регрессии.
  • По уравнению регрессии определить каков в среднем вес людей с ростом 180 см.

рост_см

вес_кг

170

75

162

65

165

70

178

82

182

75

159

63

175

80

188

90

167

66

175

60


написать администратору сайта