|
корреляция. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. Виды и формы связей, различаемые в статистике
Виды и формы связей, различаемые в статистике - Функциональная связь — это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результативного признака.
Чаще всего функциональные связи наблюдаются в явлениях, описываемых математикой, физикой и другими точными науками. Например, при у = √x— связь между у и х является строго функциональной, но значению х = 4 соответствует не одно, а два значения y1 = +2; y2= -2. - Стохастическая связь — это вид причинной зависимости, проявляющейся не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений.
- Всегда имеет место влияние случайного. Появляющиеся различные значения зависимой переменной – реализации случайной величины.
- Проявление стохастических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимопогасятся и зависимость, если она имеет существенную силу, проявится достаточно отчетливо.
- В социально-экономической жизни приходится сталкиваться со многими явлениями, имеющими вероятностный характер.
- Например, уровень производительности труда рабочих стохастически связан с целым комплексом факторов: квалификацией, стажем работы, уровнем механизации и автоматизации производства, интенсивностью труда, простоями, состоянием здоровья работника, его настроением, атмосферным давлением и др.
- Полный перечень факторов неизвестен.
- Кроме того, неодинаково действие любого известного фактора на уровень производительности труда каждого рабочего.
- Изменение атмосферного давления, к примеру, значительно снижает работоспособность рабочих, страдающих заболеваниями сердечно-сосудистой системы, и практически не сказывается на производительности труда здоровых. В результате – при одинаковых возможностях наблюдается распределение значений дневной выработки рабочих.
- Такое распределение носит условный характер, поскольку оно связано с фиксированными значениями факторных признаков.
- Различия условных распределений имеют выраженную направленность связи (например, выработка растет с повышением квалификации рабочего). Эту направленность связи можно раскрыть более наглядно, если ограничиться рассмотрением только одного аспекта стохастической связи – изучением вместо условных распределений лишь одного их параметра – условного математического ожидания (частные случаи стохастической связи – корреляционная и регрессионная).
- Корреляционная связь — это зависимость среднего значения результативного признака от изменения факторного признака; в то время как каждому отдельному значению факторного признака Х может соответствовать множество различных значений результативного (Y).
Степень выраженности связи между вариационными рядами отражает понятие корреляция. Связь может быть слабой, средней, сильной. Количественно взаимосвязь между случайными величинами определяет коэффициент корреляции - r Коэффициент корреляции одним числом дает представление о направлении и силе связи между признаками (явлениями); пределы его колебаний от 0 до +1 - Если r<0, то это означает, что с увеличением величины Х1 соответствующие им значения Х2 второго вариационного ряда в среднем также уменьшаются.
- Если r>0, то с увеличением значений одной величины другая также в среднем возрастает.
- Если r=0, то это означает, что случайные величины Х1 и Х2 абсолютно независимы.
- Если r=1 между параметрами существует прямо пропорциональная функциональная зависимость.
Методические требования к использованию коэффициента корреляции - Измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту).
- Расчет может производиться с использованием как абсолютных, так и производных величин.
Схема оценки корреляционной связи по коэффициенту корреляции Сила связи
| Направление связи
| | | Прямая (+)
| Обратная (-)
| Сильная
| От +1 до +0,7
| От -1 до -0,7
| Средняя
| От +0,699 до +0,3
| От -0,699 до -0,3
| Слабая
| От +0,299 до 0
| От -0,299 до 0
| Связь, при которой коэффициент корреляции равен + 1,0 или – 1,0, называется полной (функциональной).
Методы определения коэффициента корреляции и формулы - Метод квадратов (метод Пирсона);
- Ранговый метод (метод Спирмена).
Рекомендации к применению метода квадратов (Пирсона) - Требует нормальности распределения;
- Когда признаки имеют только количественное выражение.
1) Метод квадратов а) построить вариационные ряды для каждого из сопоставляемых признаков; б) определить для каждого вариационного ряда средние величины; в) найти отклонения ( и ) каждой варианты от средней соответствующего вариационного ряда; г) полученные отклонения перемножить ( ) и просуммировать ( ) д) каждое отклонение возвести в квадрат и просуммировать по каждому ряду ( и ) е) подставить полученные значения в формулу расчета коэффициента корреляции: Рекомендации по применению метода ранговой корреляции (Спирмена) - Не требует какого-либо определенного распределения;
- Когда признаки не только количественные, но и атрибутивные;
- Когда ряды распределения признаков имеют открытые варианты
(например, стаж работы до 1 года). 2) Ранговый метод При этом представить первый и второй ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив того значения первого ряда, которым они соответствуют; в) определить разность рангов между x и y ( d ) d = x – y; г) возвести полученную разность рангов в квадрат ( ); д) получить сумму квадратов разности ( ) и подставить полученные значения в формулу: - где n – число пар ранжированных наблюдений.
- Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле
- Значение коэффициента считается существенным, если tнабл > tкрит (α ;k = п — 2).
Статистическая значимость корреляции Для метода Пирсона Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n-2), где n – число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности p ≥ 95 % Значение критерия t (по Н.А. Плохинскому) n' (число
наблюдений - 1)
| (P) Вероятность безошибочного прогноза
| | | n' (число
наблюдений - 1)
| (P) Вероятность безошибочного прогноза
| | | | 95%
| 99%
| 99,9%
| | 95%
| 99%
| 99,9%
| 1
| 12,7
| 63,7
| 637,0
| 11
| 2,2
| 3,1
| 4,4
| 2
| 4,3
| 9,9
| 31,6
| 12
| 2,2
| 3,1
| 4,3
| 3
| 3,2
| 5,8
| 12,9
| 13
| 2,2
| 3,0
| 4,1
| 4
| 2,8
| 4,6
| 8,6
| 14-15
| 2,1
| 3,0
| 4,1
| 5
| 2,6
| 4,0
| 6,9
| 16-17
| 2,1
| 2,9
| 4,0
| 6
| 2,4
| 3,7
| 6,0
| 18-20
| 2,1
| 2,9
| 3,9
| 7
| 2,4
| 2,5
| 5,3
| 21-24
| 2,1
| 2,8
| 3,8
| 8
| 2,3
| 3,4
| 5,0
| 25-28
| 2,1
| 2,8
| 3,7
| 9
| 2,3
| 3,3
| 4,8
| 29-30
| 2,0
| 2,8
| 3,7
| 10
| 2,2
| 3,2
| 4,6
| | | | | При этом значимым считается такой коэффициент корреляции, когда при определенном числе степеней свободы он равен или больше табличного, соответствующего степени безошибочного прогноза p ≥ 95 %. Если объем выборки больше 50, нужно применить критерий Стьюдента: rxy Задание №1 - Врач-исследователь выясняет зависимость площади пораженной части легких у людей, заболевших эмфиземой легких, от числа лет курения. Статистические данные, собранные им в некоторой области, имеют следующий вид: Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при α = 0,05.
Задание №2 - В. Ернайчик (W. Jernajczyk. Latency of eye movement and other REM sleep parameters in bipolar depression. Biol. Psychiatry,21:465—472, 1986), изучая физиологию сна при депрессии, столкнулся с необходимостью оценки тяжести этого заболевания.
- Шкала депрессии Бека основана на опроснике, заполняемом самим больным. Она проста в применении, однако специфичность ее недостаточна.
- Применение шкалы депрессии Гамильтона более сложно, поскольку требует участия врача, но именно эта шкала дает наиболее точные результаты.
- Тем не менее автор был склонен использовать шкалу Бека. В самом деле, если ее специфичность недостаточна для диагностики, то это еще не говорит о том, что ее нельзя использовать для оценки тяжести депрессии у больных с уже установленным диагнозом.
- Сравнив оценки по обеим шкалам у 10 больных, В. Ернайчик получил следующие результаты.
- Насколько согласованы оценки?
Номер больного
| Оценка по шкале депрессии Бека
| Оценка по шкале депрессии Гамильтона
| 1
| 20
| 22
| 2
| 11
| 14
| 3
| 13
| 10
| 4
| 22
| 17
| 5
| 37
| 31
| 6
| 27
| 22
| 7
| 14
| 12
| 8
| 20
| 19
| 9
| 37
| 29
| 10
| 20
| 15
| Задание №3 - Исследуя проницаемость сосудов сетчатки, Дж. Фишман и соавт. (G. A. Fishman et al. Blood-retinal barrier function in patients with cone or cone-rod dystrophy. Arch. Ophthalmol, 104:545—548, 1986) решили выяснить, связан ли этот показатель с электрической активностью сетчатки. Позволяют ли полученные данные говорить о существовании связи?
Проницаемость сосудов сетчатки
| Электрическая активность сетчатки
| 19,5
| 0,0
| 15,0
| 38,5
| 13,5
| 59,0
| 23,3
| 97,4
| 6,3
| 119,2
| 2,5
| 129,5
| 13,0
| 198,7
| 1,8
| 248,7
| 6,5
| 318,0
| 14
| 438,5
| Задание №4 - методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:
Регрессионный анализ Регрессия – это функция, позволяющая по средней величине одного признака определить среднюю величину другого признака. - В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, — зависимой.
- это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго.
- Подбор упрощенной аппроксимации связи между переменными с помощью математической модели
- Количественное измерение эффекта с помощью коэффициента регрессии
- Для прогноза
Уравнение регрессии Μy/x=α+βx α — значение у в точке х = 0 (коэффициент сдвига) β — коэффициент наклона. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ - Метод наименьших квадратов
Oценка параметров уравнения регрессии α и β. Обозначим их выборочные оценки соответственно а и b. Тогда, y=a+bx – уравнение прямой для выборочной совокупности. Какая прямая лучше? - Азотистый баланс — разность между количеством азота, который попадает в организм с пищей, и количеством азота, выводимого из организма, — важный показатель полноценности питания. Отрицательный азотистый баланс свидетельствует о том, что организм не получает достаточно белка. Нормы суточного потребления белка, рекомендуемые Всемирной организацией здравоохранения и Японским комитетом питания, рассчитаны главным образом на мужчин. Целью исследования К. Канеко и Г. Койке (К. Kaneko, G. Koike. Utilization and requirement of egg protein in Japanese women. J. Nutr. Sci. VitaminoL (Tokyo), 31:43—52, 1985) было определить количество белка в рационе, необходимое для поддержания нулевого азотистого баланса у японских женщин. Связь суточного потребления азота и азотистого баланса определили при калорийности суточного рациона 37 и 33 ккал/кг. Были получены следующие данные:
Калорийность суточного рациона
| | | | 37 ккал/кг
| | 33 ккал/кг
| | Потребление азота, мг/кг
| Азотистый баланс, мг/кг
| Потребление азота, мг/кг
| Азотистый баланс, мг/кг
| 49
| -30
| 32
| -32
| 47
| -22
| 32
| -20
| 50
| -29
| 32
| -17
| 76
| -22
| 51
| -10
| 77
| -15
| 53
| -20
| 99
| -10
| 51
| -18
| 98
| -11
| 52
| -21
| 103
| -10
| 74
| 4
| 118
| -1
| 72
| -16
| 105
| -4
| 74
| -14
| 100
| -13
| 98
| 6
| 98
| -14
| 97
| -7
| Найдите уравнения регрессии для обеих групп. Изобразите на одном рисунке результаты наблюдений и линии регрессии.
Для группы 37 ккал/кг найдите величину потребления азота, обеспечивающую нулевой азотистый баланс.
Задача №2 - По данным из таблицы вывести уравнение линейной регрессии.
- Нанести на график исходные данные и линию регрессии.
- По уравнению регрессии определить каков в среднем вес людей с ростом 180 см.
рост_см
| вес_кг
| 170
| 75
| 162
| 65
| 165
| 70
| 178
| 82
| 182
| 75
| 159
| 63
| 175
| 80
| 188
| 90
| 167
| 66
| 175
| 60
| |
|
|