Главная страница
Навигация по странице:

  • ФУНКЦИОНАЛЬНАЯ И КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ

  • РЕГРЕССИОННЫЙ АНАЛИЗ

  • Лекция № 9. Лекция проверка соответствия распределения случайной величины нормальному закону


    Скачать 100.97 Kb.
    НазваниеЛекция проверка соответствия распределения случайной величины нормальному закону
    Дата15.01.2022
    Размер100.97 Kb.
    Формат файлаdocx
    Имя файлаЛекция № 9.docx
    ТипЛекция
    #331602

    Лекция № 9. ПРОВЕРКА СООТВЕТСТВИЯ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ НОРМАЛЬНОМУ ЗАКОНУ
    Как было сказано выше, для возможности применения параметрических критериев сравнения выборок, необходимо, чтобы распределение изучаемой случайной величины соответствовало нормальному закону. В свою очередь, существуют различные критерии оценки соответствия распределения исследуемой случайной величины нормальному закону. Выборочные характеристики — средняя ве­личина и показатели вариации — не содержат информации о законе распределения генеральной совокупности, из которой выборка взя­та. Трудно судить о законе распределения и по эмпирической вари­ационной кривой, поскольку на ней сказывается влияние многочис­ленных случайных причин. Между тем знание закона распределения важно: оно гарантирует от возможных ошибок в оценке гене­ральных параметров на основании выборочных показателей.

    Многие биологические признаки распределяются нормально. Нередко, однако, эмпирические ряды распределения отклоняются более или менее заметно от нормальной кривой. Эти отклонения могут быть различными, обнаруживая в одних случаях асимметрию, в других — эксцесс, а иногда и то и другое одновременно.

    Асимметрия ряда выражается графически в виде скошенной вариационной кривой, вершина которой может быть сдвинута от центра распределения либо влево, либо вправо. Асимметрию назы­вают правосторонней или положительной, если вершина кривой сдвинута влево от центра распределения; она более пологая, силь­но растянутая по оси абсцисс. При левосторонней, или от­рицательной, асимметрии, наоборот, вершина кривой сдвинута вправо от центра распределения, а ее пологая часть находится на левой стороне.

    Наряду с асимметричными встречаются остро- и плосковершин­ные кривые распределения. Островершинность вызывается чрез­мерным накапливанием численности вариант в центре вариацион­ного ряда, вследствие чего вершина кривой резко поднимается. Кроме одновершинных встречаются двух- и многовершинные эмпирические кривые. Если при увеличении объема выборки плосковершинная кривая становится двумодальной, говорят о наличии у такого распределения отрицательного эксцесса. Асимметрия и эксцесс эмпирических распределений могут возникнуть как следствие систематически действующих на признак (определенных), так и вследствие случайных (неопределенных) причин. Отсюда возникает необходимость в каждом случае устанавливать, случайны или не случайны отклонения эмпирических распределений от нормальной кривой. Приближенно оценивать нормальность распределения позволяют показатели асиммет­рии и эксцесса. Показатель асимметрии, обозначаемый символом Аs, вычисляется по формуле

    . (1)

    При строго симметричных распределениях сумма третьих степеней отклонений вариант от средней равна нулю. При наличии же скошенности распределения этот показатель будет иметь либо положительную, либо отрицательную величину, которая и служит мерой асимметрии. При правосторонней асим­метрии будут преобладать кубы отклонений с положительным знаком, а при левосторонней асимметрии — с отрицательным. Отсюда и коэффициент асимметрии будет иметь положительный или отрицательный знак. При отсутствии асимметрии Аs=0.

    Показатель эксцесса, обозначаемый символом Ех, выражается формулой

    . (2)

    При отсутствии эксцесса Ех=0. Если эксцесс положителен, то этот показатель приобретает положительный знак и может иметь любую величину, так как теоретически ничем не ограничен. При плосковершинности коэффициент Ех имеет отрицательный знак; предельная величина отрицательного эксцесса равна -2.

    Как и другие оценки генеральных параметров, показатели асим­метрии и эксцесса являются величинами случайными и сопровож­даются ошибками репрезентативности, которые определяются по формулам (54) и (55).

    Нулевая гипотеза, или предположение, что в генеральной совокуп­ности показатели As и Ех равны нулю, опровергается, если выполняются соотношения

    и (3)

    где – ошибка асимметрии, а – ошибка эксцесса, вычисляемые соответственно по формулам

    , (4)

    . (5)

    Но даже доказанная случайность показателей асимметрии и эксцесса еще не может гарантировать нормальность распределения.

    Для проверки гипотезы о законе распределения, которому следует эмпирическая совокупность, необходимо частоты эмпирического распределения сопоставить с теоретически вычисленными частотами. Последние рассчитываются на осно­вании эмпирических данных по формулам, которые описывают тот или иной закон распределения вероятностей. Так, при проверке нормальности распределения теоретические частоты рассчитываются по формуле

    , (6)

    где ti – нормированное отклонение, λ – величина классового интервала, п — объем выборки; среднее квадратическое отклонение этого ряда. Вместе с тем, как бы точно не вычислялись теоретические частоты, они, как правило, не совпадают с эмпирическими частотами ряда. Отсюда возникает необходимость сопоставления эмпирических частот с вычисленными, или ожидаемыми, частотами, с тем чтобы установить достоверность или слу­чайность наблюдаемого между ними расхождения. Нулевая гипо­теза сводится к предположению, что несоответствие эмпирических частот частотам, вычисленным по тому или иному закону распределения – явление случайное, т. е. между вычисленными и эмпирическими частотами никакой разницы нет. Для проверки нулевой гипотезы используются особые критерии. Одним из наиболее часто применяемых в биометрии служит критерий χ2, предложенный К. Пирсоном в 1900 г.

    Формула этого критерия имеет вид:

    , (7)

    где – фактические, а - теоретические частоты, вычисляемые по формуле (54). При применении указанного критерия необходимо соблюдать следующие условия:

    1. Выборка должна иметь объем не менее 50 единиц.

    2. Количество классов должно быть не менее 20.

    3. В случае, если крайние фактические частоты менее 5, то они объединяются с соседними до тех пор, пока значение частоты не станет больше или равно 5, соответственно складываются и соответствующие теоретические частоты. Таким образом, число классов может уменьшаться.

    При вычислении теоретические частоты не округляются. Полученное значение критерия сравнивается с табличным для заданного уровня вероятности и k=N’-3, где N – число вторичных классов. Если фактическое значение не больше табличного, то нулевая гипотеза, утверждающая, что распределение изучаемой случайной величины соответствует нормальному, остается в силе.

    Пример 1. Пусть данные эксперимента приведены в табл. 12. Требуется проверить следование распределения случайной величины нормальному закону.

    Табл. 1

    варианта

    Эмп.частота

    Теор.частота

    f – f’

    (f-f’)2/f’

    1

    3




    1.6




    12-1.6=0.4

    0.01





    2

    9

    10







    3

    31

    31

    34.3

    34.3

    34.3-31=3.3

    0.32

    4

    71

    71

    67.8

    67.8

    67.8-71=3.2

    0.15

    5

    82

    82

    77.6

    77.6

    82-77.6=4.4

    0.25

    6

    46

    46

    51.2

    51.2

    51.2-46=5.2

    0.53

    7

    19

    19

    19.5

    19.5

    19.5-19=0.5

    0.01

    8

    5




    4.4




    6-5.0=1

    0.02








    9

    1

    0.6











    Как видно из таблицы, теоретические частоты достаточно близки к эмпирическим. Уточним соответствие с помощью критерия . Поскольку крайние эмпирические частоты меньше 5, то складываем их с соседними, в результате чего число классов уменьшилось на 2 единицы – один класс сверху и один класс снизу. Суммируя элементы последнего столбца, получим значение 1.47. Сравниваем его с табличным для k=[9-2]-3=4. Оно составляет 1.58. Поскольку фактическое значение меньше табличного, то нулевая гипотеза остается в силе, т.е. распределение соответствует нормальному закону.
    ФУНКЦИОНАЛЬНАЯ И КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ
    Наблюдения за медико-биологическими явлениями часто приводят к выводу о том, что между двумя (или более) изучаемыми величинами существует взаимосвязь, т.е. при изменении одной из них также изменяется значение другой (других). Взаимосвязь между величинами может быть функциональной или статистической. Принципиальное их отличие заключается в том, что если зависимость носит функциональный характер, то каждому значению одной из величин (Х) однозначно соответствует значение другой величины (Y). Такой вид взаимосвязи, как правило, встречается в технических системах. В случае статистической зависимости, в большей степени присущей медико-биологическим явлениям и процессам, одному значению величины Х соответствует некоторое множество величины Y. Среди различных типов статистических зависимостей наибольший интерес представляет корреляционная, при которой изменение величины Х влечет изменение математического ожидания величины Y. Такая зависимость обусловлена тем, что на значение изучаемой величины Y кроме величины Х влияет множество случайных факторов, учесть которые в эксперименте невозможно. Примерами корреляционной зависимости является зависимость между ростом человека и объемом грудной клетки, дозой лекарства и его концентрацией в плазме крови через определенный период времени, длительности и тяжести заболеваниям в зависимости от возраста и т.д.

    При этом можно выделить следующие виды задач:

    1.установление взаимосвязи между двумя количественными признаками;

    2. установление взаимосвязи между двумя качественными признаками в двух зависимых выборках;

    3. установление взаимосвязи между количественным и качественным признаками.

    Для решения первой задачи обычно используют эмпирический коэффициент корреляции rxy, однако применение указанного показателя требует наличия взаимосвязи между величинами X и Y, близкой к линейной и нормального распределения выборок. Если график функции значительно отклоняется от аппроксимирующей прямой, то применяют корреляционное отношение, хотя его вычисление значительно сложнее вычисления rxy. Корреляционное отношение позволяет определить не только степень взаимосвязи между величинами X и Y, но и определить направление этой взаимосвязи.

    Эмпирический коэффициент корреляции вычисляется по формуле

    . (61)

    В случае малочисленных выборок для ручных вычислений удобнее использовать формулу

    . (2)

    Коэффициент корреляции принимает значение от -1 до 1, нулевое значение указывает на отсутствие корреляционной зависимости, значение от -1 до 0 на отрицательную взаимосвязь, а значение от 0 до 1 – на положительную. Так, например, существует положительная связь между количеством дополнительного времени на изучение предмета и оценкой обучаемого и отрицательная связь между тем же самым количеством дополнительного времени на изучение предмета и количеством сделанных в работе ошибок.

    Поскольку эмпирический коэффициент корреляции является случайной величиной, то он сопровождается ошибкой, вычисляемой по формуле

    , (3)

    а в случае малочисленных выборок (n≤100) ошибку можно вычислять по формуле

    . (4)

    Достоверность эмпирического коэффициента корреляции производится по формуле

    . (5)

    Полученное значение сравнивается с табличным значением критерия Стьюдента для k=n-2 и заданного уровня значимости.

    Пример 2. Пусть в серии из 100 экспериментов получено значение =0.525, проверим достоверность этого значения: .

    Табличное значение для k=100-2=98 и уровня значимости 0.05 составляет 2.58. Таким образом, полученное значение величины достоверно.

    В случае малого объема выборок лучшей оценкой является величина

    . (6)

    Из математической статистики известно, что при малом числе испытаний и сравнительно сильной корреляции (г>0,5) распределение коэффициента корреляции для выборок, взятых из нормально распределяющейся совокупности, значительно отклоняется от нормальной кривой. Следовательно, эмпирический коэффициент корреляции не будет точной оценкой генерального параметра, если он вычислен на малочисленной выборке и его величина значительно отклоняется от 0.5.

    Имея в виду это обстоятельство, Р.Фишер нашел более точный способ оценки генерального параметра р по величине выборочного коэффициента корреляции r. Этот способ сводится к замене коэффициента корреляции преобразованной величиной z, которая связана с эмпирическим коэффициентом корреляции следующим образом:

    или . (7)

    Критерием оценки величины z является величина , значение которой сравнивается с табличным значением критерия Стьюдента для k=n-2.

    РЕГРЕССИОННЫЙ АНАЛИЗ
    Зависимость между величинами Х и Y может быть выражена различными способами, в частности, в виде уравнения Y=f(X). Очевидно, что в случае статистической зависимости уравнение выражает связь между значениями Х и групповыми средними и называется уравнением регрессии.

    Показатели регрессии выражают двустороннюю связь между величинами Х и Y, т.е. уравнение регрессии может иметь вид Y=f(X) или Х=f(Y).

    Для определения вида корреляционной зависимости строится некоторая диаграмма рассеяния в прямоугольной системе координат, выражающая тенденцию изменения функции в зависимости от значения аргумента. В простейшем случае зависимость имеет вид прямой линии, или достаточно близка к прямой и уравнение регрессии имеет вид

    . (1)

    В этом уравнении параметр а называется свободным членом, а параметр b – коэффициентом регрессии. Коэффициент регрессии определяет наклон линии регрессии по отношению к осям координат и показывает, насколько в среднем величина одного признака Yизменяется при изменении на единицу измерения другого, корреляционно связанного с Y признака Х.

    Поскольку, как было сказано выше, уравнение регрессии носит двусторонний характер, то оно может быть представлено в двух видах:

    и . (2)

    Показатель регрессии может быть вычислен по формулам
    , , (3)

    где - эмпирический коэффициент корреляции, и - среднеквадратические отклонения для х и y соответственно.

    Вычисление указанных величин можно производить по формулам:

    или . (4)

    Параметры уравнения регрессии можно вычислить с помощью метода наименьших квадратов, суть которого заключается в том, чтобы подобрать коэффициенты уравнения так, чтобы минимизировать сумму квадратов отклонений теоретически рассчитанных значений функции от эмпирических.

    Формулы, полученные методом наименьших квадратов, имеют вид:

    , , (5)



    , , (6)

    Выборочные показатели регрессии являются величинами случайными и сопровождаются ошибками, вычисляемыми по формулам

    , . (7

    Достоверность коэффициентов регрессии проверяется с помощью критерия Стьюдента. Нулевая гипотеза отвергается, если t > tst для принятого уровня значимости и числа степеней свободы k=n-1, где ,


    написать администратору сайта