Главная страница
Навигация по странице:

  • 6.4. Проверка гипотез об однородности данных 6.4.1. Критерий знаков

  • 6.4.2. Критерий Вилкоксона

  • 7. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 7.1. Основные задачи

  • 7.2. Коэффициент корреляции Пирсона

  • 7.3. Ранговая корреляция

  • 7.4. Регрессионые модели

  • 7.5. Уравнение линейной регрессии

  • Коэффициент детерминации

  • 7.6. Линейная регрессия и прогноз

  • 8. КОНТРОЛЬНЫЕ РАБОТЫ 8.1. Контрольная работа № 1

  • теория вероятностей. Управления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М


    Скачать 3.11 Mb.
    НазваниеУправления и радиоэлектроники (тусур) Кафедра автоматизации обработки информации (аои) З. А. Смыслова М
    Анкортеория вероятностей.pdf
    Дата13.12.2017
    Размер3.11 Mb.
    Формат файлаpdf
    Имя файлатеория вероятностей.pdf
    ТипУчебное пособие
    #11331
    страница10 из 13
    1   ...   5   6   7   8   9   10   11   12   13

    6.3. Проверка гипотез о виде распределения.
    Критерий согласия Пирсона
    Выше мы решали задачи, в которых распределение генеральной сово- купности предполагалось известным. Предположение о виде закона распреде- ления можно сделать по гистограмме или полигону. Но затем это предположе- ние следует проверить. Для проверки гипотез о виде распределения служат специальные критерии — критерии согласия. Они отвечают на вопрос: согла- суются ли результаты экспериментов с предположением о том, что генераль- ная совокупность имеет заданное распределение.
    Например, по гистограмме для примера 2 подраздела 3.2 (рис. 3.2) можно сделать предположение о том, что генеральная совокупность распределена по нормальному закону. Проверим это предположение с помощью критерия
    согласия Пирсона. В этом критерии мерой расхождения между гипотетиче- ским (предполагаемым) и эмпирическим распределением служит статистика

    =

    =
    k
    j
    j
    j
    j
    np
    np
    n
    K
    1 2
    ,
    )
    (

    81
    где
    n
    — объем выборки;
    k
    — количество интервалов (групп наблюдений);
    j
    n
    — количество наблюдений, попавших в
    j
    -й интервал;
    j
    p
    — вероятность попадания в
    j
    -й интервал случайной величины, распре- деленной по гипотетическому закону.
    Если предположение о виде закона распределения справедливо, то ста- тистика Пирсона распределена по закону «хи-квадрат» с числом степеней сво- боды
    1

    r
    k
    (
    r
    — число параметров распределения, оцениваемых по вы- борке):


    2
    )
    1
    (


    χ
    r
    k
    K
    Пример 1. на уровне значимости
    025 0
    =
    α
    проверить гипотезу о нор- мальном распределении веса новорожденных (пример 2 подраздела 3.2).
    Решение. Сформулируем основную и альтернативную гипотезы.
    )
    ,
    (

    :
    0


    σ
    a
    N
    X
    H
    — случайная величина
    X
    (вес новорожденных) под- чиняется нормальному закону с параметрами и


    σ
    a
    Так как истинных зна- чений параметров
    a
    и
    σ
    мы не знаем, возьмем их оценки, рассчитанные по выборке:
    399 0
    ,
    746 3
    =
    σ
    =


    a
    :
    1
    H
    случайная величина
    X
    не подчиняется нормальному закону с дан- ными параметрами.
    Рассчитаем наблюдаемое значение набл
    K
    статистики Пирсона. Эмпи- рические частоты
    j
    n
    уже известны (табл. 3.3), а для вычисления вероятно- стей
    j
    p
    (в предположении, что гипотеза
    0
    H
    справедлива) применим фор- мулу (2.1):
    k
    j
    a
    a
    a
    a
    a
    X
    a
    P
    p
    j
    j
    j
    j
    j
    ...,
    ,
    2
    ,
    1
    ,
    )
    (
    1 1
    =










    σ

    Φ











    σ

    Φ
    =
    <
    <
    =




    +
    +
    и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 6.7). Наблюдаемое значение статистики Пирсона равно
    978 0
    набл
    =
    K
    Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение набл
    K
    , тем сильнее довод против ос- новной гипотезы. Поэтому критическая область для этой статистики всегда правосторонняя:
    ).
    ;
    [
    кр

    +
    K
    Её границу
    2
    )
    ;
    1
    (
    кр
    α


    χ
    =
    r
    k
    K
    находим по таб-

    82
    лицам распределения «хи-квадрат» (приложение 2) и заданным значениям
    6
    ,
    025 0
    =
    =
    α
    k
    (число интервалов),
    2
    =
    r
    (параметры
    a
    и
    σ
    оценены по выборке):
    9.4.
    0.025)
    ;
    3
    (
    0.025)
    ;
    1 2
    6
    (
    2 2
    кр
    =
    χ
    =


    χ
    =
    K
    Наблюдаемое значение статистики Пирсона не попадает в критическую область:
    ,
    кр набл
    K
    K
    <
    поэтому нет оснований отвергать основную гипотезу.
    Вывод: на уровне значимости 0.025 справедливо предположение о том, что вес новорожденных имеет нормальное распределение.
    Таблица 6.7
    Сравнение наблюдаемых и ожидаемых частот
    № п/п
    Интервалы группировки
    )
    [
    1
    ;
    +
    j
    j
    a
    a
    На- блю- дае- мая час- тота
    j
    n
    Вероятность
    j
    p
    попадания в
    j
    -й интервал
    Ожидаемая частота
    j
    p
    n

    Слагаемые статистики
    Пирсона
    j
    j
    j
    np
    np
    n
    2
    )
    (

    1. [3;
    3.3) 4 0.101 3.032 0.309 2. [3.3;
    3.6) 7 0.225 6.761 0.008 3.
    [3.6;
    3.9)
    10 0.295 8.79 0.166 4. [3.9;
    4.2) 5 0.222 6.665 0.416 5. [4.2;
    4.5) 3 0.098 2.946 0.001 6. [4.5;
    4.8) 1 0.025 0.758 0.077

    — 30 0.965 28.95 978 0
    набл
    =
    K
    6.4. Проверка гипотез об однородности данных
    6.4.1. Критерий знаков
    На практике часто возникает задача сравнения двух методов обработки, двух рационов питания, двух методик обучения и т.п. В статистике эту задачу можно решить с помощью критериев однородности.
    Рассмотрим вначале случай парных наблюдений: для каждого объекта измеряются два значения интересующего нас признака (например, до воздей- ствия и после). Результатом будут две группы наблюдений:
    n
    x
    x
    x
    ...,
    ,
    ,
    2 1
    и
    ...,
    ,
    ,
    2 1
    n
    y
    y
    y
    Основная гипотеза имеет вид:
    )
    (
    )
    (
    :
    2 1
    0
    x
    F
    x
    F
    H
    =
    — закон распределе- ния генеральной совокупности
    X
    , из которой извлечена первая выборка, тот же

    83
    самый, что и закон распределения Y. Предполагается, что разности
    i
    i
    y
    x

    взаимно независимы
    )
    ...,
    ,
    2
    ,
    1
    (
    n
    i
    =
    и
    5 0
    )
    (
    )
    (
    =
    >
    =
    <
    i
    i
    i
    i
    y
    x
    P
    y
    x
    P
    Для каждой разности
    i
    i
    y
    x

    определим ее знак и подсчитаем количест- во набл
    K
    количество тех знаков, которых меньше в данной выборке. Кри- тическим значением кр
    K
    будем считать такое, что при заданном уровне зна- чимости
    α
    )
    (
    кр
    α

    K
    K
    P
    Некоторые значения критических точек приведены в таблице 6.8.
    Таблица 6.8
    Критические точки для критерия знаков
    Объем выборки
    n
    Уровень значимости
    α
    5 10 15 20 25 30 0.01 0 0 2 3 5 7 0.05 0 1 3 5 7 9 0.1 0 1 3 5 7 10
    Пример 1. Для желающих похудеть была предложена специальная диета.
    У десяти участников эксперимента измеряли вес до применения диеты (
    Х
    , кг) и после применения (
    Y
    , кг) (табл. 6.9).
    Оказывает ли диета какое-либо существенное влияние на вес?
    Таблица 6.9
    Исходные данные для примера 1
    Х
    68 80 92 81 70 79 78 66 57 76
    Y
    60 84 87 79 74 71 72 67 56 70
    Решение. Сформулируем основную и альтернативную гипотезы:
    )
    (
    )
    (
    :
    2 1
    0
    x
    F
    x
    F
    H
    =
    — выборочные данные однородны, выборки извле- чены из генеральных совокупностей с одинаковыми распределениями. Приме- нительно к условиям: диета не оказывает существенного влияния на вес тела.
    )
    (
    )
    (
    :
    2 1
    1
    x
    F
    x
    F
    H

    — выборки неоднородны; распределения генераль- ных совокупностей
    Х
    и
    Y
    различны; диета оказывает влияние на вес.
    Запишем последовательность знаков разностей
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    ,
    :
    +
    +

    +
    +


    +

    +

    i
    i
    y
    x
    Знак «+» в этой последовательности встречает- ся 6 раз, а «–» — 4 раза, поэтому набл
    K
    равно количеству знаков «минус»:
    4
    набл
    =
    K

    84
    Для данного объема выборки
    10
    =
    n
    критическое значение
    1
    кр
    =
    K
    при
    05 0
    =
    α
    и
    1 0
    =
    α
    Поэтому наблюдаемый результат
    4
    набл
    =
    K
    не явля- ется маловероятным при условии, что гипотеза
    0
    H
    справедлива, вероятность этого события больше 0.1.
    Следовательно, на уровне значимости 0.1 нет оснований отвергать гипо- тезу
    0
    H
    , диета не оказывает существенного влияния на вес.
    Заметим, что если среди пар значений
    ,
    и
    i
    i
    y
    x
    есть равные
    ,
    i
    i
    y
    x
    =
    то их следует отбросить, соответственно уменьшив объем выборки
    n
    Критерий знаков применяется для выборок малого объема, его основное достоинство — простота.
    6.4.2. Критерий Вилкоксона
    Этот критерий используется для проверки однородности двух независи- мых выборок
    1
    ...,
    ,
    ,
    2 1
    n
    x
    x
    x
    и
    ...,
    ,
    ,
    2 2
    1
    n
    y
    y
    y
    Он применяется к случайным величинам, распределения которых неизвестны, но являются непрерывными.
    Основная гипотеза имеет вид
    ),
    (
    )
    (
    :
    2 1
    0
    x
    F
    x
    F
    H
    =
    а альтернативная ги- потеза может быть левосторонней, правосторонней или двусторонней.
    При использовании критерия Вилкоксона все вычисления проводятся не для самих наблюдаемых значений
    ,
    ,
    i
    i
    y
    x
    а для их рангов. Ранг — это поряд- ковый номер наблюдения в данной выборке, если наблюдаемые значения рас- положить по возрастанию. Например, выборке
    ,
    4 11
    ,
    6 12 2
    1
    =
    =
    x
    x
    9 11
    ,
    1 13 4
    3
    =
    =
    x
    x
    соответствует последовательность рангов
    ,
    3 1
    =
    r
    2
    ,
    4
    ,
    1 4
    3 2
    =
    =
    =
    r
    r
    r
    Если в выборке встречаются несколько одинаковых значений, то им ставится в соответствие одинаковый ранг — среднее арифме- тическое порядковых номеров.
    Так, для выборки
    11
    ,
    11
    ,
    8
    ,
    5 9
    ,
    5 10
    ,
    11
    ,
    5 9
    ,
    10 8
    7 6
    5 4
    3 2
    1
    =
    =
    =
    =
    =
    =
    =
    =
    x
    x
    x
    x
    x
    x
    x
    x
    после- довательность рангов имеет вид:
    ,
    5 2
    ,
    5
    ,
    7
    ,
    5 2
    ,
    4 5
    4 3
    2 1
    =
    =
    =
    =
    =
    r
    r
    r
    r
    r
    7
    ,
    7
    ,
    1 8
    7 6
    =
    =
    =
    r
    r
    r
    Здесь ранг значения
    9.5
    равен
    2.5
    ,
    2
    /
    )
    3 2
    (
    +
    =
    а ранг значения
    11
    равен
    3
    /
    )
    8 7
    6
    (
    7
    +
    +
    =
    Последовательность действий при проверке гипотезы однородности с помощью критерия Вилкоксона следующая:
    1) составляем объединение выборок
    1
    ...,
    ,
    ,
    2 1
    n
    x
    x
    x
    и
    ;
    ...,
    ,
    ,
    2 2
    1
    n
    y
    y
    y
    2) находим ранги объединенной выборки (обозначим ранги первой вы- борки
    ,
    ...,
    ,
    ,
    1 2
    1
    n
    r
    r
    r
    а ранги второй —
    );
    ...,
    ,
    ,
    2 2
    1
    n
    s
    s
    s
    3) вычисляем наблюдаемое значение статистики Вилкоксона

    85
    ,
    2 2
    1
    n
    s
    s
    s
    K
    +
    +
    +
    =
    равную сумме рангов второй выборки.
    Если распределение второй выборки сдвинуто вправо относительно пер- вой (альтернативная гипотеза
    ),
    (
    )
    (
    :
    2 1
    1
    x
    F
    x
    F
    H
    <
    то статистика
    K
    будет принимать значения, большие критического
    ),
    ;
    ,
    (
    2 1
    кр
    α
    =
    n
    n
    K
    K
    и гипотеза
    0
    H
    отвергается в пользу альтернативы
    1
    H
    Если рассматривается альтернатива
    ),
    (
    )
    (
    :
    2 1
    1
    x
    F
    x
    F
    H

    то гипотеза
    0
    H
    отвергается, если выполняется одно из двух условий:






    α
    =

    2
    ;
    ,
    2 1
    кр набл
    n
    n
    K
    K
    K
    или
    2
    ;
    ,
    )
    1
    (
    2 1
    1 2
    2
    набл






    α

    +
    +
    =
    n
    n
    K
    n
    n
    n
    K
    Пример 2. В биохимическом исследовании, проведенном методом ме- ченных атомов, по результатам изучения 7 препаратов опытной группы полу- чены следующие показания счетчика импульсов (в импульсах в минуту): 340,
    343, 322, 332, 320, 313, 304. Результаты контрольной группы: 318, 321, 318,
    301, 312.
    Можно ли считать, что полученные значения опытной и контрольной групп различны
    ?
    )
    05 0
    (
    =
    α
    Решение. Сформулируем основную и альтернативную гипотезы.
    )
    (
    )
    (
    :
    2 1
    0
    x
    F
    x
    F
    H
    =
    — выборки однородны; различия в результатах опытной и контрольной групп можно отнести на счет случайных воздействий.
    )
    (
    )
    (
    :
    2 1
    1
    x
    F
    x
    F
    H

    — выборки извлечены из генеральных совокупно- стей с разными распределениями; различие между контрольной и опытной группами существенно.
    Объединим выборки и расположим полученные данные в порядке воз- растания:
    343
    ,
    340
    ,
    332
    ,
    322
    ,
    321
    ,
    320
    ,
    318
    ,
    318
    ,
    313
    ,
    312
    ,
    304
    ,
    301
    — здесь подчеркнуты элементы второй выборки (контрольной группы). Занумеровав все элементы в порядке возрастания, получим ранговую последовательность:
    2 1
    ,
    1 1
    ,
    0 1
    ,
    9
    ,
    8
    ,
    7
    ,
    5 5
    ,
    5 5
    ,
    4
    ,
    3
    ,
    2
    ,
    1
    — подчеркнуты ранги контрольной группы.
    Наблюдаемое значение статистики Вилкоксона равно
    23 8
    5 5
    5 5
    3 1
    набл
    =
    +
    +
    +
    +
    =
    K
    Критическая область является двусторонней, ее правая граница при
    1 0
    =
    α
    (табл. 6.10)
    44
    )
    05 0
    ;
    5
    ,
    7
    (
    2
    ;
    ,
    2 1
    пр
    =
    =






    α
    =
    K
    n
    n
    K
    K
    , левая граница
    (
    )
    26 44 14 5
    1
    пр
    1 2
    2
    лев
    =


    =

    +
    +
    =
    K
    n
    n
    n
    K

    86
    Наблюдаемое значение попадает в критическую область:
    ,
    лев набл
    K
    K
    <
    поэтому основная гипотеза отвергается в пользу альтернативной.
    Итак, на уровне значимости 0.1 можно утверждать, что разница между показаниями счетчика в контрольной и опытной группах существенна.
    Таблица 6.10
    Критические точки критерия Вилкоксона при
    05 0
    =
    α
    1
    n
    2
    n
    5 7 9 10 5
    36 44 51 54

    87
    7. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ
    7.1. Основные задачи
    В этом разделе мы рассмотрим виды и формы связей, различаемые в ста- тистике. Связи между различными явлениями и их признаками можно разде- лить на два типа: функциональные и стохастические. Если два признака
    X
    и
    Y
    связаны функциональной зависимостью, то по значению одного из них можно точно указать значение другого. Например, зная рост
    X
    в сантиметрах наугад взятого человека, можно указать его рост
    Y
    в метрах. Стохастическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Если
    X
    — рост наугад взятого человека в сантиметрах, то
    100

    = X
    Y
    — вес в килограммах. Изучение такого вида связей — предмет исследования корреляционного и регрессионного анализа. При этом независи- мый признак
    X
    называется фактором, а зависимый
    Y
    откликом.
    Основные задачи корреляционного анализа:
    1) выяснить, есть ли связь между двумя признаками;
    2) измерить силу этой связи;
    3) отобрать факторы, оказывающие наиболее сильное влияние на отклик.
    В задачи регрессионного анализа входят следующие:
    1) описание формы зависимости;
    2) нахождение коэффициентов уравнения, описывающего зависимость, и оценка их точности;
    3) оценка качества полученной зависимости (адекватность модели).
    7.2. Коэффициент корреляции Пирсона
    Коэффициент корреляции Пирсона
    XY
    r
    измеряет тесноту линейной свя- зи между переменными
    X
    и
    Y
    (
    )
    Y
    X
    y
    X
    XY
    m
    Y
    m
    X
    M
    r
    σ
    σ
    )
    )(
    (


    =
    и обладает следующими свойствами.
    Для любых переменных
    X
    и
    Y
    его абсолютная величина не превосходит единицы:
    1 1



    XY
    r
    Значение коэффициента корреляции равно +1 или –1 тогда и только то- гда, когда между переменными
    X
    и
    Y
    существует линейная функциональная связь
    bX
    a
    Y
    +
    =
    Если переменные
    X
    и
    Y
    независимы, то
    0
    =
    XY
    r
    Если
    ,
    0
    =
    XY
    r
    то пере- менные
    X
    и
    Y
    называются некоррелированными. Некоррелированность пе- ременных означает отсутствие между ними линейной стохастической зависи- мости, но не означает отсутствия связи вообще.

    88
    Точечной оценкой коэффициента корреляции
    XY
    r
    является выборочный коэффициент корреляции
    ,

    XY
    который можно рассчитывать по формулам:
    (7.2)
    (7.1)
    1 1
    2 2
    1 2
    2 1
    1
    ,
    y
    n
    y
    x
    n
    x
    y
    x
    n
    y
    x

    ;
    s
    s
    y
    x
    y
    x
    n

    n
    i
    i
    n
    i
    i
    n
    i
    i
    i
    XY
    Y
    X
    n
    i
    i
    i
    XY
    


    



    


    





    =


    =




    =
    =
    =
    =
    где
    n
    i
    y
    x
    i
    i
    ...,
    2,
    ,
    1
    ),
    ,
    (
    =
    — независимая выборка объема
    n
    из двумерной ге- неральной совокупности;
    y
    x
    ,
    — средние арифметические значения (выборочные средние) пере- менных
    X
    и
    Y
    ;
    Y
    X
    s
    s
    ,
    — выборочные средние квадратические отклонения переменных
    X
    и
    Y
    Коэффициент корреляции

    , рассчитанный по выборке, является значе- нием случайной величины

    . С увеличением числа наблюдений (свыше 500) распределение величины

    стремится к нормальному. С уменьшением числа наблюдений надежность этой оценки падает. Поэтому после вычисления оценки

    встает вопрос о значимости коэффициента корреляции.
    Значимость коэффициента корреляции проверяется с помощью статисти- ки, имеющей распределение Стьюдента (табл. 7.1).
    Таблица 7.1
    Проверка значимости коэффициента корреляции Пирсона
    Гипотеза
    0
    :
    0
    =
    XY
    r
    H
    Предположение
    Двумерная нормальная генеральная совокупность
    Оценки по выборке
    XY
    Y
    X

    ;
    s
    ;
    s
    ;
    y
    ;
    x
    Статистика
    К
    2 1
    2
    XY
    XY

    n



    Распределение статистики
    К
    Стьюдента
    )
    2
    (

    n
    T

    89
    Пример 1. Проводится изучение зависимости массы монеты
    Y
    в граммах от времени обращения
    X
    (число лет обращения).
    По результатам десяти наблюдений (табл. 7.2) выяснить, значима ли кор- реляция между массой монеты и временем ее обращения.
    Решение. Рассчитаем по выборке объема
    10
    =
    n
    (табл. 7.2) оценки сред- них
    Y
    X
    m
    ˆ
    y
    ,
    m
    ˆ
    x
    =
    =
    и дисперсий
    :
    σˆ
    s
    ,
    σˆ
    s
    Y
    Y
    X
    X
    2 2
    2 2
    =
    =
    Таблица 7.2
    Данные примера 1
    i
    1 2 3 4 5 6 7 8 9 10
    i
    x
    (лет) 5 9 14 17 23 31 35 42 46 50
    i
    y
    (г)
    2.82 2.85 2.8 2.8 2.79 2.78 2.77 2.79 2.75 2.72
    (
    )
    001 0
    ;
    178 254 1
    1
    ;
    787 2
    1
    ;
    2 27 1
    2 1
    2 2
    1 1
    =
    =


    =
    =
    =
    =
    =



    =
    =
    =
    Y
    n
    i
    i
    X
    n
    i
    i
    n
    i
    i
    s
    x
    x
    n
    s
    y
    n
    y
    x
    n
    x
    По формуле (7.1) получим значение выборочного коэффициента корре- ляции
    792 0.

    XY

    =
    — можно предполагать достаточно сильную линейную отрицательную зависимость между массой монеты и возрастом ее обращения.
    Так как выборка малого объема, проверим значимость коэффициента корреля- ции.
    Основная гипотеза
    0
    H
    состоит в том, что коэффициент корреляции
    XY
    r
    не значим
    ,
    0
    :
    0
    =
    XY
    r
    H
    т.е. между переменными
    X
    и
    Y
    нет линейной связи.
    Альтернативная гипотеза
    0
    :
    1
    <
    XY
    r
    H
    коэффициент корреляции значим, переменные
    X
    и
    Y
    связаны отрицательной линейной зависимостью.
    Наблюдаемое значение статистики
    K
    (табл. 5.1) равно
    .
    .
    .
    .
    )
    .
    (
    .

    n

    K
    XY
    XY
    íàáë
    668 3
    627 0
    1 8
    792 0
    792 0
    1 2
    10 792 0
    1 2
    2 2

    =



    =





    =


    =
    Зададим уровень значимости
    01 0
    α
    =
    и определим границу критиче- ской области по таблице распределения Стьюдента. По виду альтернативной гипотезы заключаем, что критическая область является левосторонней:
    .
    K
    ;
    ]
    (
    êð

    −∞
    Значение кр
    K
    находим по таблице распределения Стьюдента
    (приложение 3):
    9 2
    )
    01 0
    ;
    8
    (
    )
    01 0
    ;
    2 10
    (
    α)
    ;
    2
    (
    кр
    =
    =

    =

    =
    t
    t
    n
    t
    K

    90
    Наблюдаемое значение
    668 3
    набл

    =
    K
    попадает в критическую об- ласть
    ],
    9 2
    ;
    (

    −∞
    поэтому основную гипотезу следует отвергнуть в пользу альтернативы: связь между переменными
    X
    и
    Y
    значима.
    Данные наблюдений на уровне значимости
    0.01
    говорят о том, что масса монеты в среднем линейно убывает при увеличении возраста монеты.
    7.3. Ранговая корреляция
    При изучении психических и физических способностей человека часто используются испытания, в которых важно не значение измеренного признака, а взаимный порядок, в котором следуют результаты измерений. Например, нас интересует вопрос: зависит ли скорость реакции человека на световой сигнал
    (признак
    X
    ) от скорости реакции на звуковой сигнал (признак
    Y
    )? Проведя
    n
    наблюдений, мы получим выборку — множество пар чисел
    ).
    ,
    (
    i
    i
    y
    x
    Нас ин- тересуют не столько сами значения чисел
    ,
    и
    i
    i
    y
    x
    сколько порядок их следо- вания. Назовем рангом
    i
    -го наблюдения его порядковый номер в вариацион- ном ряду. Так, для выборки из пяти наблюдений
    3.83 2.98 3.96 4.18 3.06 соответствующая последовательность рангов имеет вид
    3 1
    4 5
    2.
    Если величина признаков
    X
    и
    Y
    нас не интересует, то от пар значений признаков
    )
    ,
    (
    i
    i
    y
    x
    можно перейти к парам их рангов
    ).
    ,
    (
    i
    i
    s
    r
    Чем теснее свя- заны признаки
    X
    и
    Y
    , тем в большей степени последовательность рангов
    n
    r
    r
    r
    ...,
    ,
    ,
    2 1
    предопределяет последовательность
    ...,
    ,
    ,
    2 1
    n
    s
    s
    s
    Близость двух рядов рангов отражает величина
    )
    (
    1 1
    2 2


    =
    =

    =
    =
    n
    i
    n
    i
    i
    i
    i
    s
    r
    d
    S
    Она принимает наименьшее возможное значение
    0
    =
    S
    тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее возможное значение
    )
    (
    3 1
    3
    n
    n
    S

    =
    величина
    S
    принимает, когда эти после- довательности полностью противоположны. Поэтому в качестве меры моно- тонной зависимости признаков
    X
    и
    Y
    рассматривают коэффициент ранговой
    корреляции Спирмена:
    (7.3)
    6 1
    3
    .
    n
    n
    S
    r
    S


    =

    91
    Коэффициент
    S
    r
    по абсолютной величине ограничен единицей:
    1

    S
    r
    и принимает значения
    1
    ±
    в случаях полной предсказуемости одной ранговой последовательности по другой. Проверка значимости коэффициента корреля- ции Спирмена проводится с помощью той же статистики, что и для коэффици- ента корреляции Пирсона (табл. 7.1).
    По данным примера 1 (табл. 7.2) рассчитаем коэффициент корреляции
    Спирмена. Последовательностям значений
    i
    i
    y
    x
    и будет соответствовать последовательность рангов (табл. 7.3). Отметим, что одинаковым значениям признака
    Y
    присвоен одинаковый (средний) ранг.
    Таблица 7.3
    Ранговые последовательности примера 1
    i
    1 2 3 4 5 6 7 8 9 10
    i
    r
    1 2 3 4 5 6 7 8 9 10
    i
    s
    9 10 7.5 7.5 5.5 4 3 5.5 2 1
    i
    d
    –8 –8 –4.5 –3.5 –0.5 2 4 2.5 7 9
    В последней строке таблицы указана разность рангов
    10
    ...,
    ,
    2
    ,
    1
    ,
    =

    =
    i
    s
    r
    d
    i
    i
    i
    Величина
    S
    равна
    317 81 49 25 6
    16 4
    25 0
    25 12 25 20 64 64 9
    7 5
    2 4
    2
    )
    5 0
    (
    )
    5 3
    (
    )
    5 4
    (
    )
    8
    (
    )
    8
    (
    2 2
    2 2
    2 10 1
    2 2
    2 2
    2 2
    =
    +
    +
    +
    +
    +
    +
    +
    +
    +
    +
    =
    +
    +
    +
    +
    +
    +

    +

    +

    +

    +

    =
    =

    =
    i
    i
    d
    S
    Коэффициент корреляции Спирмена рассчитаем по формуле (7.3) при
    :
    10
    =
    n
    9 0
    999 1902 1
    10 10 317 6
    1 3

    =

    =



    =
    S
    r
    Значение коэффициента корреляции Спирмена близко к
    –1
    , поэтому ме- жду признаками
    X
    и
    Y
    есть сильная отрицательная корреляционная связь. Этот результат согласуется с результатом применения коэффициента корреляции
    Пирсона.
    7.4. Регрессионые модели
    Предположим, что нам необходимо описать в виде некоторой функции взаимосвязь двух переменных
    X
    и
    Y
    (
    X
    — фактор, независимая переменная;
    Y
    — отклик, зависимая переменная):
    ).
    (X
    f
    Y
    =
    По результатам наблюдений

    92
    мы можем оценить эту зависимость приближенно (в силу воздействия неуч- тенных факторов, случайных причин, ошибок измерения):
    ε,
    )
    (
    +
    =
    x
    f
    y
    где
    ε
    — случайная переменная, называемая возмущением. Предполагается, что среднее значение возмущения равно нулю:
    0
    )
    ε
    (
    =
    M
    При этом для каждого значения
    x
    X
    =
    мы имеем случайную переменную
    Y
    со средним значением
    (математическим ожиданием)
    ).
    (x
    f
    Функция
    )
    (x
    f
    называется функцией
    регрессии случайной переменной
    Y
    на
    X
    , а график этой функции — линией
    регрессии. Уравнение регрессии позволяет определить, каким в среднем будет значение отклика
    Y
    при том или ином значении фактора
    X
    Форма регрессионной зависимости (вид функции
    )
    (x
    f
    ) определяется по
    диаграмме рассеяния, которую получают, нанося экспериментальные точки
    )
    ,
    (
    ...,
    ),
    ,
    (
    ),
    ,
    (
    2 2
    1 1
    n
    n
    y
    x
    y
    x
    y
    x
    на координатную плоскость (рис. 7.1).
    По диаграмме рассеяния подбирают некоторую гладкую кривую таким обра- зом, чтобы она располагалась как можно «ближе» к экспериментальным точ- кам. Часто в качестве такой кривой выбирают прямую линию (рис. 7.1, а)
    x
    b
    b
    y
    1 0
    +
    =
    или многочлен (рис. 7.1, б)
    2 2
    1 0
    x
    b
    x
    b
    b
    y
    +
    +
    =
    Пусть по диаграмме рассеяния выбран вид зависимости
    ).
    ...,
    ,
    ,
    ;
    (
    1 0
    k
    b
    b
    b
    x
    f
    y
    =
    Неизвестные коэффициенты
    k
    b
    b
    b
    ...,
    ,
    ,
    1 0
    этой модели подбираются по методу наименьших квадратов. Согласно этому методу сумма квадратов отклонений экспериментальных значений
    n
    i
    y
    i
    ...,
    ,
    2
    ,
    1
    ,
    =
    от модельных
    )
    ...,
    ,
    ,
    ;
    (
    1 0
    k
    i
    b
    b
    b
    x
    f
    должна быть минимальной:
    (
    )
    (7.4)
    1 2
    0 0
    .
    min
    )
    b
    ...,
    ,
    b
    ;
    x
    (
    f
    y
    )
    b
    ...,
    ,
    b
    (
    Q
    n
    i
    k
    i
    i
    k


    =

    =
    x
    x
    y
    y
    а б
    Рис. 7.1. Диаграмма рассеяния при линейной (а) и квадратичной (б) зависимости переменных
    X
    и
    Y

    93
    7.5. Уравнение линейной регрессии
    Пусть по диаграмме рассеяния на основе выборки
    )
    ,
    (
    ...,
    ),
    ,
    (
    ),
    ,
    (
    2 2
    1 1
    n
    n
    y
    x
    y
    x
    y
    x
    определена форма зависимости
    X
    и
    Y
    в виде прямой линии:
    x
    b
    b
    y
    1 0
    +
    =
    . Оценки коэффициентов
    ,
    и
    1 0
    b
    b
    найденные ме- тодом наименьших квадратов из условия (7.4), имеют вид:
    (7.6)
    1 0
    1
    ,
    x

    y

    ;
    s
    s


    X
    Y
    XY

    =

    =
    (7.5)
    где
    y
    x ,
    — средние значения переменных
    X
    и
    Y
    , рассчитанные по выборке;
    2 2
    ,
    Y
    X
    s
    s
    — несмещенные оценки дисперсий
    X
    и
    Y
    ;
    XY

    — оценка коэффициента корреляции Пирсона.
    Коэффициент
    1
    b
    в уравнении линейной регрессии характеризует влия- ние, которое оказывает изменение
    X
    на изменение
    Y
    . Поэтому оценка
    1
    b
    ис- пользуется для расчета выборочного коэффициента эластичности
    (7.7)
    1
    .
    y
    x

    ݈

    =
    Напомним, что коэффициент эластичности
    Э
    показывает, на сколько процентов в среднем изменится значение отклика
    Y
    при изменении фактора
    X
    на 1 %.
    Пример 1. Предположим, что нас интересует выручка от продажи баноч- ного пива в магазинах города в течение дня. При исследовании 20 магазинов получены следующие данные (табл. 7.4). Построить регрессионную модель зависимости выручки магазина от числа посетителей.
    Таблица 7.4
    Данные примера 1
    № п/п
    Число посетителей
    Выручка
    (у.е.)
    № п/п
    Число посетителей
    Выручка
    (у.е.)
    1 907 11.20 11 679 7.63 2 926 11.05 12 872 9.43 3 506 6.84 13 924 9.46 4 741 9.21 14 607 7.64 5 789 9.42 15 452 6.92 6 889 10.08 16 729 8.95 7 874 9.45 17 794 9.33 8 510 6.73 18 844 10.23 9 529 7.24 19 1010 11.77 10 420 6.12 20 621 7.41

    94
    Решение. Факторной переменной в данной задаче является
    X
    — число посетителей магазина; откликом
    Y
    — выручка магазина. Построим диаграмму рассеяния по имеющимся данным (рис. 7.2).
    Рис. 7.2. Диаграмма рассеяния для данных примера 1
    По виду диаграммы есть основания предполагать линейную зависимость выручки от числа посетителей магазина.
    Для расчета коэффициентов регрессии по формулам (7.5), (7.6) найдем средние значения


    =
    =
    =
    =
    =
    =
    20 1
    20 1
    ,
    806 8
    20 1
    ;
    15 731 20 1
    i
    i
    i
    i
    y
    y
    x
    x
    несмещенные оценки дисперсий


    =
    =
    =


    =
    =


    =
    20 1
    2 2
    20 1
    2 2
    703 2
    )
    (
    1 20 1
    ;
    32348
    )
    (
    1 20 1
    i
    i
    Y
    i
    i
    X
    y
    y
    s
    x
    x
    s
    и оценку коэффициента корреляции Пирсона
    .
    .
    s
    s
    y
    x
    y
    x

    Y
    X
    i
    i
    i
    XY
    955 0
    20 1
    20 1
    =


    =

    =
    Близость коэффициента корреляции к единице свидетельствует о тесной по- ложительной связи между выручкой магазина и числом посетителей.
    0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0
    100 200 300 400 500 600 700 800 900 1000
    X
    Y

    95
    По формуле (5.5)
    ,
    .
    .
    .

    999 0
    703 2
    32348 955 0
    1
    =

    =
    по формуле (5.6)
    .
    .
    .
    .
    .

    423 2
    15 731 999 0
    806 8
    0
    =


    =
    Таким образом, уравнение регрессии
    Y
    на
    X
    имеет вид
    (7.8)
    009 0
    423 2
    x
    .
    .
    y
    +
    =
    Коэффициент
    1
    b
    характеризует наклон линии регрессии и значение
    009 0
    1
    .

    =
    показывает, что при увеличении
    X
    на единицу ожидаемое значе- ние
    Y
    возрастает на
    0.009
    . Регрессионная модель (7.8) указывает на то, что каждый новый посетитель магазина увеличивает дневную выручку на 0.009 у.е.; или можно сказать, что ожидаемый прирост ежедневной выручки соста- вит примерно 9 у.е. при привлечении в магазин 100 дополнительных покупа- телей. Отсюда
    1
    b
    может интерпретироваться как прирост ежедневной выруч- ки, который меняется в зависимости от числа посетителей магазина.
    Свободный член
    0
    b
    в уравнении (7.8) — это значение
    Y
    при
    0
    =
    X
    По- скольку маловероятно число посетителей магазина, равное нулю, то можно рассматривать
    0
    b
    как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии. Это влияние можно оценить и с помощью коэффициента детерминации.
    Коэффициент детерминации
    2
    XY

    B
    =
    для линейной модели характери- зует долю объясняемого моделью разброса экспериментальных данных. В нашем примере
    ,
    912 0
    955 0
    2
    =
    =
    B
    следовательно, модель (7.8) учитывает
    91.2 % изменения выручки магазина. Только 8.8 % разброса объясняются фак- торами, не включенными в уравнение регрессии.
    Коэффициент эластичности для модели (7.8) вычисляем по формуле
    (7.7):
    ,
    .
    .
    .
    .
    ݈
    747 0
    806 8
    15 731 009 0
    =

    =
    т.е. при увеличении среднего числа посетителей магазина на 1 % ежедневная выручка в среднем возрастает на 0.7 %.
    7.6. Линейная регрессия и прогноз
    Регрессионная модель может быть использована в задачах прогнозирова- ния. Например, мы хотим использовать модель (7.8) для предсказания средней ежедневной выручки магазина, который посетит 600 покупателей. Подставив значение
    600
    =
    x
    в уравнение (7.8), получим предполагаемое среднее значе- ние
    Y
    :
    661 7
    600 009 0
    423 2
    )
    600
    (
    =

    +
    =
    y
    — прогнозируемая средняя дневная выручка для магазина с 600 посетителями равна 7.661 у.е. Насколько

    96
    можно доверять этому утверждению? Для ответа на этот вопрос нужно по- строить доверительный интервал для найденной точечной оценки.
    Стандартная ошибка оценки для уравнения регрессии рассчитывается по формуле
    (
    )
    (7.9)
    2 1
    1 2
    1 0
    ε

    =
    +


    =
    n
    i
    i
    i
    )
    x
    b
    b
    (
    y
    n
    s
    и характеризует отклонение фактических данных от линии регрессии.
    Доверительный интервал для неизвестного генерального среднего
    Y
    при
    фиксированном значении
    x
    X
    =
    имеет вид
    (
    )
    (7.10)
    ε
    êð
    ε
    êð
    )
    x
    (
    h
    s
    t
    )
    x
    (
    y
    ;
    )
    x
    (
    h
    s
    t
    )
    x
    (
    y


    +



    где
    x
    b
    b
    x
    y
    1 0
    )
    (
    +
    =
    — среднее значение Y, рассчитанное по уравнению рег- рессии;
    )
    α
    ;
    2
    (
    кр

    = n
    t
    t
    — двусторонняя критическая точка распределения Стью- дента с числом степеней свободы
    2

    = n
    k
    и уровнем значимости
    γ.
    1
    α

    =
    (7.11)
    1 2
    2
    .
    ns
    )
    x
    x
    (
    n
    )
    x
    (
    h
    x

    +
    =
    Из формул (7.10), (7.11) видно, что ширина доверительного интервала за- висит от заданного значения
    x
    : чем ближе
    x
    к
    x
    , тем уже доверительный ин- тервал (рис. 7.3).
    Ширина интервала зависит также от объема выборки
    n
    и заданной дове- рительной вероятности
    γ.
    Рассчитаем 95 % доверительный интервал для среднего значения днев- ной выручки во всех магазинах с числом посетителей, равным
    600
    . По урав- нению регрессии получена оценка
    661 7
    )
    600
    (
    =
    y
    Рис. 7.3. Доверительный интервал для прямой регрессии

    97
    Критическую точку кр
    t
    находим по таблице распределения Стьюдента
    (приложение 3) с числом степеней свободы
    18 2
    20 2
    =

    =

    = n
    k
    и уровнем значимости
    05 0
    95 0
    1
    γ
    1
    α
    =

    =

    =
    (двусторонняя область)
    1 2
    )
    05 0
    ;
    18
    (
    кр
    =
    = t
    t
    Стандартную ошибку рассчитываем по формуле (7.9):
    501 0
    ε
    =
    s
    При
    32348
    и
    15 731
    ,
    600 2
    =
    =
    =
    X
    s
    x
    x
    вычисляем
    )
    (x
    h
    по формуле
    (7.11):
    077 0
    32348 20
    )
    15 731 600
    (
    20 1
    )
    600
    (
    2
    =


    +
    =
    h
    Теперь рассчитываем границы доверительного интервала:
    37 7
    291 0
    661 7
    )
    600
    (
    )
    600
    (
    ,
    952 7
    291 0
    661 7
    )
    600
    (
    )
    600
    (
    ε
    кр
    ε
    кр
    =

    =



    =
    +
    =


    +
    h
    s
    t
    y
    h
    s
    t
    y
    Следовательно, 95 %-ный доверительный интервал для уравнения рег- рессии при
    600
    =
    X
    имеет вид
    (7.37; 7.952)
    — с вероятностью
    0.95
    мы ут- верждаем, что средняя дневная выручка для всех магазинов с
    600
    посетителя- ми находится между
    7.37
    и
    7.952
    у.е.
    Доверительный интервал для индивидуальных значений
    )
    (x
    Y
    Y
    =
    будет шире, чем доверительный интервал для средних значений; его границы рас- считываются по формуле
    (
    )
    (7.12)
    ,
    1 1
    ε
    êð
    ε
    êð
    )
    x
    (
    h
    s
    t
    )
    x
    (
    y
    ;
    )
    x
    (
    h
    s
    t
    )
    x
    (
    y
    +


    +
    +



    где
    x
    b
    b
    x
    y
    1 0
    )
    (
    +
    =
    — среднее значение Y, рассчитанное по уравнению рег- рессии при данном
    x
    ;
    )
    α
    ;
    2
    (
    кр

    = n
    t
    t
    — двусторонняя критическая точка распределения
    Стьюдента;
    )
    (x
    h
    — рассчитывается по формуле (7.11).
    Построим 95 %-ный доверительный интервал для оценки дневной вы- ручки отдельного магазина с
    600
    покупателями. Правая граница интервала равна
    ,
    754 8
    093 1
    661 7
    )
    (
    1
    )
    600
    (
    ε
    кр
    =
    +
    =
    +


    +
    x
    h
    S
    t
    y
    левая его граница
    Следовательно, с 95 %-ной надежностью можно утверждать, что еже- дневная выручка отдельного магазина, который посетили 600 покупателей, находится в пределах от 6.568 до 8.754 у.е.
    568 6
    093 1
    661 7
    )
    (
    1
    )
    600
    (
    ε
    кр
    =

    =
    +



    x
    h
    s
    t
    y

    98
    8. КОНТРОЛЬНЫЕ РАБОТЫ
    8.1. Контрольная работа № 1
    Контрольная работа № 1 содержит пять задач по темам 1, 2, 3 разделов настоящего пособия. Номер варианта соответствует последней цифре номера зачетной книжки.
    Задача 1.
    1   ...   5   6   7   8   9   10   11   12   13


    написать администратору сайта