Главная страница
Навигация по странице:

  • Внутригрупповая дисперсия

  • Контрольные вопросы к теме «Показатели вариации»

  • Контрольные задания к теме «Показатели вариации»

  • Тема 7. Виды и формы связей, различаемые в статистике

  • 6.1. Виды и формы связей, различаемые в статистике

  • Функциональная жестко детерминированная связь

  • Корреляционная связь

  • Метод приведения параллельных данных

  • Метод аналитических группировок.

  • Для установления связи между признаками данные группируются по признаку-фактору

  • 6.2. Измерение тесноты связи в случае корреляционной зависимости.

  • 6.3. Оценка достоверности коэффициента корреляции

  • 6.4. Ранговая корреляция

  • 6.5. Корреляция альтернативных признаков

  • Курс лекций. Теория статистики Пособие для студентов, обучающихся по дистанционной системе Введение Статистика


    Скачать 2.79 Mb.
    НазваниеТеория статистики Пособие для студентов, обучающихся по дистанционной системе Введение Статистика
    АнкорКурс лекций
    Дата18.06.2022
    Размер2.79 Mb.
    Формат файлаdoc
    Имя файлаKurs_lekcij_dlya_distancionnogo_obucheniya (1).doc
    ТипРеферат
    #602460
    страница10 из 17
    1   ...   6   7   8   9   10   11   12   13   ...   17

    6.3. Вариация альтернативного признака



    Среди признаков, изучаемых статистикой, есть такие, которые принимают лишь два взаимно исключающих значения. Это – альтернативные признаки. Им придается соответственно два значения: 1 и 0. Частостью варианта 1 (она обозначается ) является доля единиц, обладающих данным признаком, в общей численности совокупности. Разность является частостью варианта 0. Таким образом:





    1



    0




    Средняя арифметическая альтернативного признака



    Дисперсия альтернативного признака

    ,

    то есть дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающим этим признаком.

    Если значения 1 и 0 встречаются одинаково часто, то дисперсия достигает своего максимума

    Правило сложения дисперсий распространяется и на дисперсии доли признака, то есть доли единиц с определенным признаком в совокупности, разбитой на группы.
    Внутригрупповая дисперсия доли определяется по формуле



    Средняя из внутригрупповых дисперсий рассчитывается так:



    Формула межгрупповой дисперсии имеет следующий вид:



    где ni – численность единиц в отдельных группах;

    рi – доля изучаемого признака во всей совокупности, которая определяется по формуле:



    Общая дисперсия определяется по формуле



    Три вида дисперсий объединены между собой следующим образом:


    Это – правило сложения дисперсии доли признака.
    Пример. Имеются следующие данные об удельном весе основных рабочих в трех цехах фирмы:
    Удельный вес основных рабочих фирмы

    Цех

    Удельный вес основных рабочих в % (pi)

    Численность всех рабочих

    1

    2

    3

    80

    75

    90

    100

    200

    150

    Итого

    -

    450


    1) Определим долю рабочих в целом по фирме (формула 4)

    2) Общая дисперсия доли основных рабочих по всей фирме в целом будет равна ( формула 5)


    3) Внутрицеховые дисперсии рассчитаем, применив формулу 1

    4) Средняя из внутригрупповых дисперсий будет равна (формула 2 )

    5) Межгрупповую дисперсию определим по формуле 3



    Проверка вычислений показывает: 0,154 = 0,15 + 0,004.

    Контрольные вопросы к теме «Показатели вариации»


    1. Чем вызвана необходимость изучения вариации признака?

    2. Укажите основные показатели вариации.

    3. Какие вам известны способы расчета дисперсии и среднего квадратического отклонения?

    4. Как определяется дисперсия альтернативного признака?

    5. Что такое коэффициент вариации?

    6. Правило сложения дисперсий. Что показывают частная (внутригрупповая), средняя из частных, межгрупповая и общая дисперсии?

    7. Как рассчитываются и что характеризуют коэффициент детерминации и эмпирическое корреляционное отношение?



    Контрольные задания к теме «Показатели вариации»


    1. Дисперсия признака равна 600. Объем совокупности равен 10. Сумма квадратов индивидуальных значений признака равна 6250. Найти среднюю величину.

    2. Средняя величина в совокупности равна 15, среднее квадратическое отклонение равно 10. Чему равен средний квадрат индивидуальных значений этого признака?

    3. Средняя величина в совокупности равна 13, а средний квадрат индивидуальных значений этого признака равен 174. Определить коэффициент вариации.

    4. Дисперсия признака равна 360000, коэффициент вариации равен 50%. Чему равна средняя величина признака?

    5. Дисперсия признака равна 360, средний квадрат индивидуальных значений равен 585. Чему равна средняя?

    6. Определить дисперсию признака, если средняя величина признака равна 2600, а коэффициент вариации признака равен 30%.

    7. Общая дисперсия равна 8,4. Средняя величина признака для всей совокупности равна 13. Средние по группам равны соответственно 10, 15 и 12. Численность единиц в каждой группе составляет 32, 53, и 45. Определить среднюю внутригрупповую дисперсию.

    8. По совокупности, состоящей из 100 единиц, известны: средняя арифметическая – 47,0; сумма квадратов индивидуальных значений признака–231592. Определить, однородна ли изучаемая совокупность.

    9. Определить величину эмпирического корреляционного отношения, если общая дисперсия равна 15,2; групповые средние ; , а численность групп соответственно равны 75, 60 и 65.

    10. Для изучения уровня заработной платы рабочих на предприятии обследовано 500 мужчин и 300 женщин. Результаты исследования показали, что у мужчин средняя заработная плата составила 1200 у.е. при среднеквадратическом отклонении 200 у.е., у женщин соответственно 800 у.е. и 150 у.е.

    Определить: 1) среднюю заработную плату работников;

    2) дисперсии заработной платы и коэффициент вариации;

    3) коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Имеются данные о чистой прибыли (балансовой за вычетом налогов) предприятий двух районов:




    Район

    Число предприятий

    Чистая прибыль, млн. руб.

    1

    6

    4, 6, 9, 4, 7, 6

    2

    10

    8, 12, 8, 9, 6, 5, 7, 7, 8, 10


    Определите дисперсии чистой прибыли: групповые (по каждому району), среднюю из групповых, межгрупповую и общую.

    1. Имеются данные о заработной плате по двум группам работников:




    Группы работников

    Число работников

    Заработная плата, у.е


    Работающие в 1-й фирме

    4

    200

    2

    300

    1

    400

    Работающие в 2-х фирмах

    3

    500

    2

    600

    Найти все виды дисперсий заработной платы, коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Имеются следующие данные о среднем ежедневном времени занятости семейных женщин в домашнем хозяйстве:




    Возрастные группы семейных женщин в домашнем хозяйстве

    Численность женщин в группе

    Частные средние (часов в день)

    Частные дисперсии

    до 25

    250

    2,0

    4,0

    25-45

    420

    3,5

    6,8

    свыше 45

    330

    3,2

    5,0

    Найти общую дисперсию занятости, коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Есть две группы людей с разным месячным доходом (тыс. руб.):

    Группа А: 3, 3, 3, 4.

    Группа Б: 6, 6, 7.

    В какую группу нужно отнести человека с доходом 5 тыс. руб. в месяц.

    1. По результатам маркетингового исследования туристических фирм, организующих недельные туры в Турцию в различные курортные города, получены следующие данные о вариации стоимости туров (цены приведены для гостиниц одного класса):




    Месторасположение курорта

    Число туристических фирм

    Средняя цена недельного тура, у.е.

    Дисперсия цен тура в группе

    Анталия

    7

    530

    2720

    Бодрум

    6

    590

    8855

    Итого

    13

    550

    5550


    Найти общую дисперсию, коэффициент детерминации и эмпирическое корреляционное отношение.

    1. По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели:




    Отрасль

    Средняя заработная плата, руб.

    Численность работников, чел.

    Дисперсия заработной платы

    здравоохранение

    600

    80

    4900

    образование

    800

    120

    16900


    Определить: 1) среднюю заработную плату работников по двум отраслям;

    2) дисперсии заработной платы;

    3) коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Имеются следующие данные (условные) по трем группам рабочих:




    Стаж работы (лет)

    Число рабочих

    Средняя заработная плата, руб.

    Среднеквадратическое отклонение заработной платы

    до 3

    10

    500

    12

    3 –10

    15

    600

    10

    более 10

    25

    700

    20


    Рассчитать: 1) среднюю заработную плату всей совокупности рабочих;

    2) дисперсии заработной платы;

    3) коэффициент детерминации и эмпирическое корреляционное отношение.

    1. При изучении бюджета времени студентов было проведено обследование учащихся ВУЗов. При обследовании ВУЗы были разбиты на 7 групп по специализации. Были получены следующие результаты среднего количества времени, затрачиваемого студентами ежедневно на самостоятельную работу:




    ВУЗы по группам специальностей

    Число обследованных студентов, тыс.чел.

    Среднее число часов на самостоятельную работу

    Средний квадрат отклонений

    Промышленность и строительство


    42


    2,0


    0,6

    Транспорт

    5

    1,4

    0,5

    Право

    13

    1,7

    0,3

    Экономика

    22

    1,5

    0,7

    Здравоохранение

    10

    1,0

    0,8

    Искусство

    5

    1,6

    1,0

    Просвещение

    36

    1,8

    0,.6


    Используя правило сложения дисперсий определить зависимость между средним числом часов на самостоятельную работу от специализации студента.

    1. Для определения средней величины расходов на полугодовую подписку на газеты и журналы обследуемая совокупность семей разбита на группы по уровня дохода на три группы. По группам получены следующие результаты:




    Номер группы

    Число семей в группе

    Средние расходы на подписку, руб.

    Групповые дисперсии

    1

    300

    200

    14

    2

    500

    400

    30

    3

    200

    600

    60


    Определите все виды дисперсий расходов, коэффициент детерминации и эмпирическое корреляционное отношение.

    1. В районе 20 тыс. семей, проживающих в городах, поселках городского типа и сельской местности. В результате были получены следующие данные о среднем числе детей в семьях:




    Семьи, проживающие

    Удельный вес семей в генеральной совокупности, %

    Среднее число детей в семьях

    Среднее квадратическое отклонение

    В городах

    50

    2,3

    1,2

    В пос. гор. типа

    10

    1,8

    0,5

    В сельской местности

    40

    2,8

    2,5


    Используя правило сложения дисперсий определите коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Имеются следующие выборочные данные о вкладах населения района:




    Группы населения

    Число вкладов

    Средний размер вклада, тыс. руб.

    Коэффициент вариации вклада, %

    Городское

    7

    4

    20

    Сельское

    3

    6

    30


    Определите тесноту связи между средним размером вклада и типом населения, исчислив коэффициент детерминации и эмпирическое корреляционное отношение.

    1. Капитал коммерческих банков характеризуется следующими данными:




    № п/п

    Собственный капитал банков, млн. руб.

    Число банков

    Средний размер привлеченных средств (капитала), млрд. руб.

    Дисперсия привлеченных средств

    1

    30-40

    8

    100

    400

    2

    40-50

    10

    180

    2500

    3

    50-60

    2

    200

    3600


    Определите показатели тесноты связи между размером собственного капитала банков и привлеченными средствами, исчислив коэффициент детерминации и эмпирическое корреляционное отношение.
    Тема 7. Виды и формы связей, различаемые в статистике


    Изучив тему, студент должен




    Знать




    - классификацию взаимосвязей социально-экономических явлений по различным классификационным признакам;

    - коэффициенты, оценивающие силу и направление взаимосвязи.

    Уметь




    - обоснованно выбирать и рассчитывать показатели силы взаимосвязи, соответствующие исходным данным.




    План

    6.1

    Виды и формы связей, различаемые в статистике

    6.2

    Измерение тесноты связи в случае корреляционной зависимости

    6.3

    Оценка достоверности коэффициента корреляции

    6.4

    Ранговая корреляция

    6.5

    Корреляция альтернативных признаков

    6.6

    Коэффициент взаимной сопряженности К.Пирсона



    6.1. Виды и формы связей, различаемые в статистике
    Современная наука об обществе объясняет суть явлений через изучение их взаимосвязи. Например, объем валютных торгов зависит от спроса на валюту, который в свою очередь определяется состоянием экономики, активностью внешнеэкономической деятельности субъектов и др., объем продукции предприятия связан с численностью работников, стоимостью основных фондов и т.д.

    Различают два типа взаимосвязей между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную.

    Функциональная жестко детерминированная связь – это вид причинной зависимости, при которой определенному значению факторного признака соответствует одно или несколько точно заданных значений результативного признака. Этот вид связи встречается чаще в естественных науках, но так же и в экономике.

    Например, при простой сдельной оплате труда связь между оплатой труда y и количеством изготовленных изделий x при фиксированной расценке за одну деталь, например, 7 руб. можно выразить формулой y = 7x

    Стохастическая связь – это вид причинной зависимости, проявляющейся не каждом отдельном случае, а в общем, среднем, при большом числе наблюдений.

    Среди взаимосвязанных признаков одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вторые как следствие, результат влияния первых. Соответственно первые, то есть признаки, влияющие на изменение других, называют факторными, а вторые – результативными. Стохастические взаимосвязи могут быть изучены различными способами. Наиболее известный из них метод изучения корреляционных связей.

    Корреляционная связь (от английского слова correlationсоотношение, соответствие) - частный случай стохастической связи, состоящей в том, что c изменением факторного признака ) закономерным образом изменяется среднее значениерезультативного признака (y), в то время как в каждом отдельном случае y может принимать множество различных значений.

    Корреляционная связь между признаками может возникать различными путями. Важнейший путь – взаимосвязь вариации результативного признака с вариацией факторного признака. Обычно в этом случае говорят о взаимосвязи признаков. Например, y – урожайность сельскохозяйственной культуры, х – балл оценки плодородия почв. Либо, y – сумма налоговых поступлений в региональный бюджет, x – выручка от реализации продукции. Здесь совершенно логически ясно, какой признак выступает как независимая переменная (фактор), какой как зависимая переменная ( результат).

    По направлению выделяют связь прямую и обратную (положительную и отрицательную), По аналитическому выражению линейную и нелинейную. Изучение корреляционных связей сводится в основном к решению следующих задач:

    • выявление наличия (или отсутствия) связи между изучаемыми признаками;

    • измерение степени тесноты связи между признаками;

    • нахождение аналитического выражения связи, отражающей зависимость между х и у;

    • экономическая интерпретация и практическое использование полученного результата.

    В начальной стадии анализа статистических зависимостей применяются простейшие методы оценки наличия связи, её направления и характера, выявляется форма воздействия одних факторов на другие. Для этих целей применяются методы приведения параллельных данных; графический и аналитических группировок.

    Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о её характере.

    Пример 1. Предположим, мы имеем данные о выпуске продукции на 6 однотипных предприятиях (х) и потреблении на них электричества (у):

    Сравним изменения двух величин:

    Таблица 1. Зависимость потребления электричества от объема выпуска продукции

    Выпуск продукции

    5

    7

    10

    12

    15

    17

    Потребление электричества

    17

    22

    26

    24

    30

    42

    Таблица наглядно демонстрирует, что с увеличением х возрастает и у, поэтому связь между ними считать прямой.

    Графический метод используется для наглядного изображения формы связи между изучаемыми признаками. Для этого в прямоугольных осях координат строят график, по оси y, которого откладывают индивидуальные значения результативного признака, а по оси х – индивидуальные значения – факторного. Полученная совокупность точек называется полем корреляции.


    График, построенный по индивидуальным значениям признаков Примера 1, указывает на то то, что связь носит приблизительно линейный характер.

    Метод аналитических группировок. В теме группировка мы уже говорили, что при аналитической группировке исследуется связь между двумя и более признаками, из которых один рассматривается как результат, другой (другие) как фактор (факторы). Для установления связи между признаками данные группируются по признаку-фактору, который располагается в подлежащем аналитической таблицы. Изменения факторного признака при переходе от одной группы к другой вызывают соответствующие изменения результативного признака.

    Таблица 2. Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств на 200__ год

    Продолжительность

    оборота

    средств в днях (х)

    Число малых

    предприятий

    Средняя прибыль, у.е.

    (y)

    40 - 50

    6

    14,57

    51 - 70

    8

    12,95

    71 – 101

    6

    7,40

    Итого

    20

    11,77


    Оборачиваемость в днях – фактор, обозначаемый обычно х, а прибыль – результат – y. Таблица ясно демонстрирует присутствие связи между признаками, это – обратная (отрицательная) связь.
    6.2. Измерение тесноты связи в случае корреляционной зависимости.
    Большинство методов измерения тесноты связи заключается в сопоставлении отклонений значений признаков от их средних. Это основано на предположении, что при полной независимости признаков отклонения значений факторного признака от средней носят случайный характер и должны случайно сочетаться с различными отклонениями . При наличии значительного перевеса совпадений или несовпадений таких отклонения делается предположение о наличии связи между х и y.

    Один из простейших показателей тесноты связи разработан австрийским психиатром Г.Фехнером:



    Показатель Фехнера изменяется от [-1;1], при значении равном 1 он указывает на полную прямую связь, при значении –1 на полную обратную связь, при i=0 связь отсутствует. Промежуточные значения i характеризуют степень близости связи к функциональной.

    Например, для данных примера 1 рассчитаем средние значения для х и у:





    Таблица 3. Расчет коэффициента Фехнера для оценки степени зависимости потребления электричества от объема выпуска продукции

    Выпуск продукции

    5

    7

    10

    12

    15

    17

    Потребление эл-ва

    17

    22

    26

    24

    30

    42



    -6

    -4

    -1

    1

    4

    6



    -9,83

    -4,83

    -0,83

    -2,83

    3,17

    15,17



    Можно считать связь достаточно сильной.

    Недостаток показателя Фехнера состоит в том, что разные по абсолютной величине отклонения имеют одинаковый вес.

    Самый известный измеритель тесноты связи между признаками - линейный коэффициент корреляции Пирсона (назван по имени английского статистика К.Пирсона, введшего это коэффициент в научный анализ), он характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

    Что представляет собой этот коэффициент?

    Вновь используем для расчета данные примера 1. Запишем расчеты в виде среднего значения совместных отклонений признаков от их средних значений:

    Полученное значение называется коэффициентом ковариации. Это – мера совместной вариации признаков. Или мы можем сказать, что это – мера соответствия вариации результативного признака вариации факторного. Недостатком коэффициента ковариации является то, что он не нормирован. Для преодоления этого недостатка можно полученное выражение разделить на среднее квадратическое отклонение по х и по y.


    Полученное значение – линейный коэффициент корреляции, показатель интенсивности линейной связи. Это - безразмерная величина, которая изменяется в интервале от –1 до +1, . Существует эмпирическое правило, согласно которому качественная оценка связи между признаками производится по шкале Чеддока:



    Связь



    Связь

    0

    0-0,2

    0,2-0,3

    0,3-0,5

    Отсутствует

    Очень слабая

    Слабая

    Умеренная

    0,5-0,7

    0,7-0,9

    0,9-0,99

    1

    Заметная

    Тесная

    Весьма тесная

    Функциональная

    Путем ряда преобразований можно получить следующие аналитические выражения для коэффициента корреляции:


    Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле:


    Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределения которых близки к нормальному.

    6.3. Оценка достоверности коэффициента корреляции
    Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой :

    ,

    При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

    1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

    ,
    При достаточно большом числе наблюдений r должен превышать свою среднюю ошибку не менее, чем в три раза: . Если это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

    Задавшись определенной вероятностью, можно построить доверительные границы r:



    Так, например, при вероятности 0,95, для которой t= 1,96, доверительные границы составят

    ,

    При вероятности 0,997, для которой коэффициент доверия t= 3, доверительные границы составят



    Поскольку значение r не может превышать единицу, то в случае, если > 1, следует указать только нижний предел, то есть утверждать, что реальный r не меньше, чем .

    2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n < 30), средняя ошибка линейного коэффициента корреляции находится по формуле:



    а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:


    расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, то есть r=0, то распределение t- критерия подчиняется закону распределения Стьюдента с n-2 степенями свободы и принятым уровнем значимости (обычно 0,05). В каждом конкретном случае по таблице распределения t-критерия Стьюдента находится табличное (критическое) значение t, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t. Если tрасч. > t табл. , то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между xи y – существенной. И наоборот.

    3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.

    Для этого рассчитывается величина



    Распределение z приближается к нормальному. Вариация z выражается формулой


    Рассчитаем z критерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.
    .

    Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствует Z=1,74.

    Находим



    Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.
    6.4. Ранговая корреляция
    Если n вариантов ряда расположены в соответствии с возрастанием или убыванием признака х, то говорят, что объекты ранжированы по этому признаку. Ранг для хiуказывает место, которое занимает i-е значение признака среди других n значений признака х (i=1,2,..n).

    Например, при исследовании рынка можно задаться целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженного, водки и т.п.), таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если имеется два набора ранжированных данных, то можно установить степень линейной зависимости между ними. Предположим имеется 5 продуктов, которые ранжированы по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В.

    Характеристики

    для ранжирования

    Продукты

    V W X Y Z

    A

    B

    2 5 1 3 4

    1 3 2 4 5

    Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различиях между рангами.

    Обозначим D= ранг A – ранг B

    Коэффициент Спирмена равен: ,

    где n – число пар ранжированных наблюдений.

    В нашем примере мы имеем пять пар рангов, следовательно, n = 5. Cумма D2 равна:

    (2-1)2 + (5-3)2 + (1-2)2 + (3-4)2 + (4-5)2=1+4+1+1+1=8

    Коэффициент Спирмена равен:



    То есть мы нашли достаточно сильную линейную связь. Коэффициент Спирмена изменяется в интервале от [-1; 1] и интерпретируется так же как и коэффициент Пирсона. Разница лишь в том. что он вычисляется для ранжированных данных.

    Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле: . (12).

    Значение коэффициента считается существенным, если tрасч. > tкрит. (; k = n-2).
    6.5. Корреляция альтернативных признаков
    Альтернативные признаки – это признаки, принимающие только два возможных значения. Исследования их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которые сводятся значения признаков.

    a

    b

    c

    d

    Например, требуется измерить связь между прививками от гриппа и снижением заболеваемости гриппом в группе случайно выбранных студентов.




    Заболели

    Не заболели

    Итого

    Привитые

    30

    20

    50

    Не привитые

    15

    5

    20

    Итого

    45

    25

    70



    Вопрос: существует ли связь между заболеваемостью и прививками?

    Решение

    Для измерения тесноты взаимосвязи признаков производится расчет коэффициента контингенции по формуле:

    (13)

    Коэффициент контингенции принимает значения на интервале [-1; 1]. Интерпретация аналогична коэффициенту корреляции. Мы получили слабую отрицательную связь, то есть

    Другой метод измерения связи основан на расчете коэффициента ассоциации:

    (14)

    Минус перед коэффициентом говорит об обратном направлении связи, чем больше прививок, тем меньше заболеваний.

    Коэффициент контингенции всегда бывает меньше коэффициента ассоциации и дает более корректную оценку тесноты связи.

    Задача В результате обследования работников предприятия получены следующие данные (чел.)

    Образование

    Удовлетворены работой

    Не удовлетворены работой

    Итого

    Высшее и среднее

    300

    50

    350

    Незаконченное среднее

    200

    250

    450

    Итого

    500

    300

    800


    Требуется оценить тесноту взаимосвязи между уровнем образования и удовлетворенностью своей работой с помощью коэффициентов контингенции и ассоциации.
    1   ...   6   7   8   9   10   11   12   13   ...   17


    написать администратору сайта