ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ. Статистика (ВО) Книга тема статистическое изучение взаимосвязей напечатано сЭБ11 Дашкова Елена Евгеньевна Дата Воскресенье, 23 октября 2022, 11 59
Скачать 0.81 Mb.
|
23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 1/17 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ Сайт: Образовательный портал НГУЭУ Курс: Статистика (ВО) Книга: ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ Напечатано:: сЭБ11 Дашкова Елена Евгеньевна Дата: Воскресенье, 23 октября 2022, 11:59 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 2/17 Описание ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 3/17 Оглавление 1. Основные понятия корреляционного и регрессинного анализа 2. Парная корреляция и парная линейная регрессия 3. Множественная линейная регрессия 4. Нелинейная регрессия. Коэффициенты эластичности 5. Множественная корреляция 6. Оценка значимости параметров взаимосвязи 7. Непараметрические методы оценки связи (Часть 1) 8. Непараметрические методы оценки связи (Часть 2) 9. Непараметрические методы оценки связи (Часть 3) 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 4/17 1. Основные понятия корреляционного и регрессинного анализа Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики. Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции. Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной.Объяснение тому — сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции. Например,некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля,участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода,состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается, увеличение массы внесенных удобрений ведет к росту урожайности. По направлению связи бывают прямыми,когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными. Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем не линейно. Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные — множественной. Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе.Но кроме перечисленных различают также непосредственные,косвенные и ложные связи.Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь —это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна. По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей. В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая — регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычисли тельных процедур, взаимодополнения при интерпретации результатов. Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле, когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле, когда исследуется сила связи, и регрессионный анализ, входе которого оцениваются ее форма и воздействие одних факторов на другие. Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной. Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей. Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов.Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную.Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования. Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические.Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин,которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы — параметрические — и принято называть корреляционными. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 5/17 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 6/17 2. Парная корреляция и парная линейная регрессия Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы. В основу группировки положены два изучаемых во взаимосвязи признака — Х и У.Частоты f показывают количество соответствующих сочетаний Хи У. Если f расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания f допустимо утверждать о связи между Х и У.При этом, если f концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь. Наглядным изображением корреляционной таблицы служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения X, по оси ординат — У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи. По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов. Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле: Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета. Коэффициент корреляции принимает значения в интервале от –1 до +1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3 + 0,7) — средняя; при |r| > 0,70 — сильная или тесная. Когда |r|= 1 — связь функциональная. Если же r ≈ 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей, рассматриваемых ниже. Для характеристики влияния изменений X на вариацию Y служат методы регрессионного анализа.В случае парной линейной зависимости строится регрессионная модель Уравнение регрессии записывается как: Параметры а и а оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки а и а получают, когда: ij ij ij ij 0 1 0 1 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 7/17 т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а и а . Ее минимизация осуществляется решением системы уравнений: Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов,например: Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров:а — это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а больше 0, то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а. Параметр а обладает размерностью отношения Y к X. Параметр а — это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение Y. Например,по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение: Y = –12,14 + 2,08 × Х . Коэффициента означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2,08 тыс. руб. Значение функции Y = а + а Х называется расчетным значением и на графике образует теоретическую линию регрессии. Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X. 0 1 1 1 1 0 0 1 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 8/17 3. Множественная линейная регрессия Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных — с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии. Рассмотрим вопрос о регрессии. В ряде случаев именно от его решения — оценки уравнений регрессии— зависят оценки тесноты связи, а они, в свою очередь, дополняют результаты регрессионного анализа. Прежде всего следует определить перечень независимых переменных X, включаемых в уравнение. Это должно делаться на основе теоретических положений. Список Х может быть достаточно широк и ограничен только исходной информацией. На практике теоретические положения о сути взаимосвязи подкрепляются парными коэффициентами корреляции между зависимой и независимыми переменными. Отбор наиболее значимых из них можно провести с помощью ЭВМ,выбирая в соответствии с коэффициентами корреляции и другими критериями факторы, наиболее тесно связанные с Y.Параллельно решается вопрос о форме уравнения. Современные средства вычислительной техники позволяют за относительно короткое время рассчитать достаточно много вариантов уравнений. В ЭВМ вводятся значения зависимой переменной Y и матрица независимых переменных X, принимается форма уравнения, например линейная. Ставится задача включить в уравнение k наиболее значимых X. В результате получим уравнение регрессии с k наиболее значимыми факторами. Аналогично можно выбрать наилучшую форму связи. Этот традиционный прием, называемый пошаговой регрессией, если он не противоречит качественным посылкам, достигает приемлемых результатов.Первоначально обычно берется линейная модель множественной регрессии: Параметры уравнения множественной регрессии, как правило, находятся методом наименьших квадратов. В матричной записи система уравнений имеет вид: Оценка параметров множественной регрессии вручную затруднительна, приводит к потерям точности и может лишь удовлетворить любопытство. Получение же оценок параметров на ЭВМ в настоящее время не представляет большой проблемы. Гораздо важнее, насколько линейная форма связи соответствует реально существующей зависимости между Y, с одной стороны, и множеством Х — с другой. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 9/17 4. Нелинейная регрессия. Коэффициенты эластичности Представление связи через линейную функцию там, где на самом деле существуют нелинейные соотношения, вызовет ошибки аппроксимации и в конечном итоге упрощенные или даже ложные положения и выводы на основе аналитического уравнения. Вопрос о нелинейности формы уравнения следует решать на стадии теоретического анализа.Как правило, анализ должен опираться на суть взаимодействия изучаемых явлений и процессов и формально подкрепляться различного рода статистическими критериями.Но на практике допускается и другое решение — нелинейность формулируется как гипотеза и очерчивается лишь круг возможных уравнений, а затем форма и вид уравнения уточняются на ЭВМ. Существуют разные формы нелинейных уравнений регрессии, но в общем виде можно выделить два их класса. К первому отнесем регрессии нелинейные относительно включенных в исследование переменных,но линейные по параметрам. Это, например, полиномы. В случае парной регрессии имеем уравнения: Возможно применение гиперболы, других функций. При желании с помощью стандартных программ для ЭВМ может быть образовано любое нелинейное сочетание переменных, линейных относительно коэффициентов уравнения. Последние оцениваются с помощью метода наименьших квадратов. Второй класс нелинейных функций отличается нелинейностью по оцениваемым параметрам. Таких уравнений также существует множество. Наиболее распространена степенная функция вида: Даже по приведенным примерам можно составить представление о широком спектре возможных аналитических представлений нелинейной формы связи. Ограничивает их использование сложность процедур оценивания параметров уравнений. Это подчас требует специальных приемов, алгоритмов, программ для ЭВМ. Относительно просто решается такая задача для функций, преобразуемых к линейному виду. Например,степенную функцию можно прологарифмировать, получив линейную зависимость Y от Х в логарифмах, и применить для оценки параметров уже упоминавшийся метод наименьших квадратов. Однако надо иметь в виду, что при этом оценивается не сама нелинейная функция, но ее линейное преобразование, а это может вызвать смещение оценок параметров. Интерпретация коэффициента регрессии как углового коэффициента в линейном уравнении для нелинейной зависимости не годится. Определить изменение У при изменении Х на единицу можно с помощью производной (простой или частной), взятой по соответствующему фактору X. Видно, что она является величиной переменной, а это усложняет экономическую интерпретацию результатов. Чаще всего для характеристики влияния изменения Х на У используют так называемый коэффициент эластичности (Э), который показывает, на сколько процентов изменится У при изменении Х на один процент, т.е.: Например, для линейного уравнения коэффициент эластичности фактора Х выглядит как: Коэффициенты эластичности — это, собственно, относительные величины. Их использование расширяет возможности сопоставления, экономической интерпретации результатов в дополнение к абсолютным величинам —коэффициентам регрессии. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 10/17 5. Множественная корреляция Оценки тесноты связи (корреляции) могут играть двоякую роль. Это — самостоятельные характеристики, дающие представление и о взаимодействии изучаемых факторов, и об аппроксимации фактических данных аналитической функцией. Поэтому расчет показателей множественной корреляции предполагает оценку уравнений регрессии. При оценке линейной множественной связи рассчитывают коэффициент множественной корреляции . По смыслу он отражает тесноту связи между вариацией зависимой переменной и вариациями всех включенных в анализ независимых переменных. Обычно сначала строится линейная множественная регрессия, а затем оценивается сам коэффициент. Наиболее общие формулы для его определения имеют следующий вид: Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе R к 1, тем более сильная связь между Y и множеством X. Эта же оценка R используется и как мера точности аппроксимации фактических данных выровненным. Если R незначительно по величине (как правило, R < 0,3), то можно утверждать, что либо не все важнейшие факторы взаимосвязи учтены, либо выбрана неподходящая форма уравнения. В этом случае следует пересмотреть список переменных модели, а возможно, и сам ее вид. Для нелинейной множественной связи рассчитывают индекс корреляции. Форма и процедура его вычисления аналогичны указанным выше, только взаимодействие факторов апроксимируется нелинейной функцией. Он также изменяется в пределах от0 до 1. На практике, как правило, используется одно название — коэффициент множественной корреляции. Квадрат R равен так называемому коэффициенту детерминации (D или R ). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторами. 2 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 11/17 6. Оценка значимости параметров взаимосвязи Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи. Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев.Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции: где t — так называемое расчетное значение t-критерия. Если t больше теоретического(табличного) значения критерия Стьюдента (t )для заданного уровня вероятности и (n –2) степеней свободы, то можно утверждать, что r значимо. Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t > t . В противном случае доверять полученной оценке параметра нет оснований. Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение: В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д. расч расч табл xy расч табл 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 12/17 7. Непараметрические методы оценки связи (Часть 1) Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов. Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических. Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности. Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей (табл.7.1). Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9% детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9% детей,родители которых трудятся в сельском хозяйстве, работают в промышленности (34из 88) и т.д. Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4%, являются детьми работников сельского хозяйства;более чем у 50% в сфере интеллектуального труда родители относятся к той же социальной группе и т.д. Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют,например, коэффициенты взаимной сопряженности Пирсона (С) иЧупрова (К): Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 13/17 Суммы этих величин по строке записываем в итоговом столбце (5). Для первой строки: Разделим полученные суммы на итог частот по соответствующей строке. Так, для первой строки26,42 : 91 = 0,2903. Этот результат записываем в последний столбец (6) расчетной таблицы. Суммируя данные величины (из последнего, 6-го столбца), получим: Величина первого коэффициента свидетельствует о наличии достаточно заметной связи между изучаемыми признаками. Коэффициент Чупрова обычно дает более осторожную оценку связи. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 14/17 8. Непараметрические методы оценки связи (Часть 2) Некоторые особенности имеет анализ взаимосвязи между двумя альтернативными признаками, который производится с помощью четырех клеточных таблиц. Рассмотрим связь между полом и характером труда — в сезонных и несезонных отраслях. Для наглядности вычислим удельные веса по результативному признаку: доля сезонных работников среди женщин составляет 53% (307 / 579), а среди мужчин — 41,4% (187 / 452). На основе этих данных можно утверждать, что связь между полом и отраслью существует. Оценить тесноту связи между признаками можно с помощью коэффициентов взаимной сопряженности С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации. Введем буквенные обозначения в клетках таблицы сопряженности. Коэффициент контингенции вычисляется по формуле: Подставив в формулу значения частот, получаем: Величина коэффициента говорит о наличии слабой обратной связи между анализируемыми альтернативными признаками. Коэффициент ассоциации: Коэффициент контингенции всегда меньше коэффициента ассоциации. Сравнение этих коэффициентов,исчисленных по одним и тем же данным, свидетельствует о том, что коэффициент контингенции дает более осторожную оценку тесноты связи. Заметим также, что |К | = К. В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов(учеников) по способностям, любой совокупности людей по уровню образования,профессии, по способности к творчеству и т.д. При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер.При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2= 5,5. Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена ( ρ ) и Кендэлла ( τ ). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака. Сущность метода Спирмена (Spearman) состоит в следующем: 1) располагают варианты факторного признака по возрастанию — ранжируют единицы по значению признака X; 2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака У. Если связь между признаками прямая, то с увеличением ранга признака Х ранг признака Y также будет возрастать; при тесной связи ранги признаков Х и Y в основном совпадут. При обратной связи возрастанию рангов признака Х будет, как правило,соответствовать убывание рангов признака Y. В случае отсутствия связи последовательность рангов признака Y не будет обнаруживать никакого порядка возрастания или убывания. Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена: К 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 15/17 В случае отсутствия связи ρ = 0. При прямой связи коэффициент ρ — положительная правильная дробь, при обратной — отрицательная. 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 16/17 9. Непараметрические методы оценки связи (Часть 3) Кендэллом (Kendall) предложен другой показатель измерения корреляционной связи, также с использованием рангов признаков: Упрощение расчетов коэффициента Кендэлла достигается следующим образом. 1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих им рангов по признаку Y. 2. Упорядоченная таким образом последовательность наблюдений берется как исходная для построения квадратной матрицы (a )размерностью (n × n ). Заметим, что для дальнейшего нам потребуются только элементы, расположенные выше главной диагонали. Для заполнения матрицы (a )по каждой паре наблюдений (i, j) сравниваем ранги признака Y: Сумма элементов матрицы (a ),расположенных выше главной диагонали, и есть искомое значение S. 3. При достаточном навыке расчет величины S можно выполнить, непосредственно сравнивая ранг R y данного наблюдения с рангами R последующих наблюдений. Для каждого наблюдения подсчитываются Р — число случаев, когда ранг признака Y следующих наблюдений меньше, чем у данного, и Q — число случаев, когда у следующих наблюдений ранг признака Y больше,чем у данного. Искомое значение: S = Σ Q − Σ P . Правильность вычислений контролируется соблюдением условия: Σ Q + Σ P = n((n − 1)/ 2). 4. Далее производится расчет по приведенной ранее формуле. При достаточно больших n между значениями ранговых коэффициентов фиксируется соотношение: Рассмотрим для примера зависимость между успеваемостью учащихся средней школы по физико-математическими гуманитарным наукам. Коэффициент Спирмена: Таким образом, между способностями учеников к физико-математическим и гуманитарным наукам имеется обратная связь, хотя и не очень сильная. Рассчитаем по тем же данным коэффициент Кендэлла ( τ ). Для ученика A Q = 7 (положительные баллы), Р (отрицательные баллы) будет получено при сравнении с учениками, ранг которых по У ниже, а по Х выше.Получаем Р = 2. Всего для ученика А имеем (Q–Р) = 7 – 2 = 5. Ученика Б сравниваем со всеми следующими учениками в списке (с А сравнение уже сделано): Q = 0, P = 8, Q – P = –8. Для В аналогичным образом отмечаем одного ученика с большим рангом по У и шесть учеников с меньшими рангами. Следовательно, (Q – Р) = 1 – 6 = –5. Техника вычисления баллов уже ясна, и можно привести окончательный результат: S = Σ Q − Σ P = 5 − 8 − 5+2 − 3+0 − 3+2 − 1= − 11. Подставляя вычисленную сумму в формулу, получим: Коэффициент Т, так же как и коэффициент Спирмена,свидетельствует об обратной, хотя и менее выраженной связи между признаками. ij ij ij 23.10.2022, 08:00 ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ https://sdo.nsuem.ru/mod/book/tool/print/index.php?id=17544 17/17 Оба ранговых коэффициента корреляции применяются для решения одних и тех же задач. Преимуществом коэффициента Т является возможность его использования в многофакторном анализе. Например, при двухфакторном анализе (X , Х ) частный коэффициент корреляции рангов У и X равен: Что касается техники расчетов, то вычисление Т сводится к подсчету баллов и проще вычисления коэффициента Спирмена. Поскольку при расчете t величины рангов нужны только для сравнения, то при наличии количественных признаков можно вести подсчет баллов прямо по их значениям, что избавляет от излишней работы по присвоению рангов. 1 2 1 |