Главная страница

курс лекций по статистике. 5fan_ru_Статистика. Курс лекций. Лекция 2 Сводка и группировка материалов статистического наблюдения Тема 2 Статистическая совокупность и её характеристики Лекция 3 Абсолютные, относительные и средние величины


Скачать 1.46 Mb.
НазваниеЛекция 2 Сводка и группировка материалов статистического наблюдения Тема 2 Статистическая совокупность и её характеристики Лекция 3 Абсолютные, относительные и средние величины
Анкоркурс лекций по статистике
Дата27.09.2019
Размер1.46 Mb.
Формат файлаdoc
Имя файла5fan_ru_Статистика. Курс лекций.doc
ТипЛекция
#87830
страница12 из 14
1   ...   6   7   8   9   10   11   12   13   14

Непараметрические методы оценки связи.


2. 1. Коэффициенты оценки связи качественных признаков, представленных двумя градациями.

2.2. Коэффициенты оценки связи качественных признаков, представленных несколькими градациями.

2.3. Коэффициент корреляции знаков.

2.4. Ранговая корреляция.

  • Коэффициент ранговой корреляции Спирмена;

  • Коэффициент конкордации

2.5. Коэффициент Фехнера.
1. Понятие и виды статистической связи

Все явления общественной жизни взаимосвязаны, взаимозависимы и взаимообусловлены.

Статистика рассматривает экономический закон как существенную и устойчивую связь между определенными явлениями и процессами. Познавая связи, статистика познает законы. А их знание позволяет управлять общественным развитием. Основой изучения связей является качественный анализ. Задачи статистики состоят в выявлении связи, определении ее направления и тесноты (силы). Наиболее же общая задача – это прогнозирование и регулирование социально-экономических явлений на основе полученных представлений о связях между явлениями.

Взаимосвязанные признаки подразделяются

  1. на факторные признаки – те, которые влияют на изменение других процессов и

  2. результативные – те, которые изменяются под воздействием других признаков.

Виды и формы связей, различаемые в статистике.


Функциональная связь (зависимость) между двумя переменными величинами характеризуется тем, что каждому значению одной из них соответствует вполне определенное значение другой. Например, между радиусом круга и его площадью существует функциональная зависимость, которая выражается формулой . Однако на практике часто встречаются и такие виды связей между величинами, которые нельзя отнести к функциональным.

Для статистической связи характерно то, что одному и тому же значению факторного признака может соответствовать сколько угодно различных значений результативного признака. Например, урожайность пшеницы зависит от дозы вносимых удобрений, но если различные хозяйства будут вносить одну и ту же дозу удобрений на гектар, урожайность у них будет разная. Здесь связь проявляется лишь при достаточно большом количестве наблюдений и лишь в форме средней величины. Она не является точной зависимостью одного признака от другого.

Корреляционная связь является частным случаем статистической связи

В статистике связи также классифицируются

  • по направлению. Если с увеличением одного показателя, второй также возрастает, то связь между ними является прямой или положительной. Например, с увеличением спроса на какой-либо товар, увеличивается его предложение. Если же с увеличением одного показателя, второй снижается, то связь между ними называется обратной или отрицательной. Так увеличение цены на товар приводит, как правило, к снижению спроса на него.

  • по степени их тесноты (по силе). Функциональная связь является полной, а статистическая – неполной и неточной связью.

  • по форме различают линейные и нелинейные связи.

Линейные связи моделируются линейной функцией регрессии .

Нелинейные связи могут моделироваться полиномами разных степеней, показательными, логарифмическими и другими функциями.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.

Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия.

В первом случае факторы взаимодействуют между собой непосредственно.

Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками.

Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

Пример ложной связи. Мерой связи между двумя количественными признаками является выборочный коэффициент парной корреляции: чем ближе он к 1, тем теснее связь между признаками. Но часто бывает, что высокий коэффициент корреляции не содержит никакой полезной информации. Например, на основе ежегодных данных за период с 1866 по 1911 гг. было обнаружено, что коэффициент корреляции между смертностью в Англии и Уэльсе и пропорцией браков, зарегистрированных в англиканской церкви, составил 0,95, т.е. между смертностью и числом зарегистрированных браков обнаружена очень тесная положительная связь. Естественно, что обнаруженная зависимость является формальной и не может интерпретироваться как причинная.

Выявление, обнаружение и изучение объективно существующих связей между явлениями и различными показателями, характеризующими социально-экономические процессы, является важнейшей задачей всякого научного исследования.

Статистическое исследование зависимостей позволяет вскрыть причинно-следственные отношения между явлениями, чтобы выявить факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов.

Причинно-следственные отношения – это связь явлений и процессов, при которых изменение одного из них – причины – ведет к изменению другого – следствия. Особое значение при исследовании причинно-следственных связей имеет выявление временной последовательности: причина всегда должна предшествовать следствию.

Между сложными группами причин и следствий возможны многозначные связи, в которых одна причина будет вызывать то одно, то другое следствие или одно следствие будет иметь несколько разных причин.

Чем сложнее изучаемое явление, тем труднее выявить причинно-следственные связи между ними.

Особенностью причинно-следственных связей в социально-экономических явлениях является их транзитивность (опосредованная зависимость).

Для изучения, измерения и моделирования взаимосвязей между явлениями статистикой применяются различные методы:

метод сопоставления параллельных рядов;

балансовый метод;

графический метод;

методы аналитических группировок;

дисперсионный анализ;

корреляционно-регрессионный анализ.
2. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических методов оценки связи.

Рассмотрим некоторые из них.

2.1. Коэффициенты оценки связи качественных признаков, представленных двумя градациями.

Для оценки тесноты зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков, используют коэффициент ассоциации Кас и коэффициент контингенции Ккон.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Признаки

(да)

(нет)

Итого:

(да)







(нет)







Итого:







Здесь - частоты взаимного сочетания (комбинации) двух альтернативных признаков и ; – общая сумма частот.

Коэффициент ассоциации (коэффициент ) можно рассчитать по формуле .

Коэффициент контингенции (тетрахорический показатель связи, предложен Пирсоном в 1901 году) рассчитывается по формуле:

Замечание.

1. Для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

2. Связь считается подтвержденной, если или

3. Для оценки статистической значимости и используется :

3.1. Проверяется нулевая гипотеза на уровне значимости .

Для проверки гипотезы необходимо

1) вычислить - фактическое (наблюдаемое, опытное) значение критерия достоверности, где - статистическая ошибка;

2) найти табличное (критическое, стандартное) значение :

3) сделать вывод: гипотеза на уровне значимости отвергается, если

3.2. При проверке нулевой гипотезы на уровне значимости фактическое значение критерия достоверности находится по формуле:




Пример 1. В одном из отделений Сбербанка России исследовалась связь между наличием вклада и семейным положением вкладчиков на 01.01.2002 г. результаты обследования характеризуются следующими данными:


Семейное положение

Число вкладчиков,

чел.

Из них

Имеющие сбережения

Не имеющие сбережения

Одинокие

Семейные

400 ()

1250 ()

250 ()

800 ()

150 ()

450 ()

Итого

1650

1050 ()

600()





Вывод: наличие или отсутствие сбережений в обследуемом отделении Сбербанка России не зависит от семейного положения потенциальных вкладчиков.

    1. Коэффициенты оценки связи качественных признаков, представленных несколькими градациями.

Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона ().

Для исследования такого рода связи первичную статистическую информацию располагают в форме (многопольной корреляционной) таблицы:

Признаки







Итого:































Итого:







Число пар наблюдений


Здесь - частоты взаимного сочетания двух атрибутивных признаков.

Коэффициент взаимной сопряженности или полихорический показатель связи, предложенный Пирсоном, определяется по формуле ,

где - показатель (взаимной) среднеквадратической сопряженности:

,

Замечание.

  1. Коэффициент взаимной сопряженности Пирсона имеет один большой недостаток: его значение существенно зависит от количества вариант коррелируемых качественных признаков.

  2. Коэффициент взаимной сопряженности изменяется от 0 до 1.

  3. Нулевая гипотеза на уровне значимости отвергается, если для принятого уровня значимости и числа степеней свободы.

  4. Применение критерия основано на требовании: при общем числе наблюдений не менее 50 в таблице должно содержаться не менее 5 вариант. Несоблюдение этих требований не гарантирует правильных выводов на основании выборочных показателей.





Этого недостатка лишен коэффициент взаимной сопряженности Чупрова А.А.:
, где - число групп первого и второго признаков (по каждому из признаков).
Пример 2. С помощью коэффициента взаимной сопряженности проанализируйте зависимость распределения сотрудников строительной фирмы ООО «Скат» по категориям от уровня их образования:


Образование

Категории сотрудников


Итого

руководители

служащие

рабочие

Высшее

Неполное высшее

Среднее специальное

Среднее

10

7

2

1

30

25

15

10

5

10

50

25

45

42

67

36

Итого

20

80

90

190


,





Вывод: связь близка к умеренной.

Пример 3. Приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей. С помощью коэффициента взаимной сопряженности проанализируйте зависимость занятости детей от занятости родителей, или выясните, существует ли преемственность в профессии детей.



Занятия родителей

Число детей, занятых

всего

В промышленности и строительстве

В сельском хозяйстве

В сфере обслуживания

В сфере интеллектуального труда

1. Промышленность и строительство

40

5

7

39

91

2. Сельское хозяйство

34

29

13

12

88

3. Сфера обслуживания

16

6

15

19

56

4. Сфера интеллектуального труда

24

5

9

72

110




114

45

44

142

345


,



    1. Коэффициент корреляции знаков.

В социальных исследованиях нередко встречаются случаи, когда коррелирующие признаки выражаются не числами, а знаками: наличие признака – знаком плюс, отсутствие – знаком минус.

В таких случаях для измерения корреляции используется формула:

,

где – число совпадений положительных знаков в общей серии испытаний, отнесенное к их числу , т.е. ;

– частости положительных знаков для каждого признака отдельно.

Коэффициент корреляции знаков изменяется от 0 до 1. Чем сильнее связь между признаками, тем этот показатель ближе к единице.

Пример 4. Выясняли зависимость между упрямством детейи строгостью требований родителей . Под наблюдением находилось 15 учащихся и их родителей из разных семей. Результаты наблюдений приведены в таблице.

Признаки

Номера испытуемых

Число

+

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15






+

-

-

+

+

-

-

-

+

-

+

+

+

-

-

7



+

-

-

-

+

-

-

-

+

-

+

-

+

+

-

6


.

Вывод: обнаружена заметная сопряженность между признаками.

2.4. Ранговая корреляция.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена и Кендалла . Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками при условии упорядочения их значений или ранжировании по степени убывания или возрастания признака.

1. Выборочный коэффициент ранговой корреляции Спирмена (1904 год) рассчитывается по формуле: ,

где – квадрат разности рангов;

– число наблюдений (число пар рангов).

Замечание.

1. Коэффициент ранговой корреляции Спирмена принимает любые значения в интервале.

2. Для оценки статистической значимости используется :

Проверяется нулевая гипотеза на уровне значимости .

Для проверки гипотезы необходимо

1) вычислить

2) найти табличное (критическое, стандартное) значение :

3) сделать вывод: гипотеза на уровне значимости отвергается, если .

3. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.


Пример 5. По данным группы предприятий одной из отраслей промышленности установить зависимость между величиной балансовой прибыли и объемом реализованной продукции.

Предприятие

Объем реализованной продукции, млрд. руб.

Балансовая прибыль, млн. руб.

Ранжирование

Сравнение рангов

Разность рангов







x

y

x

Rx

y

Ry

Rx

Ry

di=Rx-Ry

di2

1

1,8

20

1,3

1

20

1

2

1

1

1

2

2,3

75

1,8

2

75

2

3

3

0

0

3

8,6

42

2,3

3

42

3

10

2

8

64

4

1,3

80

3,5

4

80

4

1

4

-3

9

5

3,5

107

3,7

5

107

5

4

5

-1

1

6

3,8

125

3,8

6

125

6

6

6

0

0

7

4,5

140

4,5

7

140

7

7

7

0

0

8

5,8

175

5,8

8

175

8

8

8

0

0

9

3,7

200

6,5

9

200

9

5

9

-4

16

10

6,5

210

8,6

10

210

10

9

10

-1

1































92



Вывод: между величиной балансовой прибыли и объемом реализованной продукции обнаружена связь, близкая к умеренной.

Пример 6. По данным итогов торгов на биржевом рынке установить зависимость средней цены сделки от номинальной стоимости акции с помощью коэффициента Спирмена.

Эмитент

Номинал, тыс. руб.

Средняя цена сделки, тыс. руб

Ранжирование

Сравнение рангов

Разность рангов







x

y

x

Rx

y

Ry

Rx

Ry

di=Rx-Ry

di2

1

1

2

1

3

2

1

3

1

2

4

2

1

6

1

3

4

2,5

3

5

-2

4

3

1

4

1

3

4

2,5

3

2,5

0,5

0,25

4

1

4

1

3

5,7

4

3

2,5

0,5

0,25

5

2,5

7,8

1

3

6

5

6

6

0

0

6

10

16

2,5

6

7,8

6

9

8

1

1

7

10

10,8

5

7

10,8

7

9

7

2

4

8

5

20

10

9

16

8

7

10

-3

9

9

10

16,4

10

9

16,4

9

9

9

0

0

10

1

5,7

10

9

20

10

3

4

-1

1































23,5



Эмитент (с лат.emittentis – выпускающий) - учреждение или предприятие, выпускающее ценные бумаги, банкноты или бумажные деньги.


2. Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации ), который вычисляется по формуле:

,

где – количество факторов;

– число наблюдений;

– отклонение суммы квадратов рангов от средней квадратов рангов



Замечание.

Нулевая гипотеза на уровне значимости отвергается, если для принятого уровня значимости и числа степеней свободы.

Пример 7. Оценить тесноту связи между уставным капиталом, числом выставленных акций и числом занятых на предприятиях, выставивших акции на аукционы (2001 год)

Предприятие

Уставный капитал, тыс. руб.

Число выставленных акций

Число занятых на предприятии

Ранжирование

Сравнение рангов

Сумма строк

Квадрат суммы




x

y

z

x

Rx

y

Ry

z

Rx

Ry

Rz







1

29540

856

119

16050

1

467

1

119

9

7

1

17

289

2

16050

930

125

17000

2

495

2

125

1

9

2

12

144

3

41020

1563

132

17510

3

616

3

132

10

10

3

23

529

4

23500

682

141

17950

4

661

4

141

6

5

4

15

225

5

26250

616

150

22640

5

682

5

150

7

3

5

15

225

6

17950

495

165

23500

6

815

6

165

4

2

6

12

144

7

28130

815

178

26250

7

856

7

178

8

6

7

21

441

8

17510

858

181

28130

8

858

8

181

3

8

8

19

361

9

17000

467

201

29540

9

930

9

201

2

1

9

12

144

10

22640

661

204

41020

10

1563

10

204

5

4

10

19

361





































165

2863





































2722,5










Вывод:

  1. в выборочной совокупности обнаружена слабая связь между рассматриваемыми признаками;

  2. на уровне значимости принимается нулевая гипотеза о статистической незначимости коэффициента конкордации.

    1. Коэффициент Фехнера.

Простейшим непараметрическим показателем тесноты связи между двумя количественными признаками является коэффициент Фехнера, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации.

Данный коэффициент определяется по формуле

где - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0  Кф   +1,0.

Пример 8. По каждому из 10 предприятий известна совокупная выработка (тыс. руб.) и численность сотрудников:




Y, тыс. руб.

, чел.

1

2,62

23

2

3,04

32

3

3,15

50

4

3,83

53

5

3,58

55

6

4,08

58

7

4,09

59

8

4,2

62

9

4,18

69

10

4,24

75

Используя коэффициент Фехнера, сделайте вывод о наличии или отсутствии связи между показателями.

Решение

Для расчета коэффициента Фехнера необходимо найти его знаки разностей (отклонений) каждого из показателей от их среднего значения, а затем подсчитать число совпадений (С) и несовпадений (Н)

Расчёты выполним в таблице:




Y, тыс. руб.

, чел.

Разности



Разности



Указать С (совпадение знаков)

или Н (несовпадение знаков)

1

2,62

23

-1,081

-30,6

С

2

3,04

32

-0,661

-21,6

С

3

3,15

50

-0,551

-3,6

С

4

3,83

53

0,129

-0,6

Н

5

3,58

55

-0,121

1,4

Н

6

4,08

58

0,379

4,4

С

7

4,09

59

0,389

5,4

С

8

4,2

62

0,499

8,4

С

9

4,18

69

0,479

15,4

С

10

4,24

75

0,539

21,4

С

Сумма

37,01

536










Средняя

3,701

53,6











Анализ расчетов показывает, что число совпадении , а число несовпадений знаков разностей , следовательно, , т.е. наблюдается умеренная положительная связь между показателя
1   ...   6   7   8   9   10   11   12   13   14


написать администратору сайта