Главная страница
Навигация по странице:

  • Предельная ошибка выборки

  • Определить: 1) среднюю ошибку выборки; 2) с вероятностью, равной 0,954, предельные значения генеральной средней.Решение.

  • Тема 9. Корреляционно-регрессионный анализ

  • Краткий курс лекций по статистике. КРАТКИЙ КУРС ЛЕКЦИЙ ПО СТАТ-КЕ из УМК. Краткий лекционный курс с методическими указаниями по самостоятельной работе студентов с образцами решения типовых задач


    Скачать 0.78 Mb.
    НазваниеКраткий лекционный курс с методическими указаниями по самостоятельной работе студентов с образцами решения типовых задач
    АнкорКраткий курс лекций по статистике
    Дата08.10.2020
    Размер0.78 Mb.
    Формат файлаdoc
    Имя файлаКРАТКИЙ КУРС ЛЕКЦИЙ ПО СТАТ-КЕ из УМК.doc
    ТипДокументы
    #141820
    страница5 из 5
    1   2   3   4   5
    Тема 8. Выборочное наблюдение
    В целом ряде случаев средние и относительные величины для какой-либо совокупности рассчитываются на основе данных выборочного наблюдения, суть которого заключается в том, что из генеральной совокупности, наудачу, часто случайно, отбирается 𝑛 единиц, составляющих выборочную совокупность; для отобранных единиц рассчитываются обобщенные характеристики (средние или относительные показатели), а затем результаты выборочного обследования распространяются на всю генеральную совокупность. Основной задачей при этом является определение ошибок выборки.

    Различают среднюю и предельную ошибки выборки.

    Средняя ошибка выборки (𝜇) характеризует среднюю величину возможных расхождений выборочной и генеральной средней (или доли).

    При случайном повторном отборе средняя ошибка выборочной средней определяется по формуле 𝜇 =   , где   - дисперсия изучаемого показателя в генеральной совокупности, а 𝑛 – объем выборки.

    Средняя ошибка выборочной доли определяется по формуле 𝜇 = , где 𝑤 – выборочная доля единиц, обладающих изучаемым признаком, а   - дисперсия доли (альтернативного признака).

    При бесповторном отборе в формулах под знаком радикала появляется множитель  , где 𝑁- численность генеральной совокупности.

    Предельная ошибка выборки, обозначаемая через ∆, рассчитывается как ∆ = 𝑡𝜇 , где 𝜇 – средняя ошибка выборки, 𝑡 – коэффициент доверия, показатель, определяющий размер ошибки в зависимости от того, с какой вероятностью 𝑷 она находится.

    Значения 𝑡 и 𝑷 (вероятность допуска той или иной ошибки) даны в специальных таблицах, где   рассматривается как функция 𝑡 и рассчитывается по формуле :  

    Таким образом, общая формула предельной ошибки выборки ∆ = 𝑡𝜇 для средней приобретает вид ∆ = 𝑡  (для повторного отбора) или

    ∆ = 𝑡  (для бесповторного отбора), а для доли соответственно

    ∆ = 𝑡  и ∆ = 𝑡  .

    Формулы предельной ошибки несколько конкретизируются и в зависимости от применяемого вида выборки. Так, указанные выше формулы применимы для собственно случайной и механической выборок.

    Для типической ∆ = 𝑡  или ∆ = 𝑡 .

    В этом случае ошибка выборки зависит от внутригрупповой вариации.

    При серийной (гнездовой) выборке, ∆ = 𝑡 .

    Все рассмотренные выше формулы используются при так называемой большой выборке.

    Если 𝑛 < 20, то выборка именуется малой и при расчете ошибок выборки необходимо учитывать следующие моменты:

    1) в формуле средней ошибки в знаменателе принимается 𝑛 – 1, т.е.  

    2) при определении доверительных интервалов исследуемого показателя в генеральной совокупности пользуются таблицами вероятности Стьюдента, где 𝑃= 𝑆(𝑡,𝑛) определяется в зависимости от объема выборки и 𝑡.

    Рассмотрим решение некоторых задач к этой теме с применением формул предельной ошибки выборки.
    Задача 1.

    Методом собственно случайной выборки обследована жирность молока у 100 коров. По данным выборки средняя жирность молока оказалась равной 3,64%, а дисперсия составила 2,56.

    Определить:

    1) среднюю ошибку выборки;

    2) с вероятностью, равной 0,954, предельные значения генеральной средней.

    Решение.

    1) формула средней ошибки выборки: 𝜇 =   . По условию 𝑛 = 100,  = 2,56. Отсюда 𝜇 =  

    2) формула предельной ошибки выборки: ∆ = 𝑡𝜇. По таблице значений 𝐹(𝑡) при 𝑃 = 0,954 находим, что 𝑡 = 2. Отсюда ∆ = 2·0,16 = 0,32, или   =  3,64 0,32, т.е. предельные значения жирности молока (или доверительный интервал генеральной средней) определятся как

    3,32% ≤   ≤ 3,96%.

    Задача 2.

    Для определения средней заработной платы рабочих завода была произведена 20% бесповторная выборка (по цехам) с отбором единиц пропорционально численности групп. Результаты выборки представлены в приводимой ниже таблице:


    цех

    Объем выборки,

    чел., 𝑛

    Средняя заработная

    плата, руб.,  

    Среднее квадратическое

    отклонение, руб., 

    1

    2

    3

    120

    100

    180

    873

    886

    900

    30

    80

    60

    Всего

    400






    С вероятностью 0,997 (т.е. 𝑡 = 3) определить пределы, в которых находится средняя заработная плата всех рабочих завода.

    Решение.

    1) Находим общую выборочную среднюю заработную плату:

      (руб)

    2) Находим среднюю из групповых дисперсий:

      =   =  

    3) Определяем предельную ошибку выборочной средней заработной платы. Для типической бесповторной выборки

    ∆ = 𝑡  = 3  =  

    Отсюда генеральная средняя

      =   = 888,4   7,9 или 880,5 ≤   ≤ 896,3, т.е. средняя заработная плата всех рабочих находится в пределах от 880,5 до 896,3 руб.
    Тема 9. Корреляционно-регрессионный анализ
    При исследовании социально-экономических явлений часто приходится иметь дело со взаимосвязанными показателями. Изучить, насколько изменение одного показателя зависит от изменения другого (или нескольких), - одна из важнейших задач статистики.

    Следует различать функциональные и корреляционные связи.

    Основными задачами при изучении корреляционных зависимостей являются: 1) отыскание математической формулы, которая бы выражала эту зависимость y от x; 2) измерение тесноты такой зависимости.

    Возможны различные формы связи:

    1) прямолинейная:   =   ;

    2) криволинейная в виде:

    а)   =   +   (или высших порядков);

    б) гиперболы:   = 

    в) показательной функции:   =  и т.д.

    Параметры для всех уравнений связи чаще всего определяют из так называемой системы нормальных уравнений, отвечающих требованию «метода наименьших квадратов» (МНК). Это требование можно записать как  → min или, при линейной зависимости,   =   ,  → min . Найдя частные производные указанной суммы по   и   и приравняв их к нулю, получим систему уравнений, решение которой и дает параметры искомого уравнения регрессии:  

    Если связь выражена параболой второго порядка   =   +  , то система нормальных уравнений для отыскания параметров   , и  , выглядит следующим образом:  

    Вторая задача - измерение тесноты зависимости – для всех форм связи может быть решена с помощью исчисления теоретического корреляционного отношения (η):   =   .

    Линейный коэффициент корреляции можно выразить и другими формулами: 𝑟 =  ; 𝑟 =   или 𝑟 =  .

    Линейный коэффициент корреляции может принимать по модулю значения от 0 до 1 (знак «+» при прямой зависимости и знак «–» при обратной зависимости).
    Задача 1.

    Пусть по 10 однотипным предприятиям имеются следующие данные о выпуске продукции (𝑥) в тыс. ед. и о расходе условного топлива (𝑦) в тоннах (графы 1 и 2 таблицы).

    Требуется найти уравнение зависимости расхода топлива от выпуска продукции и измерить тесноту зависимости между ними.

    Решение.

    𝑥

    𝑦





      =1,16+0,547 



    5

    6

    8

    8

    10

    10

    14

    20

    20

    24

    4

    4

    6

    5

    7

    8

    8

    10

    12

    16

    25

    36

    64

    64

    100

    100

    196

    400

    400

    576

    20

    24

    48

    40

    70

    80

    112

    200

    240

    384

    3,9

    4,4

    5,5

    5,5

    6,6

    6,6

    8,8

    12,1

    12,1

    14,3

    16

    16

    36

    25

    49

    64

    64

    100

    144

    256

    125

    80

    1961

    1218

    80

    770


    1) Рассматривая уравнение регрессии в форме линейной функции вида   =   +   , параметры данного уравнения найдем из системы нормальных уравнений   , а необходимые для решения суммы рассчитаны выше в таблице. Подставляем их в уравнение и решаем систему:  ,   = 1,16 и  

    Отсюда   =1,16 + 0,547 .

    Подставляя в это уравнение последовательно значения 𝑥 = 5, 6, 8, 10 и т.д., получаем выравненные (теоретические) значения результативного показателя   (графа 5 таблицы).

    Поскольку параметры уравнения регрессии являются оценочными, то для каждого из них рассчитывается средняя ошибка, т.е.  .

    Конкретный расчет ошибок для   и   по данным нашего примера приведен далее.

    2) Для измерения тесноты зависимости между 𝑦 по 𝑥 воспользуемся прежде всего линейным коэффициентом корреляции :

    находим   = 121,8;   = 8;   = 196,1,   = 77,

      =   =   =  = 

      =   =   =   .

    Отсюда по формуле 𝑟 =  𝑟 =  =  

    - характеризует не только меру тесноты зависимости вариации 𝑦 от вариации 𝑥 , но и степень близости этой зависимости к линейной;

    При расчете коэффициента корреляции, особенно если он исчислен для небольшого числа наблюдений (𝑛), очень важно оценить его надежность (значимость). Для этого рассчитывается средняя ошибка коэффициента корреляции (    =   , где ( ) – число степеней свободы при линейной зависимости.

    А затем находится отношение коэффициента корреляции к его средней ошибке, т.е. 𝑡 =  , которое сравнивается с табличным значением 𝑡 –критерия Стьюдента.

    В рассматриваемом примере средняя ошибка коэффициента корреляции:   =   =   =   =   = 0,028, 𝑡 =   =  

    По таблице приложения находим, что при числе степеней свободы

    𝑘 = 10 – 2 = 8 и уровне значимости α = 0,05 табличное 𝑡 равно 2,306, т.е. 𝑡табл = 2,306.

    Поскольку фактическое (расчетное) 𝑡 больше табличного, т.е. 𝑡факт > 𝑡табл , то линейный коэффициент корреляции 𝑟 = 0,96 считается значимым, а связь между 𝑥 и 𝑦 - реальной.
    1   2   3   4   5


    написать администратору сайта