Краткий курс лекций по статистике. КРАТКИЙ КУРС ЛЕКЦИЙ ПО СТАТ-КЕ из УМК. Краткий лекционный курс с методическими указаниями по самостоятельной работе студентов с образцами решения типовых задач
Скачать 0.78 Mb.
|
Тема 8. Выборочное наблюдение В целом ряде случаев средние и относительные величины для какой-либо совокупности рассчитываются на основе данных выборочного наблюдения, суть которого заключается в том, что из генеральной совокупности, наудачу, часто случайно, отбирается 𝑛 единиц, составляющих выборочную совокупность; для отобранных единиц рассчитываются обобщенные характеристики (средние или относительные показатели), а затем результаты выборочного обследования распространяются на всю генеральную совокупность. Основной задачей при этом является определение ошибок выборки. Различают среднюю и предельную ошибки выборки. Средняя ошибка выборки (𝜇) характеризует среднюю величину возможных расхождений выборочной и генеральной средней (или доли). При случайном повторном отборе средняя ошибка выборочной средней определяется по формуле 𝜇 = , где - дисперсия изучаемого показателя в генеральной совокупности, а 𝑛 – объем выборки. Средняя ошибка выборочной доли определяется по формуле 𝜇 = , где 𝑤 – выборочная доля единиц, обладающих изучаемым признаком, а - дисперсия доли (альтернативного признака). При бесповторном отборе в формулах под знаком радикала появляется множитель , где 𝑁- численность генеральной совокупности. Предельная ошибка выборки, обозначаемая через ∆, рассчитывается как ∆ = 𝑡𝜇 , где 𝜇 – средняя ошибка выборки, 𝑡 – коэффициент доверия, показатель, определяющий размер ошибки в зависимости от того, с какой вероятностью 𝑷 она находится. Значения 𝑡 и 𝑷 (вероятность допуска той или иной ошибки) даны в специальных таблицах, где рассматривается как функция 𝑡 и рассчитывается по формуле : Таким образом, общая формула предельной ошибки выборки ∆ = 𝑡𝜇 для средней приобретает вид ∆ = 𝑡 (для повторного отбора) или ∆ = 𝑡 (для бесповторного отбора), а для доли соответственно ∆ = 𝑡 и ∆ = 𝑡 . Формулы предельной ошибки несколько конкретизируются и в зависимости от применяемого вида выборки. Так, указанные выше формулы применимы для собственно случайной и механической выборок. Для типической ∆ = 𝑡 или ∆ = 𝑡 . В этом случае ошибка выборки зависит от внутригрупповой вариации. При серийной (гнездовой) выборке, ∆ = 𝑡 . Все рассмотренные выше формулы используются при так называемой большой выборке. Если 𝑛 < 20, то выборка именуется малой и при расчете ошибок выборки необходимо учитывать следующие моменты: 1) в формуле средней ошибки в знаменателе принимается 𝑛 – 1, т.е. 2) при определении доверительных интервалов исследуемого показателя в генеральной совокупности пользуются таблицами вероятности Стьюдента, где 𝑃= 𝑆(𝑡,𝑛) определяется в зависимости от объема выборки и 𝑡. Рассмотрим решение некоторых задач к этой теме с применением формул предельной ошибки выборки. Задача 1. Методом собственно случайной выборки обследована жирность молока у 100 коров. По данным выборки средняя жирность молока оказалась равной 3,64%, а дисперсия составила 2,56. Определить: 1) среднюю ошибку выборки; 2) с вероятностью, равной 0,954, предельные значения генеральной средней. Решение. 1) формула средней ошибки выборки: 𝜇 = . По условию 𝑛 = 100, = 2,56. Отсюда 𝜇 = 2) формула предельной ошибки выборки: ∆ = 𝑡𝜇. По таблице значений 𝐹(𝑡) при 𝑃 = 0,954 находим, что 𝑡 = 2. Отсюда ∆ = 2·0,16 = 0,32, или = 3,64 0,32, т.е. предельные значения жирности молока (или доверительный интервал генеральной средней) определятся как 3,32% ≤ ≤ 3,96%. Задача 2. Для определения средней заработной платы рабочих завода была произведена 20% бесповторная выборка (по цехам) с отбором единиц пропорционально численности групп. Результаты выборки представлены в приводимой ниже таблице:
С вероятностью 0,997 (т.е. 𝑡 = 3) определить пределы, в которых находится средняя заработная плата всех рабочих завода. Решение. 1) Находим общую выборочную среднюю заработную плату: (руб) 2) Находим среднюю из групповых дисперсий: = = 3) Определяем предельную ошибку выборочной средней заработной платы. Для типической бесповторной выборки ∆ = 𝑡 = 3 = Отсюда генеральная средняя = = 888,4 7,9 или 880,5 ≤ ≤ 896,3, т.е. средняя заработная плата всех рабочих находится в пределах от 880,5 до 896,3 руб. Тема 9. Корреляционно-регрессионный анализ При исследовании социально-экономических явлений часто приходится иметь дело со взаимосвязанными показателями. Изучить, насколько изменение одного показателя зависит от изменения другого (или нескольких), - одна из важнейших задач статистики. Следует различать функциональные и корреляционные связи. Основными задачами при изучении корреляционных зависимостей являются: 1) отыскание математической формулы, которая бы выражала эту зависимость y от x; 2) измерение тесноты такой зависимости. Возможны различные формы связи: 1) прямолинейная: = ; 2) криволинейная в виде: а) = + (или высших порядков); б) гиперболы: = в) показательной функции: = и т.д. Параметры для всех уравнений связи чаще всего определяют из так называемой системы нормальных уравнений, отвечающих требованию «метода наименьших квадратов» (МНК). Это требование можно записать как → min или, при линейной зависимости, = , → min . Найдя частные производные указанной суммы по и и приравняв их к нулю, получим систему уравнений, решение которой и дает параметры искомого уравнения регрессии: Если связь выражена параболой второго порядка = + , то система нормальных уравнений для отыскания параметров , и , выглядит следующим образом: Вторая задача - измерение тесноты зависимости – для всех форм связи может быть решена с помощью исчисления теоретического корреляционного отношения (η): = . Линейный коэффициент корреляции можно выразить и другими формулами: 𝑟 = ; 𝑟 = или 𝑟 = . Линейный коэффициент корреляции может принимать по модулю значения от 0 до 1 (знак «+» при прямой зависимости и знак «–» при обратной зависимости). Задача 1. Пусть по 10 однотипным предприятиям имеются следующие данные о выпуске продукции (𝑥) в тыс. ед. и о расходе условного топлива (𝑦) в тоннах (графы 1 и 2 таблицы). Требуется найти уравнение зависимости расхода топлива от выпуска продукции и измерить тесноту зависимости между ними. Решение.
1) Рассматривая уравнение регрессии в форме линейной функции вида = + , параметры данного уравнения найдем из системы нормальных уравнений , а необходимые для решения суммы рассчитаны выше в таблице. Подставляем их в уравнение и решаем систему: , = 1,16 и Отсюда =1,16 + 0,547 . Подставляя в это уравнение последовательно значения 𝑥 = 5, 6, 8, 10 и т.д., получаем выравненные (теоретические) значения результативного показателя (графа 5 таблицы). Поскольку параметры уравнения регрессии являются оценочными, то для каждого из них рассчитывается средняя ошибка, т.е. . Конкретный расчет ошибок для и по данным нашего примера приведен далее. 2) Для измерения тесноты зависимости между 𝑦 по 𝑥 воспользуемся прежде всего линейным коэффициентом корреляции : находим = 121,8; = 8; = 196,1, = 77, = = = = = = = . Отсюда по формуле 𝑟 = 𝑟 = = - характеризует не только меру тесноты зависимости вариации 𝑦 от вариации 𝑥 , но и степень близости этой зависимости к линейной; При расчете коэффициента корреляции, особенно если он исчислен для небольшого числа наблюдений (𝑛), очень важно оценить его надежность (значимость). Для этого рассчитывается средняя ошибка коэффициента корреляции ( = , где ( ) – число степеней свободы при линейной зависимости. А затем находится отношение коэффициента корреляции к его средней ошибке, т.е. 𝑡 = , которое сравнивается с табличным значением 𝑡 –критерия Стьюдента. В рассматриваемом примере средняя ошибка коэффициента корреляции: = = = = = 0,028, 𝑡 = = По таблице приложения находим, что при числе степеней свободы 𝑘 = 10 – 2 = 8 и уровне значимости α = 0,05 табличное 𝑡 равно 2,306, т.е. 𝑡табл = 2,306. Поскольку фактическое (расчетное) 𝑡 больше табличного, т.е. 𝑡факт > 𝑡табл , то линейный коэффициент корреляции 𝑟 = 0,96 считается значимым, а связь между 𝑥 и 𝑦 - реальной. |