Механическая выборка применяется в случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц (табельные номера работников, списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.).
Отбор элементов осуществляется через одинаковые интервалы, шаг интервала зависит от доли выборки. Так, при
N
n
= 0,05 шаг интервала составляет
05
,
0 1
= 20. Ошибка механической выборки вычисляется по формуле бесповторной выборки. Для моментных наблюдений,
фиксирующих состояние непрерывного процесса на определенные моменты времени, используют формулу ошибки повторной выборки.
При типическом отборе генеральная совокупность разбивается на несколько типических групп по существенному признаку. При обследовании населения такими группами могут быть, например, районы, социальные, возрастные или образовательные группы, при обследовании предприятий – отрасль или подотрасль, форма собственности и т.п. Затем
157
из каждой группы путем собственно-случайного или механического отбора отбираются единицы в выборочную совокупность.
При вычислении
ошибки типической выборки используют среднюю из групповых дисперсий:
для средней:
∑
∑
⋅
=
iiiinnσ
σ
2 2
(1.8.5); для доли:
∑
∑
⋅
−
=
iiiiinn)
1
(
2
ω
ω
σ
(1.8.6)
Средняя ошибка типической выборки определяется следующим образом:
для средней:
−
=
Nnniх1 2
σ
µ
(1.8.7); для доли:
=
−
−
Nnnii1
)
1
(
ω
ω
ω
µ
(1.8.8)
Как правило,
σ
2
i < σ
2
i,следовательно,
ошибка типической выборки меньше, чем механической или простой случайной. Чаще всего используют отбор, пропорциональный численности составляющих совокупности, т. е. доля выборки для всех составляющих одинакова.
Серийный отбор удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться районы, поселки, фирмы, акционерные общества, студенческие группы, бригады, а также упаковки с определенным количеством готовой продукции, партии товара и т.д.
Сущность серийной выборки заключается в собственно-случайном или механическом отборе серий, внутри которых производится сплошное обследование единиц.
Поскольку внутри групп (серий) обследуются все без исключения единицы,
средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:
rх2
δ
µ
=
- повторный отбор (1.8.9);
−
=
Rrrх1 2
δ
µ
- бесповторный отбор (1.8.10),
158
где
r – число отобранных серий;
R – общее число серий.
Межгрупповую дисперсию вычисляют следующим образом:
(
)
rxxi∑
−
=
2 2
δ
(1.8.11),
где
ix - средняя
i-й серии;
x - общая средняя по всей выборочной совокупности.
При серийном отборе ошибка будет меньше, чем при механическом отборе.
Многоступенчатая выборка предполагает извлечение из генеральной совокупности сначала укрупненных групп единиц, затем групп,
меньших по объему, и так до тех пор, пока не будут отобраны те группы (серии) или отдельные единицы, которые будут подвергнуты наблюдению. Выборка может быть двухступенчатой, когда генеральная совокупность разбивается на группы и производится отбор групп, а затем внутри групп – отбор единиц наблюдения. На обеих ступенях отбор может вестись в случайном порядке. В этом случае ошибка рассчитывается следующим образом:
⋅
−
⋅
+
=
Nrnrnrх1 2
2
σ
δ
µ
(1.8.12)
В отличие от типического отбора, где отбор производится из всех без исключения групп, при многоступенчатом отборе производится отбор самих групп, и, следовательно, не все они попадают в выборку.
Число ступеней отбора может быть и более трех. Если число ступеней отбора больше двух, то средняя ошибка выборки определяется по формуле:
..,
,
2 1
2 3
1 2
2 2
1
+
+
+
=
nnnµ
µ
µ
µ
(1.8.13)
где
1
µ
,
2
µ
,
3
µ
- средние ошибки выборки на отдельных ступенях отбора;
2 1
,
nn - численность выборок на соответствующих ступенях.
Многофазная выборка отличается от многоступенчатой тем, что на каждой стадии сохраняется одна и та же единица отбора, но изменяется программа наблюдения. Причем расширенная программа обязательно содержит вопросы краткой программы, что делает возможным проверить
159
репрезентативность выборки. Расчет ошибки многофазной выборки производится для каждой фазы в отдельности.
1.8.3 Определение необходимого объема выборкиВ практике проектирования выборочного наблюдения возникает
вопрос о необходимой численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик
– средней и доли. Эта численность может быть определена на базе допустимой ошибки при выборочном наблюдении, исходя из вероятности, на основе которой можно гарантировать величину устанавливаемой ошибки, и, наконец, на базе способа отбора.
Формулы необходимого объема выборки для различных способов формирования выборочной совокупности могут быть выведены из соответствующих соотношений, используемых при расчете предельных ошибок выборки.
При случайном повторном отборе численность выборки определяется по формуле:
2 2
2
∆
=
σ
tn (1.8.14)
При случайном бесповторном и механическом отборе численность выборки вычисляется по формуле:
2 2
2 2
2
σ
σ
tNNtn+
=
∆
(1.8.15)
Для
типической выборки:
2 2
2
∆
=
σ
tn - повторный отбор (1.8.16);
2 2
2 2
2
σ
σ
tNNtn+
=
∆
- бесповторный отбор (1.8.17)
Для
серийной выборки:
2 2
2
∆
=
δ
tn - повторный отбор (1.8.18);
2 2
2 2
2
δ
δ
tRRtn+
=
∆
- бесповторный отбор (1.8.19)
160
При этом в зависимости от целей исследования дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.
Основные вопросы, решаемые при расчете численности выборки:
1)необходимо принять решение о размере допустимой погрешности;
2)коэффициент кратности
t определяется согласно принятой вероятности результата исследований;
3)в приведенных формулах вместо фактических значений дисперсии и доли используются приблизительные значения, полученные на основе ранее проводимых исследований, либо на основе пробных выборок.
4)если планируется выборка для
исследования доли альтернативного признака, то в формулы подставляется максимально возможное значение дисперсии;
5)расчет численности выборки производится несколько раз, исходя из требований точности для всех изучаемых признаков. В качестве окончательного решения выбирается наибольшее из полученных значений;
6)если полученные значения
n различаются в 6, 7 и более раз, то выборка организуется как многоступенчатая;
7)если объем генеральной совокупности достаточно велик (более
100 тыс.), то используются формулы для повторного отбора независимо от типа планируемой выборки.
Рассмотрим примеры определения необходимого объема выборки при различных способах формирования выборочной совокупности.
Пример 1. В районе проживает 2500 семей. Предполагается провести их выборочное обследование методом случайного бесповторного отбора для нахождения среднего размера семьи.
Определить необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки не превысит одного человека при среднем квадратическом отклонении три человека.
Решение. При бесповторном случайном отборе необходимый объем выборки по формуле (1.8.15) составит:
36 9
4 1
2500 2500 9
4
семейn=
⋅
+
⋅
⋅
⋅
=
Пример 2. В городе А проживает 15 тыс. семей. С помощью механической выборки предполагается определить долю семей с тремя
161
детьми и более. Какова должна быть численность выборки, чтобы с вероятностью 0,683 ошибка выборки не превышала 0,04, если на основе предыдущих обследований известно, что дисперсия равна 0,3?
Решение. Определим необходимую численность выборки по формуле (1.8.15):
185 3
,
0 1
15000 04
,
0 15000 3
,
0 1
2
=
⋅
+
⋅
⋅
⋅
=
n
Пример 3. С целью определения доли рабочих акционерного общества области в возрасте старше 40 лет предполагается организовать типическую выборку пропорциональную численности сотрудников мужского и женского пола с механическим отбором внутри групп. Общее число рабочих акционерного общества составляет 15 тыс. чел., в том числе 9 тыс. мужчин и 6 тыс. женщин.
На основании предыдущих обследований известно, что средняя из внутригрупповых дисперсий составляет 1800. Определите необходимый объем выборки при вероятности 0,997 и ошибке 5%.
Решение. Рассчитаем общую численность типической выборки по формуле (1.8.17):
621 1800 9
15000 25 15000 1800 9
чел
n
=
⋅
+
⋅
⋅
⋅
=
Вычислим теперь объем отдельных типических групп:
373 15000 9000 621 1
чел
n
=
⋅
=
248 15000 6000 621 2
чел
n
=
⋅
=
Таким образом, необходимый объем выборочной совокупности рабочих акционерного общества области составляет 621 чел., в т. ч. 373 мужчин и 248 женщин.
Пример 4. В коммерческом банке 230 отделов с работниками.
Планируется проведение выборочного обследования с целью определения удельного веса работников, имеющих профессиональные заболевания.
Известно, что межсерийная дисперсия доли равна 225. С вероятностью
0,954 рассчитайте необходимое количество отделов для обследования работников, если ошибка выборки не должна превышать 5%.
Решение. Необходимое количество отделов рассчитаем на основе формулы объема серийной бесповторной выборки по формуле (1.8.19):
162
31 225 4
25 230 230 225 4
отделn=
⋅
+
⋅
⋅
⋅
=
Тренировочные задания1. Из партии муки в порядке случайной повторной выборки было взято 30 проб. В результате проверки
установлена средняя влажность муки в выборке, равная 14,5% (при среднем квадратическом отклонении, равном 2%). С вероятностью 0,683 определите пределы средней влажности во всей партии муки.
Решение:Для решения этой задачи необходимо воспользоваться следующим соотношением:
,
xxxxx∆
∆
+
≤
≤
−
где
x и
x - генеральная и выборочная средние соответственно;
x∆
- предельная ошибка выборочной средней.
Чтобы рассчитать среднюю ошибку при случайном повторном отборе воспользуемся формулой:
;
2
nxσ
µ
=
Для расчета предельной ошибки воспользуемся следующей формулой:
;
37
,
0 37
,
0 1
30 2
1 2
2
=
⋅
=
⋅
=
=
=
∆
nttxxσ
µ
при этом
t=1, т.к.
р=0,683;
σ
=2;
n=30.
Отсюда получаем следующее соотношение:
14,5 - 0,37
;
%
37
,
0 5
,
14
+
≤
≤
x14,13
%.
87
,
14
≤
≤
xТаким образом, средняя влажность муки во всей партии колеблется в следующих пределах: 14,13
%.
87
,
14
≤
≤
x2. Для определения средней продолжительности поездки на работу планируется провести выборочное обследование населения г. Белгорода методом случайного бесповторного отбора. Численность работающего населения г. Белгорода составляет 153,4 тыс. чел. Каков должен быть необходимый объем выборочной совокупности, чтобы с вероятностью
163
0,954 ошибка выборки не превышала 5 мин. При среднем квадратическом отклонении 15 мин.
Решение:2 2
2 2
2
σ
σ
tNNtn+
=
∆
;
t=2, т.к.
р=0,954;
σ
=15;
N=153,4;
∆
=5;
2
,
29 4735 138060 900 4
,
153 15 4
,
153 900 15 2
4
,
153 5
4
,
153 15 2
2 2
2 2
2
челтысn≈
=
+
⋅
⋅
=
⋅
+
⋅
⋅
⋅
=
3. За одну смену АО «Колос» выпустил 15000 буханок хлеба, каждая по 800 грамм. Предполагается провести обследование среднего веса буханки методом механического отбора. Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка не превышала
20 грамм, если по данным пробного обследования дисперсия составила
240?
4. Для обследования качества, продукция была распределена на 75 равновеликих серий. На основе механического отбора было проверено 15 серий, в которых удельный вес недоброкачественной продукции составил
15%. С вероятностью 0,683 установите границы качества всей продукции, если межсерийная дисперсия равна 860.
5. Для изучения общественного мнения населения области о проведении определённых мероприятий методом случайного отбора было опрошено 1000 человек. Из числа опрошенных 540 человек одобрили мероприятия.
С вероятностью 0,954 определите пределы, в которых находится доля лиц, одобривших мероприятия.
6. При планировании выборочного обследования занятости населения сельских районов региона имеются следующие данные:
Район
Численность населения в трудоспособном возрасте, тыс. чел.
Удельный вес занятого населения,
% (оценка)
1 4,2 70 2
7,3 82 3
3,5 75 4
5,8 80
С вероятностью 0,997 определите необходимый объём типической пропорциональной выборки для
установления границ генеральной доли, чтобы ошибка выборки не превышала 5%.
164
7. Партия елочных гирлянд упакована в 300 коробок по 20 шт. в каждой. Средняя длительность горения гирлянд составляет 1100 ч, а межсерийная дисперсия – 250. Качество гирлянд проверяется на основе серийного 2%-ного случайного бесповторного отбора.
Определите: а) предельную ошибку при установлении средней длительности горения гирлянд; б) пределы контролируемого параметра в генеральной совокупности.
Выводы сделайте с вероятностью 0,997.
8. Определите, сколько персональных компьютеров следует подвергнуть обследованию в порядке случайной бесповторной выборки, чтобы с вероятностью 0,954 предельная ошибка (в процентах к среднему сроку службы компьютера) не превышала 3%. Коэффициент вариации среднего срока службы компьютеров по данным предыдущих обследований составляет 15%, а вся партия состоит из 1250 компьютеров.
9. По данным 20% выборочного обследования 100 семей переселенцев из зоны строгого радиационного контроля, количество детей в семьях составляет:
Количество детей
0 1
2 3
4
Итого
Количество семей
10 32 33 18 7
100
Определите:
1) среднее количество детей в семьях переселенцев и доверительный интервал для средней с вероятностью 0,954;
2) с той же вероятностью определите предельную ошибку, и доверительный интервал для доли семей, имеющих 3 и более детей.
10. При случайном способе отбора из партии было взято 100 проб продукта А. В результате обследования установлено, что доля брака продукта А в выборке составляет 2%. С вероятностью 0,954 определите пределы, в которых находится доля брака продукта А в партии.
11. Для определения среднего возраста рабочих предприятия была произведена 10%-ная механическая выборка рабочих методом случайного бесповторного отбора. В результате обследования были получены следующие данные:
Рабочие в возрасте, лет
20 - 30 30 - 40 40 - 50 50 – 60
Итого
Число рабочих, чел.
20 60 15 5
100
С вероятностью 0,997 определите:
1) пределы, в которых находится средний возраст рабочих предприятия;
2) пределы, в которых находится доля рабочих предприятия в возрасте старше 50 лет.
165
12. По результатам контрольной проверки налоговыми службами
500 бизнесструктур, у 175 из них в налоговых декларациях не полностью указаны доходы, подлежащие налогообложению.
Определите долю бизнесструктур, скрывших часть доходов от уплаты налогов, и доверительные границы доли с вероятностью 0,997.
13. Для выявления затрат времени на обработку деталей рабочими разной квалификации на предприятии была произведена 10%-я типическая выборка пропорционально численности выделенных групп
(внутри типических групп произведён механический отбор). Результаты обследования могут быть представлены следующим образом:
Группы рабочих по разряду
Число рабочих
Средние затраты времени на обработку одной детали, мин.
Среднее квадратическое отклонение, мин.
I
30 10 1
II
50 14 4
III
20 20 2
С вероятностью 0,954 определите пределы, в которых находятся средние затраты времени на обработку деталей рабочими.
14. По данным опроса из 400 респондентов, основными источниками информации о недвижимости считают:
Радио и телевидение......................................................................120
Газеты и журналы.................................................................180
Интернет…………………....................................................100
Для каждого источника информации определите его долю и предельную ошибку выборки с вероятностью 0,997.