Главная страница

Выборка. Л 6 выборка. Выборочная совокупность, отбор единиц в выборочную совокупность


Скачать 132.5 Kb.
НазваниеВыборочная совокупность, отбор единиц в выборочную совокупность
АнкорВыборка
Дата25.02.2021
Размер132.5 Kb.
Формат файлаdoc
Имя файлаЛ 6 выборка.doc
ТипДокументы
#179622

Выборочная совокупность, отбор единиц в выборочную совокупность



Выборочный метод применяется в тех случаях, когда проведение сплошного наблюдения невозможно или экономически нецелесообразно. Например, проверка качества отдельных видов продукции может быть связана с ее уничтожением (оценка крепости нити на разрыв, дегустация продуктов питания и т. п.). Или совокупности настолько велики, что было бы физически невозможно собрать данные в отношении каждого из их членов (например, при изучении пассажиропотоков или цен на рынках, исследованиях бюджетов семей). Выборочное наблюдение используют также для проверки результатов сплошного наблюдения.

Выборочное наблюдение – это способ несплошного наблюдения, при котором обследуется не вся совокупность, а лишь часть ее, отобранная по определенным правилам выборки и обеспечивающая получение данных, характеризующих всю совокупность в целом.

При выборочном наблюдении обследованию подвергается определенная, заранее обусловленная часть совокупности, например, 1/10, 1/20, 1/50, 1/100 и т.д., а результаты обследования распространяются на всю совокупность.

Ту часть единиц, которые отобраны для наблюдения, принято называтьвыборочной совокупностью, а всю совокупность единиц, из которых производится отбор, - генеральной.

Число единиц (элементов) статистической совокупности называется ее объемом. Объем генеральной совокупности обозначается N, а объем выборочной совокупности  п. Если объем совокупности велик, то его полагают равным бесконечности.

Качество результатов выборочного наблюдения зависит от того, насколько состав выборки представляет генеральную совокупность, иначе говоря, от того, насколько выборка репрезентативна (представительна).

Выборка должна представлять собой уменьшенную копию генеральной совокупности, т. е. быть представительной (репрезентативной).

По одному из популярных определений, статистика это наука, позволяющая распространять выводы, сделанные на основе изучения части совокупности (случайной выборки), на всю совокупность (генеральную совокупность). В этом определении заключена сущность выборочного метода и его ведущая роль в статистике.

Для обеспечения репрезентативности выборки необходимо соблюдение принципа случайности отбора единиц. Принцип случайности предполагает, что на включение или исключение объекта из выборки не может повлиять какой-либо иной фактор, кроме случая.

Случайная выборка из n элементов это такой отбор, при котором элементы извлекаются по одному из всей генеральной совокупности и каждый из них имеет равный шанс быть отобранным.

Существуют различные способы формирования выборочной совокупности:

случайный;

механический;

типический;

серийный (гнездовой)

По способу отбора элементов различают два типа случайных выборок: собственно-случайная повторная (схема возвращенного шара); собственно-случайная бесповторная (схема невозвращенного шара).

Собственно случайный отбор, или случайная выборка, осуществляется с помощью жеребьевки либо по таблице случайных чисел. Всем элементам генеральной совокупности присваивается порядковый номер и на каждый элемент заводится жребий (пронумерованные шары), которые перемешиваются и помещаются в ящик, из которого затем отбираются наудачу. Во втором случае производится выбор случайных чисел из специальных таблиц, которые образуют порядковые номера для отбора.

Выбор схемы отбора зависит от характера изучаемого объекта. Напомним, что при повторном отборе единица наблюдения после извлечения из генеральной совокупности регистрируется и вновь возвращается в генеральную совокупность, откуда опять может быть извлечена случайным образом. При бесповторном отборе элемент в выборку не возвращается.

Особая форма составления выборки предполагает серийный, или гнездовой, отбор, при котором в порядке случайной или механической выборки выбирают не единицы, а определенные районы, серии (гнезда), внутри которых производится сплошное наблюдение.
Статистическое оценивание

Пусть из генеральной совокупности извлекается вы­борка объемом n, причем значение признака х1 наблю­дается m1 раз, х2 m2 раз, …, хk

н
аблюдается mk раз. Тогда
Мы можем сопоставить каждому значению x относительную частоту mi/n.

Статистическим распределением выборки называется перечень возможных значений признака xi и соответствующих ему частот или относительных частот (частостей) mi (wi).

Числовые характеристики генеральной совокупности, как правило, неизвестные (средняя, дисперсия, СКО и др.), называются параметрами генеральной совокупности (обозначают, например, , или ). Доля единиц, обладающих тем или иным признаком в генеральной совокупности, называется генеральной долей и обозначается р.

По данным выборки рассчитывают числовые характеристики, которые называют статистиками (обозначают Хвыб, или выборочная доля обозначается w). Статистики, получаемые по различным выборкам, как правило, отличаются друг от друга. Поэтому статистика, полученная из выборки, является только оценкой неизвестного параметра генеральной совокупности.

Оценка параметра определенная числовая характеристика, полученная из выборки. Когда оценка определяется одним числом, ее называют точечной оценкой.

В качестве точечных оценок параметров генеральной совокупности используются соответствующие выборочные характеристики.

Ошибки выборки



По мере отбора единиц в выборочную совокупность или по его завершении производится регистрация предусмотренных программой признаков. Итогом же является расчет обобщающих выборочных характеристик. Часто кроме выборочной средней (Х) исчисляют также выборочную долю (W) единиц, обладающих каким-либо интересующим нас признаком, в общей их численности.

При проведении выборочного наблюдения нельзя получить абсолютно точные данные – такие, как при сплошном, потому, что обследованию подвергается не вся генеральная совокупность, а только ее часть – выборочная совокупность. Поэтому при проведении выборочного наблюдения неизбежна некоторая свойственная ему погрешность, ошибка.

Разность между показателями выборочной и генеральной совокупности называется ошибкой выборки. Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Ошибка выборки ε, представляющая собой разность между показателями выборочной и генеральной совокупности определяется для средней:

Для доли



Ошибка выборки свойственна только выборочным наблюдениям. Чем больше значение этой ошибки, тем в большей степени выборочные показатели отличаются от соответствующих генеральных показателей.

Выборочная средняя и выборочная доля по своей сути являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок – среднюю ошибку выборки μ.

От чего зависит ошибка выборки?

При соблюдении принципа случайного отбора средняя ошибка выборки определяется прежде всего объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, все более точно характеризуем всю генеральную совокупность.

Средняя ошибка выборка также зависит от степени варьирования изучаемого признака, характеризуемого дисперсией σ2

Чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки, и наоборот. При нулевой дисперсии (признак не варьирует), средняя ошибка выборки равна нулю, т.е. любая единица генеральной совокупности будет совершенно точно характеризовать всю совокупность по этому признаку.
Таблица 1

Формулы расчета ошибки выборки

для собственно-случайного отбора




Собственно-случайный отбор


повторный


бесповторный


Для средней






Для доли







Здесь σ2 — выборочная дисперсия значений при­знака; w (1 - w) — выборочная дисперсия доли значений признака; n — объем выборки; N — объем генеральной совокупности; n/N доля обследованной совокупности; (1- n/N) — поправка на конечность совокупности (в литературе (1 - n/N) иногда называется «поправкой на бесповторность отбора»).

Конечной целью выборочного наблюдения является характеристика генеральной совокупности на основе выборочных результатов с учетом предела их возможной ошибки.

В каждой конкретной выборке расхождение между выборочной средней и генеральной может быть меньше средней ошибки выборки μ, равно ей или больше ее.

Причем каждое из этих расхождений имеет различную вероятность (объективную возможность появления события). Поэтому фактическое расхождение между генеральной и выборочной средней рассматривают как предельную ошибку, связанной со средней ошибкой и гарантируемую с определенной вероятностью Р.

Предельную ошибку выборки для средней Δ можно рассчитать по формуле



где t-параметр распределения Стьюдента, зависящий от вероятности с которой гарантируется предельная ошибка выборки; μ – средняя ошибка выборки.

Формула предельной ошибки выборки вытекает из основных положений теории выборочного метода, сформулированных в ряде теорем теории вероятности, отражающих закон больших чисел.

(Сущность закона больших чисел состоит в том, что в числах, суммирующих результат массовых наблюдений, выступают определенные правильности, которые не могут быть обнаружены на небольшом числе факторов. Закон больших чисел порожден свойствами массовых явлений. Тенденции и закономерности, вскрытые с помощью закона больших чисел, имеют силу лишь как массовые тенденции, но не как законы для каждого отдельного, индивидуального случая.)

Н
а основании теоремы Чебышева с вероятностью, сколь угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки и ограни­ченной дисперсии генеральной совокупности раз­ность между выборочной средней и генеральной средней будет сколь угодно мала.

Предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы.

Определение численности (объема) выборки

Одной из важных проблем выборочного метода является определение необходимого объема выбор­ки (табл.2). От объема выборки зависит размер средней ошибки (μ) и экономичность проводимого выборочного наблюдения, так как чем больше объем выборки, тем больше затраты на изучение элементов выборки, но тем меньше при этом ошибка выборки.

Из формулы предельной ошибки Δ и формул средних ошибок выборки определяются формулы необходимой численности выборки для различных способов отбора.

Таблица 2
Формулы расчета необходимой численности выборки

для собственно-случайного отбора

n

Собственно-случайный отбор


повторный


бесповторный


Для средней






Для доли







Интервальное оценивание

Пусть

. Если Δ представляет собой предел, которым ограничена сверху абсолютная вели­чина |ε | < Δ, то \Х -X | < Δ.

Следовательно,
М
ы получили интервальную оценку генеральной средней. Из теоремы Чебышева следует, что
Интервальной оценкой называют оценку, которая определяется 2 числами — концами интервала, который с определенной вероятностью накры­вает неизвестный параметр генеральной совокупности. Интервал, содержащий оцениваемый параметр генеральной совокупности, называют доверительным интервалом. Для его определения вычисляется предельная ошибка выборки Δ, позволяющая установить предельные границы, в которых с заданной вероятностью (надежностью) должен находиться параметр генеральной совокупности.

Коэффициент tпозволяет установить, насколько надежно выска­зывание о том, что заданный интервал содержит параметр генеральной совокупности. Если мы вы­берем коэффициент таким, что высказывание в 95% случаев окажется правильным и только в 5%  неправильным, то мы говорим: со статистической надежностью в 95% доверительный интервал выборочной статистики содержит параметр гене­ральной совокупности. Статистической надежности в 95% соответствует доверительная вероятность — 0,95. В 5% случаев утверждение «параметр принадлежит доверительному интервалу» будет неверным, т. е. 5% задает уровень значимости (α) или 0,05 вероятность ошибки. Обычно в статистике уровень значимости выбирают таким, чтобы он не превысил 5% (α < 0,05). Доверительная вероятность и уровень значимости дополняют друг друга до 1 (или 100%) и определяют надежность статистического высказывания.

С помощью доверительного интервала можно оценить не только генеральную среднюю, но и другие неизвестные параметры генеральной совокупности.

Для оценки математического ожидания х (генеральной средней) нормально распределенного количественного признака Х по выборочной средней Х при известном среднем квадратическом отклонении α генеральной совокупности (на практике — при большом объеме выборки, т. е. при п 30) и собственно-случайном повторном отборе формула ( ) примет вид



где t определяется по таблицам функции Лапласа (приложение 2) из соотношения 2Фo(t) = γ; σ среднее квадратическое отклонение; п — объем выборки (число обследованных единиц).



Для оценки математического ожидания а (генеральной средней) нормально распределенного количественного признака Х по выборочной средней Х при известном среднем квадратическом отклоне­нии σ генеральной совокупности (при большом объеме выборки, т. е. при n >. 30) и собственно-случай­ном бесповторном отборе формула ( ) примет вид



где t определяется по таблицам функции Лапласа (приложение 2) из соотношения 2Фo(t) = γ; wвыборочная доля; п — объем выборки (число обследованных единиц);

Д


ля оценки
генеральной доли р нормально распределенного количественного признака по выборочной доле w = т/п (при большом объеме выборки, т. е. при п >. 30) и собственно-случайном повторном отборе формула ( ) будет иметь вид



Д


ля оценки
генеральной доли р нормально распределенного количественного признака по выборочной доле w = т/п (при большом объеме выборки, т. е. при п > 30) и собственно-случайном, бесповторном отборе формула ( ) будет иметь вид



где t определяется по таблицам функции Лапласа (приложение 2) из соотношения 2Фo(t) = γ; wвыборочная доля; п — объем выборки (число обследованных единиц);
Пример 3. Владелец автостоянки опасается обмана со стороны своих служащих (охраны автостоянки). В течение года (365 дней) владельцем автостоянки проведено 40 проверок. По данным проверок среднее число автомобилей, оставляемых на ночь на охрану, составило 400 единиц, а среднее квадратическое (стандартное) отклонение их числа  10 автомобилей. Считая отбор собственно-случайным, с вероятностью 0,99 оцените с помощью доверительного интервала истинное среднее число автомобилей, оставляемых на ночь на охрану. Обоснованы ли опасения владельца автостоянки, если по отчетности охранников среднее число автомобилей, оставляемых на ночь на охрану, составляет 395 автомобилей?

Решение. По условию задачи выборочное обследование проведено с помощью собственно-случайного отбора. Очевидно, что отбор  бесповторный, так как не имеет смысла производить проверку более 1 раза в сутки. Объем выборки n = 40, что больше 30 единиц, т. е. выборка большая. Объем генеральной совокупности N = 365.

Найдем границы доверительного интервала для оценки среднего числа автомобилей, оставляемых на ночь на охрану, т.е. границы доверительного интервала для генеральной средней.

По условию

Х= 400; σ = 10; п = 40; γ = 0,99; N=365. Используем формулу

Найдем t из соотношения 2Фo(t) = γ. 2Ф o(t) = 0,99;

Фo(t) = 0,99/2 = 0,495.

По таблице функции Лапласа (приложение 2) найдем, при каком t 2Фo(t) = 0,495. Фo (2,58) = 0,495.

Следовательно, t= 2,58.

Найдем предельную ошибку выборки:

396,1507 <Х< 403,8493.

Ответ. С уверенностью в 99% можно ожидать, что среднее число автомобилей, оставляемых на ночь на охрану, находится в интервале от 396 до 404. Таким образом, можно утверждать, что служащие автостоянки обманывают ее владельца.

Пример 4. В 24 из 40 проверок число автомобилей на автостоянке не превышало 400 единиц. С вероятностью 0,98 найдите доверительный интервал для оценки истинной доли дней в течение года, когда число оставляемых на стоянке автомобилей не превышало 400 единиц.

Решение. Определим границы доверительного интервала для доли дней в течение года, когда число оставляемых на стоянке автомобилей не превышало 400 единиц.

По условию т = 24; п = 40; γ = 0,98.

Выборочная доля w = 24/40 = 0,60. Так как

Фo(t) = γ/2 = 0,98/2 = 0,49.

По таблице функции Лапласа (приложение 2) найдем, при каком tФo(t) = 0,49. Фо (2,33) = 0,49.

Следовательно, t == 2,33.

Найдем предельную ошибку выборки:

0,6 - 0,1703 <p < 0,6 + 0,1703;

0,4297 <p< 0,7703.

Ответ. С вероятностью 0,98 можно ожидать, что доля дней в течение года, когда число оставляемых на стоянке автомобилей не превышало 400 единиц, находится в интервале от 0,4297 до 0,7703.

Пример 5. Изменим условие примера 3. С помощью собственно-случайного бесповторного отбора определяется среднее число автомобилей, оставляемых на ночь на охрану. Предполагается, что оно подчиняется нормальному закону. Каким должен быть объем выборки, чтобы с вероятностью 0,95 можно было утверждать, что когда принимается полученное среднее число автомобилей по выборке за истинное, совершается погрешность, не превышающая 3 автомобилей, если среднее квадратическое отклонение а равно 10 автомобилям?

Решение. Дано: Д = 3; <т= 10; γ = 0,95; .N=365. Воспользуемся формулой расчета необходимой численности выборки для средней при собственно-случайном бесповторном отборе:

Найдем t из соотношения 2Ф0(() = γ. 0(1) = 0,95;

Ф0(() = 0,95/2 = 0,475.

По таблице функции Лапласа (приложение 2) найдем, при каком t Ф0(1) == 0,475. Ф0(1,96) = 0,475.

Следовательно, t = 1,96.

Рассчитаем объем выборки:

Так как п — целое число, округлим полученный результат до большего целого, учитывая, что необходимо не превышать заданную ошибку.

Следовательно, необходимо провести не менее 39 проверок.

Ответ. Для определения среднего числа автомобилей, оставляемых на ночь на охрану с вероятностью 0,95 и Д = 3, необходимо провести не менее 39 проверок


написать администратору сайта