Главная страница
Навигация по странице:

  • Ошибки репрезентативности

  • Систематические ошибки репрезентативности

  • Случайные ошибки репрезентативности

  • 7.2. Собственно-случайная (простая случайная) выборка

  • Средняя ошибка повторной собственно-случайной выборки

  • Таблица 7.1.

  • Таблица 7.2.

  • Необходимый объем собственно-случайной бесповторной выборки

  • 7.3. Механическая (систематическая) выборка

  • 7.4. Типическая (стратифицированная) выборка

  • Таблица 7.3.

  • Таблица 7.4.

  • Шмойлова_Теория статистики. Московская финансовопромышленная академия


    Скачать 1.4 Mb.
    НазваниеМосковская финансовопромышленная академия
    АнкорШмойлова_Теория статистики.pdf
    Дата30.01.2017
    Размер1.4 Mb.
    Формат файлаpdf
    Имя файлаШмойлова_Теория статистики.pdf
    ТипРеферат
    #1228
    страница7 из 12
    1   2   3   4   5   6   7   8   9   ...   12

    Генеральной
    совокупностью
    называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется
    совокупность выборочная
    . Поэтому генеральную совокупность также называют основой выборки.
    Отбор единиц в выборочную совокупность может быть повторным или бесповторным.
    При
    повторном отборе
    попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз.
    И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.
    Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным.
    Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.
    На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.
    Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот
    же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.
    При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами - изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.
    При
    бесповторном отборе
    попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен.
    Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.
    Как уже отмечалось выше, выборочное наблюдение всегда связано с определенными ошибками получаемых характеристик. Эти ошибки называются ошибками репрезентативности (представительности).
    Ошибки репрезентативности
    обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репрезентативности.
    Систематические ошибки репрезентативности
    связаны с нарушением принципов формирования выборочной совокупности.
    Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.
    Случайные
    ошибки
    репрезентативности
    обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Получаемые случайные ошибки могут быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.

    При дальнейшем рассмотрении теории и методов выборочного наблюдения в данной главе используются следующие общепринятые
    условные обозначения
    :
    N- объем (число единиц) генеральной совокупности; n - объем (число единиц) выборочной совокупности;
    - генеральная средняя, т.е. среднее значение изучаемого признака по генеральной совокупности (средняя прибыль, средняя величина активов, средняя численность работников предприятия и т.п);
    - выборочная средняя, т.е. среднее значение изучаемого признака по выборочной совокупности;
    M - численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака
    (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.); p - генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяется как
    N
    M
    ; m - численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака; w - выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности; определяется как
    n
    m
    ;
    - средняя ошибка выборки;
    - предельная ошибка выборки.
    Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокупности, и в обратной зависимости - от объема выборки. Таким образом среднюю ошибку выборки можно представить как
    2
    n
    ген
    σ
    µ
    =
    При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:
    1 2
    2

    =
    n
    n
    ген
    σ
    σ

    В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки. Учитывая, что при достаточно большом объеме выборки отношение
    1

    n
    n
    близко к 1, формула средней ошибки повторной выборки принимает следующий вид:
    ,
    2
    n
    σ
    µ
    =
    где
    - дисперсия изучаемого признака по выборочной совокупности.
    При определении возможных границ значений характеристик генеральной совокупности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы. Согласно теореме А.М.Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной совокупности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.
    Значения интеграла Лапласа при различных величинах t табулированы и представлены в статистических справочниках. При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:
    P 0,683 0,950 0,954 0,997 t 1 1,96 2 3
    Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двухкратной величины средней ошибки выборки.
    Теоретической основой для определения границ генеральной доли, т.е. доли единиц, обладающих тем или иным вариантом признака, является теорема Бернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции
    F(t) при заданном значении t.

    Процесс подготовки и проведения выборочного наблюдения включает ряд последовательных этапов:
    1.
    Определение цели обследования.
    2.
    Установление границ генеральной совокупности.
    3.
    Составление программы наблюдения и программы разработки данных.
    4.
    Определение вида выборки, процента отбора и метода отбора.
    5.
    Отбор и регистрация наблюдаемых признаков у отобранных единиц.
    6.
    Расчет выборочных характеристик и их ошибок.
    7.
    Распространение полученных результатов на генеральную совокупность.
    В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора. К наиболее распространенным на практике видам относятся:

    собственно-случайная (простая случайная) выборка;

    механическая (систематическая) выборка;

    типическая (стратифицированная, расслоенная) выборка;

    серийная (гнездовая) выборка.
    Отбор единиц из генеральной совокупности может быть комбинированным, многоступенчатым и многофазным.
    Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.
    Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом – более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.
    Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.
    7.2. Собственно-случайная (простая случайная) выборка
    Собственно-случайная выборка заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

    Прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной совокупности таким образом, чтобы включение или невключение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании торговых предприятий необходимо указать, включит ли генеральная совокупность торговые павильоны, коммерческие палатки, передвижные торговые точки и прочие подобные объекты; при обследовании студентов важно определиться, будут ли приниматься во внимание студенты-заочники, экстерны, учащиеся в магистратуре, лица, находящиеся в академическом отпуске и т.п.
    Для проведения отбора единиц в выборочную совокупность используется один из математических алгоритмов, например,
    метод
    прямой реализации
    , включающий следующие этапы:
    1. Все единицы генеральной совокупности, расположенные в случайном порядке или ранжированные по какому-либо признаку, нумеруются от 1 до N.
    2. С помощью процессора случайных чисел получают n значений в интервале от 1 до N. Если первоначально случайные числа получены в интервале от 0 до 1, их необходимо умножить на N и округлить по правилам до целого значения.
    3. Из сформированного списка единиц генеральной совокупности отбираются единицы, соответствующие по номеру полученным случайным числам.
    Упрощенным вариантом метода прямой реализации является отбор единиц в выборочную совокупность на основе
    таблицы
    случайных чисел
    (см. Приложение ...). Для проведения отбора могут быть использованы цифры любого столбца данной таблицы, при этом необходимо учитывать объем генеральной совокупности.
    Рассмотрим процедуру отбора на основе фрагмента таблицы случайных чисел. Предположим, объем генеральной совокупности составляет 70000 единиц и требуется сформировать выборку объемом
    500 единиц, то цифры таблицы следует перегруппировать для получения пятизначных чисел следующим образом:
    5489 5583 3156 0835 1988 3522 0935 7877 5665 7020 7555 7579 2550 2487 9477 5759 3554 5080 9074 7001 6303 6895 3371 3196 7231

    Для формирования выборки мы должны взять 500 чисел в интервале от 00001 до 70000. Таким образом, нам следует из списка единиц генеральной совокупности отобрать единицы под номером
    54895, 35220, 57593 и т.д. При этом номера свыше 70000 (75557, 93578 и подобные) будут проигнорированы.
    При проведении бесповторного отбора повторяющиеся номера следует учитывать только один раз. При повторном отборе, если тот или иной номер случайно встретится еще один или более раз, соответствующая этому номеру единица в каждом случае повторно включается в выборочную совокупность.
    После проведения отбора с использованием какого-либо алгоритма, реализующего принцип случайности, или на основе таблицы случайных чисел, необходимо определить границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.
    Средняя ошибка повторной собственно-случайной выборки
    определяется по формуле:
    n
    σ
    µ
    =
    (7.1)
    С учетом выбранного уровня вероятности и соответствующего ему значения t
    предельная ошибка
    повторной собственно-случайной
    выборки
    выборки составит:
    (7.2)
    Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:





    x
    x
    x
    x
    x

    +




    (7.3)
    Предположим, в результате выборочного обследования доходов домохозяйств региона, осуществленного на основе собственно- случайной повторной выборки, получен следующий ряд распределения
    (табл. 7.1).
    Таблица 7.1.
    Результаты выборочного обследования доходов
    домохозяйств региона
    Доход, тыс.руб.
    До 5 5-10 10-15 15-20 20 и более
    Число домохозяйств
    52 354 475 170 49

    Рассмотрим определение
    границ генеральной средней
    , в данном примере – среднего дохода домохозяйства в целом по данному региону, опираясь только на результаты выборочного обследования. Для определения средней ошибки выборки нам необходимо прежде всего рассчитать выборочную среднюю величину и дисперсию изучаемого признака (табл. 8.2).
    Таблица 7.2.
    Расчет среднего дохода домохозяйства и дисперсии
    Доход, тыс.руб.
    Число домохозяйств
    f
    Середина интервала
    x
    xf
    f
    x
    2
    До 5 5 - 10 10 - 15 15 - 20 20 и более
    52 354 475 170 49 2,5 7,5 12,5 17,5 22,5 130,0 2655,0 5937,5 2975,0 1102,5 325,0 19912,5 74218,75 52062,5 24806,25
    Итого 1100
    - 12800 171325
    ;
    6
    ,
    11 1100 12800

    =
    =
    x
    ;
    19
    ,
    21 6
    ,
    11 1100 171325 2
    2
    =

    =
    σ
    6
    ,
    4 19
    ,
    21
    =
    =
    σ
    Средняя ошибка выборки составит:
    14
    ,
    0 1100 6
    ,
    4

    =
    =
    x
    µ
    Определим предельную ошибку выборки с вероятностью 0,954
    (t=2):
    28
    ,
    0 14
    ,
    0 2

    =

    =

    x
    Установим границы генеральной средней (тыс.руб.):
    28
    ,
    0 6
    ,
    11 28
    ,
    0 6
    ,
    11
    +




    или
    88
    ,
    11 32
    ,
    11

    x
    Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний доход домохозяйства в целом по региону лежит в пределах от 11,3 до
    11,9 тыс.руб.

    При расчете
    средней
    ошибки
    собственно-случайной
    бесповторной выборки
    необходимо учитывать поправку на бесповторность отбора:
    1 2






     −
    =
    N
    n
    n
    x
    σ
    µ
    (7.4)
    Если предположить, что представленные в табл. 7.1 данные являются результатом 5%-ного бесповторного отбора (следовательно, генеральная совокупность включает 22000 домохозяйств), то средняя ошибка выборки будет несколько меньше:
    135
    ,
    0 22000 1100 1
    1100 19
    ,
    21

    =





     −
    =
    x
    µ
    Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней. Особенно ощутимо влияние поправки на бесповторность отбора при относительно большом проценте выборки.
    Мы рассмотрели определение границ генеральной средней.
    Рассмотрим теперь, как определяются
    границы генеральной доли
    , т.е. границы доли единиц, обладающих тем или иным значением признака.
    Воспользуемся еще раз данными табл. 7.1 для того, чтобы определить границы доли домохозяйств, доходы которых составляют менее 10 тыс.руб. Согласно результатам обследования, численность таких домохозяйств составила 52+354=406. Определим выборочную долю и дисперсию:
    ;
    369
    ,
    0 1100 406 =
    =
    w
    2328
    ,
    0 631
    ,
    0 369
    ,
    0
    )
    1
    (
    2
    =

    =

    =
    w
    w
    w
    σ
    Рассчитаем среднюю ошибку выборки:
    014
    ,
    0 22000 1100 1
    1100 2328
    ,
    0
    =





     −
    =
    w
    µ
    Предельная ошибка выборки с заданной вероятностью составит:
    028
    ,
    0 014
    ,
    0 2
    =

    =

    w
    Определим границы генеральной доли:
    028
    ,
    0 369
    ,
    0 028
    ,
    0 369
    ,
    0
    +



    p
    или
    397
    ,
    0 341
    ,
    0

    p
    Следовательно, с вероятностью 0.954 можно утверждать, что доля домохозяйств, имеющих доходы менее 10 тыс.руб., в целом по данному региону находится в пределах от 34,1 до 39,7%.

    Мы рассмотрели определение границ генеральной средней и генеральной доли по результатам уже проведенного выборочного наблюдения, при известном объеме выборки или проценте отбора. На этапе же проектирования выборочного наблюдения именно объем выборочной совокупности и требует определения.
    Чем больше объем выборки, тем меньше значения средней и предельной ошибок выборочного наблюдения и, следовательно, тем уже границы генеральной средней и генеральной доли. В то же время, необходимо учитывать, что большой объем выборки приводит к удорожанию обследования, увеличению сроков сбора и обработки материалов, требует привлечения дополнительного персонала и соответствующего материально-технического обеспечения. Затраты всех ресурсов на 20-30%-ное выборочное наблюдение уже сопоставимы с расходами на сплошное обследование. При этом не следует забывать, что статистические характеристики, полученные по выборочной совокупности, всегда имеют вероятностную основу и всегда будут уступать результатам сплошного наблюдения по точности и надежности. Поэтому при подготовке выборочного наблюдения необходимо определить тот минимально необходимый объем выборки, который обеспечит требуемую точность полученных статистических характеристик при заданном уровне вероятности.
    Представим формулу (7.2) следующим образом:

    n
    t
    x
    σ
    =

    (7.5)
    Отсюда можно вывести формулу для определения
    необходимого
    объема собственно-случайной повторной выборки
    :
    (7.6)
    Полученный на основе использования данной формулы результат всегда округляется в большую сторону. Например, если мы получили, что необходимый объем выборки составляет 493,1 единицы, то обследовав 493 единицы мы не достигнем требуемой точности.
    Поэтому, для достижения желаемого результата обследованием должны быть охвачены 494 единицы. С другой стороны, рассчитанное значение необходимого объема выборки свободно может быть увеличено в большую сторону на несколько единиц. Если мы располагаем необходимыми ресурсами, если по причинам организационного порядка
    (компактность расположения единиц, фиксированная нагрузка на каждого регистратора и т.п.) мы вполне можем охватить больший объем, то включение в выборочную совокупность 500 или, например, 550 единиц только уменьшит значения полученных случайной и предельной ошибок.

    Как видно из формулы (7.6) необходимый объем выборки будет тем больше, чем выше заданный уровень вероятности и чем сильнее варьирует наблюдаемый признак. В то же время повышение допустимой предельной ошибки выборки приводит к снижению необходимого ее объема.
    Расчет необходимого объема выборки предполагает, что организаторы выборочного наблюдения уже на этапе его проектирования располагают по крайней мере косвенными данными о вариации изучаемых признаков. Источниками таких данных могут служить: а) результаты исследования данного объекта в предшествующие периоды; б) результаты исследования аналогичных объектов (жителей других населенных пунктов, предприятий других регионов и т.п.); в) специально проведенное небольшое по объему выборочное обследование данного объекта, ставящее целью лишь изучение вариации наблюдаемых признаков.
    При определении необходимого объема выборки для определения границ генеральной доли задача оценки вариации решается значительно проще. Если дисперсия изучаемого альтернативного признака неизвестна, то можно использовать ее максимальное возможное значение:
    25
    ,
    0
    )
    5
    ,
    0 1
    (
    5
    ,
    0
    )
    1
    (
    2
    max
    =

    =

    =
    w
    w
    w
    σ
    Например, предприятию связи с вероятностью 0,954 необходимо определить удельный вес телефонный разговоров продолжительностью менее 1 минуты с предельной ошибкой 2%. Сколько разговоров нужно обследовать в порядке собственно-случайного повторного отбора для решения этой задачи?
    Для получения ответа на поставленный вопрос воспользуемся формулой (7.6) и будем ориентироваться на максимальную возможную дисперсию доли телефонных разговоров такой продолжительности.
    Расчет приводит к следующему результату:
    2500 02
    ,
    0 25
    ,
    0 2
    2 2
    2
    =

    =
    n
    Таким образом, обследованием должны быть охвачены не менее
    2500 разговоров на предмет их продолжительности.
    Необходимый объем собственно-случайной бесповторной
    выборки
    может быть определен по следующей формуле:
    2

    2 2
    2 2
    N
    t
    N
    t
    n
    x

    +
    =
    σ
    σ
    (7.7)

    Укажем на одну особенность формулы (7.7). При проведении вычислений объем генеральной совокупности должен быть выражен только в единицах, а не в тысячах или в миллионах единиц. Например, подставив в данную формулу общую численность населения региона, выраженную в тысячах человек, мы не получим правильное значение необходимой численности выборки, также выраженное в тысячах человек, как это иногда бывает в других расчетах. Результат вычислений будет неверен.
    7.3. Механическая (систематическая) выборка
    Механическая выборка может быть применена в тех случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последовательность в расположении единиц
    (табельные номера работников, списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.). Для проведения отбора желательно, чтобы все единицы также имели порядковые номера от 1 до
    N.
    Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей. Так, если их совокупности в
    500000 единиц предполагается отобрать 10000 единиц, то пропорция отбора составит
    . Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы.
    Например, при пропорции 1:50 (2%-ная выборка) отбирается каждая 50- я единица, при пропорции 1:20 (5%-ная выборка) - каждая 20-я единица и т.д.
    Интервал отбора также можно определить как частное от деления
    100% на установленный процент отбора. Так, при 2%-ном отборе интервал составит 50 (100%:2%), при 4%-ном отборе - 25 (100%:4%). В тех случаях, когда результат деления получается дробным, сформировать выборку механическим способом при строгом соблюдении процента отбора не представляется возможным. Например, по этой причине нельзя сформировать 3%-ную или 6%-ную выборки.
    Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки. Однако в этом случае возрастает опасность систематической ошибки, связанной с занижением значений изучаемого признака (если из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение). Поэтому целесообразно из каждого интервала отбирать центральную или одну из двух центральных единиц.

    Например, при 5%-ной выборке интервал отбора составит 20 единиц, тогда отбор целесообразно начинать с 10-й или с 11-й единицы. В первом случае в выборку попадут 10, 30, 50, 70 и с таким же интервалом последующие единицы; во втором случае - единицы с номерами 11, 31,
    51, 71 и т.д.
    При механической выборке также может появиться опасность систематической ошибки, обусловленной случайным совпадением выбранного интервала и циклических закономерностей в расположении единиц генеральной совокупности. Так, при переписи населения 1989 г. в ходе 25%-го выборочного обследования семей имела место опасность попадания в выборку квартир только одного типа (например, только однокомнатных или только трехкомнатных), так как на лестничных площадках многих типовых домов располагаются именно по 4 квартиры. Чтобы избежать систематической ошибки, в каждом новом подъезде счетчик менял начало отбора.
    Для определения средней ошибки механической выборки, а также необходимой ее численности, используются соответствующие формулы, применяемые при собственно-случайном бесповторном отборе (7.4 и
    7.7). При этом, определив необходимую численность выборки и сопоставив ее с объемом генеральной совокупности, как правило, приходится производить соответствующее округление для получения целочисленного интервала отбора.
    Например, в области зарегистрировано 12000 фермерских хозяйств. Определим, сколько из них нужно отобрать в порядке механического отбора для определения средней площади сельхозугодий с ошибкой
    2 га. (Р=0,997). По результатам ранее проведенного обследования известно, что среднее квадратическое отклонение площади сельхозугодий составляет 8 га. Произведем расчет, воспользовавшись формулой 7.7.:
    143 3
    ,
    142 12000 2
    8 3
    12000 8
    3 2
    2 2
    2 2

    =

    +



    =
    n
    С учетом полученного необходимого объема выборки (143 фермерских хозяйства) определим интервал отбора: 12000:143=83,9.
    Определенный таким способом интервал всегда округляется в меньшую сторону, так как при округлении в большую сторону произведенная выборка не достигнет рассчитанного по формуле необходимого объема.
    Следовательно, в нашем примере, из общего списка фермерских хозяйств необходимо отобрать для обследования каждое 83-е хозяйство.
    При этом процент отбора составит 1,2% (100%:83).

    7.4. Типическая (стратифицированная) выборка
    Типический отбор целесообразно использовать в тех случаях, когда все единицы генеральной совокупности объединены в несколько крупных типических групп. Такие группы также называют стратами или слоями, в связи с чем типический отбор также называют стратифицированным или расслоенным. При обследованиях населения в качестве типических групп могут быть выбраны области, районы, социальные, возрастные или образовательные группы, при обследовании предприятий - отрасли или подотрасли, формы собственности и т.п.
    Рассматривать генеральную совокупность в разрезе нескольких крупных групп единиц имеет смысл только в том случае, если средние значения изучаемых признаков по группам существенно различаются.
    Например, с большой уверенностью можно предположить, что доходы населения крупного города будут в среднем выше доходов населения, проживающего в сельской местности; численность работников промышленного предприятия в среднем будет выше численности работников торгового или сельскохозяйственного предприятия; средний возраст студентов будет значительно меньше среднего возраста занятого населения и, тем более, пенсионеров. В то же время, нет никакого смысла при выделении типических групп ориентироваться на признак, не связанный или очень слабо связанный с изучаемым.
    Отбор единиц в выборочную совокупность из каждой типической группы осуществляется собственно-случайным или механическим способом. Поскольку в выборочную совокупность в той или иной пропорции обязательно попадают представители всех групп, типизация генеральной совокупности позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. В то же время, в выделенных типических группах обследуются далеко не все единицы, а только включенные в выборку. Следовательно, на величине полученной ошибки будет сказываться различие между единицами внутри этих групп, т.е. внутригрупповая вариация. Поэтому, ошибка типической выборки будет определяться величиной не общей дисперсии, а только ее части - средней из внутригрупповых дисперсий.
    При типической выборке, пропорциональной объему типических
    групп, число единиц, подлежащих отбору из каждой группы, определяется следующим образом:
    ,
    N
    N
    n
    n
    i
    i
    =
    (7.8) где
    i
    N
    - объем i-й группы;
    i
    n
    - объем выборки из i-й группы.
    Предположим, общая численность населения области составляет
    1,5 млн. чел., в том числе городское - 900 тыс. чел. и сельское - 600 тыс.
    чел. Если в ходе выборочного наблюдения планируется обследовать 100 тыс. жителей, то эта численность должна быть поделена пропорционально объему типических групп следующим образом: городское население -
    60000 1500000 900000 100000
    =
    =

    n
    чел.; сельское население -
    40000 1500000 6000000 100000
    =
    =

    n
    чел..
    Средняя ошибка типической выборки определяется по формулам:
    n
    2
    σ
    µ
    =
    (повторный отбор),
    (7.9)





     −
    =
    N
    n
    n
    1 2
    σ
    µ
    (бесповторный отбор),
    (7.10) где
    - средняя из внутригрупповых дисперсий.
    Рассмотрим данный вариант типической выборки на условном примере.
    Предположим, 10%-ный бесповторный типический отбор безработного населения, пропорциональный размерам районов, проведенный с целью оценки продолжительности периода поиска работы, привел к следующим результатам (табл. 7.3).
    Таблица 7.3.
    Результаты обследования безработного населения области
    Район
    Всего зарегистрировано безработных, чел.
    Обследовано, чел.
    Число недель поиска работы средняя дисперс ия
    А 5000 500 7
    36
    Б 8200 820 15 64
    В 2100 210 5
    9
    Рассчитаем среднюю из внутригрупповых дисперсий:
    0
    ,
    47 210 820 500 210 9
    820 64 500 36 2
    2
    =
    +
    +

    +

    +

    =
    =


    i
    i
    i
    n
    n
    σ
    σ
    Определим среднюю и предельную ошибки выборки (с вероятностью 0,954):
    ;
    17
    ,
    0 15300 1530 1
    1530 0
    ,
    47

    =





     −
    =
    x
    µ

    34
    ,
    0 17
    ,
    0 2

    =

    =

    x
    Рассчитаем выборочную среднюю:
    0
    ,
    11 210 820 500 210 5
    820 15 500 7

    =
    +
    +

    +

    +

    =
    =


    i
    i
    i
    n
    n
    x
    x
    недель.
    В результате проведенных расчетов с вероятностью 0,954 можно сделать вывод, что среднее число недель, затрачиваемых на поиск работы, в целом по области находится в пределах:
    34
    ,
    0 0
    ,
    11 34
    ,
    0 0
    ,
    11
    +



    x
    При определении
    необходимого объема типической выборки
    в рассмотренных выше формулах (7.6) и (7.7) общую дисперсию наблюдаемого признака необходимо заменить на среднюю из внутригрупповых дисперсий. Тогда данные формулы примут следующий вид:
    2

    2 2
    x
    t
    n

    =
    σ (повторный отбор)
    (7.11)
    N
    t
    N
    t
    n
    x
    2

    2 2
    2 2

    +
    =
    σ
    σ
    (бесповторный отбор)
    (7.12)
    Предположим, в рассмотренном выше примере нам необходимо определить среднее число недель, затрачиваемых на поиск работы, с предельной ошибкой 1 неделя. Учитывая величину полученной ранее средней из внутригрупповых дисперсий определим необходимый объем типической выборки при условии бесповторного отбора:
    7
    ,
    185 15300 1
    0
    ,
    47 2
    15300 0
    ,
    47 2
    2 2
    2
    =

    +



    =
    n
    Таким образом мы получили, что при заданных условиях для достижения требуемой точности достаточно обследовать выборочным методом всего 186 чел. Распределим эту численность на три района рассматриваемой области пропорционально их размерам по числу зарегистрированных безработных:
    ;
    8
    ,
    60 15300 5000 186
    =
    =
    А
    n
    ;
    7
    ,
    99 15300 8200 186
    =
    =
    Б
    n
    5
    ,
    25 15300 2100 186
    =
    =
    В
    n
    Расчеты показывают, что в районе А необходимо обследовать 61 чел., в районе Б - 100 чел., и в районе В - 25 чел.

    Мы рассмотрели типический отбор, пропорциональный объему типических групп. Второй вариант формирования типической выборки заключается в отборе единиц, пропорциональном вариации признака в типических группах. Логика такого отбора заключается в следующем: если внутри какой-либо типической группы наблюдаемый признак варьирует слабо, то для определения границ генеральных характеристик из данной группы достаточно обследовать относительно небольшое число единиц; при сильной же вариации признака объем выборки должен быть соответственно увеличен.
    7.5. Серийная выборка
    Сущность серийной выборки заключается в собственно-случайном либо механическом отборе групп единиц (серий), внутри которых производится сплошное обследование. Единицей отбора при этой выборке является группа или серия, а не отдельная единица генеральной совокупности, как это имело место в рассматриваемых ранее выборках.
    Данный способ отбора удобен в тех случаях, когда единицы генеральной совокупности изначально объединены в небольшие более или менее равновеликие группы или серии. В качестве таких серий могут выступать упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие подобные объединения.
    В большинстве случаев серийная выборка имеет не столько методологические, сколько организационные преимуществами перед другими способами формирования выборочной совокупности.
    Например, в Великобритании серийный отбор используется в обследованиях населения, когда серией являются домохозяйства, объединенные общим почтовым индексом. В случайном порядке производится выборка индексов и под обследование попадают все домохозяйства, имеющие индекс попавших в выборочную совокупность почтовых отделений.
    В связи с тем, что при серийном отборе внутри отобранных групп обследуются все без исключения единицы, внутригрупповая вариация признака не отразится на ошибках выборочного наблюдения. В то же время, обследуются не все группы, а только попавшие в выборку.
    Следовательно на ошибках получаемых характеристик будут отражаться различия между группами, которые определяются межгрупповой дисперсией. Поэтому средняя ошибка серийной выборки определяется по формулам:
    r
    2
    δ
    µ
    =
    (повторный отбор),
    (7.13)
    


    



    =
    r
    r
    1 2
    δ
    µ
    (бесповторный отбор) ,
    (7.14)
    где r - число отобранных серий;
    R- общее число серий.
    Межгрупповую дисперсию при равновеликих группах вычисляют следующим образом:
    (7.15) где - средняя i-й серии;
    - общая средняя по всей выборочной совокупности.
    Рассмотрим следующий пример. Предположим, партия готовой продукции предприятия упакована в 160 ящиков по 25 изделий в каждом. В целях контроля соблюдения параметров технологического процесса проведена 5%-ная серийная выборка, в ходе которой отбирался каждый 20-й ящик. Все изделия, находящиеся в отобранных ящиках были подвергнуты сплошному обследованию, заключающемуся в определении их точного веса. Полученные результаты представлены в следующей таблице:
    Таблица 7.4.
    Результаты выборочного обследования готовой продукции
    Номер коробки
    1 2
    3 4
    5 6
    7 8
    Средний вес изделия в ящике, г
    563 545 548 560 555 561 547 552
    С вероятностью 0,954 требуется определить границы среднего веса изделия во всей партии.
    На основе приведенных в таблице внутригрупповых средних определим средний вес изделия по выборочной совокупности:
    9
    ,
    553 8
    552 545 563

    =
    +
    +
    +
    =
    x
    г.
    С учетом полученной средней рассчитаем межгрупповую дисперсию:
    11
    ,
    42 8
    )
    9
    ,
    553 552
    (
    )
    9
    ,
    553 545
    (
    )
    9
    ,
    553 563
    (
    2 2
    2 2
    =

    +
    +

    +

    =
    δ

    Рассчитаем среднюю и предельную ошибки выборки:
    ;
    2
    ,
    2 160 8
    1 8
    11
    ,
    42
    =





     −
    =
    µ
    г;
    4
    ,
    4 2
    ,
    2 2

    =

    =


    г.
    Определим границы генеральной средней:
    4
    ,
    4 9
    ,
    553 4
    ,
    4 9
    ,
    553
    +




    На основе результатов проведенных расчетов с вероятностью
    0,954 можно утверждать, что средний вес изделия в целом по всей партии продукции находится в пределах от 549,5 г до 558,3 г.
    Для определения необходимого объема серийной выборки при заданной предельной ошибке используются следующие формулы:
    (повторный отбор);
    R
    t
    R
    t
    r
    x
    2

    2 2
    2 2

    +
    =
    δ
    δ
    (бесповторный отбор).
    (7.16)
    Предположим, в рассмотренном выше примере необходимо определить границы среднего веса изделия с предельной ошибкой 3,0 г. Используя полученные выше данные о вариации веса определим, сколько ящиков с изделиями нужно обследовать в порядке бесповторной серийной выборки, чтобы получить результат с заданной точностью и при выбранном уровне вероятности:
    8
    ,
    16 160 0
    ,
    3 11
    ,
    42 2
    160 11
    ,
    42 2
    2 2
    2
    =

    +



    =
    r
    Выполненный расчет позволяет заключить, что для получения границ генеральной средней с заданной точностью необходимо обследовать не менее 17 ящиков с изделиями, отобранных собственно- случайным или механическим способом.

    1   2   3   4   5   6   7   8   9   ...   12


    написать администратору сайта