84
2.
Типовой план таблиц анализа данных об использовании времени
a)
Требования к аналитическим и классифицирующим переменным
623. Типовые таблицы для анализа содержат подробную информацию о: a) аналитических переменных, b) классифицирующих переменных и c) пара- метрах расчета затраченного времени.
624. Основной аналитической переменной является, естественно, вид деятельности. Деятельность можно подразделить на основную, второстепен- ную или одновременную. Большинство типовых статистических отчетов об
84
Niemi, Kiiski and Liikkanen (1981), p. 19.
Таблица 18
Время, в среднем затрачиваемое на различные виды деятельности
а
лицами в возрасте
старше 15 лет и участниками деятельности с указанием процентной доли участников
с разбивкой по полу, Канада, 1998 год
Вид деятельности
Население старше 15 лет
Участники
Процент участия
всего
мужчины женщины
всего
мужчины женщины
всего
мужчины женщины
часов в день
часов в день
часов в день
Работа в целом
7,8 7,8 7,8 8,0 8,0 7,9 98 97 99
Оплачиваемая работа и связан- ные с ней виды деятельности
3,6 4,5 2,8 8,3 8,8 7,7 44 51 36
Неоплачиваемая работа
3,6 2,7 4,4 3,9 3,2 4,6 91 87 96
Уход за собой
10,4 10,2 10,6 10,4 10,2 10,6 100 100 100
Свободное время
5,8 6,0 5,6 5,9 6,1 5,7 97 97 97
Источник: Canada Statistics (1999 b), таблица 1.
a
В среднем за 7-дневную неделю.
174
Руководство по подготовке статистических данных об использовании времени
использовании времени включают в себя таблицы затрат времени на основные виды деятельности; кроме того, могут быть подготовлены отдельные таблицы для видов деятельности, имеющих второстепенное значение.
625. Контекстные переменные (место осуществления деятельности, при- сутствующие при этом лица, например, «с кем»; цель деятельности, например,
«для кого»; оплачивается эта деятельность или нет), как правило, также анали- зируются в сочетании с факторами продолжительности и вида деятельности, например, время, затраченное совместно родителями и детьми или супругами; время, проведенное дома; время, затраченное на неоплачиваемую работу по дому.
626. Классифицирующие переменные используются для определения границ исследования. Эти переменные могут рассматриваться как на уровне отдельного человека, так и на уровне домохозяйства. Следует учитывать те пе- ременные, которые позволяют выделить подгруппы лиц, которые, предполо- жительно, будут значительно различаться по затратам времени, и представлять наибольший интерес с точки зрения направленности исследования. На совеща- нии группы экспертов, посвященном методологии проведения обследований использования времени, был рекомендован следующий минимальный список классифицирующих переменных на уровне отдельного человека: возраст, пол, семейное положение, занятость (статус и категория) (United Nations, 2000).
627. Пол и возраст являются основными классифицирующими перемен- ными в анализе данных об использовании времени; поэтому половозрастные группы должны составлять основу определения границ обследования. В отсутс- твие международных стандартов классификации по возрастным группам, дан- ные о возрасте, как правило, собираются по конкретному возрасту, сводятся в таблицы и публикуются по так называемым «пятилетним» возрастным группам
(0–4, 5–9, 10–14 и т. д.) Такие группы считаются подходящими с точки зрения по- казателей, которые отражают типологические модели, связанные с изменениями жизненного цикла. Выбор в отношении других принципов классификации дела- ется в зависимости от конкретного вида анализа, однако за основу могут прини- маться вышеуказанные типовые группы. Например, группа, определяемая как
«молодежь», объединяет людей в возрасте от 15 до 24 (иногда ее подразделяют на подгруппы от 15 до 19 и от 20 до 24 лет). Определение «престарелые» как пра- вило, соответствует возрастной группе от 60 лет и старше. Однако для анализа, связанного непосредственно с вопросами старения, в частности, в том, что каса- ется ухода за престарелыми, эта группа может подразделяться на подгруппы от
60 до 69 лет (период относительной активности и самостоятельности) и старше
70 лет (потеря работоспособности, ухудшение здоровья и снижение доходов).
Для женщин большое значение имеет возрастная группа от 15 до 49 лет (или от 15 до 44), поскольку она соответствует репродуктивному периоду жизни, а возрастная группа старше указанного возраста является пост-репродуктивной.
Для исследований, анализирующих экономическую активность, возраст от 15 до
59 лет может рассматриваться как период наибольшей активности. Однако при этом следует учитывать практику деления на группы, которая принята в статис- тике рабочей силы каждым конкретным государством
85
628. Для некоторых видов анализа (например, при изучениия распреде- ления времени в домохозяйстве), большое значение имеют переменные пока- затели, связанные с домохозяйством, такие, как наличие детей, тип семьи (или состав домохозяйства), а также доход домохозяйства. Информация о наличии товаров длительного пользования в домохозяйстве необходима для пояснения моделей затраты времени на деятельность, связанную с их наличием или от- сутствием в домохозяйстве (United Nations, 2000).
85
Эти возрастные группы рассмат- риваются в издании Организации
Объединенных Наций, 1999 год, стр. 35 и 36.
Подготовка результатов обследования 175
b)
Требования к составлению таблиц629. При обсуждении этого вопроса целесообразно различать три вида таблиц, т. е., как правило, рабочие таблицы, таблицы одновременных видов дея- тельности и тематические таблицы
86Рабочие таблицы630. Рабочие таблицы являются основным элементом классификации, на основе которого могут составляться различные аналитические таблицы. В этих таблицах отражается продолжительность или процентная доля времени, затрачиваемого на каждый вид деятельности, указанный в общем списке. Про- должительность может выражаться через общий или средний показатель затра- ченного времени.
631. При подготовке плана составления таблиц необходимо прежде всего определить ту степень агрегирования или дезагрегирования, которая бу- дет использоваться в таблицах. В этой связи рекомендуется сначала использо- вать наи более детальную классификацию для кодирования различных видов деятельности. Для анализа
может потребоваться более общая классификация, которая может быть достигнута путем объединения соответствующих конкрет- ных видов деятельности. Например, формат Ås традиционно используется при проведении общего анализа бюджета времени, а также анализа использования свободного времени. С другой стороны, категории данных, используемых в таб- лицах в рамках предлагаемой Международной классификации видов деятель- ности для статистики использования времени, могут применяться для анализа, учитывающего оплачиваемую и неоплачиваемую работу
87. Публикуемые окон- чательные таблицы могут потребовать также включения менее детального опи- сания видов деятельности, что может быть продиктовано финансовыми сооб- ражениями или заботой об обеспечении точности данных обследования (этот вопрос рассматривается в главе X).
632. Предполагается, что при составлении рабочих таблиц в качестве основных областей обследования принимается, как минимум, перекрестная классификация по полу и возрасту. Как это объясняется выше, данные, полу- ченные по обследуемой группе, в целом воспринимаются иначе, чем данные по отдель ным участникам/лицам, осуществляющим тот или иной вид деятель- ности. Поэтому для обследуемой группы в целом и для отдельных участников/
лиц, осуществляющих тот или иной вид деятельности, должны составляться отдельные таблицы. В таблицах также должно быть указано число лиц в обсле- дуемой группе или количество участников, задействованных в том или ином виде деятельности.
633. На схеме 8 показан примерный формат базовой рабочей таблицы, где в качестве аналитической переменной выступает основной вид деятельности.
При составлении рабочей таблицы применяется наивысший уровень детали- зации с точки зрения классификации по видам деятельности. В таких таблицах должны быть отражены как показатели затраченного времени, так и число лиц в обследуемой группе (для таблиц, касающихся обследуемой группы в целом) или число участников (для таблиц, касающихся отдельных участников в том или ином виде деятельности). Агрегированные статистические таблицы для опубликования могут быть получены путем агрегации показаний затраченного времени в плане более широкой классификации по видам деятельности. Пред- лагаемые форматы таблиц для опубликования приводятся в приложении 14.
634. Серия таблиц, основанных на такого вида формате, может быть со- ставлена для различных классификационных переменных, как по отдельным лицам, так и по домохозяйству, включая демографическую информацию и ин-
86 Обсуждение этого вопроса осно- вано на материалах Хорригана и др. (Horrigan and others, 1999).
87 Категории составления таблиц для конкретных схем анализа подробно рассматриваются в главе XIII.
176
Руководство по подготовке статистических данных об использовании времениформацию о занятости. В дополнение к таблицам по основным видам деятель- ности можно составить таблицы и для второстепенных видов деятельности.
Рабочие таблицы, в которых используются другие аналитические переменные показатели (например, контекстные переменные), также могут составляться с использованием этого базового формата. В этом случае сопутствующие кате- гории или другие аналитические переменные заменяют список видов деятель- ности, приведенный в таблице схемы 8.
Схема 8
Пример типовой рабочей таблицы: суммарное времяa в неделюb, затрачиваемое на выполнение различных видов деятельностиc с разбивкой по участникам исследованияd, полу и возрасту еОсновные виды деятельностиВсегоЖенщиныМужчиныВсе возрастные группыВозраст 1…Возраст nВсе возрастные группыВозраст 1…Возраст nВсе возрастные группыВозраст 1…Возраст n01. Работа в корпорациях, квазикорпорациях, прави- тельственных структурах, некоммерческих органи- зациях
Затраченное время
Число участников
02. Работа на домашнеее хозяйство по производству первичной продукции
Затраченное время
Число участников
15. Личная гигиена и уход за собой
Затраченное время
Число участников
aСуммарное время — ключевой статистический показатель, используемый в данном примере. Другими показателями, которые можно использовать вместо суммарного времени, являются пропорциональная доля времени и среднее затраченное время.
bНеделя — единица измерения времени, используемая в данном примере. Другими такими единицами могут служить отдельные дни недели
(например, воскресенье, пятница), будний день, выходные дни и так далее.
cВ этом примере используются используются основные показатели экспериментальной Международной классификации видов деятельности для статистики используемого времени для определения основных видов деятельности. Можно использовать другие перечни видов деятельности, если они являются исчерпывающими или взаимоисключающими.
dЛюбая таблица бюджета времени должна показывать, относятся ли приводимые в ней данные к обследуемой группе в целом или к участникам видов деятельности. Если в качестве объекта анализа используется обследуемая группа в целом, то
распределение данных по таблице можно облегчить, отражая данные по этой группе только один раз, распределив их соответствующим образом по возрастному и половому признакам.
e Основными классификаторами, как показано здесь, являются половые и возрастные группы. При распределении по возрастным группам следует отражать все возрасты в обследуемой группе.
Подготовка результатов обследования 177 635. Страны традиционно представляют данные об использовании вре- мени отдельно для основных и второстепенных видов деятельности. В этих таб- лицах виды деятельности, о которых сообщается как о совершаемых одновре- менно, выделяются или группируются по основным и второстепенным, как об этом говорится в главе VIII. Для того, чтобы этот подход можно было исполь- зовать для анализа, важно, чтобы общее затраченное время равнялась 24-часо- вому дню. При этом встает вопрос, как разделить время между одновременно совершенными действиями.
636. Допустим, что респондент сообщает о том, что один час он затратил на просмотр телевизора в качестве основной деятельности, и в этот же период времени он занимался детьми (иными словами, допустим, что респондент осу- ществлял второстепенные действия, используя этот час для пассивного при- смотра за ребенком во время его сна). Простой подход к распределению вре- мени на два вида занятий состоит в том, что на каждый из них уходит один час. Однако если суммировать время,
затраченное в течение дня на каждый вид занятий, оно превысит 24 часа.
637. С учетом примера, приведенного выше, во вставке 7 приводятся три метода того, как распределить время, затраченное на эти одновременные заня- тия, по двум отдельным видам деятельности.
Вставка 7
Метод распределения времени, затрачиваемого на одновременное выполнение нескольких видов деятельности1. Распределить затраченное время в соответствии с количеством видов деятельности
a2. Использовать выделенные респондентом основные и второстепенные виды деятель- ности для определения промежутка времени, затраченного на каждый из них
b3. Распределить время, затраченное на виды одновременной деятельности, в со- ответствии со временем, затраченным на единичные (не одновременные) виды деятельности
сИсточник: Horrigan and others (1999).
a В рамках приведенного выше примера часовой промежуток времени можно разделить на полчаса на просмотр телевизора и полчаса на уход за детьми. Этот подход прост, и время, затраченное на все занятия за сутки, в сумме составит 24 часа. Очевидным недостатком здесь является то, что не существует теоретического обоснования для распределения равных промежутков времени между конкретными видами деятельности.
b Например, 60% времени может быть затрачено на основные занятия и 40% — на второстепенные.
Преимуществом этого подхода является то, что он позволяет получить информацию о том, какие виды деятельности респондент считает более важными. Кроме того, эти промежутки времени можно поставить в зависимость от этих конкретных рассматриваемых занятий. Однако теоретического обоснования для такого 60%–40% распределения времени не существует, равно как и для любого другого заранее заданного распределения времени.
c В качестве примера можно представить, что в день заполнения дневника человек отмечает 2 часа, затраченные на просмотр телепередач, в качестве единственного занятия, и 1 час — на уход за детьми, в качестве такого же занятия. В таком случае две трети времени, затраченного на просмотр телепередач и уход за детьми (одновременно) может быть отнесено к просмотру телепередач, а одна треть — к уходу за детьми. Этот подход имеет два недостатка: день может быть нехарактерным для этого человека, кроме того, некоторые из этих видов деятельности могут быть не единственными. Оба этих недостатка можно устранить, разделяя выборку на взаимоисключающие и исчерпывающие демографические показатели, и используя их средние значения для определения времени, затраченного на тот или иной вид деятельности каждым отдельным лицом. Например, предположим, что одновременно совершенные действия относятся к мужчине 35–44 лет и, согласно оценкам обследования, мужчины этой возрастной группы в течение года тратят в среднем 600 часов на просмотр телепередач в качестве единственного занятия и 300 часов — на уход за детьми в качестве единственного занятия. Исходя из такого распределения времени, две трети всего времени, затраченного на одновременный просмотр телепередач и уход за детьми, можно отнести к просмотру телепередач, а оставшуюся одну треть — к уходу за детьми.
178
Руководство по подготовке статистических данных об использовании времени
Схема 9
Пример типовой рабочей таблицы, в которой основные виды деятельности классифицируются на
«единственные» и «одновременные»: доля времени
а
, затрачиваемого в течение 24-часового дня
b
на
осуществление различных видов деятельности
c
, по участникам обследования
d
, по полу и возрасту
е
Основные виды
деятельности
Всего
Женщины
Мужчины
Все
возрастные
группы
Возраст 1
…
Возраст n
Все
возрастные
группы
Возраст 1
…
Возраст n
Все
возрастные
группы
Возраст 1
…
Возраст n
01. Работа в корпорациях, квазикорпорациях, прави- тельственных структурах, некоммерческих органи- зациях
Затраченное время
Число участников
02. Работа на домашнее хо- зяйство по производству первичной продукции
Затраченное время
Число участников
15.
Личная гигиена и уход за собой
Затраченное время
Число участников
Затраченное время на все одно- временные виды деятельности
a
Доля времени — основной статистический показатель, используемый в данном примере. Другими показателями, которые можно использовать вместо доли времени, являются суммарное время и среднее затраченное время.
b
24-часовой день — единица измерения времени, используемая в данном примере. Другими такими единицами могут служить неделя, будний день, выходные дни и так далее.
c
В этом примере для определения основных видов деятельности используются основные показатели экспериментальной Международной классификации видов деятельности для статистики использования времени. Можно использовать другие перечни видов деятельности, если они являются исчерпывающими или взаимоисключающими.
d
Любая таблица бюджета времени должна показывать, относятся ли приводимые в ней данные к обследуемой группе в целом или к участникам видов деятельности. Если в качестве объекта анализа используется обследуемая группа в целом, то распределение данных по таблице можно облегчить, отражая данные по этой группе только один раз, распределив их соответствующим образом по возрастному и половому признакам.
e
Основными классификаторами, как показано здесь, являются половые и возрастные группы. При распределении по возрастным группам следует отражать все возрасты в обследуемой группе.
f
Относится ко времени, затраченному на деятельность, совершаемую отдельно или одновременно с другими видами деятельности.
g
Относится к видам деятельности, совершаемым одновременно. Время, затраченное на все виды одновременной деятельности, агрегируется.
638. Третий подход позволяет со всей возможной точностью дать харак- теристику демографическим показателям. Когда данных недостаточно, можно использовать более крупный уровень обобщения. Могут понадобиться даль- нейшие исследования для определения наиболее подходящего периода времени и уровня демографической детализации, а также наиболее подходящего метода агрегирования, когда данных слишком мало.
Подготовка результатов обследования
179 639. Для сведения в таблицу видов деятельности в качестве альтерна- тивы можно рассмотреть отделение всех видов занятий, совершаемых по от- дельности (единственных занятий), от занятий, совершаемых одновременно. В этом случае перечень основных видов деятельности может состоять из единс- твенных занятий и сочетания занятий, совершаемых одновременно. Преиму- щество такой таблицы будет состоять в том, что здесь учитываются все часы, затраченные в течение недели, будних дней или в выходные дни, а время, затра- ченное на разные занятия, не учитывается в разных категориях
88
. Более того, не возникает обсуждавшаяся выше проблема превышения 24 часов суммарного времени. В таблице схемы 9 приводится упрощенный вариант рабочей таблицы, которая отвечает данным требованиям. В целях простоты в таблице предпола- гается, что указывается только общее время, затраченное на все одновременные занятия. Таким образом, в таблице имеется только одна строка, отражающая эти занятия, в ней не показываются их различные возможные комбинации. Для детального анализа можно использовать отдельные таблицы для отдельных ви- дов деятельности, совершенных одновременно, как это показано на схеме 9.
Таблицы одновременной деятельности
640. Таблицы одновременной деятельности содержат подробную раз- бивку времени, затраченного на выполнение одновременных действий. В этих таблицах показано, какие действия обычно выполняются одновременно. Схема
10 служит примером табличного формата такого типа табуляции, представля- ющей собой перекрестную таблицу первичной и вторичной деятельности. В таблицы одновременной деятельности заносятся, как минимум, два действия, наиболее часто совершаемых одновременно. Можно составить серию табуля- ций такого формата с классификацией по полу, возрасту и другим переменным показателям.
88
Horrigan and others (1999).
Схема 10
Формат таблицы одновременной деятельности: суммарное время
a
в сутки
b
,
затраченное на одновременную деятельность
c
, с разбивкой по первичной и
вторичной деятельности
d
и по классификационным переменным
Первичная
деятельность
Одновременная деятель-
ность отсутствует
Вторичная деятельность
1
2
3
4
5
6
7
8
9
Всего
1 2
3 4
5 6
7 8
9
a
Суммарное время является основным статистическим параметром, используемым в данном примере. Другие показатели, которые могут использоваться вместо суммарного времени — это доля времени или среднее время.
b
Сутки — это единица времени, используемая в данном примере.
Другими примерами единиц времени являются неделя, рабочий день, выходной день и т. д.
c
Имеются в виду действия, выполняемые одновременно.
Затраченное время представлено в данном примере для каждого сочетания первичных и вторичных действий.
d
В данном примере приводится девять категорий групп деятельности, пронумерованных для их идентификации. Может использоваться другой перечень действий, если эти действия являются исчерпывающими и взаимоисключающими.
180
Руководство по подготовке статистических данных об использовании времениТематические таблицы641. И, наконец, тематические таблицы ориентированы на представляю- щие интерес особые виды деятельности, такие как работа по СНС, неоплачива- емая домашняя работа, уход за ребенком, путешествия, время ожидания и т. д.
Например, в тематической таблице по уходу за ребенком (см. схему 11) сумми- руется время, затраченное на деятельность по уходу за ребенком и время, за- траченное на уход за ребенком, как на единственный вид деятельности, а также время, затраченное на уход за ребенком в сочетании с любыми другими видами деятельности.
642. Особый тип тематических таблиц предназначен для анализа су- точного ритма населения. Информация о суточном ритме населения обычно представлена графиками (см. приложение 15). Базовые статистические данные представляют собой суммарный процент. Например, в определенное время дня процент населения, зафиксированный как принимающий пищу,
прибавляется к проценту, зафиксированному в качестве спящего, и так далее, пока не будут учтены все виды деятельности в это конкретное время.
В. ИСЧИСЛЕНИЕ ДИСПЕРСИИ ВЫБОРКИ643. Предварительные оценки, полученные в результате обследований использования времени, используются для многих важных целей. Поскольку эти оценки могут повлиять на политические решения, необходимо оценить точность статистических данных. Статистические данные обследований могут отличаться от характеристик населения, потому что под обследование попадает только выборка из всех людей и отрезков времени. Такой тип погрешности на- зывается ошибкой выборки и может быть подсчитан на основе данных, собран- ных во время самого обследования. Причиной отличий предварительных оце- нок от характеристик населения могут быть и другие источники погрешности, в общем именуемые ошибками регистрации [также ошибками, не связанными с выборкой]. Как сказано в предыдущих главах, источниками ошибок, не свя- занных с выборкой, являются отсутствие ответов, непонимание вопроса рес- пондентами, влияние интервьюеров на ответ, ошибки при кодировке ответов и обработке данных и т. д. В этом разделе рассматриваются только ошибки вы- борки и вопрос о том, как их можно вывести из данных обследования. Ошибки регистрации обсуждаются в главе XI.
644. Ошибка выборки — это показатель того, насколько предваритель- ная оценка выборки может отличаться от значения совокупности населения.
Она представляет собой квадратный корень от дисперсии предварительной оценки и используется для формирования доверительных интервалов, обес- печивающих практическую привязку возможного диапазона, в котором могут находиться характеристики населения. В простых произвольных выборках при уменьшении квадратного корня объема выборки снижается и ошибка вы- борки среднего или суммарного значения. В случае более сложных расчетов и оценок, характерных для обследований использования времени, такое простое соотношение между объемом выборки и ошибкой выборки не сохраняется. Та- кие характеристики плана выборки, как отклонения от равных вероятностей выбора и группирование, обычно приводят к бόльшим по значению ошибкам выборки, нежели в случае простой произвольной выборки. Сложность планов выборки также затрудняет расчет ошибок выборки аналитическим путем
89 и увеличивает необходимость обобщенной методики оценки дисперсии, а также использования специализированного программного обеспечения для оценки дисперсии.
89 В большинстве работ по выборке в известной степени рассматри- вается и оценка дисперсии. Книга
Волтера (Wolter; 1985) посвящена этой теме и включает подробное обсуждение всех представленных здесь методов. Другие полезные материалы по оценке дисперсии в выборочных обследованиях можно найти в работах Верма
(Verma; 1993), а также Киш, Гроувс и Кротки (Kish, Groves and Krotki;
1976).
Подготовка результатов обследования 181
Схема 11
Образец формата тематических таблиц: среднее времяа в неделюb, затраченное обследуемым населениемc на уход за собственными детьмиd, как единственный вид деятельности и как одновременный с другими видами деятельностиe, в разбивке по полу и возрастуfЗатраченное времяВсегоЖенщиныМужчиныОбщая численность населения
Время, затраченное на уход за собственными детьми
Как единственный вид деятельности
gОдновременно с другими видами деятельности
hДеятельность 1
Деятельность 2
Деятельность 10
a Среднее время — основной статистический показатель, используемый в данном примере. Другими пока- зателями, заменяющими показатель среднего времени, могут быть доля времени или суммарное время.
b Одна неделя — единица времени, используемая в данном примере. Другие примеры единиц времени
—определенные дни недели (например, воскресенье, пятница), будние дни, выходные дни и т. д.
c В любой таблице по использованию времени должно уточняться, относятся ли данные к всему обследуемому населению или к участникам/субъектам деятельности. Если в качестве единицы анализа выбираются участники/субъекты деятельности, то в таблице должно указываться количество участников, зарегистрированных должным образом по возрасту и полу для каждого вида деятельности.
d В этом примере в качестве основной деятельности используется «уход за детьми». Другие примеры
— просмотр телепрограмм, путешествия и ожидание.
e В данном примере приводится 10 гипотетических видов деятельности. Другие перечни видов деятельности могут использоваться в случае, если они являются полными и взаимоисключающими.
f Основные переменные классификаций — половые и возрастные группы, как показано здесь. Любые группы должны исчерпывать полный диапазон возрастов, охватываемых обследованием населения.
Другие примеры — статус в занятости, количество детей, наличие или отсутствие предметов длительного пользования в домохозяйствах и т. д.
g Относится к тем случаям, когда интересующая деятельность в отчетах заявлена как не выполняемая одновременно с какой-либо другой.
h В перечне деятельности учтены все виды деятельности, выполняемые одновременно с интересующим видом деятельности.
1. Методы оценки дисперсии645. При использовании простой произвольной выборки, дисперсии линейных оценок (например, пропорции, средние величины, общие величины) могут быть подсчитаны аналитически по формулам, приводимым в стандарт- ных учебниках по выборке. Эти аналитические формулы не всегда могут приме-
няться в обследованиях использования времени, поскольку такие обследования редко основаны на простых произвольных выборках, если вообще основаны.
Даже более сложные аналитические формулы, приведенные в учебниках по планам обследования, очень редко применяются на практике. Зато методы ап- проксимации чаще используются для оценки дисперсии в таких планах. Два этих метода — линеаризация и репликация — кратко описываются ниже.
а)
Метод линеаризации646. Метод линеаризации — это приблизительная оценка дисперсии, ко- торая может использоваться, если она не является средним или общим значе- нием, или если план выборки не основан на простой произвольной выборке.
Поскольку оценки, включая средние значения и пропорции подгрупп, в боль-
182
Руководство по подготовке статистических данных об использовании времени
шинстве случаев представляют собой коэффициенты, метод линеаризации уместен для таких оценок. При этом методе главным образом используется прямая оценка дисперсии, но нелинейная оценка заменяется линейной аппрок- симацией. Линейная оценка — термин первого порядка расширения числовой последовательности функции по Тейлору (например, функция представляет со- бой коэффициент для пропорции подгруппы). Расширение числовой последо- вательности по Тейлору — стандартный математический инструмент аппрок- симации нелинейной функции
90
647. Даже после замены нелинейной функции линейной аппроксима- цией, остается проблема оценки дисперсии линейной статистики на основе комплексного выборочного плана. В большинстве комплексных выборок для этой цели используется предельная гнездовая оценка дисперсии
91
. Предельная гнездовая оценка дисперсии значительно упрощает расчет дисперсии, потому что ее можно рассчитать без подсчета сумм квадратов для каждого этапа вы- борочного плана. Предельная гнездовая оценка дисперсии — простая функция сумм квадратов предварительных оценок, подсчитанных на уровне первичной единицы выборки. Информация о плане для нижних уровней выборки не тре- буется. Этот метод требует либо небольших выборочных фракций, либо за- мены единиц выборки первого этапа. Однако это предположение почти всегда соблюдается при обследованиях использования времени по генеральной сово- купности населения. О программном обеспечении, доступном для реализации этого метода, читайте далее в этом же разделе.
b)
Репликация
648. Другой способ вычисления приблизительной оценки дисперсии — репликация. Она заключается в том, что из выборки выделяются подвыборки, и для каждой подвыборки подсчитываются статистические данные. Разным способам выделения подвыборок из полной выборки соответствуют разные методы репликации. Подвыборки называют повторными выборками, а ста- тистика, исчисляемая для каждой повторной выборки, называется повторной оценкой. Распространенными методами репликации, соответствующими раз- ным повторным выборкам, являются:
метод расщепления выборки;
• сбалансированная неоднократная репликация;
• метод «бутстрэп».
•
Метод расщепления выборки подробно рассматривается ниже, чтобы показать основные идеи методов репликации.
649. Предположим, что характеристика населения θ — среднее время, за- траченное женщинами на трудовую деятельность. Показатель θ вычисляется по следующей формуле:
где y
jk
— время, затраченное на трудовую деятельность лицом j за отрезок вре- мени k, а δ
j
(женщины) = 1, если лицо j женского пола, а иначе нулю. Для вы- ведения оценки θ из данных выборки, представим, что θ будет одной и той же функцией единиц n, когда единица р исключается из выборки. Поскольку каж- дая единица n может, в свою очередь, быть удалена, существует n-количество различных подвыборок или репликатов и, следовательно, n-количество разных
90
Применение расширения чис- ловой последовательности по
Тейлору для оценки дисперсии в выборочных обследованиях подробно описывается в работе
Волтера (Wolter; 1985).
91
В работе Калтона (Kalton; 1979) подробно рассказывается о предельной гнездовой оценке дисперсии и используемых в ней предположениях.
w y
w
jk jk j
jk j
( )
1
<
(жен)
(жен)
ˆ
ˆ
ˆ
ˆ
Подготовка результатов обследования
183
повторных оценок. Показатель дисперсии методом расщепления выборки вы- числяется по следующей формуле:
650. В особом случае, когда выборочное среднее значение из простой произвольной выборки отбирается с замещением, показатель дисперсии, вы- числяемый методом расщепления выборки, равен стандартному аналитичес- кому показателю дисперсии (это справедливо и для линеаризационного пока- зателя дисперсии) (Wolter, 1985, p.166). Что касается более сложных планов, то используется тот же метод оценки повторной дисперсии, за исключением того, что единица, выбранная для репликации, включает все данные наблюдения по
ПЕВ в целом и не является единственным выборочным случаем. Показатель повторной дисперсии предполагает, вместе с замещающей выборкой первого этапа, выборочные единицы или небольшие выборочные фракции.
651. Общая формула вычисления показателя дисперсии методом репли- кации выглядит следующим образом:
где L — количество репликатов, c
p
— фактор, связанный с репликатом p, опре- деляемым методом репликации, остальные показатели такие же, как показано выше. Например, при использовании метода расщепления выборки
c
n
n
p
1
для всех репликатов,
а сбалансированная неоднократная репликация
2.
Обобщенные дисперсии
652. Прямая оценка дисперсии — не единственный способ оценки на- дежности результатов выборочных обследований. Другой вариант, иногда ис- пользуемый в многоцелевых обследованиях, таких как обследования исполь- зования времени, предусматривает подсчет прямых оценок дисперсии путем линеаризации или репликации и построение модели, предполагающей показа- тели дисперсии для других оценок. Такой подход к моделированию показателей дисперсии называется обобщенной оценкой дисперсии.
653. Одной из причин применения обобщенной оценки дисперсии яв- ляется то, что она сокращает вычислительные затраты, необходимые для под- готовки отчета, особенно при получении нескольких оценок из одного обсле- дования. После разработки модели обобщенной дисперсии и ее параметров приблизительные оценки дисперсии для других статистических данных можно вывести из этой модели без значительных дополнительных подсчетов. Мо- дель обобщенной дисперсии тоже может быть включена в публикации, чтобы пользователи данных могли приблизительно вычислить ошибки выборки для статистических данных в отчете. Исследователи вторичных данных могут ис- пользовать модели обобщенной дисперсии для оценки ошибок выборки для статистических данных, которые могут быть получены из публикаций, напри- мер, коэффициенты заявленных в отчетности общих показателей.
654. Другая причина моделирования оценок дисперсии — сокращение вариативности в самих оценках дисперсии. Дисперсии, вычисленные из выбо-
V
n
n
JK
p
p
n
1 2
2 1
(
)
( )
( )
<
<
<
V
c
p
p
p
L
( )
(
)
( )
( )
2 1
3
< <
<
<
c
L
p
1
для всех репликатов.
184
Руководство по подготовке статистических данных об использовании времени
рочных обследований, являются приблизительными оценками и сами харак- теризуются значительной степенью дисперсии. Некоторые предполагают, что моделирование оценок дисперсии сглаживает эту вариативность и даже может обеспечить более точную оценку дисперсии, чем прямая оценка.
655. В большинстве областей применения сами дисперсии не модели- руются, так как они зависят от единиц измерения. Например, дисперсия ста- тистических данных, основанная на суточном использовании времени, будет значительно отличаться от аналогичных статистических показателей, основан- ных на недельном использовании времени. В результате создаются модели для количественных показателей, связанных с дисперсиями, но не изменяющихся по отношению к единице измерения. Один такой количественный показатель
— эффект плана; другой — отношение дисперсии к квадрату математического ожидания.
а)
Моделирование эффектов плана
656. Общий подход заключается в моделировании эффектов плана, где эффект плана представляет собой отношение дисперсии, вычисленной в ре- зультате обследования, к дисперсии, которая возникла бы в случае простой произвольной выборки. Так как эффект плана является отношением дисперсий, он не зависит от единиц измерения. Эффект плана представляет собой воздейст- вие выборочного плана и метода оценки на дисперсию оценки. Если эффект плана равен единице, то процедура обследования дает дисперсию, равную дис- персии, которую можно было бы ожидать в случае простой произвольной вы- борки. При комплексных обследованиях использования времени эффект плана обычно больше единицы, поскольку коэффициенты гнездовой и дифференци- альной выборки, как правило, увеличивают дисперсию оценки
92
657. Простая модель, часто применяемая в обследованиях, предполагает вычисление среднего эффекта плана и его использование в целях приблизи- тельного вычисления дисперсии для других статистических показателей. На- пример, предположим, что средний эффект плана обследования использования времени составляет 2,5 и необходимо определить приблизительную дисперсию при приблизительной пропорции в 40%, вычисленной из объема выборки в 500.
Если бы использовалась простая произвольная выборка, то дисперсия соста- вила бы 4,8% (40% × 60% : 500). Если умножить оценку простой произвольной выборки на средний эффект плана, то получится приблизительная дисперсия в 12% (2,5 × 4,8).
658. Для ряда статистических показателей обследования, средний эф- фект плана определяется путем вычисления прямых оценок эффекта плана
(дисперсия вычисляется путем линеаризации или репликации и последующего деления на предполагаемую дисперсию простой произвольной выборки). За- тем эти приблизительные эффекты плана усредняются. В большинстве случаев лучше всего извлечь квадратный корень из эффекта плана и вычислить среднее арифметическое из него, а не из самого эффекта плана, потому что эффекты плана не очень устойчивы. Еще одно усовершенствование в подходе к сред- нему эффекту плана — вычисление средних эффектов плана для различных подгрупп населения, чтобы эти эффекты были более репрезентативными для каждой подгруппы
93
b)
Моделирование отношения дисперсии к квадрату математического
ожидания
659. Второй подход — моделирование отношения дисперсии к квадрату
математического ожидания для оценки, а не для дисперсии, опять-таки потому,
92
Киш (Kish; 1995) пишет об эффек- тах плана и отношениях между ними. Киш (Kish; 1992) также объясняет, почему в выборочных обследованиях эффект плана обычно больше единицы.
93
Верма и Ле (Verma and Lê; 1996) подробно описывают методы аппроксимации дисперсии оце- нок с использованием эффектов плана, в том числе приведенные в настоящей главе.
Подготовка результатов обследования 185
что отношение дисперсии к квадрату математического ожидания не меняется в зависимости от единицы измерения. Отношение дисперсии к квадрату матема- тического ожидания — дисперсия оценки, поделенная на квадрат оценки. От- ношение дисперсии к квадрату математического ожидания — это квадрат более известного статистического показателя,
коэффициента вариации. При этом ме- тоде отношение дисперсии к квадрату математического ожидания оценки моде- лируется в следующем отношении:
где
ŷ — общая оценка обследования, а
a и
b — параметры модели. Параметры модели разбираются методом регрессии (чаще всего выбор падает на взвешен- ные наименьшие квадраты). Так же, как и в случае метода среднего эффекта плана, такие различия, как использование разных моделей для подгрупп насе- ления, могут оказаться полезными, если отношения дисперсии к квадрату мате- матического ожидания более однородны в пределах подгрупп
94660. При оценке дисперсии для проведенного в 1999 году обследования использования времени в Новой Зеландии, для оценки относительной ошибки выборки использовались три различные методологии (Statistics New Zealand,
1999). Первым методом была оценка дисперсии по методу расщепления вы- борки с использованием процедуры повторной выборки. Эта методология ис- пользовалась в 10 основных статистических таблицах. Вторым методом было моделирование относительных ошибок выборки с использованием величины относительной ошибки выборки, вычисленной на основе вышеуказанного ме- тода расщепления выборки. Такой метод был использован для выведения отно- сительной ошибки выборки по 16 таблицам. Существуют некоторые различия между относительными ошибками выборки,
вычисленными методом расщеп- ления выборки, и смоделированными ошибками выборки, даже в случае ячеек, содержащих одинаковую информацию, но находящихся в разных таблицах — например, суммарные показатели. Оценки подсчетов, основанных на перемен- ных калибровки (этническая принадлежность, рабочая сила, возраст в разбивке по полу и рабочий день/выходной день), имеют нулевую относительную ошибку выборки. Однако в силу природы моделей это не сохраняется в таблицах, где используются смоделированные ошибки выборки. Для ячеек, где используются оба вида ошибок выборки, для оценки больше всего подходят ошибки выборки, вычисленные методом расщепления выборки. Что касается третьей группы таблиц, то здесь не удалось вывести подходящую модель, хотя существующая модель считается достаточно точной, чтобы выявить ячейки, возможно содер- жащие недостоверную информацию. Эти ячейки помечены знаком «^^», ука- зывающим на то, что относительная ошибка выборки оценивается в 50% или более. В таких таблицах к оценкам не прилагается соответствующая таблица относительной ошибки выборки.
С. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СТАТИСТИЧЕСКОЙ ОЦЕНКИ661. Вычисление оценок может осуществляться при помощи большин- ства пакетов статистических программ, имеющих функции обработки данных обследований и весов. Существует множество способов составления таблиц, обеспечивающих эту функцию. Поскольку необходимо также вычислять ошибки выборки оценок, следует принимать во внимание и пакеты статис- тических программ, разработанных для этих целей. Программы для оценки
RV ya by( )
(4)
94 О рассмотрении такого метода обобщенных дисперсий при про- ведении «Текущего обследования населения США» читайте в главе
14 документа, размещенного по адресу: http://www.bls.census.
gov/cps/tp/tp63.htm.
186
Руководство по подготовке статистических данных об использовании времени
дисперсии дают возможность вычислить как оценку, так и дисперсию оценок для большинства видов статистических данных. При помощи практически всех таких программных пакетов можно вычислить статистические данные, описан- ные выше
95
662. При оценке и анализе с использованием расчетных данных следует помнить, что дисперсия оценок, вычисленных при помощи этих программ, вос- принимает расчетные данные как реальные наблюдения. В результате можно недооценить дисперсию оценки. Такое отклонение увеличивается при введении большего числа данных. Поэтому целесообразно убедиться в том, что собран- ные данные являются максимально полными.
663. Все программное обеспечение для оценки дисперсии требует вклю- чения основных данных о плане выборки в файл анализа. При линеаризации минимальные элементы данных, необходимые в каждой записи данных, — это страта и ПЕВ, из которого была выбрана единица, а также весовой показатель оценки. С использованием только этих трех элементов в одной записи анализа и дисперсий, собранных в ходе обследования использования времени, можно вычислить оценки предельной гнездовой дисперсии.
664. Программные пакеты для методов репликации работают двумя различными способами по отношению к элементам данных в файлах. Первый способ — включение в файл данных страты и идентификаторов ПЕВ; затем про- грамма использует идентификаторы для создания повторных выборок, повтор- ных оценок и оценок дисперсии. Второй подход избегает включения страты и идентификаторов ПЕВ в файлах анализа. Идентификаторы используются для создания повторных весовых показателей в каждой записи, которые потом со- храняются в файле анализа. После этого при последующем анализе и вычисле- нии оценок дисперсии используются только повторные весовые показатели
9 6
95
Лепковски и Боулз (Lepkovski and Bowles; 1996) рассматривают программы оценки дисперсии в статье, опубликованной в «The
Survey Statistician», информацион- ном бюллетене Международной ассоциации статистиков. Со статьей можно ознакомиться по адресу: http://www.fas.harvard.
edu/stats/survey-soft/survey-soft.
html. На данном унифицирован- ном указателе ресурсов (URL) также можно найти ссылки на многочисленные программные пакеты оценки дисперсии.
Некоторые программы мож- но скачать бесплатно. Броган
(Brogan; 1998) пишет о некоторых проблемах, возникающих при неиспользовании подходящих методов оценки дисперсии, таких как методы, включенные в эти программные пакеты.
96
Раст и Рао (Rast and Rao; 1996) описывают создание и исполь- зование повторных весовых показателей.