СтатистикаЛевина 2012. Е. И. Левина статистика учебное пособие кемерово 2012 1 Рецензенты
Скачать 4.61 Mb.
|
2.2. Сводка и группировка. Таблицы и графики 2.2.1. Сводка и группировка данных Основой сводки служит группировка, те. разделение единиц изучаемой совокупности на качественно однородные группы по определенному признаку, который выбирается в зависимости от целей и задач исследования. Результаты сводки и группировки оформляются в виде рядов распределения, а в более сложных случаях – в виде таблиц. В зависимости от признака ряды могут быть вариационными (количественный признаки атрибутивными (качественный признак. Количественные признаки – признаки, имеющие количественное выражение у отдельных единиц совокупности. Например, заработная плата работников, стоимость основных фондов, возраст людей и т.д. Атрибутивные признаки – признаки, не имеющие количественной меры. Например, наименование продукции, уровень образования, форма собственности, источники средств к существованию и т.д. Вариационные ряды бывают а) прерывные (дискретные, где значения выражены целым числом. Примером такого вариационного ряда может служить распределение рабочих по тарифному разряду (табл. 2.1) Таблица 2.1 Распределение рабочих по тарифному разряду Тарифный разряд х i Число рабочих f i , чел. 1 5 2 10 3 20 4 30 5 25 6 10 Итого 100 б) ранжированные, где единицы совокупности расположены в порядке возрастания (убывания) изучаемого признака. Например данные о числе жителей на 1 км табл. 2.2). 40 Таблица 2.2 Плотность населения регионов сибирского федерального округа за 2002 г. Регионы Число жителей на 1 км 2 Республика Тыва 1,1 Красноярский край 1,3 Республика Алтай 2,2 Читинская область 2,7 Республика Бурятия 2,8 Томская область 3,3 Иркутская область 3,4 Республика Хакасия 8,8 Омская область 14,9 Новосибирская область 15,1 Алтайский край 15,4 Кемеровская область 30,3 в) непрерывные (интервальные, где значения заданы в виде интервала. В качестве примера приведем распределение численности работников по размерам начисленной заработной платы (табл. 2.3). Таблица 2.3 Распределение численности работников Кемеровской области по размерам начисленной заработной платы за апрель 2002 г. в процентах от общей численности работающих) Группы работников по размерам начисленной заработной платы, р. Вся промышленность В том числе Электроэнергетика топливная металлургия химическая и нефтехимическая Всего работников 100 100 100 100 100 До 300 0,1 0,0 0,1 – – 300,1–400,0 0,1 0,1 0,1 – – 400,1–600,0 0,4 0,2 0,2 0,0 0,0 600,1–800,0 0,7 0,3 0,3 0,0 0,1 800,1–1000,0 1,1 0,2 0,4 0,1 0,5 1000,1–1400,0 3,6 0,7 1,8 0,5 2,5 1400,1–1800,0 4,6 1,7 3,0 1,2 3,3 1800,1–2200,0 5,2 2,6 3,5 2,5 5,3 2200,1–2600,0 6,1 3,6 4,2 3,4 9,1 2600,1–3000,0 5,9 5,3 4,1 4,1 10,6 3000,1–3400,0 6,1 4,2 4,8 4,7 15,9 41 Продолжение таблицы 3400,1–4200,0 11,4 9,3 11,3 10,8 20,4 4200,1–5000,0 10,4 13,1 10,7 11,5 14,1 5000,1–5800,0 8,9 11,3 10,0 11,4 7,7 5800,1–7400,0 13,8 20,0 17,2 18,7 6,1 7400,1–9000,0 8,3 11,4 10,2 12,8 2,1 9000,1–10600,0 5,4 6,4 7,0 7,9 1,0 10600,1–13800,0 4,8 5,6 6,6 6,7 0,7 13800,1–17000,0 1,6 2,3 2,4 1,9 0,3 17000,1–20200,0 0,7 0,9 1,1 0,8 0,1 20200,1–5000,0 0,4 0,3 0,6 0,6 0,1 Свыше 25000 0,4 0,5 0,4 0,4 0,1 2.2.2. Графическое изображение рядов распределения Графическое изображение рядов распределения облегчает их анализ и позволяет судить о форме распределения. Дискретные ряды изображают с помощью полигона распределения, а интервальные с помощью гистограммы распределения. Если имеется дискретный вариационный рядили используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном распределения. Для его построения на оси абсцисс отмечают точки, соответствующие величине вариантов значений признака, из них восстанавливаются перпендикуляры, длина которых соответствует частоте (частости) этих вариантов по принятому масштабу на оси ординат. Вершины перпендикуляров в последовательном порядке соединяются отрезками прямых. Для замыкания полигона крайние вершины соединяются с точками на оси абсцисс, отстоящими на одно деление в принятом масштабе от хи. Такое построение полигона облегчает восприятие его графического изображения (рис. Рассмотрим построение полигона распределения на основе данных, представленных в таблице 2.1 о распределении рабочих по тарифному разряду. 42 Рис. Распределение рабочих по тарифному разряду х – тарифный разряд fi – число рабочих, чел. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс – это интервалы значений варьирующих признака, а высоты столбиков частоты (частости), соответствующие масштабу по оси ординат. Диаграмма этого рода часто называется гистограммой рис. 2.3). Для ее построения воспользуемся данными о распределении предприятий по объему добычи угля (табл. 2.4). 43 Таблица 2.4 Распределение горных предприятий Кемеровской области по объему добычи угля в 2003 г. (январь-сентябрь) Предприятия с годовым объемом добычи вариантах, тыс. т Количество предприятий (частота) f Накопленные (кумулятивные) частоты S i 251-500 8 8 501-750 10 18 751-1000 10 28 1001-1250 6 34 1251-1500 5 39 Всего 39 0 2 4 6 8 10 12 250 500 750 1000 1250 Рис. Распределение горных предприятий Кемеровской области по объему добычи угля в 2003 г. (январь–сентябрь): х – объем добычи, тыс. т f i – количество предприятий Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединяются отрезками прямых. Площадь полигона должна быть равна площади гистограммы, поэтому должны быть точки с нулевыми частотами и значениями x i в условных интервалах до первого и после последнего (их середины. При построении гистограммы для вариационного ряда сне- равными интервалами нужно по оси ординат наносить показатели плотности интервалов (абсолютные или относительные. В этом случае высоты прямоугольников гистограммы будут соответствовать величине плотности распределения. Отношение высоты полигона 44 или гистограммы к основанию удобнее брать в пропорции 5 к 8. При увеличении числа наблюдений из одной и той же совокупности увеличивается число групп интервального ряда, что соответственно приводит к уменьшению величины интервала. При этом ломаная линия имеет тенденцию превращения в плавную кривую, которая называется кривой распределения. Кривая распределения характеризует в обобщенном виде вариацию признака и закономерности распределения частот внутри однокачест- венной совокупности. Преобразованной формой вариационного ряда является ряд накопленных (кумулятивных) частот (рис. 2.4). См. графа 3 табл. 2.4 распределения горных предприятий Кемеровской области по объему добычи угля в 2003 г. (январь–сентябрь). Поданным частотам можно судить о том, какое число единиц совокупности обладает значением признака не меньше, чем или не больше, чем. Так в нашем примере можно сказать, что 28 предприятий из 39, имеют добычу, объем которой не превышает тыс. тонн. В первом случае график кумулятивного распределения называется кумулятой, во втором – огивой. При графическом изображении кумуляты накопленные частоты наносят на поле графика в виде перпендикуляров коси абсцисс в верхних границах интервала. Длина этих перпендикуляров равна сумме накопленных частот в данном интервале. Перпендикуляры затем соединяют прямыми, в результате чего получаем ломаную линию, которая, начиная от 0, все время возрастает до тех пор, пока не достигает высоты, равной объему данной совокупности, те. сумме частот ряда. 45 0 8 18 28 34 39 39 34 28 18 8 0 0 5 10 15 20 25 30 35 40 45 0 250 500 750 1000 1250 1500 Рис. 2.4.Огива и кумулята распределения предприятий по объему добычи угля в 2003 г. Кемеровской области х – объем добычи, тыс. т S i – накопленные частоты 2.2.3. Построение группировки Ряды распределения позволяют систематизировать и обобщить полученный материал. Однако они не дают всесторонней характеристики выделенных групп. Чтобы решить ряд конкретных задач, выявить особенности в развитии явлений, обнаружить тенденции, установить зависимости, параллельно произвести группировку исходных данных. Для этой цели выбирается группировочный признаки разрабатывается система показателей сводки, которыми будут характеризоваться выделенные группы. Определение и обоснование показателей целиком зависит от цели исследования и поставленной задачи. В зависимости от цели и задач исследования различают следующие виды группировок типологические, структурные, аналитические. Типологические группировки позволяют расчленить всю изучаемую совокупность на качественно однородные экономические группы. Примером типологической группировки могут служить данные табл. 2.5. 46 Таблица 2.5 Распределение умерших в возрасте до 1 года Кемеровской области по основным классам причин смертности Основные классы причин смертности Число умерших ввоз- расте до 1 года В % к итогу 2008 г. 2009 г. 2008 г. 2009 г. Всего умерших в возрасте до 1 года 314 313 100 100 из них от - врожденных аномалий 66 78 21,0 24,9 - состояний, возникающих в перинатальный период 97 96 30,9 30,7 - внешних причин смерти 49 53 15,6 16,9 - болезней органов дыхания 11 4 3,5 1,3 - прочие 91 82 29,0 26,2 Структурная группировка дает возможность определить структуру явления, а также проанализировать структурные сдвиги (табл. 2.6). Таблица 2.6 Прерывание беременности (аборты) по возрастным группам женщин Кемеровской области Если известны структурные характеристики совокупности водном и другом периодах W i0 и W i1 – доли ой группы соответственно в базисном периоде («0») ив отчетном периоде («1»), то можно рассчитать показатель среднего абсолютного изменения структуры n W W d n i i i w w 1 0 1 0 1 . (2.1) Другой сводный показатель абсолютных структурных сдвигов Показатели Число абортов В % к итогу 2008 г. 2009 г. 2008 г. 2009 г. Число абортов у женщин в возрасте, лет долети более 5557 5532 15,6 16,0 Итого 35527 34530 100 100 47 строится на основе формулы среднеквадратического отклонения n W W S n i i i w w 1 2 0 1 0 1 . (2.2) Если показатели структуры выразить в процентах, то также как и первый показатель, квадратичный коэффициент структурных абсолютных сдвигов оценивает, насколько процентных пунктов в среднем различаются удельные веса отдельных групп сравниваемых структур. При отсутствии структурных сдвигов оба эти показателя равны 0; их величина тем больше, чем значительнее абсолютные изменения удельных весов групп. Квадрати- ческий коэффициент более чутко реагирует на структурные изменения. При сравнениях предполагается, что число групп водном и другом периодах остается одними тем же. В нашем примере показатель среднего абсолютного изменения структуры составит % 4 , 0 4 16 , 0 4 6 , 15 16 2 , 75 6 , 75 1 , 9 3 , 8 1 , 0 1 , 0 0 1 w w d , а сводный показатель абсолютных структурных сдвигов будет равен % 49 , 0 4 96 , 0 4 6 , 15 16 2 , 75 6 , 75 1 , 9 3 , 8 1 , 0 1 , 0 2 2 2 2 Таким образом, удельные веса возрастных групп женщин, осуществивших прерывание беременности различаются в среднем на 0,4–0,49 %. Деление группировок на типологические и структурные достаточно условно. Если задать, например, границы среднеду- шевого дохода, соответствующие определенным типам благосостояния, то можно с таким же правом назвать группировку типологической. Аналитическая группировка характеризует взаимосвязь между двумя и более признаками, из которых один рассматривается как результат, другой (другие) – как фактор (факторы. Основные этапы проведения аналитической группировки 1) обоснование и выбор факторного и результативного признаков) определение числа групп и величины интервала 48 3) подсчет числа единиц в каждой из образованных групп 4) определение объема варьирующих признаков в пределах созданных групп 5) исчисление средних размеров результативного показателя. Для нахождения числа групп служит формула Стерджесса: N n lg 322 , 3 1 , (2.3) где N – количество элементов совокупности. В случае равных интервалов величина интервала может быть определена следующим образом n X X h min max (2.4) или N X X h lg * 322 , 3 1 min max , (2.5) где Х – максимальное значение признака Х – минимальное значение признака. В зависимости от числа положенных в основу группировки признаков различают простые и многомерные. Группировка, выполненная по одному признаку, называется простой. Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации. По отношениям между признаками выделяют иерархические и неиерархические группировки. Иерархические группировки выполняются двум и более признакам, при этом значения го признака определяются областью значений го (например, классификация отраслей промышленности по подотраслям). Неиерархические группировки строятся, когда строгой зависимости значений го признака отгоне существует. Среди простых группировок особо выделяют ряды распределения. По очередности обработки информации группировки бывают первичные (составленные на основе первичных данных) и вторичные, являющиеся результатом перегруппировки ранее уже сгруппированного материала. Относительно временного критерия группировки бывают 49 статические, дающие характеристику совокупности на определенный момент времени или за определенный период, и динамические. Последние – это группировки, показывающие переходы единиц из одних групп в другие (и входи выход из совокупности. Количество таких переходов, рисующие внутреннюю динамику совокупности, удобно располагать в шахматную таблицу, которую называют матрицей перехода (или миграционная матрица или матрица мобильности. Для наглядности представим этапы сводки и группировки с краткими определениями и пояснениями в виде рис. 2.5. 50 Графическое изображение Полигон распределения Прерывные дискретные) Ранжированные (образованные по возрастающему признаку) Ряды распределения – это ряды величин, характеризующих состав изучаемых явлений по одному По признаку Качественный признак атрибутивный) Вариационные ряды Сводка статистических данных – это упорядоченное обобщение первичного материала для получения обобщенной характеристики совокупности Группировка статистических данных – это разделение изучаемой совокупности на качественно однородные группы по определенному признаку Статистическое наблюдение Структурные (разделение совокупности на группы, характеризующие ее структуру) Аналитические (выявление взаимосвязи между исследуемыми явлениями) Гистограмма распределения Непрерывные Качественные (атрибутивные) Количественные Интервальные, признак задан в виде интервалов от и до Типологические, в том числе классификации (разделение исследуемого явления на классы, типы) Виды группировок Задачи, решаемые методом группировок Выделение социально- экономических типов Выявление связи между явлениями Количественный признак Изучение структуры явлений и структурных сдвигов Группировочные признаки – основание группировки Рис. 2.5. Основные этапы сводки и группировки 51 2.2.4. Понятие таблиц, их виды. Элементы таблиц Большое значение сводки и группировки состоит в том, что этот метод дает обобщение результатов исследования и представляет их в компактном, наглядном виде – в таблицах. Таблицы – наиболее рациональная форма, позволяющая анализировать результаты сводки и группировки. Макетом таблицы называется таблица (табл. 2.7), состоящая из строки граф, которые еще не заполнены. Таблица 2.7 Макет таблицы Сказуемое Подлежащее Перечень (группы) Единиц Совокупности Каждая таблица имеет подлежащее и сказуемое. Подлежащее это перечень единиц совокупности или группы, то есть объект нашего изучения. Как правило, подлежащее расположено слева и представляет собой содержание строк. Сказуемое – это цифровые данные, которыми характеризуется объект изучения, подлежащие. Сказуемое таблицы расположено сверху и представляет собой содержание граф. По построению подлежащего таблицы могут быть простыми, групповыми, комбинационными. Простая – это такая таблица, в подлежащем которой нет группировок. Простые таблицы бывают перечневые (подлежащее представляет собой перечень единиц, составляющих объект изучения, табл. 2.8); 52 Таблица 2.8 Образование и поступление отходов производства по отдельным отраслям промышленности за 2002 г, млн т Отрасли промышленности Образование Отходов Поступление отходов от других организаций Вся промышленность 994 4,6 в том числе электроэнергетика 2,1 0 Топливная 953 1,7 территориальные (дается перечень территорий, стран, областей, городов и пр. В качестве примера может служить табл. 2.3; хронологические (в подлежащем приводятся периоды времени или даты. Примером является табл. 2.9. Таблица 2.9 Среднегодовая численность промышленно-производственного персонала по категориям, тыс. чел. Годы Промышленно- производственный персонал В том числе Рабочие служащие 1998 403,9 334,8 69,1 1999 396,8 325,8 71 2000 392,2 319,6 72,6 2001 387 316,6 70,4 2002 367,8 299,4 68,4 Групповыми называются таблицы, в подлежащем которых изучаемый объект разделен на группы по какому-либо признаку. Комбинационной таблицей называется такая, где в подлежащем дана группировка единиц совокупности по двум и более признакам, взятым в комбинации. Таблицы различаются и по разработке сказуемого, которая может быть простой и сложной. Простая разработка сказуемого предусматривает параллельное расположение показателей, а сложная – комбинирование. При простой проработке сказуемого все его показатели располагаются 53 независимо друг от друга (табл. 2.9). При сложной разработке сказуемого показатели сказуемого сочетаются друг с другом, как, например, в табл. 2.10. Таблица 2.10 Основные показатели научно-технических и конструкторских подразделений промышленных организаций Года Число промышленных организаций, выполнявших исследования и разработки Численность научных сотрудников, человек Объем научно- технических работ, выполненных собственными силами, млн р. всего из них имеют ученую степень доктора наук кандидата наук Всего из них исследования и разработки 1998 3 176 1 17 9,6 8,7 1999 4 214 1 22 37 36,8 2000 4 211 1 22 40,2 38,5 2001 4 207 2 17 40,7 36,5 2002 4 201 1 17 44,8 44,5 В практике построения таблиц сложились следующие правила их построения и оформления. 1. По возможности таблицу следует составлять небольшой по размеру, легко обозримой. Иногда целесообразно вместо одной большой таблицы построить несколько органически связанных между собой, последовательно расположенных таблиц. 2. Общий заголовок таблицы должен кратко выражать ее основное содержание. В нем обычно указываются время, территория, к которым относятся данные, единица измерения, если она выступает единой для всей совокупности. Следует также заголовки строк подлежащего и граф сказуемого формулировать точно, кратко и ясно. Слова в таблице пишутся полностью, без сокращений. При отсутствии общей единицы измерения в каждой графе проставляется своя единица измерения. 3. Обычно строки подлежащего и графы сказуемого располагают в виде частных слагаемых с последующим подытожива- нием по каждому из них. При неполном объеме единиц изучаемой совокупности или отсутствии исходных данных все слагаемые сначала показывают в строке общие итоги, а потом после пояснения в строке в том числе, из них перечисляют наиболее важные из составных частей. Следует различать Итого и Всего. Итого является итогом для определенной части совокупности, а Всего – итог для совокупности в целом. 4. Для удобства анализа таблицы при большом числе строк подлежащего и граф сказуемого возникает потребность в нумерации тех из них, которые заполняются данными. Подлежащее и единицы измерения обычно обозначаются буквами (А, Б, В и т.д.). В таблице взаимосвязанные данные (например, абсолютные уровни, темпы роста и др) приводятся в рядом стоящих графах. 5. При заполнении таблиц нужно использовать следующие условные обозначения при отсутствии явления пишется прочерк (–), если же нет информации о явлении, ставится многоточие (…) или пишется нет сведений. Если изучаемое значение признака не имеет осмысленного содержания, то ставится Х. Бессмысленно, например, такое сочетание строки граф, когда подлежащее содержит группировку населения по возрасту, строки от 5 до 7 лета сказуемое (графа) – число разведенных браков на 1000 человек. В таком случаев пересечении названных строки граф ставится Х. При наличии информации по изучаемому явлению, числовое значение которого составляет величину меньше принятой в таблице точности, принято записывать 0,0. 6. Одинаковая степень точности, обязательная для всех чисел, обеспечивается соблюдением правил их округления (от 0,1 до 0,01 т.д.). когда одна величина превосходит другую многократно, то полученные показатели динамики лучше выражать не в процентах (%), а в разах. Например, вместо 5685 следует написать в 5,7 раза больше. В аналитических таблицах значность абсолютных цифр должна быть наименьшей. В многозначных числах, наличие которых обусловлено интересами исследования, лучше отделять, начиная справа, друг от друга классы, выделять миллионы, тысячи, единицы. Например, вместо 1568631 можно записать 1.568.631. Иногда при построении таблиц приходится иметь дело с численностью, состоящей из 7-8 и более знаков в таком случае удобнее применять округление до 2-3 знаков (например 1,57 млн. 7. Когда в таблице приводятся наряду с отчетными данными сведения расчетного порядка, следует об этом сделать соответствующую оговорку. По возможности эти пояснения лучше сделать 55 в самой таблице или в заглавии к ней. Однако это не исключает и примечания, в котором можно указывать источники информации, содержание некоторых показателей и другие сведения, относящиеся к таблице. Анализ таблицы логичнее начинать с общего итога, который позволяет получить общую характеристику совокупности, затем переходить к изучению данных отдельных строки граф, тек оценке частей изучаемого объекта, исследуя при этом вначале наиболее важные, а потом уже и все остальные элементы таблицы. |