Лекция Основные категории статистики. Сводка и группировка статистических данных Основные категории статистики
Скачать 257.84 Kb.
|
1 Лекция 1. Основные категории статистики. Сводка и группировка статистических данных Основные категории статистики Одной из важнейших категорией статистической науки является категория признака. Именно значения различных признаков наблюдаются и регистрируются на первой стадии статистического исследования - стадии статистического наблюдения. Признак - это объективная характеристика единицы статистической совокупности, характерная черта или свойство, которое может быть определено или измерено. Признаками, характеризующими промышленное предприятие, являются выручка от реализации продукции, прибыль, стоимость основных фондов и т.д. Возможное значение, которое может принимать признак, называется вариантом. Например, существует 4 варианта признака «экзаменационная оценка»: «2», «3», «4», «5». Признаки подразделяются на количественные и качественные. Количественным называется признак, отдельные варианты которого имеют числовое выражение и отражают размеры, масштабы изучаемого объекта или явления. Например, доход домохозяйства, площадь жилого помещения, цена товара, стаж работы. Качественные признаки выражаются нечисловыми значениями и подразделяются на альтернативные, атрибутивные и порядковые. Альтернативным называется признак, имеющий только два варианта значений. Например, продукция предприятия соответствует требованиям или является бракованной, население городское или сельское и т. д. Атрибутивный признак имеет более двух вариантов, которые при этом выражаются в виде понятий или наименований, и не выражаются числом. Например, район проживания, вид продукции, специальность работника и т. д. Порядковые признаки имеют несколько ранжированных, т.е. упорядоченных по возрастанию или убыванию, качественных вариантов. Например, уровень образования (начальное, неполное среднее, среднее, высшее), уровень квалификации, воинское звание, рейтинг и т. д. Отдельные варианты порядкового признака трудно соизмерить количественно. Например, высшее образование лучше, чем среднее, но при этом нельзя сказать, что оно лучше на 20% или на 30%. Порядковый признак может иметь числовое выражение. Например, разряд рабочего, экзаменационная оценка. Однако, в обозначении вариантов этих признаков цифры можно заменить буквами алфавита без снижения их информативности. Статистической совокупностью называется множество подвергающихся статистическому исследованию объектов или явлений, объединенных общими признаками, из которых один или несколько признаков не варьируются. Статистика изучает совокупности промышленных, сельскохозяйственных, 2 строительных и торговых предприятий, коммерческих банков, населения страны или отдельного ее региона. Например, всех жителей Тольятти можно рассматривать как статистическую совокупность, т. к. признак «город проживания» является неварьируемым, а остальные (пол, возраст, социальное положение и т. д.) будут варьироваться. Индивидуальный составной элемент статистической совокупности, являющийся носителем изучаемых признаков, называется единицей совокупности. Так для отрасли единицей совокупности будет отдельное предприятие, для банковской системы – отдельный банк. Общее число единиц, образующих статистическую совокупность, называется объемом совокупности. Объем совокупности следует отличать от объема признака, т.е. суммарного значения признака по всем единицам изучаемой совокупности. Например, число предприятий в отрасли – это объем совокупности, а общий выпуск продукции на всех предприятиях – это объем признака. Статистическое исследование независимо от его масштабов и целей завершается расчетом и анализом различных по виду и форме выражения статистических показателей. Статистический показатель представляет собой количественную характеристику социально-экономических явлений и процессов. В отличие от признака статистический показатель получается расчетным путем. Это могут быть простой подсчет единиц совокупности, суммирование значений признака, сравнение двух или нескольких величин, а также более сложные расчеты. Как правило, изучаемые статистикой процессы и явления достаточно сложны, и их сущность не может быть отражена посредством одного отдельно взятого показателя. В таких случаях используется система статистических показателей. Система статистических показателей - это совокупность взаимосвязанных показателей, имеющая одноуровневую или многоуровневую структуру и нацеленная на решение конкретной статистической задачи. Сводка и группировка Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала. Сводка - это научная обработка первичных данных с целью получения обобщенных характеристик изучаемого социально-экономического явления по ряду существенных для него признаков с целью выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Группировкой называется разбиение общей совокупности единиц объекта наблюдения по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в количественном и качественном отношении и позволяющие выделить социально-экономические типы, изучить структуру совокупности и проанализировать связи между отдельными признаками. 3 Построение статистических группировок Пример статистической группировки: Построение статистических группировок осуществляется по следующим этапам: 1. Определение группировочного признака. 2. Определение числа групп. 3. Расчет ширины интервала группировки. 4. Определение признаков, которые в комбинации друг с другом будут характеризовать каждую выделенную группу. Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В основание группировки могут быть положены как количественные (возраст человека), так и качественные (форма собственности фирмы) признаки. В примере группировочным признаком является величина уставного капитала. Число групп зависит от: - задач исследования; - объема изучаемой совокупности - степени вариации признака. В случае группировки единиц наблюдения по количественному признаку особое внимание необходимо обратить на число единиц исследуемого объекта, объем совокупности и степень колеблемости группировочного признака. При небольшом объеме совокупности не следует образовывать большого количества групп, так как группы будут включать недостаточное число единиц 4 объекта. Показатели, рассчитанные для таких групп, не будут представительными и не позволят получить адекватную характеристику исследуемого явления. При определении числа групп необходимо принять во внимание размах вариации признака (R), который позволяет оценить вариацию признака между крайними значениями признака – максимальным (x max ) и минимальным (x min ) и определяется по следующей формуле: R=x max -x min Чем больше размах вариации признака, положенного в основание группировки, тем, как правило, может быть образовано большее число групп. При этом может возникнуть проблема получения пустых групп, т.е. групп, не содержащих ни одной единицы наблюдения. Поэтому в каждом конкретном случае при определении числа групп следует исходить не только из размаха вариации признака, но и из особенностей объекта и показателей, его характеризующих, а также цели исследования. Определение числа групп можно осуществить несколькими способами. Формально математический способ предполагает использование формулы Стерджесса: n = 1 + 3,322 lg N, (1) где n - число групп, N - число единиц совокупности. Согласно этой формуле выбор числа групп зависит только от объема изучаемой совокупности. Применение данной формулы дает хорошие результаты, в том случае, если совокупность состоит из большого числа единиц наблюдения. Когда определено число групп, то следует определить интервалы группировки. Интервал группировки - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет верхнюю и нижнюю границы или одну из них. Нижней границей интервала называется наименьшее значение признака в интервале. Верхней границей интервала называется наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами интервала. В зависимости от величины интервалы группировки бывают: равные и неравные. В свою очередь неравные интервалы подразделяются на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные. Равные интервалы применяются в случае, если изменение количественного признака внутри изучаемой совокупности единиц наблюдения происходит равномерно и его вариация проявляется в сравнительно узких границах. Ширина равного интервала определяется по формуле: n R = h (2) где R=x max -x min , n – число групп. В примере принято число интервалов группировки равным 4. Соответственно ширина интервала = (23,3-2,1) /4 =21,2 / 4 =5,3. 5 Если максимальные или минимальные значения сильно отличаются от смежных с ними значений вариантов в упорядоченном ряду значений группировочного признака, то для определения величины интервала следует использовать не максимальное или минимальное значения, а значения, несколько превышающие минимум, и несколько меньше, чем максимум. Полученную по формуле (2) величину округляют и она будет являться шириной интервала. Существуют следующие правила определения ширины интервала. Если величина интервала, рассчитанная по формуле (2) представляет собой величину, которая имеет один знак до запятой, то в этом случае полученные значения целесообразно округлить до десятых и их использовать в качестве ширины интервала. Если рассчитанная величина интервала имеет две значащие цифры до запятой и несколько после запятой, то это значение необходимо округлить до целого числа. В случае, когда рассчитанная величина интервала представляет собой трехзначное, четырехзначное и так далее число, то эту величину следует округлить до ближайшего числа, кратного 100 или 50. Если размах вариации признака в совокупности велик и значения признака варьируют неравномерно, то надо использовать группировку с неравными интервалами. Неравные интервалы могут быть получены в процессе объединения пустых, не содержащих ни одной единицы совокупности, равных интервалов. Это происходит в том случае, если после построения равных интервалов по изучаемому признаку образуются группы, содержащие мало или не содержащие вообще ни одной единицы. В этом случае возникает необходимость в увеличении интервалов группировки. Интервалы группировок могут быть закрытыми и открытыми. Закрытыми называются интервалы, у которых имеются верхняя и нижняя границы. Открытые – это интервалы, у которых указана только одна граница: как правило, верхняя – у первого интервала и нижняя – у последнего. Применение открытых интервалов целесообразно в тех случаях, когда в совокупности встречается незначительное число единиц наблюдения с очень малыми или очень большими значениями вариантов, которые резко, в несколько раз, отличаются от всех остальных значений изучаемого признака. При группировке единиц совокупности по количественному признаку границы интервалов могут быть обозначены по-разному, в зависимости от того, непрерывный или дискретный признак положен в основание группировки. Дискретные признаки – это количественные признаки, принимающие отдельные, иногда только целочисленные значения. Например, число жителей города, заболевших гриппом за год. Непрерывные признаки – количественные признаки, которые принимают значения, непрерывно изменяющиеся в определенных границах. Примером может служить стоимость основных производственных фондов предприятия. 6 Если основанием группировки служит непрерывный признак, то одно и то же значение признака выступает и верхней и нижней границами двух смежных интервалов. Пример построения групп при непрерывном группировочном признаке № группы Интервалы 1 до 100 2 100-150 3 150-200 4 200-250 5 свыше 250 При таком обозначении границ может возникнуть вопрос, в какую группу включать единицы наблюдения, значения признака у которых совпадают с границами интервалов? Для того, чтобы правильно отнести к той или иной группе единицу совокупности, значение признака которой совпадает с границами интервалов, можно использовать открытые интервалы. В данном случае, вопрос отнесения отдельных единиц совокупности, значения которых являются граничными, к той или иной группе решается на основе анализа последнего открытого интервала. Если в основании группировки лежит дискретный признак, то нижняя граница i-го интервала равна верхней границе (i -1)-го интервала, увеличенной на 1. Пример построения групп при дискретном группировочном признаке № группы Интервалы 1 до 100 2 101-150 3 151-200 4 201-250 5 свыше 251 Ряды распределения Ряды распределения представляют собой простейшую группировку, в которой каждая выделенная группа характеризуется одним показателем. Статистический ряд распределения – это упорядоченное количественное распределение единиц совокупности на однородные группы по какому-либо варьирующему (атрибутивному или количественному) признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения. Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, характеризующим состояние изучаемого явления и не имеющим числового выражения. 7 Вариационными рядами называют ряды распределения, построенные по количественному признаку, т.е. признаку, имеющему числовое выражение у отдельных единиц совокупности. Вариационный ряд состоит из двух элементов: вариант и частот. Варианта – этоотдельное значение признака из числа тех, что он принимает в вариационном ряду, то есть конкретное значение варьирующего признака. Частотами называются численности отдельных вариант или каждой группы вариационного ряда. Частоты показывают, как часто встречаются те или иные значения признака в изучаемой совокупности. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%. В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды. Дискретный вариационный ряд – это ряд распределения, в котором группы составлены по признаку, изменяющемуся прерывно, т.е. через определенное число единиц и характеризуют распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Пример дискретного ряда Размер заработной платы, руб. Число рабочих, имеющих такую заработную плату 1000 10 1200 20 1300 40 1400 60 1500 50 1600 20 Итого: 200 Интервальный вариационный ряд распределения – это ряд распределения, в котором группировочный признак, составляющий основание группировки, может принимать в интервале любые значения, отличающиеся друг от друга на сколь угодную малую величину. Пример интервального ряда Интервалы по заработной плате, руб. Число рабочих, имеющих такую заработную плату 1000-1200 30 1200-1300 40 1300-1400 60 1400-1600 70 Итого 200 8 Построение интервальных вариационных рядов целесообразно прежде всего при непрерывной вариации признака, а также если дискретная вариация признака проявляется в широких пределах, то есть число вариантов дискретного признака достаточно велико. Правила построения рядов распределения аналогичны правилам построения группировки. Графическое представление рядов распределения Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения. Полигон используется при изображении дискретных вариационных рядов. Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, а по оси ординат наносится шкала для выражения величины частот. Полученные на пересечении оси абсцисс (х) и оси ординат (у) точки соединяются прямыми линиями, в результате чего получают ломаную линию, называемую полигоном частот. Иногда для замыкания полигона предлагается крайние точки (слева и справа на ломаной линии) соединить с точками на оси абсцисс, в результате чего получается многоугольник. Рис. 1. Пример полигона частот Гистограмма применяется для изображения интервального вариационного ряда. При построении гистограммы на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенным на соответствующих интервалах. Высота столбиков должна быть пропорциональна частотам. В результате получается график, на котором ряд распределения изображен в виде смежных друг с другом столбиков. 9 Рис. 2. Пример гистограммы частот Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить прямыми линиями. При построении гистограммы распределения вариационного ряда с неравными интервалами по оси ординат наносят не частоты, а плотность распределения признака в соответствующих интервалах. Это необходимо сделать для устранения влияния величины интервала на распределение интервала и получения возможности сравнивать частоты. Плотность распределения - это частота, рассчитанная на единицу ширины интервала, то есть, сколько единиц в каждой группе приходится на единицу величины интервала. Для графического изображения вариационных рядов может использоваться кумулятивная кривая. При помощи кумуляты изображается ряд накопленных частот. Накопленные частоты определяются путем последовательного суммирования частот по группам. Накопленные частоты показывают, сколько единиц совокупности имеют значения признака не больше, чем рассматриваемое значение. При построении кумуляты интервального вариационного ряда по оси абсцисс (х) откладываются варианты ряда, а по оси ординат (у) накопленные частоты, которые наносят на поле графика в виде перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти перпендикуляры соединяют и получают ломаную линию, то есть кумуляту. Рис. 3. Пример кумуляты частот Если при графическом изображении вариационного ряда в виде кумуляты оси х и у поменять местами, то получим огиву. |