лекции по статистике. dr pr mat Курс лекций по дисциплине статистика. Сводка и группировка статистических данных
Скачать 105.13 Kb.
|
По способу построения группировки бывают простые и комбинационные.Простая‒ группировка, в которой группы образованы только по одному признаку. Среди простых особо выделяют ряды распределения. Комбинационная‒ группировка, в которой разбиение совокупности на группы производится по двум и более признакам, взятым в сочетании (комбинации). Сначала группы формируются по одному признаку, затем группы делятся на подгруппы по другому признаку, а эти в свою очередь делятся по третьему и так далее. Таким образом, комбинационные группировки дают возможность изучить единицы совокупности одновременно по нескольким взаимосвязанным признакам. При построении комбинационной группировки возникает вопрос о последовательности разбиения единиц объекта по признакам. Как правило, рекомендуется сначала производить группировку по атрибутивным признакам, значения которых имеют ярко выраженные качественные различия. Поупорядоченностиисходныхданныхгруппировки бывают первичные и вторичные. Процесс образования новых групп на основе группировки, произведенной по первичным данным, называется вторичной группировкой. Необходимость во вторичной группировке возникает в случаях: когда в результате первоначальной группировки нечетко проявился характер распределения изучаемой совокупности (в этом случае производят укрупнение или уменьшение интервалов); когда требуется сопоставить между собой данные, имеющие различное число выделенных групп или неодинаковые границы интервалов. Принципы построения статистических группировокПостроение статистических группировок осуществляется по следующим этапам: Определение группировочного признака. Определение числа групп. Расчет ширины интервала группировки. Определение признаков, которые в комбинации друг с другом будут характеризовать каждую выделенную группу. Построение группировки начинается с определения группировочного признака. Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки. В основание группировки могут быть положены как количественные, так и качественные признаки. Количественные признаки – это признаки, которые имеют числовое выражение (объем выпускаемой продукции, возраст человека, доход сотрудника фирмы и т. д.). Качественные признаки отражают состояние единицы совокупности (пол, отраслевая принадлежность предприятия, форма собственности фирмы и т.д.). После того, как определено основание группировки, следует решить вопрос о количестве групп, на которые необходимо разбить исследуемую совокупность единиц наблюдения. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема изучаемой совокупности и степени вариации признака. Вид показателя особенно существенен при анализе качественных признаков. Так, например, группировка сотрудников фирмы по полу учитывает только две градации: «мужской» и «женский». В случае группировки единиц наблюдения по количественному признаку особое внимание необходимо обратить на число единиц исследуемого объекта, объем совокупности и степень колеблемости группировочного признака. При небольшом объеме совокупности (n<50) не следует образовывать большого количества групп, так как группы будут включать недостаточное число единиц объекта. Показатели, рассчитанные для таких групп, не будут представительными и не позволят получить адекватную характеристику исследуемого явления. Часто группировка по количественному признаку имеет задачу отразить распределение единиц совокупности по этому признаку. В этом случае количество групп зависит, в первую очередь, от степени колеблемости группировочного признака: чем больше его колеблемость, тем больше можно образовать групп. Поэтому при определении числа групп необходимо принять во внимание размах вариации признака (R), который позволяет оценить вариацию признака между крайними значениями признака – максимальным ( Xmax ) и минимальным ( Xmin ) и определяется по следующей формуле: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚i𝑛 Чем больше размах вариации признака, положенного в основание группировки, тем, как правило, может быть образовано большее число групп. При этом может возникнуть проблема получения пустых групп, т.е. групп, не содержащих ни одной единицы наблюдения. Построение большого числа групп позволит, с одной стороны, точнее воспроизвести характер исследуемого объекта. Однако, с другой стороны, слишком большое число групп затрудняет выявление закономерностей при исследовании социально-экономических явлений и процессов. Поэтому в каждом конкретном случае при определении числа групп следует исходить не только из степени колеблемости признака, но и из особенностей объекта и показателей, его характеризующих, а также цели исследования. Определение числа групп можно осуществить несколькими способами. Формально-математический способ предполагает использование формулы Стерджесса: n = 1 + 3,322 × lg N, n – число групп; N – число единиц совокупности. Согласно этой формуле выбор числа групп зависит только от объема изучаемой совокупности. Когда определено число групп, то следует определить интервалы группировки. Интервал – это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет верхнюю и нижнюю границы или одну из них. Нижней границей интервала называется наименьшее значение признака в интервале. Верхней границей интервала называется наибольшее значение признака в интервале. Величина интервала - разность между верхней и нижней границами интервала. Интервалы группировки бывают равные и неравные, открытые и закрытые. В зависимости от величины интервалы группировки бывают: равные и неравные. В свою очередь, неравные интервалы подразделяются на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные. Равныеинтервалыприменяются в случае, если изменение количественного признака внутри изучаемой совокупности единиц наблюдения происходит равномерно и его вариация проявляется в сравнительно узких границах. Ширина равного интервала определяется по следующей формуле: ℎ = 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚i𝑛 𝑛 𝑛 где: 𝑥𝑚𝑎𝑥 𝑥𝑚i𝑛 ‒ максимальное и минимальное значения признака в совокупности; n - число групп. Если максимальные или минимальные значения сильно отличаются от смежных с ними значений вариантов в упорядоченном ряду значений группировочного признака, то для определения величины интервала следует использовать не максимальное или минимальное значения, а значения, несколько превышающие минимум, и несколько меньше, чем максимум. Полученную по формуле величину округляют, и она будет являться шириной интервала. Существуют следующие правила определения ширины интервала. Если величина интервала, рассчитанная по формуле представляет собой величину, которая имеет один знак до запятой (например: 0,67; 1,487; 3,82), то в этом случае полученные значения целесообразно округлить до десятых и их использовать в качестве ширины интервала. Если рассчитанная величина интервала имеет две значащие цифры до запятой и несколько после запятой (например 14,876), то это значение необходимо округлить до целого числа (до 15). В случае, когда рассчитанная величина интервала представляет собой трехзначное, четырехзначное и так далее число, то эту величину следует округлить до ближайшего числа, кратного 100 или 50. Например, 652 следует округлить до 650 или до 700. Если размах вариации признака в совокупности велик и значения признака варьируют неравномерно, то надо использовать группировку с неравными интервалами. Неравные интервалы могут быть получены в процессе объединения пустых, не содержащих ни одной единицы совокупности, равных интервалов. Это происходит в том случае, если после построения равных интервалов по изучаемому признаку образуются группы, содержащие мало или не содержащие вообще ни одной единицы, т.е. группы, не отражающие определенных типов изучаемого явления по признаку. В этом случае возникает необходимость в увеличении интервалов группировки. Также неравные интервалы могут быть прогрессивно-возрастающие или прогрессивно-убывающие в арифметической или геометрической прогрессии. Величина интервалов, изменяющихся в арифметической и геометрической прогрессии, определяется следующим образом: а в геометрической прогрессии: ℎi+1 = ℎi + 𝑎 ℎi+1 = ℎi + 𝑞 где: а – константа: для прогрессивно-возрастающих интервалов имеет знак «+», а при прогрессивно-убывающих – знак «‒». q – константа: для прогрессивно-возрастающих – больше «1»; для прогрессивно- убывающих – меньше «1». Применение неравных интервалов обусловлено тем, что в первых группах небольшая разница в показателях имеет большое значение, а в последних группах эта разница не существенна. Например, при построении группировки строительных компаний города, по показателю численности работающих, который варьирует от 500 человек до 3500 человек, нецелесообразно рассматривать равные интервалы, т. к. учитываются как малые, так и крупнейшие строительные фирмы города. Поэтому следует образовывать неравные интервалы: 500 ‒ 1000, 1000 ‒ 2000, 2000 ‒ 3500, т. е. величина каждого последующего интервала больше предыдущего на 500 человек и увеличивается в арифметической прогрессии. Выбор исследователя в построении равных или неравных интервалов зависит от степени заполнения каждой выделенной группы, т.е. от числа единиц в них. Если величина интервала существенна и содержит большое число единиц совокупности, то эти интервалы необходимо дробить, а в противном случае – объединять. |