Лекция 5. Обобщающие характеристики статистических совокупностей. Содержание лекции
Скачать 1.11 Mb.
|
ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВЫЯВЛЕНИЕ СВЯЗИ 30.03.2022 82 Используя показатели вариации можно получить информацию не только об изменчивости значения признака в рамках исследуемой совокупности, но и о связи между признаками . Для этого необходимо оценить соотношения различных показателей дисперсии Предположим, что между признаками, тесноту связи между которыми предстоит оценить, существует причинно-следственная зависимость, т.е. предполагается, что изменение одного признака может привести к изменению другого признака. Рассмотрим процедуру анализа вариации сгруппированных данных на примере. Пример. В группе из 15 студентов проведено практическое занятие, на котором различные студенты решили разное количество задач. Необходимо определить, зависит ли число решенных студентом задач от того, подготовился он к занятию или нет. Группировка студентов по признаку «подготовка к занятию» Группа студентов Число студентов Количество решенных задач Групповая средняя Подготовленные 10 10; 9; 8; 9; 9; 8; 9; 8; 9; 9 8,8 Неподготовленные 5 6; 5; 4; 6; 5 5,2 Итого 15 х 7,6 ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 83 В дисперсионном анализе различают следующие виды дисперсий : ▪ общая дисперсия; ▪ средняя из остаточных дисперсий; ▪ межгрупповая дисперсия. Общая дисперсия – это мера отклонения значений признака отдельных ЕСС от среднего по совокупности значения признака. Общая дисперсия определяет меру рассеивания значений признака по всем единицам совокупности под влиянием всех факторов. Например, величина общей дисперсии в данном случае (см. табл.) характеризует различие оценок по всем 15 студентам и рассчитывается следующим образом: σ 𝟐 = (𝟏𝟎 − 𝟕, 𝟔) 𝟐 +(𝟗 − 𝟕, 𝟔) 𝟐 +(𝟖 − 𝟕, 𝟔) 𝟐 + ⋯ 𝟏𝟓 = 𝟑, 𝟑𝟏. Средняя величина 7,6 рассчитывается как простая средняя по индивидуальным значениям числа решенных задач по 15 студентам. ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 84 Остаточная (внутригрупповая) дисперсия – это мера отклонения значений признака отдельных ЕСС в группе от среднего по данной группе значения признака. Остаточная дисперсия определяет меру рассеивания значений признака по единицам одной группы под влиянием всех факторов, кроме фактора, положенного в основу группировки, и рассчитывается по формуле: σ ост.(𝒋) 𝟐 = σ 𝒊=𝟏 𝒇 𝒋 (𝒙 𝒊 − 𝒙 𝒋 ) 𝟐 𝒇 𝒋 В данном примере в основу группировки положен признак подготовленности к занятию. Следовательно, остаточная дисперсия в каждой группе характеризует расхождение в числе решенных задач, не связанное с фактом подготовленности к занятию (индивидуальные способности, «списал решение у соседа», случайные факторы и т.п.): σ 𝟏 𝟐 = (𝟏𝟎 − 𝟖, 𝟖) 𝟐 + 𝟗 − 𝟖, 𝟖 𝟐 + (𝟖 − 𝟖, 𝟖) 𝟐 + ⋯ 𝟏𝟎 = 𝟎, 𝟑𝟔; σ 𝟐 𝟐 = (𝟔 − 𝟓, 𝟐) 𝟐 + 𝟓 − 𝟓, 𝟐 𝟐 + (𝟒 − 𝟓, 𝟐) 𝟐 + 𝟔 − 𝟓, 𝟐 𝟐 + (𝟓 − 𝟓, 𝟐) 𝟐 𝟓 = 𝟎, 𝟓𝟔. ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 85 Средняя дисперсия из остаточных определяет меру рассеивания значений признака по всем единицам совокупности под влиянием всех факторов, кроме фактора, положенного в основу группировки и рассчитывается как средняя из внутригрупповых дисперсий. σ ср.ост.(𝒋) 𝟐 = σ σ 𝒋 𝟐 × 𝒇 𝒋 σ 𝒇 𝒋 В данном примере средняя дисперсия из остаточных определяет меру рассеивания значений признака (числа решенных задач) по всем единицам совокупности (по 15 студентам) под влиянием всех факторов, кроме фактора, положенного в основу группировки (кроме фактора подготовленности к занятию) : σ ср.ост. 𝟐 = 𝟎, 𝟑𝟔 × 𝟏𝟎 + 𝟎, 𝟓𝟔 × 𝟓 𝟏𝟓 = 𝟎, 𝟒𝟑. В данном случае средняя дисперсия из остаточных рассчитывается как средняя взвешенная по правилу расчета средних для относительных показателей (см. тему «средние величины»). Весом выбирается число студентов в группе, т.к. именно эта величина является знаменателем при расчете средних дисперсий в группах ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 86 Межгрупповая дисперсия – это мера отклонения средних в группе значений признака от общей по совокупности средней величины значения признака. Межгрупповая дисперсия определяет меру рассеивания значений признака под влиянием фактора, положенного в основу группировки, измеряя вариацию значений групповых средних, и рассчитывается по формуле: σ м/г 𝟐 = σ(𝒙 𝒋 − 𝒙) 𝟐 × 𝒇 𝒋 σ 𝒇 𝒋 В данном примере: σ м/г 𝟐 = (𝟖, 𝟖 − 𝟕, 𝟔) 𝟐 × 𝟏𝟎 + 𝟓, 𝟐 − 𝟕, 𝟔 𝟐 × 𝟓 𝟏𝟓 = 𝟐, 𝟖𝟖 ПРАВИЛО СЛОЖЕНИЯ ДИСПЕРСИЙ 30.03.2022 87 Общая дисперсия, средняя из остаточных дисперсий и межгрупповая дисперсии по правилу сложения дисперсий объединяются в следующую формулу: σ общ. 𝟐 = σ ост 𝟐 + σ м/г 𝟐 Правило: Общая дисперсия, возникающая под действием всех факторов, равна сумме дисперсии, возникающей под влиянием всех прочих факторов и дисперсии, возникающей за счет фактора, положенного в основу группировки Правило применяется, например, при вычислении показателей тесноты связи. Проверим правильность выполненного расчета: 𝟑, 𝟑𝟏 = 𝟎, 𝟒𝟑 + 𝟐, 𝟖𝟖 - правило выполняется, следовательно, расчет выполнен верно. ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 88 Соотношение межгрупповой и общей дисперсии показывает, какая доля вариации результативного признака обусловлена вариацией факторного признака и называется коэффициентом детерминации (η2 ): η2 = σ м/г 𝟐 σ общ 𝟐 Зависимость считается существенной, если коэффициент детерминации превышает 50%! Также рассчитывают эмпирическое корреляционное отношение (ЭКО): η = σ м/г 𝟐 σ общ 𝟐 Показатель характеризует влияние признака, положенного в основу группировки, на вариацию результативного признака: ▪ если η = 0 , то группировочный признак (факторный) не оказывает влияния на вариацию результативного признака; ▪ если η = 1 , то результативный признак изменяется только в зависимости от признака, положенного в основу группировки (влияние прочих факторов = 0) 1 0 ЭКО ВАРИАЦИЯ СГРУППИРОВАННЫХ ДАННЫХ: ВИДЫ ДИСПЕРСИЙ 30.03.2022 89 В рассмотренном выше примере количество решенных студентами задач на 87 % обусловлено их готовностью к занятию (отношение межгрупповой дисперсии к общей, т.е. коэффициент детерминации составил 0,87) и только на 13 % другими факторами (отношение средней из остаточных к общей дисперсии) . Пример отсутствия вариации внутри групп Тарифный разряд Число рабочих, чел. Индивидуальная выработка, шт. Средняя выработка, шт. III 6 100, 100, 100, 100, 100, 100 100 IV 4 110, 110, 110, 110 110 V 5 120,120,120, 120, 120 120 Итого: 15 – 109,3 ЧАСТЬ 7. ВАРИАЦИЯ АЛЬТЕРНАТИВНОГО ПРИЗНАКА 30.03.2022 90 ВАРИАЦИЯ АЛЬТЕРНАТИВНОГО ПРИЗНАКА 30.03.2022 91 Признак, у которого имеются только два взаимоисключающих варианта значений, принято называть альтернативным признаком. Примером таких признаков являются наличие бракованной продукции, ученая степень преподавателя вуза, учеба по определенной специальности и т. д. Эквивалентом такого признака можно считать переменную 𝒙 𝒊 которая принимает значение «1» или «0» Значение «1» устанавливается, когда обследуемая единица совокупности обладает изучаемым признаком (x=1), значение «0» — когда обследуемая единица совокупности не обладает изучаемым признаком (x=0). Предположим, что вся статистическая совокупность имеет n единиц. Из них m единиц обладают выделенным признаком, тогда оставшиеся n – m единиц не обладают этим признаком. Долю единиц, обладающих признаком, обозначим 𝒑 = 𝒎 𝒏 , тогда доля единиц, не обладающих данным признаком может быть рассчитана, как 𝒒 = 𝒏−𝒎 𝒏 , тогда сумма обозначенных долей составит: 𝒑 + 𝒒 = 𝟏 ВАРИАЦИЯ АЛЬТЕРНАТИВНОГО ПРИЗНАКА 30.03.2022 92 Среднее значение альтернативного признака: 𝑥 = σ 𝑥 𝑗 × 𝑓 𝑗 σ 𝑓 𝑗 = 1 × 𝑚 + 0 × (𝑛 − 𝑚) 𝑛 = 𝑚 𝑛 = 𝑝 Вывод: среднее значение альтернативного признака равно доле единиц, обладающих данным признаком. Дисперсия альтернативного признака: σ 2 = σ(𝑥 𝑗 − 𝑥) 2 × 𝑓 𝑗 σ 𝑓 𝑗 = (1 − 𝑝) 2 × 𝑚 + (0 − 𝑝) 2 × (𝑛 − 𝑚) 𝑛 = 𝑞 2 × 𝑚 + 𝑝 2 × (𝑛 − 𝑚) 𝑛 = 𝑞 2 × 𝑚 𝑛 + 𝑝 2 × (𝑛 − 𝑚) 𝑛 = = 𝑞 2 × 𝑝 + 𝑝 2 × 𝑞 = 𝑞 × 𝑝 × 𝑞 + 𝑝 = 𝑞 × 𝑝 × 1 = 𝑞 × 𝑝 Вывод: дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком. ВАРИАЦИЯ АЛЬТЕРНАТИВНОГО ПРИЗНАКА 30.03.2022 93 Пример. Чему равно среднее квадратическое отклонение доли бракованных деталей, если при осмотре партии деталей среди них оказалось 12% бракованных? Решение: Доля бракованных изделий p=12%, следовательно доля качественных изделий составляет q=88% Дисперсия доли брака составит: σ 2 = 𝑞 × 𝑝 = 0,12 × 0,88 = 0,1056 Среднее квадратическое отклонение доли брака составит: σ = σ 2 = 0,1056 = 0,32, т. е. 32% Можно ли определить дисперсию доли бракованных деталей, если о доле бракованных деталей в выборочной совокупности нет данных? Обоснуйте ответ. Для альтернативного признака максимальное значение дисперсии составит 0,25! ГЛОССАРИЙ 30.03.2022 Дискретный ряд – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены значения признака (x j ), а в другой – количество единиц совокупности с данным значением признака или частота появления признака, (f j ); Интервальный ряд – статистическая таблица, состоящая из двух строк или граф, в одной из которых представлены интервалы значения признака (x j ), а в другой – частота появления признака, (f j ). Медиана – это значение признака, делящее ряд на две равные части, со значениями признака, соответственно, меньше и больше медианы. Медианный интервал – это первый интервал значений признака, в котором накопленная частота появления признака превышает половину объема совокупности. Межгрупповая дисперсия – это мера отклонения средних в группе значений признака от общей по совокупности средней величины значения признака. Многомерная средняя величина – это обобщенная характеристика некоторого явления, построенная на основе сведения в единый показатель частных его характеристик. Мода – это наиболее часто встречающееся значение признака. Модальный интервал – это интервал значений признака, в котором частота появления признака максимальная в ряду. Общая дисперсия – это мера отклонения значений признака отдельных ЕСС от среднего по совокупности значения признака. Остаточная (внутригрупповая) дисперсия – это мера отклонения значений признака отдельных ЕСС в группе от среднего по данной группе значения признака. Ранжированный ряд – перечень единиц статистической совокупности и соответствующих им значений признака в порядке его убывания или возрастания; Средняя арифметическая величина – это такая средняя, которая сохраняет сумму значений признака при замене индивидуальных значений на средние. Средняя величина – количественная характеристика общего в явлениях и процессах, характеристика статистической закономерности. Средняя гармоническая величина – это такая средняя, которая сохраняет неизменной сумму значений, обратных значениям признака при замене индивидуальных значений на средние. Средняя геометрическая величина – это такая средняя, которая сохраняет неизменным произведение значений признака при замене индивидуальных значений на средние. Средняя квадратическая величина – это такая средняя, которая сохраняет неизменной сумму квадратов значений признака при замене индивидуальных значений на средние. Средняя кубическая величина – это такая средняя, которая сохраняет неизменной сумму кубов значений признака при замене индивидуальных значений на средни е. 94 |