Главная страница

Организация данных изменение значений данных


Скачать 7.06 Mb.
НазваниеОрганизация данных изменение значений данных
Дата05.10.2022
Размер7.06 Mb.
Формат файлаpptx
Имя файла2_LEKTsIYa_1.pptx
ТипДокументы
#716480

Описательная статистика для категориальных шкал

Описательная статистика для количественных шкал

вопросы

ОРГАНИЗАЦИЯ ДАННЫХ

ИЗМЕНЕНИЕ ЗНАЧЕНИЙ ДАННЫХ

Описательная статистика для категориальных данных

Частотный анализ для категориальных переменных.

Частотные таблицы для порядковых шкал.

Графическое представление категориальных переменных.

Таблицы сопряженности и их анализ.

Критерий хи-квадрат.

Таблицы сопряженности

Таблица сопряженности двумерного распределения категориальных переменных для выявления взаимосвязи:

- строки таблицы задаются категориями одной переменной;

- столбцы таблицы задаются категориями другой переменной;
  • на пересечении строки i и столбца j в таблице сопряженности находится количество объектов (наблюдений, записей), для которых переменная строк принимает значение i, а переменная столбцов - значение j.









Независимая переменная оказывает влияние на зависимую переменную.

Например: уровень образования респондента может оказывать влияние на категорию частоты просмотра телепередач.



зависимая переменная задает строки таблицы,

независимая переменная - столбцы

Таблицы сопряженности

Проценты в ячейках таблицы сопряженности
  • Вычисление остатков – разница между наблюденными частотами и ожидаемыми частотами. Остатки являются показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга.
  • Нестандартизированные – отображаются ненормированные остатки, т.е. разность между наблюдаемыми и ожидаемыми частотами;
  • Стандартизированные – отображаются нормированные остатки, для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты;
  • Скорректированные стандартизированные – нормированные остатки вычисляются с учетом сумм по строкам и столбцам.

Ожидаемые частоты и остатки в таблицах сопряженности

Описательный анализ данных

Методы проверки гипотез

1. оценка параметров – получение точечных и интервальных оценок параметров генеральной совокупности;
  • проверка статистических гипотез – тестирование выдвинутых на этапе проектирования статистического исследования рабочих гипотез и предположений;

  • - статистическое изучение взаимосвязи – построение математико-статистической модели зависимости изучаемых явлений.

    2. Выбор статистик для оценки параметров генеральной совокупности зависит от свойств выборочной совокупности.

    3. Методы проверки статистических гипотез и изучения взаимосвязи могут быть параметрические и непараметрические, и также зависят от свойств выборочной совокупности.

    4. Основное мастерство статистического анализа данных заключается в получении и интерпретации данных.

Задачи статистического анализа
  • Проверка гипотез и изучение взаимосвязи для категориальных шкал происходит, как правило, на основе таблиц сопряженности.
  • Таблица сопряженности – это таблица, строки которой задают категории одной переменной, а столбцы – категории другой переменной.
  • Проверка гипотез на основе таблиц сопряженности относят к непараметрическим методам статистики.
  • Для применения непараметрических методов не нужна информация о форме и параметрах распределения исследуемой переменной.

Методы проверки гипотез

Статистическая гипотеза
  • Статистическая гипотеза – это любое предположение (утверждение) относительно неизвестного закона распределения переменной в генеральной совокупности или значениях его параметров.
  • Любое статистическое исследование направлено на определение некоторой характеристики изучаемой генеральной совокупности или выявление взаимосвязи между переменными.

  • Статистическая достоверность – это возможность распространить результат исследования на всю генеральную совокупность.
  • Проверка статистической достоверности сводится к проверке статистических гипотез.

Статистическая гипотеза
  • При проверке статистических гипотез различают основную (выдвигаемую, нулевую) гипотезу, которую необходимо проверить, и альтернативную (конкурирующую) гипотезу.
  • Как правило, нулевую гипотезу формируют об отсутствии различий или отсутствии взаимосвязей, или о соответствии заданному закону распределения.
  • Точная формулировка гипотезы зависит от конкретного вида гипотезы.
  • Альтернативная гипотеза утверждает о наличии связи, различий или расхождении законов распределения.
  • Альтернативная гипотеза обычно является «рабочей» гипотезой исследования, которую необходимо доказать.
  • Альтернативная гипотеза может быть: ненаправленной – цель исследования просто опровергнуть нулевую гипотезу;
  • направленной – цель исследования опровергнуть нулевую гипотезу с учетом направления изменения (различий).

Нулевая и альтернативная гипотеза

Критерий хи-квадрат
  • Критерий хи-квадрат основан на различиях между наблюденными и ожидаемыми частотами в ячейках таблицы сопряженности:
  • Чем больше различия между наблюденными и ожидаемыми частотами, тем более вероятно, что между переменными существует зависимость.
  • В критерии хи-квадрат проверяется гипотеза об отсутствии статистической связи между переменными таблицы сопряженности. Cамо по себе значение критерия хи-квадрат не позволяет сделать однозначного вывода о наличии или отсутствии связи между переменными, поскольку значение этого критерия зависит еще и от количества строк и столбцов в таблице сопряженности.
  • Расчетное значение критерия необходимо сравнить с критическим, взятым из распределения хи-квадрат Пирсона с заданным уровнем значимости и числом степеней свободы.
  • Если расчетное значение критерия больше критического, то проверяемая нулевая гипотеза отвергается (связь есть).
  • Критерий хи-квадрат применим, когда ожидаемые частоты больше 5 и суммы по строкам и столбцам всегда должны быть больше 0. Обычно должно быть не более 20% ячеек с ожидаемыми частотами меньше 5.

Критерий хи-квадрат

7. При вычислении критерия хи-квадрат может использоваться альтернативная формула с поправкой на правдоподобие.

8. При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты.



При анализе основное внимание следует обращать на показатель значимости критерия хи-квадрат:

- если значение в ячейке Асимпт.значимость (2-стор.) меньше, чем 0,05 (либо другого приемлемого уровня значимости 0,01; 0,001), то между переменными существует статистическая связь;

- если значение в этой ячейке больше или равно 0,05, то статистическая связь между переменными отсутствует.

Критерий хи-квадрат

Задание слоев в таблице сопряженности

Процедура Таблицы сопряженности также позволяет добавлять в таблице третье измерение - слои.



В этом случае появляется возможность ответить на вопрос, существует ли зависимость между двумя переменными, задаваемыми в строках и столбцах, для различных категорий третьей переменной, которая задается в измерении слоев.



Количество слоев также может быть более одного, что позволяет получать таблицы с большим количеством измерений, однако такие таблицы достаточно сложно интерпретировать.

Описательный анализ данных

Методы проверки гипотез

Статистики центральной тенденции

Основные показателя оценки «типичных» значений:

- среднее арифметическое – сумма всех значений числового ряда, деленная на количество

значений в ряде.

- медиана – значение, разбивающее упорядоченный ряд на две равные части так, что 50%

значений ряда имеют значение ниже медианы, а другие 50% – выше медианы.

- мода – наиболее часто встречающееся значение данных.


  • Медианное значение – альтернативная мера оценки среднего значения в генеральной совокупности вместо средней арифметической.
  • Медиану используют при статистически неоднородной совокупности и нарушении нормальности распределения.
  • Для определения медианы по не сгруппированным данным необходимо: - ранжировать наблюдения;

  • - медианой будет центральное значение при нечетном числе наблюдений

    или среднее арифметическое двух центральных значений.

Медианное значение
  • Для определения, насколько сильно значения переменной отличаются друг от друга, используют статистики разброса или вариации.
  • Статистики разброса показывают степень разброса значений признака от средней величины.
  • Задача анализа статистик разброса – обобщить индивидуальные различия изучаемых единиц.
  • Показатели вариации при изучении многих процессов служат показателями риска.
  • Чем выше степень вариации (статистик разброса), тем выше степень риска (риска отклониться от среднего значения).



  • Вариация – это изменение (варьирование) значений признака у каждой единицы изучаемой совокупности.

Статистики разброса

Используют следующие меры разброса:

- дисперсия – сумма квадратов разностей каждого значения переменной и среднего значения,

деленная на количество наблюдений;

- стандартное отклонение – корень квадратный из дисперсии;

- максимум – наибольшее значение, встречающееся в данных;
  • минимум – наименьшее значение, встречающееся в данных;
  • - размах – разность между максимумом и минимумом.



  • Дисперсия позволяет дать информацию о разбросе значений в целом, но ее недостаток в том, что

    она измеряется в возведенных в квадрат единицах исходной переменной.

    Стандартное отклонение измеряется в тех же единицах, что исходная переменная.

    Максимум, минимум и размах имеют второстепенный характер по сравнению с показателями

    дисперсии и стандартного отклонения.
  • Значение процентиля – это значение количественной переменной, которое разделяет упорядоченные данные на две группы таким образом, что определенный процент наблюдений имеет значение количественной переменной меньше или равно значений процентиля, а прочие наблюдения имеют значение больше процентиля.

  • К примеру, выражение «40% процентиль данных о доходе равен 15.000 рублей» означает, что 40% респондентов имеют доход не выше 15.000 рублей.

    2. N-% процентиль представляет собой такое значение упорядоченного ряда, N% значений которого меньше или равно N-% процентиля.

    3. Наиболее часто используемыми процентилями являются квартили.

    4. Квартили – это значения, которые делят упорядоченный ряд на четыре равные части и отделяют, соответственно, 25%, 50% и 75% значений данных.

    Второй квартиль, отделяющий 50% наблюдений, по определению является также и медианой.

    5. децили (значения, делящие ряд на десять равных частей), квинтили (значения, деляющие ряд на пять равных частей).

    6. Разница между 75% и 25% процентилями называется межквартильным размахом или межквартильной широтой.

Процентили



Одним из наиболее информативных средств подытоживания и наглядного представления количественных переменных является гистограмма.

В отличие от столбиковой диаграммы гистограмма позволяет компактно представить в графическом виде переменные с большим количеством уникальных значений.

На гистограмме отображаются также стандартное отклонение, среднее значение и общее количество наблюдений, а также кривая нормального распределения.





Гистограммы

1. Предпосылкой применения большинства методов статистического анализа является нормальность распределения.

2. Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, в качестве основной обобщающей характеристики используют среднее значение, а в качестве меры разброса – стандартное отклонение или стандартную ошибку.

3. Для порядковых или интервальных переменных, не подчиняющихся нормальному распределению, в качестве основной характеристики используют медиану, а в качестве меры разброса – межквартильный размах или широту (разницу между первым и третьим квартилями).

4. Для выборки, подчиняющейся нормальному распределению, в интервале шириной:

- равной удвоенному стандартному отклонению, который отложен по обе стороны от среднего значения, располагается примерно 68% всех наблюдений;

- равной четырем стандартным отклонениям, который отложен по обе стороны от среднего значения, располагается примерно 95% всех наблюдений;

- равной шести стандартным отклонениям, который отложен по обе стороны от среднего значения, располагается примерно 99,7% всех наблюдений.

Нормальный закон распределения
  • Асимметрия и эксцесс – это статистики, описывающие форму и симметричность распределения изучаемой переменной по сравнению с нормальным распределением.
  • Коэффициенты асимметрии и эксцесса (коэффициенты формы распределения) рассчитывают для оценки нормальности распределения.
  • У нормального распределения коэффициенты асимметрии и эксцесса равны нулю.
  • Если коэффициенты формы и симметричности распределения по модулю меньше 1, то распределение близко к нормальному.
  • Коэффициент асимметрии показывает симметричность распределения по сравнению с нормальным распределением.
  • Коэффициент эксцесса показывает отличие формы распределения от нормального распределения.

Асимметрия и эксцесс
  • Для приблизительной оценки нормальности распределения необходимо сравнить моду, медиану и среднее значение, а также проанализировать коэффициенты асимметрии и эксцесса.
  • Если характеристики меры тенденции приблизительно равны между собой, а коэффициенты асимметрии и эксцесса приблизительно равны нулю, то можно признать распределение нормальным.
  • Для визуальной оценки нормальности распределения можно построить гистограмму с наложением кривой нормального распределения.
  • В качестве формального теста на нормальность можно использовать критерии КолмогороваСмирнова.

Проверка распределения на нормальность
  • Для проверки гипотезы о нормальности распределения применяют статистический тест Колмогорова-Смирнова или Шапиро-Уилка.
  • В тесте на нормальность проверяется гипотеза, что исследуемое распределение соответствует нормальному.
  • Для применения теста на нормальность необходимо в диалоговом окне Исследовать процедуры Разведочный анализ установить параметр Графики и критерии для проверки нормальности.
  • В результате выполнения теста на нормальность в окне Вывода будет получена таблица с расчетными значениями критерия Колмогорова-Смирнова и Шапиро-Уилка.
  • Если в таблице результатов теста на нормальность получена вероятность в столбце Значимость менее 0,05 (или другого выбранного уровня значимости), то проверяемое распределение значимо отличается от нормального.

Тест на нормальное распределение

Выявление статистической взаимосвязи

между количественными переменными
  • Одна из задач статистического анализа – изучение взаимосвязи между переменными.
  • Факторные признаки – переменные, которые обуславливают изменение других, связанных с ним переменных (результативных). Результативные признаки – переменные, значения которых формируются под воздействием факторных признаков.
  • Функциональная взаимосвязь – такая связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.
  • Статистическая взаимосвязь – зависимость, которая проявляется не в каждом отдельном случае, а в общем, в среднем, при большом числе наблюдений.
  • По направлению связи различают статистическую зависимость: прямую и обратную.
  • По тесноте связи различают статистическую зависимость: слабую, статистически незначимую; среднюю или умеренную; сильную. 8.
  • По форме выражения связи различают статистическую зависимость: линейную и нелинейную.
  • По количеству изучаемых переменных различают парные и множественные модели взаимосвязи.

Классификация видов взаимосвязи
  • При анализе взаимосвязи двух переменных можно построить диаграмму рассеяния (поле корреляции).
  • Диаграмма рассеяния – это простейший графический способ изучения взаимосвязи между количественными переменными.
  • Диаграмма рассеяния представляет каждую единицу совокупности в пространстве двух измерений, соответствующих двум переменным.
  • Обычно при построении диаграммы рассеяния придерживаются следующих правил: - по оси абсцисс (горизонтали) указывают значение факторной переменной; - по оси ординат (вертикали) указывают значение результативной переменной.
  • При отсутствии взаимосвязи между изучаемыми переменными точки на диаграмме рассеяния будут расположены случайным образом.
  • Чем сильнее взаимосвязь между изучаемыми переменными, тем ближе будут группироваться точки вокруг определенной линии, выражающей форму связи.
  • При построении диаграммы рассеяния следует обращать внимание на: - наличие выбросов (выбросы необходимо исключить из дальнейшего анализа).

Диаграмма рассеяния
  • Корреляционный анализ – метод определения тесноты и направления линейной взаимосвязи между двумя количественными переменными.
  • Теснота и направление связи выражается величиной парного коэффициента корреляции Пирсона.
  • Значение коэффициента корреляции безразмерная величина, принимающая значения от -1 до +1.
  • Чем ближе значение коэффициента корреляции по модулю к 1, тем сильнее взаимосвязь, и, наоборот, чем ближе значение к нулю – тем слабее взаимосвязь.
  • Знак коэффициента корреляции характеризует направление связи между изучаемыми признаками : Положительный знак говорит о прямой взаимосвязи между изучаемыми переменными, отрицательный знак – об обратной взаимосвязи.
  • Коэффициент корреляции можно вычислять только для количественных переменных.
  • При расчете коэффициента корреляции факторный и результативный признак должны иметь нормальное распределение.
  • В случае отсутствия нормального распределения можно применить нормализующее преобразование или рассчитать альтернативный коэффициент ранговой корреляции, рассмотренный ниже.
  • Значение коэффициента корреляции не изменится, если факторный и результативный признак поменять местами.

Коэффициент корреляции Пирсона
  • Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.
  • Ранг – это порядковый номер значений переменной, расположенных в порядке возрастания или убывания их величин.
  • Принцип ранжирования значений исследуемых переменных является основой непараметрическихметодов оценки тесноты связи.
  • Среди непараметрическихметодов оценки тесноты взаимосвязи наибольшее распространение получили ранговые коэффициенты корреляции Спирмена (ρ) и Кендалла (τ).
  • При вычислении ранговых коэффициентов корреляции Спирмена и Кендалла в формуле для коэффициентов корреляции используются преобразованные значения данных: вместо значений подставляются их ранги.
  • Непараметрические ранговые коэффициенты корреляции применяются, когда изучаемые признаки имеют разное распределение, в том числе отличное от нормального распределения.
  • Ранговые коэффициенты корреляции могут рассчитываться как между количественными переменными, так и между порядковыми переменными при условии, что их значения проранжированы по возрастанию или убыванию.

Ранговые коэффициенты корреляции


написать администратору сайта