Главная страница

Признак, измеренный по дихотомической шкале, называется … признаком. Тема Анализ и представление


Скачать 4.5 Mb.
НазваниеТема Анализ и представление
АнкорПризнак, измеренный по дихотомической шкале, называется … признаком
Дата12.05.2023
Размер4.5 Mb.
Формат файлаpdf
Имя файлаilovepdf_merged (2).pdf
ТипПрезентация
#1125690
страница3 из 7
1   2   3   4   5   6   7
Тема 5. Общие принципы
проверки статистических гипотез.
Качественные методы
исследования, критерии
значимости различий
Глоссарий
Контент-анализ (от англ. сontents – содержание) – метод качественно- количественного анализа содержания текста, заключающийся в систематической фиксации и квантификации (подсчете) определенных единиц содержания исследуемого текста для выявления или измерения различных фактов и тенденций, отраженных в нем.
Критерий значимости различий – критерий, который используется для выявление значимых различий в уровне того или иного признака при сравнении нескольких (двух и более) групп испытуемых.
Непараметрические критерии – критерии, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.
Параметрические критерии – критерии, которые основаны на предположении, что распределение признака в совокупности подчиняется некоторому известному закону.

Качественные и количественные
методы анализа психологических
данных
Тема 4. Многомерные
количественные методы обработки
данных и статистические гипотезы
Глоссарий
Гипотезапредположение или догадка, утверждение, которое, в отличие от аксиом, постулатов, требует доказательство. Гипотеза считается научной, если она, в соответствии с научным методом, объясняет факты, охватываемые этой гипотезой.
Достоверность различий – аналитико-статистическая процедура установления уровня значимости различий или сходств между выборками по изучаемым показателям (переменным).
Многомерные методы – предоставляют вычислительные и графические средства для исследования сходства, близости, группировки данных. Данные могут быть представлены в виде множества переменных, значения которых характеризуют некоторое число систем, объектов, или субъектов, или один объект, или субъект в разные моменты времени.
Статистическая гипотеза – научная гипотеза, допускающая статистическую проверку.

Тема 4. Многомерные количественные методы
обработки данных и статистические гипотезы
Качественные и
количественные методы
анализа психологических
данных
Цели изучения темы:
 изучить многомерные количественные методы обработки данных.
Задачи темы:
 научиться проверять статистические гипотезы;
 понять уровень статистической значимости;
 узнать виды корреляционных связей;
 изучить регрессионный анализ.
В результате изучения данной темы вы будете:
Знать:
 что такое уровень статистической значимости и о чем он свидетельствует.
Уметь:
 формулировать гипотезы исследования.
Владеть:
 навыками расчета нужного коэффициент корреляции, соответствующего распределению признака.
Учебные вопросы темы:
Вопрос 1. Статистические гипотезы. Понятие уровня статистической значимости.
Вопрос 2. Понятие и виды корреляционной связи.
Вопрос 3. Коэффициент линейной корреляции Пирсона. Ранговый коэффициент корреляции Спирмена. Случай одинаковых рангов.

Вопрос 4. Регрессионный анализ. Множественный регрессионный анализ. Назначение и классификация многомерных методов.
Вопрос 1. Статистические гипотезы. Понятие уровня
статистической значимости
Нулевая и альтернативная гипотезы
Одна из основных задач, стоящих перед психологом, проводящим эмпирическое исследование, – это выяснение того, какие выводы о свойствах генеральной совокупности можно сделать по выборочному наблюдению. Оценка параметров генеральной совокупности, сделанная на основании выборочных данных, неизбежно сопровождается погрешностью и поэтому рассматривается как предположительное, а не как окончательное утверждение.
Подобные предположения о свойствах и параметрах генеральной совокупности называются статистическими гипотезами.
Статистическая гипотеза – научная гипотеза, допускающая статистическую проверку.
Пример: исследование тревожности у мальчиков и девочек пятого класса.
Можно ли утверждать, что девочки являются более тревожными, чем мальчики? Или наоборот?
Статистическая гипотеза состоит из двух частей.
Нулевая гипотеза обозначается как H0, это гипотеза о сходстве, об отсутствии значимых различий между исследуемыми признаками.
Исходит из предположения о том, что Х1-Х2=0, где Х1 и Х2 – сопоставляемые значения признаков.
Альтернативная гипотеза обозначается как H1, это гипотеза о наличии различий. Исходит из предположения о том, что Х1-Х2≠0, где Х1 и Х2 – сопоставляемые значения признаков. Это то, что хочет доказать исследователь, поэтому такая гипотеза ещё носит название экспериментальной.
Проверка статистической гипотезы
Важнейший принцип, лежащий в основе всех проверок статистических гипотез: при проверке любой Н исследователь никогда не принимает решение с полной уверенностью. Он всегда допускает риск принятия неправильного решения, неопределенность в принятии решения возникает из-за колебаний в выборке, обычно называемой ошибкой выборки.
Понятие уровня статистической значимости
Уровень значимость (р) – это вероятность ошибочного отклонения нулевой гипотезы при принятии решения о существовании различий, вероятность того, что результаты не представляют популяцию. Зоны и уровни значимости представлены далее на рисунке.

В психологии принято считать низшим уровнем значимости 5%- й уровень, достаточным 1%-й уровень и высшим 0,1%-й уровень статистической значимости.
Далее рисунок иллюстрирует принятие Н
о части гипотезы:
Теперь рисунок иллюстрирует принятие Н
1
части гипотезы:
Еще бывают случаи, когда полученное значение относится к зоне:

Как мы узнаем статистически значимый полученный результат или нет?
Таблицы критических значений того, что мы рассчитывали
(например, ранговый коэффициент корреляции Спирмена) можно найти в справочнике по статистике или интернете, также в конце учебников по математической статистике представлены данные таблицы. Отыщите строку, в которой содержится нужное вам n – количество наблюдений в вашей выборке, и определите соответствующие значения при 5% и 1% ошибке. Сравните с полученным значением, и вы увидите на графике, куда будет относиться число: к зоне значимости, зоне неопределённости или зоне незначимости.
Возможные ошибки
Выделяют ошибки первого и второго рода, которые возникают в ходе исследования.
Ошибкой первого рода называют ошибку, которая возникает, когда исследователь считает, что обнаружил реальные результаты, а их на самом деле нет.
Ошибкой второго рода называют ошибку, которая возникает, когда исследователь считает, что не обнаружил результата, а на самом деле он есть.
На основе опыта практических исследований рекомендуется: чтобы избежать ошибок 1 и 2 рода при ответственных выводах, следует принимать решение о наличии различий (связи), ориентируясь на уровень р ≤ 0,01 или на вычисленный статистический критерий для меньшего числа n признака
Вопрос 2. Понятие и виды корреляционной связи
Понятие корреляционной связи.
Довольно часто встречающейся задачей психологического исследования является выявление взаимосвязей между двумя и более наборами данных. Одна из простейших форм выявления такой связи называется корреляция.
s
r

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции, он дает возможность точной количественной оценки степени согласованности изменений (варьирования) двух и более признаков.
Коэффициент корреляции – это мера прямой или обратной пропорциональности между двумя переменными.
«Корреляция» – в прямом переводе «соотношение». Термин введён в науку Ф. Гальтоном (1886 г.), точную формулу для расчёта коэффициента корреляции разработал К. Пирсон.
Если изменение одной переменной сопровождается изменениями другой, то можно говорить о соотношении этих переменных.
Два термина «корреляционная связь» и «корреляционная зависимость» часто используются как синонимы, между тем слово
«зависимость» неприемлемо, т. к. корреляционная связь двух признаков может обуславливаться их зависимостью от какого-то постороннего признака, а вовсе не зависимостью друг от друга.
Корреляционная связь подразумевает любые согласованные изменения, которые могут объясняться сотнями причин.
Пример: успешность обучения и уровень абстрактного мышления коррелируют между собой, но нельзя утверждать, что на обучаемость влияет лишь фактор абстрактного мышления, так как неучтенными остаются память, мотивация и др.
Корреляция прямо не указывает на причинно-следственную связь, но она может служить ключом к разгадке причин. Если существует возможность учесть влияние переменных, то на основе корреляционной связи можно формулировать гипотезы, проверяемые экспериментально.
Реальные причины корреляции и возможные гипотезы. Давайте рассмотрим реальный пример.
На базе МГУ в начале 2000-х среди студентов было проведено исследование, в результате которого была обнаружена корреляция между величиной носа и предпринимательскими способностями
(умением зарабатывать деньги). Можем выдвинуть гипотезу: что национальность связана со способностью к зарабатыванию денег. …
Но почему так происходит? Откуда взялась связь между этими явлениями?
Определение причины корреляции – это очень сложная задача.
Переплетаются тысячи различных факторов, часть из которых скрыта.
Или: мы выяснили, что существует отрицательная взаимосвязь между доходом персонала и его эффективностью в работе. Наша гипотеза: «Лентяи и бездельники получают больше, чем ответственные сотрудники». Тогда мы пересмотрим систему мотивации и избавимся от бесполезных людей.

Корреляционная зависимость – это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Корреляционные связи – это вероятностные изменения, которые не могут рассматриваться как причинно-следственные зависимости. Наличие корреляции между двумя результатами, в сущности, означает, что при изменении одного результата другой также изменяется.
Основные показатели корреляционной связи: сила,
направление и надежность (достоверность) связи.
Направление связи определяется по знаку корреляции: положительная – связь прямая; отрицательная – связь обратная.
Положительной корреляцией называется такая связь между переменными, когда значения обеих переменных возрастают или убывают пропорционально: с уменьшением (увеличением) одной уменьшается (увеличивается) другая. В случае отрицательной корреляции связь является обратно пропорциональной: возрастание одной переменной сопровождается убыванием другой.
Сила (теснота) связи определяется по абсолютной величине корреляции r (меняется от 0 до 1).
Надежность связи определяется p-уровнем статистической значимости (чем меньше p-уровень, тем выше статистическая значимость, достоверность связи).
Задача корреляционного анализа сводится к установлению направления связи между варьирующимися признаками, измерению её тесноты и проверке уровня значимости полученных коэффициентов корреляции.
Классификации корреляционных связей.
Первая классификация – общая.
Применима для коэффициента корреляции Пирсона.
Важно отметить, что эта классификация применима только при наличии нормального распределения признака. В остальных случаях нужно пользоваться таблицами (о которых мы говорили ранее):
Сильная (тесная) r> 0,7
Средняя 0,5 Умеренная 0,3 Слабая 0,2 Очень слабая r <0,19
Вторая система – частная, применима для большинства критериев значимости различий признака и для коэффициента ранговой корреляции Спирмена.
Зависит от количества наблюдений n
Высоко значимая p ≤ 0,001
Значимая p ≤ 0,01
Тенденция p ≤ 0,05

Чем больше объем выборки, тем меньше величины коэффициента корреляции достаточно, чтобы корреляционная связь была признана достоверной. В результате при малом объеме выборки может оказаться так, что сильная корреляция недостоверна. В то же время при большом объеме выборки даже слабая корреляция достоверна.
Вопрос 3. Коэффициент линейной корреляции Пирсона. Ранговый
коэффициент корреляции Спирмена. Случай одинаковых
рангов
Коэффициент линейной корреляции Пирсона
Карл Пирсон опубликовал основополагающие труды по математической статистике (более 400 работ по этой теме). Разработал теорию корреляции, критерии согласия, алгоритмы принятия решений и оценки параметров.
Пирсон первым ввёл в науку понятие корреляции как вероятностный аналог причинно-следственной связи, но он же первым предупредил, что корреляционная связь шире, чем причинно- следственная, и, вообще говоря, доказанная корреляция двух факторов не означает, что один из факторов является причиной другого
(например, они оба могут быть следствием третьего фактора).
Подобная путаница стала распространённой со второй половины XX века.
Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение сопоставляемых переменных.
В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
Условия применения:
а) расчёт предполагает, что переменные X и Y распределены нормально; б) число значений переменной X должно быть равно числу значений переменной Y; в) признак должен быть измерен в шкале интервалов или отношений; г) число значений N должно быть от 5 до 1000.
s
r

Где d – величина отклонения от среднего арифметического рассчитывается для каждого числа по формуле: dx = X - Mx и dy = Y -
My
Алгоритм вычисления вручную будет вот такой:
1. Вычислим суммы анализируемых значений X и Y
2. Найдем средние арифметические для X и Y
3. Рассчитаем для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx и dy =
Y - My
4. Возведем в квадрат каждое значение отклонения dx и dy
5. Рассчитаем для каждой пары анализируемых значений произведение отклонений dx x dy
6. Определим значения суммы квадратов отклонений Σ(dx2) и
Σ(dy2)
7. Найдем значение суммы произведений отклонений Σ (dx x dy)
8. Рассчитаем значение коэффициента корреляции Пирсона rxy по приведенной выше формуле
9. Сделаем статистический вывод
Получается большой объем работы, поэтому намного проще сделать все с помощью программы в Excel, план работы будет вот такой:
Сначала определите переменную (А1), с которой будет исследоваться взаимозависимость всех других (B1, B2… и т. д.), и рассчитайте коэффициенты корреляции по следующему алгоритму:
1. Выделите свободную ячейку внизу анализируемого столбца данных (B1). На панели инструментов щелкните значок fx (Вставка функции). В мастере функций выберите категорию «Статистические» и функцию «КОРРЕЛ» (расчёт коэффициента корреляции между двумя множествами данных).
2. В аргументе функции в поле «Массив 1» укажите диапазон значений столбца переменных, для которых производится расчёт
(переменная А1 – один из стилей поведения в конфликтной ситуации).
3. В аргументе функции в поле «Массив 2» укажите диапазон значений столбца переменных, к которому принадлежит данная ячейка
(переменная B1 – одна из личностных особенностей), и нажмите ОК.
4. Аналогичным образом вычислите значения коэффициента корреляции для всех остальных переменных (В2, В3 и т. д. остальные личностные особенности)
Ранговый коэффициент корреляции Спирмена
В статистике Спирмен разработал ранговую корреляции (1904), это непараметрическая версия коэффициента корреляции Пирсона и самая ранняя версия «факторного анализа». Его статистическая работа не была оценена его коллегой из Университетского колледжа (Карл
Пирсон) и между ними была долгая вражда. Хотя в свое время
Спирмен добился наибольшего признания за свою статистическую
s
r
работу, он считал эту работу подчиненной его поискам фундаментальных законов психологии.
По Спирмену (непараметрический коэффициент корреляции, т. к. в формуле расчета не используются параметры распределения).
Используется в том случае, когда необходимо проверить, согласованно ли изменяются разные признаки у одного и того же испытуемого и насколько совпадают индивидуальные показатели у двух испытуемых.
Условия применения:
а) распределение не имеет значения; б) число значений переменной X должно быть равно числу значений переменной Y; в) признак может быть измерен в любых количественных шкалах или в ранговой шкале; г) любое количество измерений
Формула расчета будет такая:
Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:
1.Сопоставить каждому из признаков их порядковый номер
(ранг) по возрастанию или убыванию.
2. Определить разности рангов каждой пары сопоставляемых значений (d).
3. Возвести в квадрат каждую разность и суммировать полученные результаты.
4.
Вычислить коэффициент корреляции рангов по вышеуказанной формуле.
Случай одинаковых рангов.
В случае, если несколько значений равны, им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили бы, если бы не были равны. Например, если двое испытуемых в группе показали самый высокий одинаковый результат, то им присваивается средний ранг: 1,5 = (1+2)/2, если трое – то средний ранг будет равен 2 = (1+2+3)/3 и т. д.
Вопрос 4. Регрессионный анализ. Множественный регрессионный
анализ. Назначение и классификация многомерных методов
Чтобы понять, что такое регрессия, давайте посмотрим примеры, где регрессия может применяться.
Примеры применения регрессионного анализа:

1. Моделирование числа поступивших в университет для лучшего понимания факторов, удерживающих детей в том же учебном заведении.
2. Моделирование потоков миграции в зависимости от таких факторов как средний уровень зарплат, наличие медицинских, школьных учреждений, географическое положение…
Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные, которые мы пытаемся смоделировать или понять, запуская инструмент регрессии, чтобы определить, какие величины являются эффективными предсказателями.
Затем пошаговое удаление и/или добавление переменных до тех пор, пока вы не найдете наилучшим образом подходящую регрессионную модель. Так как процесс создания модели часто исследовательский, он никогда не должен становиться простым "подгоном" данных. Процесс построения регрессионной модели должен учитывать теоретические аспекты, мнение экспертов в этой области и здравый смысл.
Множественный регрессионный анализ
Множественный регрессионный анализ – это метод установления зависимости одной переменной от двух или более независимых переменных.
Назначение метода:
1) изучение взаимосвязи одной переменной («зависимой», результирующей) от нескольких других («независимых», исходных);
2) выявление среди «независимых» переменных наиболее существенных, важных для предсказания «зависимой», а также тех, которыми можно пренебречь, исключить в дальнейшем их из анализа.
Обычно множественный регрессионный анализ применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между значениями метрической
«зависимой» переменной Y и несколькими «независимыми» переменными X.
Назначение и классификация многомерных методов
Основная идея факторного анализа сформулирована еще Ф.
Гальтоном.
Она сводится к тому, что если несколько признаков, измеренных в группе индивидов, изменяются согласованно, то можно предположить существование одной общей причины этой совместной изменчивости – фактора как скрытой, непосредственно не доступной измерению переменной.
Фактор – скрытая причина согласованной изменчивости наблюдаемой переменной, искусственный статистический показатель, возникающий в результате специальных преобразований
матрицы. Выделенный в результате факторизации фактор представляет собой совокупность тех переменных из числа включенных в анализ, которые имеют значимые нагрузки. Значимой считается та нагрузка переменной, которая выше 0,4 (по модулю).
Соответственно фактор образуют те переменные, которые имеют факторную нагрузку выше 0,4 (таблиц критических значений нет). Важен выбор количества факторов для процедуры, т. е. как определить, до какого числа сократить количество «переменных», чтобы не потерять информацию. Условие: данное количество факторов должно объяснять не менее 60% от общего разброса данных.
Факторный анализ – это процедура, с помощью которой большое число переменных сводят к меньшему количеству влияющих независимых величин, называемых факторами.
Главные цели факторного анализа – уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации, определение структуры взаимосвязей между переменными, т. е. классификация переменных.
Поэтому ФА используется как метод структурной классификации.
Если исходить из предположения о том, что корреляции могут быть объяснены влиянием скрытых причин – факторов, то основное назначение факторного анализа – анализ корреляций множества признаков. Итак, при исследовании многопараметрических объектов встает вопрос: нельзя ли отбросить часть параметров или заменить их меньшим числом каких-либо функций, сохраняя при этом всю исходную информацию. Но этот вопрос приобретает смысл только в рамках какой-либо определенной проблемы.
Главная идея ФА заключается в объединении переменных,
сильно коррелирующих между собой.
Интерпретация факторов – одна из основных задач факторного анализа.
Ее решение заключается в названии и интерпретации факторов через исходные переменные. По каждой переменной выделяется наибольшая по абсолютной величине нагрузка – как доминирующая.
По каждому фактору выписывают наименования переменных, которые имеют наибольшие нагрузки. Обязательно учитывается знак факторной нагрузки переменной. Если знак отрицательный, это отмечается как противоположный полюс переменной. Затем фактору присваивается наименование, которое обобщает включенные в него переменные.
Факторам дают названия, если сложно называть по положительному полюсу, то можно по отрицательному. В крайнем случае можно назвать по имени переменной, имеющей по сравнению с другими наибольшую нагрузку.
Основные задачи ФА:
1. Исследование структуры взаимосвязей переменных. В этом случае каждая группировка переменных будет определяться
фактором, по которому эти переменные имеют максимальные нагрузки.
2. Определение факторов как скрытых переменных – причин взаимосвязи исходных переменных.
3. Вычисление значений факторов для испытуемых как новых переменных.
При этом число факторов существенно меньше числа исходных переменных.
Условия применения ФА:
1. Нельзя факторизовать качественные данные, полученные по шкале наименований (например, такие как цвет волос).
2. Переменные должны быть независимы, а их распределение близко к нормальному.
3. Выборка должна быть достаточно большой, а число переменных желательно в 2 раза меньше числа испытуемых. Но главное: число переменных не должно превышать число испытуемых
(если число испытуемых 50, то число переменных не более 25).
Вопросы для самопроверки:
1. Чем отличается нулевая гипотеза от альтернативной?
2. Какие бывают уровни статистической значимости?
3. Разграничьте понятия
«корреляционная связь» и
«зависимость». Уточните, почему данные понятия нельзя употреблять как синонимы.
4. Назовите условия применения коэффициента линейной корреляции Пирсона.
5. Перечислите условия применения факторного анализа.

Качественные и количественные
методы анализа психологических
данных
1   2   3   4   5   6   7


написать администратору сайта