9_факторный анализ. 9 факторный анализ

Название	9 факторный анализ
Анкор	9_факторный анализ.doc
Дата	12.02.2018
Размер	0.79 Mb.
Формат файла
Имя файла	9_факторный анализ.doc
Тип	Документы #15473
страница	4 из 10

1 2 3 4 5 6 7 8 9 10

Метод главных компонент (МГК): основные формулы и процедуры

Исходной для анализа является матрица данных

размерности

, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям

. Исходные данные нормируются , для чего вычисляются средние значения показателей

, а также значения стандартных отклонений

. Тогда матрица нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

На главной диагонали матрицы расположены единичные элементы

.

Модель компонентного анализа строится путем представления исходных нормированных данных в виде линейной комбинации главных компонент:

где

— «вес», т.е. факторная нагрузка

-й главной компоненты на

-ю переменную;

— значение

-й главной компоненты для

-го наблюдения (объекта), где

.

В матричной форме модель имеет вид

здесь

- матрица главных компонент размерности

- матрица факторных нагрузок той же размерности.

Матрица

описывает

наблюдений в пространстве

главных компонент. При этом элементы матрицы

нормированы, a главные компоненты не коррелированы между собой. Из этого следует, что

, где

– единичная матрица размерности

.

Элемент

матрицы

характеризует тесноту линейной связи между исходной переменной

и главной компонентой

, следовательно, принимает значения

.

Корреляционная матрица

может быть выражена через матрицу факторных нагрузок

По главной диагонали корреляционной матрицы располагаются единицы и по аналогии с ковариационной матрицей они представляют собой дисперсии используемых

-признаков, но в отличие от последней, вследствие нормировки, эти дисперсии равны 1. Суммарная дисперсия всей системы

-признаков в выборочной совокупности объема

равна сумме этих единиц, т.е. равна следу корреляционной матрицы

.

Корреляционная матриц может быть преобразована в диагональную, то есть матрицу, все значения которой, кроме диагональных, равны нулю:

,

где

- диагональная матрица, на главной диагонали которой находятся собственные числа

корреляционной матрицы,

- матрица, столбцы которой – собственные вектора корреляционной матрицы

. Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения

для любых

.

Собственные значения

находятся как корни характеристического уравнения

Собственный вектор

, соответствующий собственному значению

корреляционной матрицы

, определяется как отличное от нуля решение уравнения

Нормированный собственный вектор

равен

Превращение в нуль недиагональных членов означает, что признаки становятся независимыми друг от друга (

при

).

Суммарная дисперсия всей системы

переменных в выборочной совокупности остается прежней. Однако её значения перераспределяется. Процедура нахождения значений этих дисперсий представляет собой нахождение собственных значений

корреляционной матрицы для каждого из

-признаков. Сумма этих собственных значений

равна следу корреляционной матрицы, т.е.

, то есть количеству переменных. Эти собственные значения и есть величины дисперсии признаков

в условиях, если бы признаки были бы независимыми друг от друга.

В методе главных компонент сначала по исходным данным рассчитывается корреляционная матрица. Затем производят её ортогональное преобразование и посредством этого находят факторные нагрузки

для всех

переменных и

факторов (матрицу факторных нагрузок), собственные значения

и определяют веса факторов.

Матрицу факторных нагрузок А можно определить как

, а

-й столбец матрицы А — как

.

Вес факторов

или

отражает долю в общей дисперсии, вносимую данным фактором.

Факторные нагрузки изменяются от –1 до +1 и являются аналогом коэффициентов корреляции. В матрице факторных нагрузок необходимо выделить значимые и незначимые нагрузки с помощью критерия Стьюдента

.

Сумма квадратов нагрузок

-го фактора во всех

-признаках равна собственному значению данного фактора

. Тогда

-вклад i-ой переменной в % в формировании j-го фактора.

Сумма квадратов всех факторных нагрузок по строке равна единице, полной дисперсии одной переменной, а всех факторов по всем переменным равна суммарной дисперсии (т.е. следу или порядку корреляционной матрицы, или сумме её собственных значений)

.

В общем виде факторная структура i–го признака представляется в форме

, в которую включаются лишь значимые нагрузки. Используя матрицу факторных нагрузок можно вычислить значения всех факторов для каждого наблюдения исходной выборочной совокупности по формуле:

,

где

– значение j-ого фактора у t-ого наблюдения,

-стандартизированное значение i–ого признака у t-ого наблюдения исходной выборки;

–факторная нагрузка,

–собственное значение, отвечающее фактору j. Эти вычисленные значения

широко используются для графического представления результатов факторного анализа.

По матрице факторных нагрузок может быть восстановлена корреляционная матрица:

.

Часть дисперсии переменной, объясняемая главными компонентами, называется общностью

,

где

- номер переменной, а

-номер главной компоненты. Восстановленные только по главным компонентам коэффициенты корреляции будут меньше исходных по абсолютной величине, а на диагонали будут не 1, а величины общностей.

Удельный вклад

-й главной компоненты определяется по формуле

.

Суммарный вклад учитываемых

главных компонент определяется из выражения

.

Обычно для анализа используют

первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для интерпретации главных компонент, при этом обычно рассматриваются те значения, которые превышают 0,5.

Значения главных компонент задаются матрицей

1 2 3 4 5 6 7 8 9 10