Исходной для анализа является матрица данных
![](15473_html_m1f5f3e4f.gif)
размерности , i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям . Исходные данные нормируются , для чего вычисляются средние значения показателей , а также значения стандартных отклонений . Тогда матрица нормированных значений
![](15473_html_7bc02863.gif)
с элементами ![](15473_html_m366eae0d.gif)
Рассчитывается матрица парных коэффициентов корреляции:
![](15473_html_4be9292c.gif)
На главной диагонали матрицы расположены единичные элементы .
Модель компонентного анализа строится путем представления исходных нормированных данных в виде линейной комбинации главных компонент:
![](15473_html_fba3428.gif)
где — «вес», т.е. факторная нагрузка -й главной компоненты на -ю переменную;
— значение -й главной компоненты для -го наблюдения (объекта), где .
В матричной форме модель имеет вид
![](15473_html_m65b8fd93.gif) здесь - матрица главных компонент размерности ,
- матрица факторных нагрузок той же размерности.
Матрица описывает наблюдений в пространстве главных компонент. При этом элементы матрицы нормированы, a главные компоненты не коррелированы между собой. Из этого следует, что , где – единичная матрица размерности .
Элемент матрицы характеризует тесноту линейной связи между исходной переменной и главной компонентой , следовательно, принимает значения .
Корреляционная матрица может быть выражена через матрицу факторных нагрузок .
![](15473_html_m1cdaf8b5.gif)
По главной диагонали корреляционной матрицы располагаются единицы и по аналогии с ковариационной матрицей они представляют собой дисперсии используемых -признаков, но в отличие от последней, вследствие нормировки, эти дисперсии равны 1. Суммарная дисперсия всей системы -признаков в выборочной совокупности объема равна сумме этих единиц, т.е. равна следу корреляционной матрицы .
Корреляционная матриц может быть преобразована в диагональную, то есть матрицу, все значения которой, кроме диагональных, равны нулю:
,
где - диагональная матрица, на главной диагонали которой находятся собственные числа корреляционной матрицы, - матрица, столбцы которой – собственные вектора корреляционной матрицы . Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения для любых .
Собственные значения находятся как корни характеристического уравнения
![](15473_html_m5978afef.gif)
Собственный вектор , соответствующий собственному значению корреляционной матрицы , определяется как отличное от нуля решение уравнения
![](15473_html_m4350e90c.gif)
Нормированный собственный вектор равен
![](15473_html_7546118c.gif) Превращение в нуль недиагональных членов означает, что признаки становятся независимыми друг от друга ( при ).
Суммарная дисперсия всей системы переменных в выборочной совокупности остается прежней. Однако её значения перераспределяется. Процедура нахождения значений этих дисперсий представляет собой нахождение собственных значений корреляционной матрицы для каждого из -признаков. Сумма этих собственных значений равна следу корреляционной матрицы, т.е. , то есть количеству переменных. Эти собственные значения и есть величины дисперсии признаков в условиях, если бы признаки были бы независимыми друг от друга.
В методе главных компонент сначала по исходным данным рассчитывается корреляционная матрица. Затем производят её ортогональное преобразование и посредством этого находят факторные нагрузки для всех переменных и факторов (матрицу факторных нагрузок), собственные значения и определяют веса факторов.
Матрицу факторных нагрузок А можно определить как , а -й столбец матрицы А — как .
Вес факторов или отражает долю в общей дисперсии, вносимую данным фактором.
Факторные нагрузки изменяются от –1 до +1 и являются аналогом коэффициентов корреляции. В матрице факторных нагрузок необходимо выделить значимые и незначимые нагрузки с помощью критерия Стьюдента .
Сумма квадратов нагрузок -го фактора во всех -признаках равна собственному значению данного фактора . Тогда -вклад i-ой переменной в % в формировании j-го фактора.
Сумма квадратов всех факторных нагрузок по строке равна единице, полной дисперсии одной переменной, а всех факторов по всем переменным равна суммарной дисперсии (т.е. следу или порядку корреляционной матрицы, или сумме её собственных значений) .
В общем виде факторная структура i–го признака представляется в форме , в которую включаются лишь значимые нагрузки. Используя матрицу факторных нагрузок можно вычислить значения всех факторов для каждого наблюдения исходной выборочной совокупности по формуле:
,
где – значение j-ого фактора у t-ого наблюдения, -стандартизированное значение i–ого признака у t-ого наблюдения исходной выборки; –факторная нагрузка, –собственное значение, отвечающее фактору j. Эти вычисленные значения широко используются для графического представления результатов факторного анализа.
По матрице факторных нагрузок может быть восстановлена корреляционная матрица: .
Часть дисперсии переменной, объясняемая главными компонентами, называется общностью
,
где - номер переменной, а -номер главной компоненты. Восстановленные только по главным компонентам коэффициенты корреляции будут меньше исходных по абсолютной величине, а на диагонали будут не 1, а величины общностей.
Удельный вклад -й главной компоненты определяется по формуле
.
Суммарный вклад учитываемых главных компонент определяется из выражения
.
Обычно для анализа используют первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.
Матрица факторных нагрузок А используется для интерпретации главных компонент, при этом обычно рассматриваются те значения, которые превышают 0,5.
Значения главных компонент задаются матрицей
![](15473_html_9d6daf7.gif)
|