ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ. Корреляция Виноградов Е.Д. Одномерная линейная регрессия и корреляция по дисциплине моделирование процессов и объектов в металлургии
Скачать 69.63 Kb.
|
ОТЧЕТПО ПРАКТИЧЕСКОЙ РАБОТЕ ТЕМА: ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ ПО ДИСЦИПЛИНЕ: «МОДЕЛИРОВАНИЕ ПРОЦЕССОВ И ОБЪЕКТОВ В МЕТАЛЛУРГИИ»
Череповец, 2022 г. Цель работы: Нахождение численных оценок коэффициентов линейного уравнения регрессии и вычисление коэффициента корреляции между переменными х и у = f (х). Любой технологический процесс может быть охарактеризован определенным числом факторов или входных параметров, которые в различной мере влияют на выходные параметры, т.е. на качественные или количественные характеристики продукта, получаемые в ходе реализации процесса. Целью моделирования любого технологического процесса является установление количественной зависимости выходного параметра какого-либо процесса от одного или группы входных факторов в условиях колеблемой значений входных и выходных параметров, обусловленной влиянием случайных и в большинстве своем не поддающихся учету факторов. Мера зависимости и взаимного влияния случайных величин оценивается связью, называемой корреляционной. Корреляция между парой переменных называется парной. Измеряет степень линейных связей между переменными коэффициент корреляции Пирсона r. Значение коэффициента корреляции r не зависит от масштаба измерения. Коэффициенты корреляции изменяются в пределах от -1,00 до +1,00. Значение -1,00 означает, что переменные имеют строгую отрицательную корреляцию (при возрастании значений одной из них значения другой убывают). Значение +1.00 означает, что переменные имеют строгую положительную корреляцию (когда значения одной переменной возрастают, значения другой переменной также возрастают). Значение 0,00 означает отсутствие корреляции. Если между независимой (входной) величиной x и зависимой (выходной) величиной y имеется или предполагается корреляционная связь, то ее можно оценить и исследовать с помощью методов регрессионного анализа. Рассмотрим линейную регрессию от одного параметра. Пусть для произвольного фиксированного значения x получено несколько значений у переменных в пределах областей их определений. При статистической обработке экспериментальных данных предполагается, что зависимость выхода у входных факторов x линейна и имеет вид: (1)В этом уравнении коэффициенты регрессии (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в зависимую переменную. Однако, их значения не сравнимы, поскольку зависят от единиц измерения и диапазонов измерения соответствующих переменных. Диаграмма рассеяния визуализирует зависимость между двумя переменными x и y. Данные изображаются точками в двумерном пространстве, где оси соответствуют переменным x – горизонтальной, а y – вертикальной оси. Проведенная прямая называется прямой регрессии или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси y) от наблюдаемых точек до прямой является минимальной из всех возможных: (2) Рисунок 1 – Корреляционное поле зависимости y = f (x) Если возвести в квадрат коэффициента корреляции R, то полученное значение R2 (коэффициент детерминации) выражает количество дисперсии, общей между двумя переменными (иными словами, представляет "степень" зависимости или связанности двух переменных). Величина R2, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1]. Значения коэффициента детерминации близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза. Например, значение R2, равное 0,6, говорит об относительно хорошей подгонке регрессионной прямой к исходным данным, хотя косвенно свидетельствует и о большом количестве неучтённых факторов. Чтобы оценить зависимость между переменными, нужно знать, как "величину" корреляции, так и ее значимость. Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции. Обычно в статистике используют уровень надежности или доверия равным 95 %, что означает, что событие вероятность которого составляет 1-0,95 = 0,05 исследователь считает маловероятным или невозможным. Уровень значимости обозначается греческой буквой α. Значимость проверяется по показателям t-статистики (критерий Стьюдента) и Fстатистики (критерий Фишера). F-статистикой проверяется гипотеза о том, что коэффициенты регрессии одновременно равны нулю b0 = 0 и b1 = 0. Иначе, ответить на вопрос: можно ли уравнение регрессии использовать для дальнейшего анализа и прогнозов? Фактическое значение критерия Фишера: (3) где m – число факторов в модели; n – число наблюдений. Табличное значение определяется по таблицам распределения Фишерадля заданного уровня значимости или через функцию Excel FРАСПОБР(вероятность;m;n-m-1). Если фактическое значение Fстатистики превосходит ее критическое табличное значение F > Fкр, то гипотеза о равенстве b0 = 0 и b1 = 0 отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент коэффициент значимо отличается от нуля. Проверка значимости отдельных коэффициентов уравнения регрессии производится с помощью критерия Стьюдента, определяемого как отношение найденного значения коэффициента к стандартной ошибке оценки коэффициента. Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости α = 0,05 и числа степеней свободы f = n-m-1. Для этого можно использовать таблицы математической статистики или встроенную статистическую функцию Excel СТЬЮДРАСПОБР(вероятность; n-m1). Если наблюдаемые значения t-статистики больше критического значения по модулю | tb0| или | tb1| > tкр, то коэффициенты значимы, в противном случае с вероятностью ошибки, равной 0,05 коэффициенты не значимы. Также значимость коэффициентов проверяют по «p-значению». Если «р-значение» меньше 0,05, то с вероятностью 95 % можно считать, что соответствующий коэффициент модели значим (т.е. его нельзя считать равным нулю и y значимо зависит от соответствующего х). Интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности 95 % показывают, что если нижние и верхние границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент регрессии считается значимым, в противном случае – незначимым При рассмотрении множественной регрессии, согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, после первичного анализа необходимо исключить из рассмотрения переменную, имеющую незначимый коэффициент регрессии. В случае, когда при оценке регрессии выявлено несколько незначимых коэффициентов, первым из уравнения регрессии исключается регрессор, для которого t-статистика минимальна по модулю. Значимость определенного коэффициента корреляции зависит от объема выборок. Критерий значимости основывается на предположении, что распределение остатков (т.е. отклонений наблюдений от регрессионной прямой) для зависимой переменной y является нормальным (с постоянной дисперсией для всех значений независимой переменной x). Так как при построении прямой регрессии используется сумма квадратоврасстояний наблюдаемых точек до прямой, то выбросы могут существенно повлиять на наклон прямой и, следовательно, на значение коэффициента корреляции. Поэтому единичный выброс (значение которого возводится в квадрат) способен существенно изменить наклон прямой и, следовательно, значение корреляции. Если размер выборки относительно мал, то добавление или исключение некоторых данных (которые, возможно, не являются "выбросами", а экстремальными значениями) способно оказать существенное влияние на прямую регрессии (и коэффициент корреляции). Выбросы могут не только искусственно увеличить значение коэффициента корреляции, но также реально уменьшить существующую корреляцию. Обычно считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. К сожалению, не существует общепринятого метода автоматического удаления выбросов. Чтобы не быть введенными в заблуждение полученными значениями, необходимо проверить на диаграмме рассеяния каждый важный случай значимой корреляции. Исходные данные. Вариант 3 Из легированного чугуна с шаровидным графитом отлита партия п = 14 валов с диаметром бочки 400 – 600 мм. В качестве основного легирующего элемента для регулирования твердости рабочего слоя валов применяли никель. Результаты измерения твердости рабочего слоя (в единицах Шора) на глубине 5 мм от литой поверхности и содержание никеля в чугуне этих валов следующие:
Необходимо оценить тесноту линейной корреляционной связи между содержанием никеля (X) и твердостью чугуна (Y); определить коэффициенты уравнения линейной регрессии, их погрешность и статистическую значимость; оценить качество аппроксимации экспериментальных данных полученным линейным уравнением регрессии по диаграмме рассеяния. На основании полученных данных в ходе замеров произведём регрессионный анализ Результаты регрессионной статистики представим в таблице 1 Таблица 1
Результаты дисперсионного анализа представим в таблице 2 Таблица 2
Результаты ошибки приведены в таблице 3 Таблица 3
На основании исходных данных построим диаграмму рассеяния. Проверка модели по коэффициентам R1 и R2 показывает, что переменные имеют строгую положительную корреляцию. Далее проверим значимость по критерию Фишера F=17,26; Fкр=4,75; Значит гипотезу о равенстве 0 коэффициентов b0 и b1 отвергаем, данная модель может быть использована для прогнозирования твёрдости по Шорру от процентного содержания Ni. Далее проверяем значимость отдельных параметров модели по значениям t-статистики. Для сравнения берём данные коэффициента tb0 = 11,08 и tb1 = 4,15. Рассчитаем tкр =2,18. Коэффициенты значимы. Уравнение регрессии: Далее в таблице 4 представим разницу между значениями измерений и результатами расчётов, а так же показатель абсолютной ошибки в процентном соотношении. Таблица 4
Среди 14 измерений найдём абсолютную среднюю ошибку, она составляет 3,13% Вывод: В ходе работы научились методу нахождения численных оценок коэффициентов линейного уравнения регрессии и вычисление коэффициента корреляции между переменными х и у = f (х). |