Главная страница
Навигация по странице:

  • ПО ПРАКТИЧЕСКОЙ РАБОТЕ ТЕМА: ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ ПО ДИСЦИПЛИНЕ: «МОДЕЛИРОВАНИЕ ПРОЦЕССОВ И ОБЪЕКТОВ В МЕТАЛЛУРГИИ»

  • 3МТб-01-1зп-18

  • 22.03.02 Металлургия шифр, наименование Виноградов Евгений Дмитриевич

  • Болобанова Наталия Леонидовна

  • СТЬЮДРАСПОБР

  • Исходные данные. Вариант 3

  • ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ. Корреляция Виноградов Е.Д. Одномерная линейная регрессия и корреляция по дисциплине моделирование процессов и объектов в металлургии


    Скачать 69.63 Kb.
    НазваниеОдномерная линейная регрессия и корреляция по дисциплине моделирование процессов и объектов в металлургии
    АнкорОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
    Дата22.01.2023
    Размер69.63 Kb.
    Формат файлаdocx
    Имя файлаКорреляция Виноградов Е.Д.docx
    ТипОтчет
    #899428

    минобрнауки россии

    федеральное государственное бюджетное

    образовательное учреждение высшего образования

    «Череповецкий государственный университет»



    Институт

    Инженерно-технический

    Кафедра

    Металлургии, машиностроения и технологического оборудования


    ОТЧЕТ



    ПО ПРАКТИЧЕСКОЙ РАБОТЕ

    ТЕМА: ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

    ПО ДИСЦИПЛИНЕ: «МОДЕЛИРОВАНИЕ ПРОЦЕССОВ И ОБЪЕКТОВ В МЕТАЛЛУРГИИ»



    Выполнил студент группы 3МТб-01-1зп-18

    группа

    направления подготовки (специальности)

    22.03.02 Металлургия

    шифр, наименование

    Виноградов Евгений Дмитриевич

    фамилия, имя, отчество

    Преподаватель

    Болобанова Наталия Леонидовна

    фамилия, имя, отчество

    доцент

    должность

    Дата представления работы

    «__18____»_______05___________2022 г.



















    Оценка ______________, _______________

    количество баллов

    Подпись преподавателя_________________



    Череповец, 2022 г.
    Цель работы:

    Нахождение численных оценок коэффициентов линейного уравнения регрессии и вычисление коэффициента корреляции между переменными х и у = f (х).
    Любой технологический процесс может быть охарактеризован определенным числом факторов или входных параметров, которые в различной мере влияют на выходные параметры, т.е. на качественные или количественные характеристики продукта, получаемые в ходе реализации процесса.

    Целью моделирования любого технологического процесса является установление количественной зависимости выходного параметра какого-либо процесса от одного или группы входных факторов в условиях колеблемой значений входных и выходных параметров, обусловленной влиянием случайных и в большинстве своем не поддающихся учету факторов.

    Мера зависимости и взаимного влияния случайных величин оценивается связью, называемой корреляционной. Корреляция между парой переменных называется парной. Измеряет степень линейных связей между переменными коэффициент корреляции Пирсона r. Значение коэффициента корреляции r не зависит от масштаба измерения. Коэффициенты корреляции изменяются в пределах от -1,00 до +1,00. Значение -1,00 означает, что переменные имеют строгую отрицательную корреляцию (при возрастании значений одной из них значения другой убывают). Значение +1.00 означает, что переменные имеют строгую положительную корреляцию (когда значения одной переменной возрастают, значения другой переменной также возрастают). Значение 0,00 означает отсутствие корреляции.

    Если между независимой (входной) величиной x и зависимой (выходной) величиной y имеется или предполагается корреляционная связь, то ее можно оценить и исследовать с помощью методов регрессионного анализа.

    Рассмотрим линейную регрессию от одного параметра. Пусть для произвольного фиксированного значения x получено несколько значений у переменных в пределах областей их определений. При статистической обработке экспериментальных данных предполагается, что зависимость выхода у входных факторов x линейна и имеет вид:

    (1)


    В этом уравнении коэффициенты регрессии (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в зависимую переменную. Однако, их значения не сравнимы, поскольку зависят от единиц измерения и диапазонов измерения соответствующих переменных.

    Диаграмма рассеяния визуализирует зависимость между двумя переменными x и y. Данные изображаются точками в двумерном пространстве, где оси соответствуют переменным x – горизонтальной, а y – вертикальной оси. Проведенная прямая называется прямой регрессии или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси y) от наблюдаемых точек до прямой является минимальной из всех возможных:

    (2)




    Рисунок 1 – Корреляционное поле зависимости y = f (x)

    Если возвести в квадрат коэффициента корреляции R, то полученное значение R2 (коэффициент детерминации) выражает количество дисперсии, общей между двумя переменными (иными словами, представляет "степень" зависимости или связанности двух переменных). Величина R2, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1]. Значения коэффициента детерминации близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза. Например, значение R2, равное 0,6, говорит об относительно хорошей подгонке регрессионной прямой к исходным данным, хотя косвенно свидетельствует и о большом количестве неучтённых факторов.

    Чтобы оценить зависимость между переменными, нужно знать, как "величину" корреляции, так и ее значимость. Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции.

    Обычно в статистике используют уровень надежности или доверия равным 95 %, что означает, что событие вероятность которого составляет 1-0,95 = 0,05 исследователь считает маловероятным или невозможным. Уровень значимости обозначается греческой буквой α. Значимость проверяется по показателям t-статистики (критерий Стьюдента) и Fстатистики (критерий Фишера).

    F-статистикой проверяется гипотеза о том, что коэффициенты регрессии одновременно равны нулю b0 = 0 и b1 = 0. Иначе, ответить на вопрос: можно ли уравнение регрессии использовать для дальнейшего анализа и прогнозов? Фактическое значение критерия Фишера:

    (3)
    где m – число факторов в модели; n – число наблюдений. Табличное значение определяется по таблицам распределения Фишерадля заданного уровня значимости или через функцию Excel FРАСПОБР(вероятность;m;n-m-1). Если фактическое значение Fстатистики превосходит ее критическое табличное значение F > Fкр, то гипотеза о равенстве b0 = 0 и b1 = 0 отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент коэффициент значимо отличается от нуля.

    Проверка значимости отдельных коэффициентов уравнения регрессии производится с помощью критерия Стьюдента, определяемого как отношение найденного значения коэффициента к стандартной ошибке оценки коэффициента. Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости α = 0,05 и числа степеней свободы f = n-m-1. Для этого можно использовать таблицы математической статистики или встроенную статистическую функцию Excel СТЬЮДРАСПОБР(вероятность; n-m1). Если наблюдаемые значения t-статистики больше критического значения по модулю | tb0| или | tb1| > tкр, то коэффициенты значимы, в противном случае с вероятностью ошибки, равной 0,05 коэффициенты не значимы.

    Также значимость коэффициентов проверяют по «p-значению». Если «р-значение» меньше 0,05, то с вероятностью 95 % можно считать, что соответствующий коэффициент модели значим (т.е. его нельзя считать равным нулю и y значимо зависит от соответствующего х).

    Интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности 95 % показывают, что если нижние и верхние границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент регрессии считается значимым, в противном случае – незначимым

    При рассмотрении множественной регрессии, согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, после первичного анализа необходимо исключить из рассмотрения переменную, имеющую незначимый коэффициент регрессии. В случае, когда при оценке регрессии выявлено несколько незначимых коэффициентов, первым из уравнения регрессии исключается регрессор, для которого t-статистика минимальна по модулю.

    Значимость определенного коэффициента корреляции зависит от объема выборок. Критерий значимости основывается на предположении, что распределение остатков (т.е. отклонений наблюдений от регрессионной прямой) для зависимой переменной y является нормальным (с постоянной дисперсией для всех значений независимой переменной x).

    Так как при построении прямой регрессии используется сумма квадратоврасстояний наблюдаемых точек до прямой, то выбросы могут существенно повлиять на наклон прямой и, следовательно, на значение коэффициента корреляции. Поэтому единичный выброс (значение которого возводится в квадрат) способен существенно изменить наклон прямой и, следовательно, значение корреляции. Если размер выборки относительно мал, то добавление или исключение некоторых данных (которые, возможно, не являются "выбросами", а экстремальными значениями) способно оказать существенное влияние на прямую регрессии (и коэффициент корреляции). Выбросы могут не только искусственно увеличить значение коэффициента корреляции, но также реально уменьшить существующую корреляцию.

    Обычно считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. К сожалению, не существует общепринятого метода автоматического удаления выбросов. Чтобы не быть введенными в заблуждение полученными значениями, необходимо проверить на диаграмме рассеяния каждый важный случай значимой корреляции.
    Исходные данные.

    Вариант 3

    Из легированного чугуна с шаровидным графитом отлита партия п = 14 валов с диаметром бочки 400 – 600 мм. В качестве основного легирующего элемента для регулирования твердости рабочего слоя валов применяли никель. Результаты измерения твердости рабочего слоя (в единицах Шора) на глубине 5 мм от литой поверхности и содержание никеля в чугуне этих валов следующие:



    Ni,%

    3,68

    3,7

    3,44

    3,48

    2,16

    2,25

    3,34

    3,36

    2,95

    2,61

    3,6

    3,52

    3,94

    3,0

    HSh, ед.

    78

    77

    75

    79

    70

    69

    78

    79

    74

    68

    80

    73

    77

    67



    Необходимо оценить тесноту линейной корреляционной связи между содержанием никеля (X) и твердостью чугуна (Y); определить коэффициенты уравнения линейной регрессии, их погрешность и статистическую значимость; оценить качество аппроксимации экспериментальных данных полученным линейным уравнением регрессии по диаграмме рассеяния.

    На основании полученных данных в ходе замеров произведём регрессионный анализ

    Результаты регрессионной статистики представим в таблице 1

    Таблица 1

    Регрессионная статистика

     

    Множественный R

    0,768058439

    R-квадрат

    0,589913765

    Нормированный R-квадрат

    0,555739912

    Стандартная ошибка

    2,977528143

    Наблюдения

    14





    Результаты дисперсионного анализа представим в таблице 2

    Таблица 2

     

    df

    SS

    MS

    F

    Значимость F

    Регрессия

    1

    153,0404853

    153,0404853

    17,262138

    0,001335

    Остаток

    12

    106,3880861

    8,865673841

     

     

    Итого

    13

    259,4285714

     

     

     



    Результаты ошибки приведены в таблице 3

    Таблица 3

     

    Коэффициенты

    Стандартная ошибка

    t-статистика

    P-Значение

    Нижние 95%

    Верхние 95%

    Нижние 95,0%

    Верхние 95,0%

    Y-пересечение

    54,4293433

    4,912817322

    11,07904889

    1,17107E-07

    43,72523

    65,13345

    43,72523

    65,13345

    Переменная X 1

    6,262251694

    1,507242831

    4,154772918

    0,001335176

    2,978252

    9,546252

    2,978252

    9,546252


    На основании исходных данных построим диаграмму рассеяния.


    Проверка модели по коэффициентам R1 и R2 показывает, что переменные имеют строгую положительную корреляцию.

    Далее проверим значимость по критерию Фишера

    F=17,26; Fкр=4,75; Значит гипотезу о равенстве 0 коэффициентов b0 и b1 отвергаем, данная модель может быть использована для прогнозирования твёрдости по Шорру от процентного содержания Ni.

    Далее проверяем значимость отдельных параметров модели по значениям t-статистики. Для сравнения берём данные коэффициента tb0 = 11,08 и tb1 = 4,15. Рассчитаем tкр =2,18.

    Коэффициенты значимы.

    Уравнение регрессии:
    Далее в таблице 4 представим разницу между значениями измерений и результатами расчётов, а так же показатель абсолютной ошибки в процентном соотношении.

    Таблица 4

    Ni,%

    HSh, ед. измеренное

    HSh, ед. расчётное

    Ошибка, %

    3,68

    78

    77,474264

    0,674020513

    3,7

    77

    77,59951

    0,778584416

    3,44

    75

    75,971312

    1,295082667

    3,48

    79

    76,221804

    3,516703797

    2,16

    70

    67,955568

    2,920617143

    2,25

    69

    68,519175

    0,696847826

    3,34

    78

    75,345082

    3,403741026

    3,36

    79

    75,470328

    4,467939241

    2,95

    74

    72,902785

    1,482722973

    2,61

    68

    70,773603

    4,078827941

    3,6

    80

    76,97328

    3,7834

    3,52

    73

    76,472296

    4,756569863

    3,94

    77

    79,102462

    2,73047013

    3

    67

    73,2159

    9,277462687


    Среди 14 измерений найдём абсолютную среднюю ошибку, она составляет 3,13%

    Вывод:

    В ходе работы научились методу нахождения численных оценок коэффициентов линейного уравнения регрессии и вычисление коэффициента корреляции между переменными х и у = f (х).


    написать администратору сайта