Анализ коряллиционного поля.. Лаба №3. Лабораторная работа 2 Проверила Мишура Людмила Геннадьевна Дата Оценка
Скачать 208.54 Kb.
|
Министерство науки и высшего образования Российской Федерации Федеральное государственное автономное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ ИТМО» Выполнили: Студент группы U312121 Камышева Е.В. Лабораторная работа №2 Проверила: Мишура Людмила Геннадьевна Дата: Оценка: Специальность: 38.03.05 Бизнес-информатика 09.02.03 Программирование в компьютерных системах Санкт-Петербург 2022 Исходные данные: Данные о величинах суммарных активов и чистого дохода банков Японии в млн. долл. США.
Таблица 1. Исходные данные. Выявление связи между признаками: В данном случае суммарные активы это факторный признак, а чистый доход – результативный. 1.Построение точечной диаграммы корреляционного поля. Построим точечную диаграмму корреляционного поля, исходя из табличных значений, где принимаем суммарные активы за результативный признак, а доход за факторный признак. (Рисунок 1). Рисунок 1. Точечная диаграмма корреляционного поля. В расположении точек на диаграмме наблюдается определенная зависимость: точки на графике расположены примерно на линии вида . Визуально можно сказать, что между признаками существует связь, они не хаотично разбросаны по корреляционному полю. 2. Проверка по результативному признаку на однородность и нормальность. Используем результаты аналитической группировки для проверки единиц наблюдения по результативному признаку на однородность и нормальность. Рассчитываем среднюю арифметическую проcтую . Рассчитываем дисперсию уровней динамического ряда и среднее квадратическое отклонение уровней по двум формулам: Теперь рассчитаем коэффициент вариации для факторного признака по формуле: 31.4%< следовательно, ряд считается однородным, колеблемость признака не высокая. Оценим нормальность совокупности. Для этого проверим выполнение правила «трех сигм» для факторного признака:
Таблица 2. Нормальность распределения. В распределении есть незначительные отклонения от нормального. Аномальных значений в первичной информации нет. 3. Описание связи в табличной форме. Представим выявленную связь в табличном виде. Для этого проранжируем совокупность по факторному признаку(суммарные активы). (Таблица 3).
Таблица 3. Проранжированная таблица по факторному признаку. 4. Описание связи в графической форме. Далее нам следует представить связь в графическом виде. Построим линию эмпирической регрессии, где абсцисса – факторный признак, а ордината – результативный. Полученный рафик, можно увидеть на рисунке 2. Рисунок 2. Линия эмпирической регрессии. Таким образом, мы получили ломанную линию, отражающую основную тенденцию рассматриваемой зависимости. 5. Описание связи в аналитической форме. Далее нам необходимо представить связь в аналитическом виде. Для этого нам нужно построить несколько различных корреляционных моделей, используя разные математические функции. Подбор функции осуществляется на основе анализа эмпирической линии регрессии. Проанализировав ее, мы можем предположить, что справедливо построить линейную и параболическую функцию. Параметры модели рассчитываются с использованием метода наименьших квадратов: . Для начала рассчитаем линейный коэффициент корреляции, что бы установить наличие связи между факторными и результативными признаками: . Оценка производится по шкале Чеддока: По ней можно сделать вывод, что тесноту связи между суммарными активами и чистым заработком, можно считать сильной. 5.1 Линейная зависимость. Поэтому первую математическую модель для построения уравнения парной регрессии выберем линейную. Она имеет вид : полинома первой степени: . Для нахождения численных значений параметров a и b мы воспользуемся методом наименьших квадратов, используя систему нормальных уравнений: , отсюда получаем, что a = -3.6788 и b = 0.02011. Уравнение имеет вид: . Интерпретируем модель. Коэффициент b – коэффициент регрессии. Он положительный, значит кривая графика функции стремится вверх, то есть при увеличении факторного признака увеличивается результативный признак. Далее нам необходимо оценить существенность корреляционной связи, получившейся линейной модели. Мы можем это сделать с помощью t-критерия Стьюдента: . Критическое значение t-критерия Стьюдента , при уровне значимости α=0.05 и числе степеней свободы вариации V=10-2=8. , следовательно связь между результативным и факторным признаками признается достоверной, а построенная модель - надежной. Далее нам необходимо посчитать остаточную дисперсию по формуле . Оценим тесноту связи по теоретическим данным. Для линейной модели рассчитаем по формуле: . Результаты вычисления можно увидеть в таблице 4, а изображение зависимости на рисунке 3. Т аблица 4. Линейная зависимость. Рисунок 3. Линейная зависимость. По полученным теоретическим данным связь между активами и объемами продаж предприятий получилась функциональная. 5.2 Полином третьей степени. Построим вторую математическую функцию для уравнения парной регрессии. Теперь это будет функция - полином третьей степени: . Система нормальных уравнений для нахождения параметров имеет вид: Получились такие коэффициенты: a=2.49953*10^(-6); b= -0.0030; c= 1.2281; d= -160.5081. Таким образом полученное уравнение: 81. Расчеты для полинома можно увидеть в таблице 5. Таблица 5. Расчеты для полинома третьей степени. Далее мы рассчитали остаточную дисперсию, по соответствующей формуле: . Все расчеты можно найти в таблице 6, получившуюся функцию на рисунке 4.
Таблица 6. Расчеты для полинома третьей степени. Рисунок 4. Кубическая зависимость. Давайте проверим существенность связи через F-критерий. Для начала нам надо найти фактическое значение F-критерия, мы делаем это по формуле: , где теоретический коэффициент детерминации, определяется по формуле: . . Далее нам необходимо найти критическое значение критерия Фишера. Оно равно 4.76, при α=0,05 и числе степеней свободы V1=3, V2=10-4=6. , следовательно связь можно считать надежной и достоверной. Оценим тесноту связи для теоретических данных, с помощью множественного коэффициента корреляции – R, , по шкале Чеддока связь считается значимой. 6. Сравним полученные модели.
Анализируя полученную таблицу отдаем предпочтению, графику модели полиному третьей степени. 7. Вывод. В ходе работы мы построили и проанализировали корреляционное поле, определили, что между признаками существует связь, так как точки с координатами признаков не хаотично разбросаны по корреляционному полю. Рассчитав коэффициент вариации для факторного признака, убедились, что наша совокупность является однородной. Затем оценили нормальность совокупности проверив выполнение правила «трех сигм» для факторного признака. Удалось заметить, что в совокупности отсутствуют аномальные значения, распределение значений не отклоняется от нормы. Далее представили выявленную связь в табличном виде (для этого упорядочили совокупность по факторному признаку (суммарные активы)) и графическом виде (построили линию эмпирической регрессии, где абсцисса – факторный признак, ордината – результативный.). Результат графического представления - ломанная линия, отражающая основную тенденцию рассматриваемой зависимости. Мы рассчитали линейный коэффициент корреляции (он получился положительным, значит связь прямая – при увеличении зарплат в регионах увеличивается и прожиточный минимум, и наоборот, при этом в линейной модели эта зависимость высокая), оценили его по шкале Чеддока и сделали вывод, что теснота связи высокая. (0,94 ∈[0,91;0,99]). Затем построили линейную математическую модель для уравнения парной регрессии и оценили существенность парной корреляционной связи, получившейся линейной модели с помощью критерия Стьюдента.( trXY>t(α,V), следовательно модель признается значимой). Построили вторую математическую модель для построения уравнения парной регрессии (полином третьей степени) и воспользовались критерием Фишера для определения ее надёжности. (Fфакт>Fкр), следовательно корреляционная модель признается надежной). Мы отдали предпочтение кубической модели, потому что у данной модели все показатели выше, чем у линейной, кроме тесноты связи, но различие незначительное. |