задание 1. Статистические методы сбора и обработки данных

Название	Статистические методы сбора и обработки данных
Дата	11.05.2021
Размер	381.38 Kb.
Формат файла
Имя файла	задание 1.docx
Тип	Задача #203745
страница	2 из 3

1 2 3

Тема 4. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ

Задача 4.1. Установите характер и форму связи между валовым национальным продуктом и экспортом РФ методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа. По полученной регрессионной модели постройте прогноз экспорта РФ на период упреждения 3 шага (года), прогнозные значения ВВП оцените по наиболее адекватной модели тренда.

Исходные данные и вспомогательная таблица для расчета параметров уравнения регрессии.

Год	Валовой внутренний продукт (ВВП),	Экспорт РФ, млрд. долл. (у)	Квадрат ВВП	Квадрат экспорта	Произведение ВВП и экспорта	Теоретическое значение экспорта РФ, млрд. долл.
Год	трлн. р. (х)	Экспорт РФ, млрд. долл. (у)	(х²)	(у²)	(ху)	Теоретическое значение экспорта РФ, млрд. долл.
2005	21,6	243,8	466,56	59438,44	5266,08	248,4
2006	26,9	303,6	723,61	92172,96	8166,84	297,71
2007	33,2	354,4	1102,24	125599,36	11766,08	344,99
2008	41,3	471,6	1705,69	222406,56	19477,08	394,04
2009	38,8	303,4	1505,44	92051,56	11771,92	380,01
2010	44,9	400,1	2016,01	160080,01	17964,49	412,82
2011	56	477,9	3136	228388,41	26762,4	462,46
2012	62,2	484,5	3868,84	234740,25	30135,9	486,05
2013	66,8	489,2	4462,24	239316,64	32678,56	502,08
Итого	391,7	3528,5	18986,63	1454194,2	163989,4	3528,5
Средняя	43,52222	392,055556	2109,62556	161577,13	18221,04	392,055556

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Значения факторного анализа располагаются в возрастающем порядке и отслеживается направление изменения величины результативного признака. Результативный признак обозначается через у (в данном случае экспорт), а факторный признак – через х (в данном случае ВВП).

В целом, можно сделать вывод, что при увеличении ВВП возрастает экспорт.

В тех случаях, когда возрастание величины факторного признака влечет за собой возрастание величины результативного признака, говорят о возможном наличии прямой корреляционной связи.

В графическом методе взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абцисс (ось х) откладываются значения факторного признака, а на оси ординат (ось у) – результативного. Каждое пересечение линий, проводимых через эти оси обозначают точкой. При отсутствии связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее точки будут группироваться вокруг определенной линии.

Эмпирическая линия связи по своему виду приближается к прямой линии, это говорит о наличии прямолинейной корреляционной связи между признаками.

Наличие большого числа различных значений результативного признака, соответствующих одному и тому же значению признака-фактора, затрудняет восприятие параллельных рядов. В таких случаях целесообразнее воспользоваться для установления факта наличия связи статистическими таблицами – корреляционными или групповыми.

Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. В первый столбец корреляционной таблицы заносим факторный признак.

Для результативного признака необходимо определить величину интервала h_y. Для этого воспользуемся формулой Стэрджесса:

Числа, расположенные на пересечении строк и столбцов таблицы, означают частоту повторения данного сочетания значения х и у.

Центральное значение интервала, у		268,7	318,6	368,3	418,1	467,9	ƒ_х
Группы по х↓	Группы по у→	243,8-293,6	293,7-343,4	343,4-393,2	393,2-443	443-492,8
Группы по х↓	Группы по у→	243,8-293,6	293,7-343,4	343,4-393,2	393,2-443	443-492,8
до 30		1	1				2
30-40			1	1			2
40-50					1	1	2
50-60						1	1
свыше 60						2	2
ƒ_у		1	2	1	1	4	9

ƒ_х – частота повторения данного варианта значения факторного признака во всей совокупности;

ƒ_у – частота повторения результативного признака во всей совокупности.

Частоты в корреляционной таблице расположены по диагонали из левого верхнего угла в правый нижний угол, таким образом наблюдаем прямую корреляционную зависимость между признаками.

При рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, когда все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство еще не означает, что корреляционная связь между признаками отсутствует.

Корреляционная таблица позволяет сжато, компактно изложить материал, поэтому все последующие расчеты можно вести по корреляционной таблице.

Получение регрессионной модели происходит в два этапа:

- подбор вида функции;

- вычисление параметров функции.

Чаще всего выбор производится среди следующих функций:

y = a₀+a₁t – линейная функция;

y = a ln(x) + b – логарифмическая функция;

y = a e^bx – экспоненциальная функция.
На графиках изображены 3 функции, построенные методом наименьших квадратов по данным, представленным в таблице.

Данные рисунки получены с помощью MS Excel. График регрессионной модели называется трендом.

На каждом графике изображена искомая функция, а также еще одна величина, полученная в результате построения тренда. Она обозначена как R². В статистике эта величина называется коэффикиентом детерминированности. Именно она определяет, насколько удачной является полученная регрессионная модель. Коэффициент детерминированности всега заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели предельно неудачен. Чем ближе R² к 1, тем удачнеерегрессионная модель.

Из трех выбранных моделей наименьшее значение у экспоненциальной, значит она самая неудачная. Наибольшее значение у логарифмической, значит она будет самой удачной.

После получения регрессионной математической модели можно прогнозировать процесс путем вычисления.

Существует два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной, то это называется восстановлением значения.

Прогнозирование за пределами экспериментальных данных называется экстраполяцией.

Для расчета используем метод линейной экстраполяции. Сущность метода заключается в том, что прогнозные величины определяются на основе среднего прироста (снижения) исследуемого показателя за определенный период времени.

Год	Валовой внутренний продукт (ВВП),	Прирост
Год	трлн. р. (х)	Прирост
2005	21,6	-
2006	26,9	5,3
2007	33,2	6,3
2008	41,3	8,1
2009	38,8	-2,5
2010	44,9	6,1
2011	56	11,1
2012	62,2	6,2
2013	66,8	4,6
Итого	391,7	45,2
Средняя	43,52222	5,65

Определив средний темп прироста, рассчитаем прогнозное значение ВВП
на 2014,2015,2016 гг.

Y₂₀₁₄=66,8+5,65=72,45

Y₂₀₁₅=72,45+5,65=78,1

Y₂₀₁₆=78,1+5,65=83,75

Определив прогнозный ВВП, можно определить прогноз экспорта
по логарифмическому уравнению:

y=224,69 ln(x) – 442

Y₂₀₁₄=224,69 ln72,45 – 442 = 520,32

Y₂₀₁₅=224,69 ln78,1 – 442 = 537,20

Y₂₀₁₆=224,69 ln83,75 – 442 = 552,89
Полученные прогнозные данные отразим в таблице:

Год	Валовой внутренний продукт (ВВП),	Экспорт РФ, млрд. долл. (у)	Квадрат ВВП	Квадрат экспорта	Произведение ВВП и экспорта
Год	трлн. р. (х)	Экспорт РФ, млрд. долл. (у)	(х²)	(у²)	(ху)
2014	72,45	520,32	5249,003	270732,902	37697,18
2015	78,1	537,2	6099,61	288583,84	41955,32
2016	83,75	552,89	7014,063	305687,352	46304,54
Итого	234,3	1610,41	18362,68	865004,095	125957

1 2 3