Анализ российского рынка ноутбуков на декабрь 2009года

Название	Анализ российского рынка ноутбуков на декабрь 2009года
Анкор	Spravka_po_ekonometrike.doc
Дата	04.10.2018
Размер	358 Kb.
Формат файла
Имя файла	Spravka_po_ekonometrike.doc
Тип	Анализ #25485

Московский государственный институт международных отношений

(университет)

МИД РФ

Кафедра эконометрики и математических методов анализа экономики

Информационно-аналитическая справка

на тему

«Анализ российского рынка ноутбуков

на декабрь 2009года»

Выполнили студентки III курса

факультета МЭО

4 ак. группы

Бойко Е.И.

Мошкина Ю.О.

Научный руководитель:

Сернова Н.В.

Москва 2009

Содержание

Введение 3

Анализ данных. Корреляционный анализ 4

Регрессионный анализ. Условия Гаусса-Маркова 6

Анализ качества модели 8

Фиктивные переменные 13

Заключение 14

Приложения 16

Введение

В бизнесе, экономике, общественных науках, исследовании экономической активности и даже исследовании политических процессов для анализа процессов и их прогнозирования широко используются математические модели. Модель, построенная и верифицированная на основе уже имеющихся наблюдений, может быть использована для прогноза значений зависимой переменной в будущем или для других наборов значений объясняющих переменных.

Целью нашего исследования является нахождение зависимости цены на ноутбуки на Российском рынке на декабрь 2009 года от некоторых факторов. В связи со значительным ростом рынка ноутбуков в последние годы, появлением большого количества различных моделей и марок данного товара, чрезвычайно важно знать от каких факторов в большей степени зависит цена, так как она является сильно дифференцированной.

Также данное исследование полезно для розничных сетей по продаже ноутбуков, поскольку облегчает задачу установления цены на товар.

В нашем исследовании мы учли наиболее важные факторы, которые могут повлиять на цену. Во-первых, это физические характеристики ноутбука: размеры (диагональ) и вес, ведь логично было бы предположить, что цена прямо зависит от диагонали и имеет обратную зависимость по отношению к весу. Из технических характеристик мы учитываем память RAM, так как от нее зависит быстродействие компьютера, следовательно, цена должна находиться от нее в прямой зависимости.

К тому же мы вводим ряд фиктивных переменных. Во-первых, это наличие или отсутствие процессора Core 2 Duo, что может существенно повлиять на цену. В-вторых, с помощью фиктивных переменных мы учитываем значение бренда компании. Для исследования были взяты 4 наиболее популярных в России бренда: HP, Toshiba, Acer и Asus.

Анализ данных. Корреляционный анализ

Для проведения исследования соберем данные по ноутбукам и оформим их в таблицу (приложение 1). Обозначим цену на компьютеры как y, x₁ – память (RAM), x₂ – вес ноутбука, x₃ – диагональ. d₁ – фиктивная переменная, равная 1 при наличии процессора Core 2 Duo и нулю при его отсутствии. R₁, R₂ и R₃ – также фиктивные переменные, указывающие на бренд производителя. R₁равен 1 у компьютеров марки HP, R₂ – Toshiba и R₃ – Acer (включение в модель фиктивных переменных рассмотрено в отдельной главе).

Построим графики корреляционного поля (геометрическое место точек, координаты которых соответствует паре чисел x и y) для каждой из переменных. Так же построим линию тренда (приложение 2)

Так как из графиков 1, 2 и 3 приложения 2 видно, что тренд имеет форму прямой во всех 3 случаях, мы можем принять гипотезу о наличии линейной зависимости между переменными y, x1, x2, x3.

Вычислим показатель тесноты корреляционной зависимости (линейный коэффициент корреляции) для каждого x. Он рассчитывается по формуле:

. Так как

, а

, то

.

Используем для расчетов коэффициентов корреляции в MSExcel функцию КОРРЕЛ() или в Eviews на панели управления выбираем View/Correlations. Таким образом получим r₁=0,33, r₂=0,37, r₃=0,34. Все 3 показателя находятся в интервале (0; 0,5], это означает, что между y и рассматриваемыми факторами существует слабая прямая корреляционная зависимость.

Проверим статистическую значимость выборочных коэффициентов корреляции. Докажем, можно ли судить на основе выборки о свойствах генеральной совокупности, то есть являются ли выборочные показатели существенными и значимыми для принятия предположений о наличии данного свойства в генеральной совокупности.

Примем гипотезу о том, что в генеральной совокупности нет корреляции при уровне значимости α=0,05

Ho: ρ=0

H1: ρ≠0

Гипотеза проверяется с помощью специального показателя, разработанного на основе выборки. Этот показатель называется статистическим критерием. Он вычисляется по формуле:

t является случайной величиной, имеющей распределение Стьюдента.

t_крит

t_крит

Значение t, где область принятия гипотезы пересекается с областью отклонения от гипотезы называется критическим t_крит( заштрихованная область – область отклонения гипотезы).

На основе данных выборки вычисляем t_набли сравниваем с t_крит. Критические значения затабулированы, рассчитаем их с помощью функции СТЬЮДРАСПОБР(), используя MSExcel.

Если |t_набл|> t_крит (α;n-2) данные наблюдений не дают оснований для принятия нулевой гипотезы об отсутствии корреляции в генеральной совокупности с уровнем ошибки α. Принимаем альтернативную гипотезу о том, что корреляция в генеральной совокупности есть, но это не дает оснований для того, чтобы судить о силе. Выборочный коэффициент является существенным, значимым для того, чтобы судить о наличии корреляции в генеральной совокупности. Отличие корреляции от 0 не является случайным.

Если |t_набл|< t_крит(α;n-2) данные наблюдений не дают оснований для отклонение нулевой гипотезы. Корреляции в генеральной совокупности нет, это мы можем утверждать с вероятностью α. Коэффициент корреляции статистически незначим, его отличие от 0 случайно.

Рассчитаем t_наблдля каждого из x.

Ho: ρ=0

H1: ρ≠0

Для x₁ t_набл= 1,85

t_крит(α=0,05;n-2=34)=2,03

|t_набл|< t_крит коэффициент корреляции r₁ статистически не значим, его отклонение от 0 случайно.

Для х₂ t_набл= 2,16

|t_набл|> t_криткоэффициент корреляции r₂ статистически значим, его отклонение от 0 неслучайно.

Для х₃ t_набл= 1,97

|t_набл|< t_криткоэффициент корреляции r₃ статистически не значим, его отклонение от 0 случайно.

Регрессионный анализ. Условия Гаусса-Маркова

Корреляционный анализ дает возможность определить взаимосвязь двух величин, но не дает ответ на вопрос, на сколько при изменении одного показателя изменяется другой. Для этого существует регрессионный анализ.

Регрессионный анализ – метод математической статистики, который изучает регрессионную зависимость генеральной совокупности между некоторыми показателями на основе анализа регрессионной зависимости выборки. На графиках 1, 2, 3 приложения 2 мы видим линию, проходящую через условные средние – линию регрессии. Математическая формула, соответствующая этой линией называется функцией регрессии, которая описывает изменения средних значений y. Условное среднее изменяется по линейному закону, поэтому мы выбираем линейную модель регрессии, которая имеет вид:

С помощью Excel найдем количественную оценку параметров модели. Для этого выделим таблицу и на панели управления выберем Сервис/Анализ данных – регрессия. Либо введем в командной строке в Eviews «ls y c x1 x2 x3 d1 r1 r2 r3». В итоге получим:

ŷ= 10199+943*X₁+6019,5*X₂-604,3*X₃+11957,4*d₁+15040,7*R₁+13532*R₂+4232,1*R₃

(i=1-7) – коэффициент регрессии, имеет следующий экономический смысл: при изменении независимой переменной на 1, y в среднем изменится на величину

при условии, что остальные факторы остаются неизменными. Например,

=943 означает, что при увеличении памяти ноутбука на 1Гб стоимость компьютера увеличивается в среднем на 943 рубля.

Так как

<0, зависимость между y и x₃ обратная. То есть при увеличении диагонали ноутбука на 1 дюйм стоимость компьютера уменьшится на 604,3 рубля.

Следующим этапом регрессионного анализа является оценка качества модели, основанная на теореме Гаусса-Маркова. В данной теореме 1)рассматривается только линейная форма зависимости и 2)независимые переменные могут быть как случайными величинами, так и нет.

В теореме Гаусса-Маркова описываются требования к остаткам, от которых зависит качество модели и качество оценок коэффициентов регрессии. Оценки будут хорошими, если будут выполняться следующие условия:

а) математическое ожидание (среднее) остатков будет равно нулю;

б) между последующими значениями остатков не должно быть корреляции;

в) дисперсия остатков должна быть постоянной (гомоскедастичной).

В результате, если выполняются эти требования, наши остатки – случайные независимые величины, имеющие нормальное распределение.

Проведем проверку каждого коэффициента регрессии. Для этого относительно каждого считается t-статистика по формуле

, которая сравнивается с t_крит(α=0,05;n-k-1=28) (его можно найти в таблице критических точек распределений Стьюдента или в MSExcel через СТЬЮДРАСПОБР(0,05;28)). Принимается гипотеза Н₀:

о том, что в генеральной совокупности нет регрессионной зависимости. Н₁:

- альтернативная гипотеза. Если |t_набл|> t_крит, то Н₀отклоняется, коэффициент регрессии статистически значим; фактор оказывает существенное влияние, его следует оставить в модели. Если |t_набл|< t_крит, то Н₀принимается, коэффициент регрессии статистически не значим; фактор не оказывает существенное влияние.

Но быстрее проверить значимость коэффициентов регрессии через Eviews. Для этого в командную строку вводим «ls y c x1 x2 x3 d1 r1 r2 r3» и в высветившихся данных определяем, что значимо влияет на y только фактор d1. Следовательно, мы неправильно подобрали спецификацию модели.

В ходе метода последовательного исключения из модели убираются поочередно факторы с наименьшим незначимым значением t-статистики, пока все коэффициенты регрессии не станут значимыми.

1) Исключаем третий фактор (x₃), строим новую модель.

Ситуация не меняется.

2) Убираем из модели фактор X₁. Коэффициенты обоих оставшихся факторов значимы.

Модель выглядит следующим образом:

ŷ= 6159,4+5149,9*X₂+12223.8*d₁+15094,6*R₁ + 13561,2*R₂ + 4106,7*R₃

Анализ качества модели

Проверим качество модели в целом. Принимается гипотеза Н₀:

о том, что факторы совместно не влияют на изменение y. Альтернативная гипотеза Н₁ подразумевает обратное. Проверка осуществляется на основе критерия Фишера.

. R²– коэффициент детерминации. Найдем его с помощью программы Eviews в данных по нашей модели.

Или

R²=0,45

F набл =

=4,9

F табл (

=0,05; n-k-1=30; k=5)=2,5

Таким образом, F_набл>F_{табл .}Следовательно,отвергаем Н₀, факторы совместно оказывают статистически значимое влияние на y.

Модель считается хорошей, когда в ней нет статистически незначимых коэффициентов регрессии и соответственно, по F- критерию она тоже адекватна. То есть нашу последнюю модель можно считать хорошей по этому критерию.
Еще одним из этапов анализа качества модели является анализ качества остатков. Остатки – разница между фактическими данными и модельными для каждого периода.

, где e_i – остаток в период i.

Остатки должны быть случайными, независимыми величинами, распределенными по нормальному закону. Только если эти требования выполняются, можно переходить к другим методам проверки качества модели.

Существует графический и аналитический способ анализа остатков.

Графический способ подразумевает построение графика остатков. Eviews автоматически показывает график остатков, когда мы считаем теоретический y и остатки.

На графике остатков приложения 3 видно, что выбросов нет, т.е. нет остатков, которые в 4-6 раз больше других. Следовательно, в первоначальных данных нет нетипичных наблюдений, дисперсия остатков постоянна. Такие остатки называются гомоскедастичными.

Поскольку математическое ожидание остатков равно 0, можно сделать вывод о том, что остатки распределены по нормальному закону.

Одним из аналитических методов является проверка на наличие автокорреляции в остатках.

Автокорреляция – это корреляция между уровнями ряда и его последующими значениями. Наличие автокорреляции может свидетельствовать о том, что в остатках отражается какой-либо фактор, значительно влияющий на результирующий признак, однако не включенный в модель. Проверка на наличие автокорреляции осуществляется на основе критерия Дарбина-Уотсона. Но поскольку у нас не временной ряд, мы не можем применять этот метод.

Также наличие гетероскедастичности модели регрессии можно проверить с помощью теста Голдфелда-Куандта и теста Уайта.

Тест Голдфелда-Куандта (Goldfeld-Quandt)

Тест Голдфелда-Куандта проводится следующим образом:

1 шаг. Упорядочиваем все наблюдения в соответствии с увеличением значений переменной x₂

2 шаг. Весь ряд наблюдений делим на 3 части, при этом в первой и третьей части находится одинаковое число наблюдений.

3 шаг. Для первой и третьей части строим регрессию и определяем RSS_I и RSS_III.

RSS_I=

RSS_III=

4 шаг. Принимаем гипотезу о том, что у нас дисперсия (разброс остатков) не зависит от значения x₂.

Ho: δ

=δ

, i≠j (дисперсия постоянна, гомоскедастичность)

H₁: δ

≠δ

, i≠j (дисперсия непостоянна, гетероскедастичность)

Разброс измеряется дисперсией. По условиям Гаусса-Маркова дисперсия остатков должна быть постоянной (не зависящей от номера x).

Гипотеза проверяется с помощью критерия Фишера:

F_набл=

F_табл(α=0,05; k-m-1;k-m-1), где k-m-1 – число степеней свободы, k - число наблюдений в первой и третьей части, m - число переменных (факторов), 1 – из-за наличия константы.

Нарисуем графики распределения Фишера.

F_табл

Если F_набл≥F_табл принимается гипотеза Н₁ о наличии гетероскедастичности. Если Fнабл≤Fтабл, принимается гипотеза Н₀ о постоянстве дисперсии, гомоскедастичности.

Тест Уайта (White)

Используя Eviews, можно провести проверку качества модели регрессии с помощью теста Уайта. Идея этого теста заключается в том, что если в остатках есть гетероскедастичность, то в остатках остались какие-то нелинейные зависимости от исследованных факторов. Целью данного теста является проверка наличия в остатках нелинейной зависимости от факторов.

Шаг 1. Строим модель регрессии ŷ=

*X₂+

*d₁+

*R₁ +

*R₂ +

*R₃. Находим остатки для регрессии.

Шаг 2. Строится модель квадрата остатков от факторов, квадратов факторов и пересечений факторов (фиктивные переменные не рассматриваем)

Шаг 3. Если остатки гетероскедастичны, то квадраты факторов влияют на остатки, то есть коэффициенты регрессии a_i статистически значимы, и мы можем проверить совместное влияние всех факторов на квадраты остатков с помощью критерия Фишера. Принимаем гипотезу о том, что все факторы совместно не влияют на квадраты остатков.

Н₀: a_i=a_k=0

Альтернативная гипотеза H₁ утверждает, что это не так.

В критерии Уайта nR²сравнивается с χ²(N-1), где n – число наблюдений, N – число факторов.

Для расчетов воспользуемся Eviews.

Так как probability=0,157911 и больше уровня значимости α=0,05, следовательно, в данной модели регрессии гетероскедастичность отсутствует и дисперсия является постоянной.

Тест Чоу

1) У нас есть модель регрессии для 36 наблюдений:

ŷ= 6159,4+5149,9*X₂+12223,8*d₁+15094,6*R₁ + 13561,2*R₂ + 4106,7*R₃

Ошибка

4818756651

2) Выделим 2 группы. Первая – с весом ноутбука до 2,5 кг (x₂<2,5), а вторая – с весом ноутбука больше или равно 2,5 кг (x₂≥2,5).

С помощью Eviews для первой группы строим модель:

ŷ= 9823,8+3379,9*X₂+14466,8*d₁+15548,3*R₁ + 17975,6*R₂ + 4296,4*R₃

Ошибка

1730742750

3) Модель регрессии для второй группы:

ŷ= -23270,2+15266,4*X₂+11503,9*d₁+13020,6*R₁ + 6207,6*R₂ - 3823,7*R₃

Ошибка

1989652784

4) Принимаем гипотезу H₀ о том, что не произошло никаких изменений в этих двух группах (при

=0,05)

Н₀:

, i=0…k

H₁:

5) Проверяем гипотезу с помощью критерия Фишера

F_набл=1,18

F_табл(

=0,05; n-2*(k+1)=24;k+1=6)=2,5

Таким образом, F_наблтабл. Следовательно, принимаем гипотезу Н₀ о том, что существенных изменений в двух группах нет.

Фиктивные переменные

Фиктивные переменные применяются для отражения качественных признаков. Причем качественные признаки принимают 2 значения, поэтому они еще называются бинарными переменными. Мы ввели фиктивную переменную d₁, равную 1 при наличии процессора Core 2 Duo и нулю при его отсутствии.

Может быть несколько однородных качественных переменных. Например, определенная модель ноутбука. Главное – это чтобы число однородных качественных переменных было на единицу меньше, чем число рассматриваемых признаков. Мы рассматриваем 4 бренда производителей компьютеров, поэтому вводим 3 фиктивные переменных R₁, R₂ и R₃. R₁равен 1 у компьютеров марки HP, R₂ – Toshiba и R₃ – Acer. Если модель – Asus, то R₁=R₂=R₃=0.

Определим, значимо ли бренд производителя влияет на стоимость ноутбука. В модели регрессии без учета бренда

(данные получены из Eviews), в модели регрессии с учетом бренда

. Принимаем гипотезу Н₀:

о том, что бренд производителя не влияет на стоимость ноутбука. Альтернативная гипотеза Н₁подразумевает, что это не так. Гипотеза проверяется с помощью критерия Фишера (уровень значимости равен 0,05).

, где n – число наблюдений, m – число качеств, которые мы учитываем в большей модели, k – число исключенных из большей модели качеств.

Таким образом,

. Гипотеза Н₀ отвергается, бренд производителя значимо влияет на стоимость ноутбука.

Теперь проверим, значимо ли наличие процессора Core 2 Duo (фиктивная переменная d₁) влияет на стоимость компьютера. Соответственно, используем те же самые формулы. В модели регрессии без учета наличия данного процессора

(данные получены из Eviews), в модели регрессии с учетом наличия

. Принимаем гипотезу Н₀:

о том, что наличие или нет процессора Core 2 Duo не влияет на стоимость ноутбука. Альтернативная гипотеза Н₁подразумевает, что это не так. Гипотеза проверяется с помощью критерия Фишера (уровень значимости равен 0,05).

Таким образом,

. Гипотеза Н₀ отвергается, наличие процессора Core 2 Duo значимо влияет на стоимость ноутбука.

Заключение

В данной работе мы исследовали зависимость цены на ноутбуки на российском рынке от ряда показателей: диагонали, веса, объема памяти RAM, наличия процессора Core 2 Duo, а также бренда.

Данный анализ и все расчеты проводились с использованием таких компьютерных программ, как MSExcel и Eviews.

Изначально, была предложена следующая спецификация модели:

То есть, это линейная модель регрессии, учитывающая 7 факторов, из них 4 фиктивные переменные.

Но в ходе проверки статистической значимости каждого полученного коэффициента регрессии выяснилось, что отклонение коэффициентов

от 0 является случайным, то есть диагональ и объем памяти RAM не оказывают существенного влияния на цену ноутбука, в результате чего они были исключены из нашей модели.

Также после исключения 2 факторов было проверено качество новой модели (наличие автокорреляции остатков и гетероскедастичности). Данный анализ был проведен несколькими тестами (Голдфелда-Куандта, Уайта и Чоу), и в результате было получено, что в данной модели отсутствует автокорреляция и гетероскедастичность. Следовательно, наша модель является хорошей.

В итоге была получена линейная модель регрессии, учитывающая 5 факторов, в том числе 4 фиктивных переменных, и имеющая следующий вид:

ŷ= 6159,4+5149,9*X₂+12223.8*d₁+15094,6*R₁ + 13561,2*R₂ + 4106,7*R₃

То есть, цена на ноутбуки прямо пропорциональна его весу, а также зависит от наличия процессора Core 2 Duo и бренда.

Приложения

Приложение 1^¹

Наименование ноутбука	y (руб)	x₁ (Гб)	x₂ (кг)	x₃ (")	d₁	R₁	R₂	R₃
HP ProBook 4510s	27910	3	2,6	15,6	1	1	0	0
HP Pavilion dv8-1010er	69730	4	4	18,4	0	1	0	0
HP mini 5101	19574	1	1,2	10,1	0	1	0	0
HP EliteBook 8530p	67884	2	2,7	15,4	1	1	0	0
HP Pavilion dv7-2260er	38780	4	3,5	17,3	1	1	0	0
HP Pavilion dm3-1030er	31990	4	1,9	13,3	0	1	0	0
HP Presario CQ71-215ER	25683	3	3	17,3	0	1	0	0
HP EliteBook 6930p	57271	4	2,3	14,1	1	1	0	0
HP ProBook 4515s	23928	4	2,6	15,6	0	1	0	0
TOSHIBA Qosmio X300-13B	62011	3	4,3	17,1	1	0	1	0
TOSHIBA Satellite L350-22R	26447	3	3,2	17	0	0	1	0
TOSHIBA NB200-12J	16076	1	1,2	10	0	0	1	0
TOSHIBA Satellite L500-12Z	37364	4	2,8	15,6	1	0	1	0
TOSHIBA Satellite L300-23C	19306	2	2,6	15,4	0	0	1	0
Toshiba Portege R500-121	72872	2	1	12,1	1	0	1	0
Toshiba Tecra M10-11U	49430	3	2,4	14	1	0	1	0
Toshiba Satellite U400-134	38190	4	1,9	13,3	1	0	1	0
Toshiba Satellite A300D-156	30722	4	2,7	15,4	0	0	1	0
ASUS Eee PC 1008HA	16770	1	1,05	10,1	0	0	0	0
ASUS U50VG	40152	4	2,53	15,6	1	0	0	0
ASUS F7Z	29015	3	3,5	17,1	0	0	0	0
Asus K70AB	26824	4	3,30	17,3	0	0	0	0
Asus K40AB	24079	3	2,4	14	0	0	0	0
Asus K50IN	24079	4	2,6	15,6	1	0	0	0
Asus K40AB	21436	3	2,39	14	0	0	0	0
Asus PRO5DI	19911	3	2,6	15,6	1	0	0	0
Asus K40IJ	19328	2	2,4	14	1	0	0	0
ACER Aspire One 751h-52BGk	18273	1	1,39	11,6	0	0	0	1
Acer Aspire 8935G-664G32Mi	47475	4	4,6	18,4	1	0	0	1
Acer Aspire 7738G-874G50Mi	42630	4	3,4	17,3	1	0	0	1
Acer Aspire 5810TG-944G50Mi	36554	4	2,4	15,6	1	0	0	1
Acer Aspire 5810T-354G32Mi	26722	4	2,4	15,6	0	0	0	1
Acer TravelMate 8371-353G25i	24470	3	1,6	13,3	0	0	0	1
Acer TravelMate8431-742G16Mi	24120	2	1,93	14	0	0	0	1
Acer Extensa 5635G-662G25Mi	23422	2	2,5	15,6	1	0	0	1
Acer Aspire 1810TZ-413G32i	20932	3	1,35	11,6	1	0	0	1

Приложение 2

График 1

График 2

График 3

Приложение 3

График остатков (Eviews)

Приложение 3 (продолжение)

Графики остатков (Excel)

1 Таблица составлена авторами на основании данных сайта «notebook.tkat.ru» по состоянию на 13.12.09.