курс лекций по статистике. 5fan_ru_Статистика. Курс лекций. Лекция 2 Сводка и группировка материалов статистического наблюдения Тема 2 Статистическая совокупность и её характеристики Лекция 3 Абсолютные, относительные и средние величины
Скачать 1.46 Mb.
|
2. Измерение степени тесноты корреляционной связи в случае парной зависимости Показатели тесноты связи используются для решения следующих задач: 1. Вопрос о необходимости изучения данной связи и целесообразности ее практического применения. 2. Вопрос о степени различий тесноты связи для конкретных условий. 3. Для выявления решающих факторов, воздействующих главным образом на формирование величины результативного признака. Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции Пирсона: Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к к нормальному. Он принимает значения в интервале –1 ≤ r ≤ 1. Отрицательные значения указывают на обратную связь, положительные – прямую. При r=0 линейная связь отсутствует. Чем ближе r по абсолютной величине к 1, тем теснее связь между признаками. При r=1 связь функциональная. Квадрат коэффициента корреляции r2 представляет собой коэффициент детерминации, который показывает долю вариации результативного признака, объясненную влиянием вариации факторного признака. Для оценки существенности (значимости) линейного коэффициента корреляции используется тот факт, что величина при условии отсутствия связи в генеральной совокупности распределена по закону Стьюдента с (n-2) степенями свободы (где n – объем выборки). Полученную tрасч сравнивают табличным значением. Коэффициент корреляции признается значимым при уровне значимости , если tрасч>tтабл. В этом случае практически невероятно, что найденное значение коэффициента корреляции обусловлено только случайными совпадениями. Уровень значимости показывает вероятность принятия ошибочного решения, например, при =0,05 в среднем пяти случаях из ста есть риск сделать ошибочное заключение о значимости коэффициента корреляции (в социально-экономических исследованиях обычно =0,1, =0,05 или =0,01). 3. Вычисление параметров уравнения регрессии Задачи регрессионного анализа: установление формы зависимости определение функции регрессии использование уравнения для оценки неизвестных значений зависимой переменной Важнейшим этапом построения регрессионной модели является установление математической функции, которая лучше других выражает реальные связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований, или осуществляться эмпирически – перебором и оценкой функций разных типов и т.п. Уравнение однофакторной парной линейной корреляционной связи имеет вид: =a0+a1x, где – теоретические значения результативного признака, полученные по уравнению регрессии; a0, a1 – параметры уравнения регрессии Параметры уравнения a0, a1 находят посредством МНК, при котором в качестве решения принимается точка минимума суммы квадратов отклонений эмпирических данных yi от теоретических i, рассчитанных по модели, т.е. Σ(yi -i)2 min Для нахождения минимума данной функции, ее частные производные приравнивают нулю и получают систему нормальных уравнений: na0 + a1 Σx= Σy a0 Σx+ a1 Σx2= Σxy Решая систему в виде, получают значения параметров уравнения. Параметр a1 называется коэффициентом регрессии. Его можно найти также по формуле: Коэффициент регрессии a1 показывает, насколько в среднем изменяется величина результативного признака (в его единицах измерения) при изменении факторного признака на единицу. Параметр a0 показывает усредненное влияние прочих факторов на результативный признак. Параметр a0 связан с коэффициентом регрессии a1 соотношением Коэффициент регрессии a1 применяется также для расчета коэффициента эластичности, который показывает, на сколько процентов изменится величина результативного признака при изменении факторного признака на 1%: Исследование объективно существующих связей между явлениями – важнейшая задача всякого научного исследования. В частности различают функциональные связи и нефункциональные. Функциональная зависимость между двумя переменными величинами характеризуется тем, что каждому значению одной из них соответствует вполне определенное (причем единственное!) значение другой. Например, между радиусом круга и его площадью существует функциональная зависимость, которая выражается формулой . На практике часто встречаются такие виды связей между величинами, которые нельзя отнести к функциональным зависимостям. На существование таких связей и зависимостей указывал уже Гиппократ в 6 веке до нашей эры. Именно он обратил внимание на наличие связи между телосложением и темпераментом людей, между строением тела и предрасположенностью к тем или иным заболеваниям. Таким образом, помимо функциональных связей существуют и т.н. статистические или стохастические (случайные) зависимости. При статистической (вероятностной) зависимости изменение одной переменной приводит к изменению распределения другой. Например, статистической является связь между урожайностью и количеством внесенных удобрений, между ростом и весом человека и др. Статистическую зависимость называют корреляционной, если каждому значению одной переменной соответствует определенное условное математическое ожидание другой.
Корреляционная связь (от лат. correlatio – соотношение, связь) не является точной зависимостью одного признака от другого: она может иметь различную степень: от полной независимости до очень сильной связи. Степень корреляции определяется различными показателями, введенными для установления силы связи между количественными признаками. Такими показателями являются коэффициент корреляции, корреляционное отношение, тетрахорический и полихорический показатели связи, частный и множественный коэффициенты корреляции; характер связи между разными признаками может быть различен по форме и направлению. По форме корреляция может быть линейной и нелинейной, по направлению – прямой (или положительной) и обратной (или отрицательной). Формула статистической связи между переменными называется уравнением регрессии. Если эта формула линейна, то регрессия называется линейной. Если уравнение регрессии связывает только две переменные, то регрессия называется парной, если переменных больше, чем две, то регрессия множественная.
Для отражения того факта, что реальные значения зависимой переменной не всегда совпадают с ее условным математическим ожиданием и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым , которое должно отражать влияние случайных, неучтенных факторов. При этом регрессионная модель (регрессионное уравнение) имеет вид , где – случайная величина, называемая возмущением или случайной ошибкой.
Эндогенная переменная (называемая также зависимой, объясняемой, результирующей) характеризует результат функционирования анализируемой экономической системы. Её значения формируются внутри процесса функционирования этой системы под воздействием ряда факторов, только часть которых поддается регистрации. В регрессионном анализе эндогенная переменная выступает в роли функции, значения которой всегда стохастичны (случайны) по своей природе. Экзогенная переменная (объясняющая, независимая, регрессор, фактор) описывает функционирование изучаемой экономической системы и задается как бы «извне». В регрессионном анализе она играет роль аргумента той функции, в качестве которой рассматривается эндогенная (зависимая) переменная. По своей природе регрессоры могут быть как случайными, так и неслучайными.
Построение уравнения регрессии начинается с вопроса о спецификации модели. Проблема спецификации включает в себя два круга вопросов: – отбор факторов; – выбор уравнения регрессии.
С математической точки зрения регрессионные модели оказываются существенно более простыми объектами, чем экономические модели общего вида. Связи между экономическими величинами необязательно выражаются линейными функциями – они могут быть и нелинейными. Так обратная зависимость спроса от цены не обязательно характеризуется линейной функцией . Возможны и другие соотношения: . В демографических расчетах и страховом деле применяется функция вида , которая называется уравнением Гомперца (1799-1865). Для описания развития производства новых товаров и роста численности населения используется логистическая функция (функция Ферхюльста). Различают три класса нелинейных регрессий: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам, и их комбинации. Примерами нелинейной регрессии по включенным в нее объясняющим переменным являются следующие функции: полиномы разных степеней: , и др. равносторонняя гипербола: . В 1857 году немецкий статистик Э. Эйнгель (Энгель) на основе исследования семейных расходов сформулировал закономерность: с ростом доходов доля доходов, расходуемых на продовольствие, уменьшается (а на непродовольственные товары будет возрастать). Для описания кривой Энгеля в 1943 г. Уоркинг и в 1964 году Лизер для этих целей применили полулогарифмическую кривую: уравнения с квадратными корнями, например, , использовались в исследованиях урожайности, трудоемкости с/х производства К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная применяется при моделировании кривых спроса; показательная (т.н. кривая Филлипса (англ. экономист, конец 50-х годов 20 века) характеризует соотношение между нормой безработицы и процентом прироста заработной платы ); экспоненциальная и др. Уравнение Гомперца является примером нелинейности, как по включенным объясняющим переменным, так и по параметрам На практике могут встречаться комбинации основных функций. Например, величина Y, зависящая от 3 факторов X1, X2, X3, может моделироваться формулой , где – параметры уравнения, подлежащие определению из экспериментальных данных. Перейдем к решению конкретной экономической задачи – восстановлению зависимости между наблюдаемыми переменными, например, .
2. Метод наименьших квадратов и построение уравнения линейной регрессии В различных исследованиях приходится использовать формулы, составленные на основании наблюдений или эксперимента. Одним из лучших способов получения таких формул является метод наименьших квадратов (МНК).
Пусть в результате наблюдений получена таблица значений переменной для ряда значений (независимой) переменной :
Предположим, что точки примерно располагаются на одной прямой. Это означает, что зависимость между и близка к линейной . Подберем неизвестные коэффициенты и так, чтобы прямая лежала по возможности ближе к каждой из нанесенных точек. Назовем отклонением в точке разность , где , а – значение функции в точке , полученное из опыта. Сущность МНК заключается в том, что искомую прямую выбирают таким образом, чтобы сумма квадратов отклонений была наименьшей. Таким образом, неизвестные параметры и находят из условия, что сумма т.е. имела бы наименьшее значение. Поскольку и – постоянные числа (данные опыта), то указанная сумма есть функция параметров и : Чтобы найти эти значения параметров и , воспользуемся необходимым условием экстремума функции нескольких переменных: найдем частные производные функции по и , и приравняем их к нулю: Следовательно, параметры и , для которых осуществляется наилучшее приближение (в указанном смысле), определяется из системы уравнений, которую можно переписать в следующем виде: . Можно доказать, что эта система всегда имеет единственное решение и что для найденных чисел и функция достигает максимума. Коэффициент называется выборочным коэффициентом регрессии . Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменная при увеличении переменной на одну единицу. выборочный корреляционный момент или выборочна ковариация Подставляя найденные значения и в уравнение , получим линейную функцию, наилучшим образом отражающую (аппроксимирующую) зависимость между величинами и, полученную из опыта. Полученное уравнение называется уравнением регрессии Уравнения регрессии позволяют прогнозировать возможные значения зависимых переменных, иначе, позволяют предсказывать поведение одного из параметров при целенаправленном изменении другого. Регрессионные модели применимы для определения оптимальной области приложения усилий, например, границы, за рамки которой дальнейшее вложение капитала уже не приносит пропорционального увеличения прибыли. Перейдем к оценке тесноты корреляционной зависимости. Коэффициент корреляции Коэффициент корреляции измеряет степень и определяет направление только прямолинейных связей. Коэффициент парной корреляции есть безразмерная величина, значения которой принадлежат отрезку: . При отрицательной корреляционной связи увеличение одной из переменных ведет к уменьшению другой. Соответствие между значениями и характером связи может быть представлено следующей таблицей (таблица Чеддока):
Выборочный коэффициент парной корреляции вычисляется по формуле: , При решении задач, когда заполнена таблица экспериментальных данных, и найдены значения , удобно пользоваться следующей формулой для коэффициента корреляции . Свойства коэффициента корреляции: 1. Коэффициент корреляции принимает значения на отрезке [-1;1], т.е. . Чем ближе к единице, тем теснее связь между Y и X (тем ближе связь к линейной). Геометрически это означает, что чем больше по модулю коэффициент корреляции, тем ближе экспериментальные точки прилежат к линии регрессии. Проанализируем виды корреляционных полей, представленных на графиках. Очевидно, что в первом случае связь между переменными сильная, а во втором случае – слабая. 2. Если коэффициент корреляции положителен , то связь между переменными является прямой, а если , то связь обратная (в том смысле, что с увеличением фактора – переменной – результативный признак – переменная – будет уменьшаться). Графически это будет выглядеть следующим образом: 3. Если , то между величинами Y и X наблюдается функциональная зависимость, и все экспериментальные точки лежат на линии регрессии. 4. Если , то линейная корреляционная связь между переменными отсутствует, то .
3. Оценка качества построенной модели Цель регрессионного анализа состоит в объяснении поведения зависимой переменной . Оценку качества построенной модели (в первом приближении) дает коэффициент (индекс) детерминации и средняя ошибка аппроксимации. Коэффициент (индекс) детерминации Оценку качества модели дает коэффициент детерминации R2, являющийся характеристикой прогностической силы модели: , где – сумма квадратов отклонений расчетных значений от среднего (чаще всего называется объясненной регрессией или факторной), – сумма квадратов отклонений наблюдаемых значений от среднего (общая сумма квадратов отклонений). Коэффициент детерминации показывает, какая доля изменения (дисперсии) зависимой переменной обусловлена изменением объясняющей переменной. Например, R2=0,75 – это значит, что на 75% изменение зависимой величины Y обусловлено изменением фактора X и на 25% – действием других неучтенных факторов. Коэффициент детерминации равен квадрату коэффициента корреляции , поэтому значения R2 лежат в промежутке [0;1]. Чем ближе значение R2, тем лучше модель описывает экспериментальные данные, тем ближе точки прилежат к линии регрессии.
Средняя ошибка аппроксимации Помимо коэффициента детерминации о качестве модели говорит средняя ошибка аппроксимации [< лат. approximare приближаться]– среднее отклонение расчетных значений от фактических: , где – наблюдаемое в i-том опыте значение величины Y, – значение, рассчитанное по уравнению регрессии для данного , n – число опытов. Допустимый предел значений , при котором качество модели считается приемлемым, – не более 8-10%. Решение типовой задачи Задача Имеются следующие данные о прибыли автотранспортного предприятия (в сопоставимых ценах) и о доле товара в его грузообороте:
построить корреляционное поле данных и сделать предположение о направлении и тесноте связи между прибылью автотранспортного предприятия и долей товара в грузообороте данного предприятия; построить линейное уравнение парной регрессии y на x; рассчитать линейный коэффициент парной корреляции и оценить тесноту связи; рассчитать индекс детерминации. Какой смысл имеет индекс детерминации? оценить полученную модель через среднюю ошибку аппроксимации; оценить статистическую значимость параметров уравнения регрессии и коэффициента корреляции; сделать точечный прогноз: вычислить прогнозное значение при прогнозном значении, составляющем 108% от среднего уровня; оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал; Выводы оформить в аналитической записке. Решение задачи средствами Excel даёт следующие результаты:
Вопросы для самоконтроляДайте определение функциональному, статистическому и корреляционному типам связи. Назовите основные условия применения корреляционно-регрессионного метода анализа статистических связей. Какие задачи решаются методом корреляционно-регрессионного анализа? Приведите примеры. Приведите примеры различных видов уравнений парной и множественной регрессии. Дайте определение парному и множественному линейным коэффициентам корреляции. Как оценивается значимость коэффициента корреляции? Чем характеризуются функционально связанные между собой факторы? Что характеризуют параметры регрессионного уравнения? Объясните сущность коэффициента парной линейной регрессии. В чем заключается метод наименьших квадратов? Каковы основные условия его применения? Как оценивается значимость параметров регрессионного уравнения? Дайте определение частному коэффициенту эластичности. Что он характеризует? Дайте определение стандартизованному коэффициенту регрессии. Что он характеризует? Что позволяет оценить множественный коэффициент детерминации? Для чего используется корректированный множественный коэффициент детерминации? Как оценить статистическую надежность регрессионного уравнения в целом? Литература Статистика: учебно-практическое пособие/М.Г. Назаров и др.; под ред. М.Г Назарова. – М.: КНОРУС, 2008.–480 с. Гл. 11 С.113-122 Статистика: Учебник для вузов (+CD)/Под ред. И.И. Елисеевой. – СПб.: Питер, 2010.– 368 с.: ил. – (Серия «Учебник для вузов»). Гл.4 п.4.2 Лекция 5. Тема: «Индексный метод анализа в экономико-статистических исследованиях» Современная экономическая теория все больше использует индексы. Это является логическим результатом тяготения экономической науки к количественному анализу. В. В. Леонтьев (24 июня 1935 г. статья «Товарные агрегаты и проблема индексных показателей» была представлена на собрании Эконометрического общества г. Колорадо-Спрингс и опубликована вж. Econometrica. 1936. Jan. Vol.4. No.1) План Статистические индексы: понятие и классификация. Индивидуальные и общие индексы. Свойства общих индексов. Агрегатные индексы и методика их построения. Агрегатные индексы цен, физического объема и товарооборота. Другие формы построения общих индексов: Средневзвешенные индексы. Средние арифметические и гармонические индексы Расчеты недостающих индексов с помощью индексных систем С помощью индексов можно показать изменения в росте или снижении производства, изменения в урожайности, состоянии себестоимости и цен выпускаемой продукции, численности работающих, производительности труда, заработной платы, изменения в цене акций на фондовых рынках (индекс Доу-Джонса), сравнительную характеристику изменения погоды за определенный период времени (температуры, влажности, давления). 1. Статистические индексы Индексы относятся к важнейшим обобщающим показателям. Слово «индекс» (с лат. index) имеет несколько значений: показатель, указатель, опись, реестр. Определение: (в статистике) индексом называется относительный показатель, характеризующий соотношение во времени (динамический И.) или в пространстве (территориальный И.) социально экономических явлений: цен отдельных товаров, объемов различной продукции, себестоимости и т.п. Индексный метод (в статистике) – метод статистического исследования, основанный на построении и анализе относительных показателей, позволяющих соизмерять сложные социально-экономические явления. С помощью экономических индексов решаются следующие задачи: измерение динамики социально-экономического явления за два и более периодов времени; определения экономической значимости причин, объясняющих абсолютное различие сравниваемых уровней; измерение соотношения показателей по разным регионам; определение степени влияния изменений значений одних показателей на динамику других; пересчет значения макроэкономических показателей из фактических цен в сопоставимые. Экономические индексы можно классифицировать по следующим признакам: По степени охвата явления индексы бывают индивидуальные и общие (сводные). По базе сравнения все индексы можно разделить на две группы: динамические и территориальные. Динамические индексы бывают базисными и цепными. Вторая группа индексов (территориальные) применяется для межрегиональных сравнений. По виду весов различают индексы с постоянными и переменными весами. В зависимости от формы построения различаются индексы агрегатные и средние. Последние делятся на арифметические и гармонические. Агрегатная форма общих индексов является основной формой экономических индексов. Средние индексы - производные, они получаются в результате преобразования агрегатных индексов. По характеру объекта исследования общие индексы подразделяются на индексы количественных (объемных) и качественных показателей. По объекту исследования строят индексы производительности труда, себестоимости, физического объема продукции, стоимости продукции и т.д. По составу явления можно выделить две группы индексов: постоянного (фиксированного) состава и переменного состава. Деление индексов на эти две группы используется для анализа динамики средних показателей. По периоду исчисления индексы подразделяются на годовые, квартальные, месячные, недельные. Для обозначения индексируемых показателей (величин), как правило, используются следующие символы: – количество (объем) произведенной продукции (или количество проданного товара) данного вида в натуральном выражении (в кг, м, шт.); – цена единицы продукции или товара; – себестоимость единицы продукции; – затраты рабочего времени (труда) на производство единицы продукции данного вида, т.е. трудоемкость единицы изделия; – общие затраты рабочего времени (труда) на производство продукции данного вида или численность работников предприятия, фирмы и т.д.; – производство продукции данного вида в единицу времени или в расчете на одного рабочего, т.е. уровень производительности труда в стоимостном выражении; – общие затраты на производство продукции данного вида; – общая стоимость произведенной продукции данного вида или товарооборот. |