Тема Элементы комбинаторики Комбинаторика это наука о расположении элементов в определенном порядке и о подсчете числа способов такого расположения
Скачать 1.75 Mb.
|
Тема 12. Регрессионный анализ В регрессионном анализе изучается односторонняя зависимость переменной Y от одной или нескольких переменных X 1 ,... ,X k . Переменную Y называют функцией отклика или объясняемой переменной, а X 1 ,... ,X k - объясняющими переменными. Основная задача регрессионного анализа - установление формы зависимости между объясняемой и объясняющими переменными и анализ достоверности модельных параметров этой зависимости (см. §2.5 ). Пусть требуется найти аналитический вид (формулу вычисления) некоторого экономического показателя Y. На первом шаге регрессионного анализа идентифицируют переменные X 1 ,... ,X k , от которых зависит Y, т.е. определяют те существенные факторы, которые воздействуют на этот показатель (см. Пример 9.1 ). Символически этот факт записывается так: На втором шаге регрессионного анализа требуется спецификация формы связи между Y и X 1 ,... ,X k , т.е. определение вида функции f. Ориентиром для определения вида зависимости являются содержание решаемой задачи, результаты наблюдений за поведением показателя относительно изменения факторов на основе статистических данных. Например, выборочные наблюдения пар наблюдаемых значений , приведенные на Рис. 9.1a), говорят о линейном характере зависимости вида , а на Рис 9.1b) - о полиномиальной зависимости вида Рис. 9.1. Примеры эмпирических зависимостей Предположим, что в результате спецификации определена линейная зависимость между показателем Y и факторами X 1 ,... ,X k : Задача третьего шага регрессионного анализа заключается в определении конкретных числовых значений параметров на основе статистических данных о наблюдениях значений Y, X 1 ,... ,X k Естественно, линейные зависимости вида (9.2.1) наиболее просты для эконометрических исследований. Оказывается, что в ряде случаев к виду (9.2.1) можно привести и нелинейные зависимости с помощью логарифмирования, введения обратных величин и других приемов. Преобразование нелинейных функций в линейные называется линеаризацией. Покажем, в связи с этим, некоторые приемы линеаризации в случае двух переменных. Пусть нелинейное соотношение имеет гиперболический вид Введем переменную . Тогда наше соотношение становится линейным относительно Y и Z: Рассмотрим нелинейные зависимости степенного и показательного видов: Прологарифмируем обе части каждого соотношения: Обозначив получаем линейные соотношения Таким образом, линеаризация расширяет область линейных моделей и повышает популярность линейных эконометрических методов. Однако опыт работы с экономическими данными показывает, что их отдельные значения не укладываются точно на прямую или на другую гладкую линию. Поэтому формализация вида (9.2.1)оказывается неадекватной целям, связанным с измерениями в экономике. Эта проблема преодолевается введением в соотношение (9.2.1) стохастического члена u: Уравнение (9.2.2) называется линейной эконометрической моделью (или линейным уравнением регрессии Y на X 1 ,... ,X k ). Если мы имеем выборку , i=1,...,n, из n наблюдений над переменными Y, X 1 ,... ,X k , то модель (9.2.2) можно переписать в виде: где неизвестными являются параметры и возмущения Задача оценки неизвестных параметров уравнения (9.2.2) с помощью наблюдаемых значений переменных Y, X 1 ,... ,X k называется линейным регрессионным анализом. Пример 9.2. Исследуется соотношение между потребительскими расходами (Y) и доходами (X) с использованием данных о семейных бюджетах n семей за некоторый фиксированный период времени. Совокупность статистических данных сгруппируем по численности и составу семей и рассмотрим интересующую нас связь между Y и X в каждой конкретной группе. Внутри группы выберем семьи, имеющие один и тот же доход . Очевидно, расходы этих семей будут разными. Однако можно указать такой уровень расходов , вокруг которого будут сгруппированы расходы всех семей этой подгруппы. Предположим, что для и справедливо соотношение , где - const. Обозначим через u i величину отклонения расходов i-й семьи от "центрального" значения . Тогда реальные объемы потребления для семей данной подгруппы будут представлены в виде Причем u i для одних семей будут иметь положительный знак, а для других - отрицательный. Эти рассуждения приводят нас к следующей гипотезе для нахождения искомого соотношения между потребительскими расходами и доходами: Слагаемое u называется стохастическим возмущением или ошибкой. Для окончательного решения нашей задачи остается на основе выборочных значений оценить параметры и ошибку u. Замену функциональной зависимости (9.2.1) (т.е. математической модели показателя Y) статистической зависимостью (9.2.2) (т.е. эконометрической моделью показателя Y) можно обосновать следующими объективными причинами: нехватка или отсутствие информации обо всех факторах, влияющих на величину Y; априорное исключение второстепенных факторов, имеющих слабое влияние на показатель Y, но неадекватно усложняющих исследование; возможные неточности при моделировании (при идентификации важнейших факторов, вида зависимости и т.д.), оказывающие влияние на суммарный эффект на модельное значение Y; ошибки наблюдения или измерения наблюдаемых значений факторов X 1 ,... ,X k и показателя Y. Дополнительное слагаемое u в (9.2.2) призвано компенсировать отклонения, вызванные этими причинами. Поскольку стохастическое возмущение u является случайной величиной, то можно говорить о свойствах ее распределения, среднем значении, дисперсии и т.д. Теоретической основой регрессионного анализа линейных эконометрических моделей типа (9.2.2) чаще других служит метод наименьших квадратов (см. §2.5 ). Применение этого метода мы рассмотрим на примере парной регрессионной модели, т.е. линейной модели, состоящей из единственного уравнения, содержащего только две переменные: Предположим, что проведено n выборочных наблюдений, в результате чего получены значения: X X 1 X 2 X n Y Y 1 Y 2 Y n (Так как в дальнейшем рассматривается зависимость Y только от одной переменной, в этой таблице и далее нижние индексы при X показывают, в отличие от формулы(9.2.2) , номера наблюдаемых значений этой единственной переменной X; аналогичноY i , показывают наблюдаемые значения Y). Введем в рассмотрение средние арифметические Мы хотим с помощью наблюдаемых данных получить уравнение линии которая будет наилучшей оценкой истинной линии Согласно метода наименьших квадратов ( §2.5 ) эти параметры и являются решением оптимизационной задачи Необходимые условия оптимальности пары ( , ) имеют вид (см. (2.3.3) ): После подстановки в эту систему значений выборочных наблюдений , мы получим линейную систему из двух уравнений с двумя неизвестными и . Решив ее, найдем искомые параметры. Систему (9.2.5) можно решить другим способом. Для этого проведем следующие преобразования. Разделив первое уравнение (9.2.5) на число n, получим т.е. при найденных и оценочная линия (9.2.4) проходит через точку средних значений ( Рис. 9.2 ). Рис. 9.2. Оценочная линия. Вычтем (9.2.6) из (9.2.4) : .Отклонения наблюдаемых значений X i ,Y i , от их средних обозначим малыми буквами: В этих обозначениях оценочное уравнение (9.2.4) запишется так: а отклонение точки от этой линии - Задача минимизации суммы квадратов отклонения: относительно дает нам Применяя достаточный признак оптимальности (2.3.5): мы убеждаемся, что действительно является точкой минимума функции Параметр найдем из: Пример 9.3. Требуется выявить зависимость аварий на дорогах от количества автотранспорта для некоторого региона на основе результатов ежегодных наблюдений, заданных в следующей таблице: Номер года ( 1) 1 2 3 4 5 6 7 8 9 1 0 1 1 Год ( 2) 1 988 1 989 1 990 1 991 1 992 1 993 1 994 1 995 1 996 1 997 1 998 Количество аварий на дорогах ( 3) 1 66 1 53 1 77 2 01 2 16 2 08 2 27 2 38 2 68 2 68 2 74 Количество зарегистрированных транспортных средств ( 4) 3 52 3 73 4 11 4 41 4 62 4 90 5 29 5 77 6 41 6 92 7 43 Введем необходимые обозначения: i - номер года (i=1,...,11); Y - аварии на дорогах; Y i - количество аварий в год i ; X - транспортные средства; X i - количество транспорта в год i Количество наблюдений n=11. С помощью данных столбиков (3) и (4) вычислим коэффициенты для системы: Система (9.2.5) принимает вид: Решением ее будут параметры =55,85 ; =0,312 . Следовательно, оценочное уравнение запишется: =55,85+0,312X . i 1 2 3 4 5 6 7 - 51,8 - 64,8 - 40,8 - 16,8 - 1,8 - 9,8 9 ,2 - 167,2 - 146,2 - 108,2 - 78,2 - 57,2 - 29,2 9 ,8 Если же мы хотим применять формулы, то нужно предварительно вычислить x i и y i (см. таблицу). Далее, подставляя эти значения в упомянутые формулы, находим Тема 13. Корреляционный анализ Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами. Допустим, проводится независимое измерение различных параметров у одного типа объектов. Из этих данных можно получить качественно новую информацию - о взаимосвязи этих параметров. Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве: Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - величины коррелируют. В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи: Отрицательная корреляция: Отсутствие корреляции: Взаимосвязь между переменными необходимо охарактеризовать численно, чтобы, например, различать такие случаи: Для этого вводится коэффициент корреляции. Он рассчитывается следующим образом: Есть массив из n точек {x 1,i , x2,i } Рассчитываются средние значения для каждого параметра: И коэффициент корреляции: r изменяется в пределах от -1 до 1. В данном случае это линейный коэффициент корреляции, он показывает линейную взаимосвязь между x 1 и x 2 : r равен 1 (или -1), если связь линейна. Коэффициент r является случайной величиной, поскольку вычисляется из случайных величин. Для него можно выдвигать и проверять следующие гипотезы: 1. Коэффициент корреляции значимо отличается от нуля (т.е. есть взаимосвязь между величинами): Тестовая статистика вычисляется по формуле: и сравнивается с табличным значением коэффициента Стьюдента t(p = 0.95, f = ) = 1.96 Если тестовая статистика больше табличного значения, то коэффициент значимо отличается от нуля. По формуле видно, что чем больше измерений n, тем лучше (больше тестовая статистика, вероятнее, что коэффициент значимо отличается от нуля) 2. Отличие между двумя коэффициентами корреляции значимо: Тестовая статистика: Также сравнивается с табличным значением t(p, ) Методами корреляционного анализа решаются следующие задачи: 1) Взаимосвязь. Есть ли взаимосвязь между параметрами? 2) Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым. 3) Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации. Тема 14. Временные ряды Для характеристики и анализа различных социально-экономических явлений за определенный период применяют показатели и методы, характеризующие эти процессы во времени. Под временным рядом будем понимать последовательность значений объясняемой переменной, соответствующей возрастающей последовательности моментов времени: Можно выделить две основные цели анализа временных рядов: определение природы ряда (выделение детерминированной и случайной составляющих, оценка их параметров) и использование полученных оценок для целей прогнозирования. К основным этапам анализа временного ряда можно отнести: графическое представление временного ряда; выделение и удаление детерминированных составляющих временного ряда (тренд, сезонность, циклические составляющие); сглаживание (устранение выбросов временного ряда); исследование случайной составляющей временного ряда; прогнозирование развития рассматриваемого процесса на основе имеющегося временного ряда. Временные ряды могут включать в себя несколько составляющих, которые с экономической точки зрения несут разную содержательную нагрузку: Тренд – долгосрочная тенденция динамики показателя: линейный экспоненциа льный гиперболичес кий степенной полиномиаль ный логарифмиче ский логистически й В экономике достаточно часто с помощью трендов описывают следующие процессы: - технологическое и экономическое развитие; - потребление и изменение его структуры; - изменение демографической ситуации и др. Линейный тип тренда подходит для отображения тенденции примерно равномерного изменения уровней: равных в среднем величин абсолютного прироста или абсолютного сокращения уровней за равные промежутки времени. Причина близкого к равномерному изменению абсолютного прироста (сокращения) заключается во влиянии разнонаправленных и разноускоренных сил факторов, которые взаимно усредняются, частично взаимно погашаются, а равнодействующая их влияния приобретает их характер, близкий к равномерному. Таким образом, равномерная динамика становится результатом сложения влияния большого количества факторов на изменение исследуемого показателя. Экспоненциальным трендом называют тренд, который выражается следующим уравнением , где – постоянный темп изменения уровней: - если , то имеется тренд с возрастающими уровнями, причѐм это возрастание не просто ускоренное, а с возрастающим ускорением и возрастающими производными более высоких порядков; - если , то имеется тренд, выражающий тенденцию постоянного, но замедляющегося сокращения уровней, причѐм замедление непрерывно усиливается. – свободный член экспоненты равен выровненному уровню, то есть уровню тренда в момент, принятый за начало отсчѐта времени (при ). Экспоненциальный тренд характерен процессам, развивающимся в среде, не создающей никаких ограничений для роста уровней. Гиперболическим трендом называют тренд, который выражается уравнением , где – свободный член гиперболы, предел, к которому стремится уровень ряда; – основной параметр гиперболы: - если , то этот тренд выражает тенденцию замедляющегося снижения уровней и при ; - если , то с течением времени, уровни тренда возрастают и стремятся к величине при Степенные тренды используются, когда данные состоят из результатов измерений, значения которых плавно увеличиваются с нарастающей скоростью. При этом данные не могут содержать нулевых и отрицательных значений. Полиномиальный тренд описывает данные, плавно изменяющиеся в разных направлениях. При использовании полиномиального тренда пользователю всегда необходимо задать порядок полинома. Если , то получаем параболический тренд. Тренд в форме параболы применяют для отражения тенденций динамики, для которых на некотором, обычно непродолжительном, этапе развития свойственно примерно постоянное ускорение абсолютных изменений уровней. Уравнение логарифмического тренда применяют в том случае, когда исследуемый процесс приводит к замедлению роста показателя, но при этом рост не прекращается, а стремится к какому-либо ограниченному пределу. В этом случае гиперболическая форма тренда или парабола с отрицательным ускорением не подходят. В логарифмическом тренде величины ускорения абсолютных изменений имеют знак, противоположный знаку самих абсолютных изменений, а по модулю постепенно уменьшаются. Логарифмический тренд, как и гиперболический, отражает постепенно затухающий процесс изменений. Однако эти тренды имеют существенное различие: затухание по гиперболе происходит быстро при приближении к конечному пределу, а при логарифмическом тренде затухающий процесс продолжается без ограничения гораздо медленнее. Логистическая форма тренда подходит для описания процесса, при котором изучаемый показатель проходит полный цикл развития, начиная, как правило, от нулевого уровня, сначала медленно, но с ускорением возрастая, затем ускорение становится нулевым в середине цикла, затем, в завершающей части цикла, рост замедляется по гиперболе по мере приближения к предельному значению показателя. Логистическую тенденцию можно считать объединением трѐх разных по типу тенденций: параболической с ускоряющимся ростом на первом этапе, линейной - на втором и гиперболической с замедляющимся ростом - на третьем этапе. Однако рассмотрение таких временных рядов как проявления единой логистической тенденции позволяет уже на первом этапе рассчитать всю траекторию развития, определить сроки перехода от ускоренного роста к замедленному, что чрезвычайно важно при планировании производства или реализации нового вида товара, спрос на который будет проходить все этапы логистической тенденции вплоть до насыщения рынка. При выборе уравнения тренда необходимо руководствоваться принципом простоты, который заключается в выборе из нескольких типов трендов более близкого к эмпирическим данным, наиболее точно отражающего динамику исходного временного ряда, при этом следует выбирать более простую функциональную зависимость. Обоснованно это ещѐ и тем, что чем сложнее уравнение линии тренда и чем большее число параметров оно содержит, тем при равной степени приближения труднее дать надѐжную оценку этих параметров. Сезонность – строго периодические и связанные с календарным периодом отклонения от тренда: аддитивная сезонность – амплитуда сезонных колебаний не имеет ярко выраженной тенденции к изменению во времени - трендовая составляющая ряда , – сезонная составляющая ряда , - случайная ошибка). мультипликативная сезонность – амплитуда сезонных колебаний имеет выраженную тенденцию к изменению во времени - трендовая составляющая ряда , – сезонная составляющая ряда , – случайная ошибка). Выбросы – резко выделяющиеся наблюдения. Циклические колебания – всѐ, что остаѐтся от временного ряда после исключения трендов, сезонности и выбросов. Чаще всего циклы связаны с флуктуацией экономической активности. Циклические колебания временных рядов экономических показателей отражает периоды роста и спада экономической активности различной амплитуды и продолжительности. Тема 15. Теория массового обслуживания Наряду с другими экономико-математическими методами в экономическом анализе используется теория массового обслуживания. Она применяется, в частности, в розничной торговле при анализе количества обслуживаемых покупателей и продолжительности их обслуживания (при условии высокого качества их обслуживания). На эти показатели оказывают влияние различные факторы (переменные величины). Они взаимодействуют между собой в условиях процесса обслуживания покупателей, носящего стохастический характер. На основе теории массового обслуживания выбирается оптимальный вариант организации торгового обслуживания населения, обеспечивающий минимальное время обслуживания при минимизации затрат и высоком качестве обслуживания населения. Рассматриваемая теория находит применение и в других отраслях экономики. Теория массового обслуживания заключается в том, что на базе теории вероятностей выводятся математические методы анализа процессов массового обслуживания, а также методы оценки качества работы обслуживающих систем. При всем своѐм разнообразии процессы в системах массового обслуживания имеют общие черты: Требование на обслуживание не регулярно случайно поступает на канал обслуживания и в зависимости от его занятости, продолжительности обслуживания образуют очередь требований. Теория массового обслуживания изучает статистические закономерности поступления. И на этой основе вырабатывает решения, то есть такие характеристики системы обслуживания, при которых затраты времени на ожидание в очереди и на простой каналов обслуживания были бы наименьшими. (если мало каналов обслуживания — то образуются большие очереди, и наоборот, если много каналов обслуживания, то очередей нет, но при этом каналы обслуживания работают не рационально, так как часть из них простаивает без работы). Теория массового обслуживания — это прикладная область теории случайных процессов. Предметом исследования теории массового обслуживания являются вероятностные модели физических систем обслуживания, в которых случайные и не случайные моменты времени возникают заявки на обслуживание и имеются устройства на обработку данных заявок. Теория массового обслуживания целиком базируется на теории вероятности и на математической статистике. В определенной степени она связана с распределением Пуассона, которое описывает вероятность числа появлений в заданном интервале времени какого-либо события. Например, появление покупателя у прилавка, если известно, что появление события зависит от того давно ли оно появлялось в последний раз и сколько раз и когда именно случалось до этого. |