Практикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике
Скачать 0.65 Mb.
|
Треугольное распределение Треугольное распределение (рис. 4) не характерно для случайных величин, описывающих экономические, социальные и природные процес- сы 1 . Однако оно может оказаться подходящим приближением к реальному распределению при следующих условиях: ¨ диапазон вариации случайной величины x заключён между зна- чениями a и b, каждое из которых имеет интерпретацию в терминах ис- следуемого процесса (подобно тому, как температура воды при атмосфер- ном давлении может быть распределена между 0 и 100°C); ¨ есть основания считать, что при x ® a и при x ® b плотность вероятности стремится к нулю; ¨ известно модальное значение случайной величины, равное c; ¨ среднее значение отличается от величины (а+b+c)/3 несущест- венно; ¨ дисперсия исследуемой случайной величины отличается от вели- чины 2 2 2 ( ) ( ) 18 a b c ab bc ac + + - + + несущественно. 1 За исключением тех редких случаев, когда оно оказывается частным случаем бета-распределения. 49 Обычно треугольное распределение оказывается приемлемой моде- лью только при малом числе наблюдений случайной величины. Принятие гипотезы о треугольном распределении, как правило, означает недостаточ- ную степень изученности моделируемой случайной величины, но может оказаться лучшей гипотезой из всех, которые не могут быть отвергнуты на имеющихся опытных данных. Источник: http://en.wikipedia.org Рис. 4. График треугольного распределения. Функция плотности вероятности равномерного распределения: 2( ) , [ ; ]; ( )( ) ( ) 2( ) , ( ; ], ( )( ) x a x a c b a c a p x b x x c b b a b c - ì Î ï - - ï = í - ï Î ï - - î где x — значение случайной величины , a и b — границы множества её значений, c — модальное (наиболее часто встречающееся) значение. Функция треугольного распределения: 2 2 ( ) , [ ; ]; ( )( ) ( ) ( ) 1 , ( ; ]. ( )( ) x a x a c b a c a F x b x x c b b a b c ì - Î ï - - ï = í - ï - Î ï - - î 50 Математическое ожидание случайной величины, распределённой по треугольному закону, равно (a+b+с)/3; дисперсия составляет 2 2 2 ( ) ( ) 18 a b c ab bc ac + + - + + Экспоненциальное распределение Экспоненциальное распределение (рис. 5) является теоретической моделью случайной величины, представляющей собой время, проходящее между независимыми однородными случайными событиями, вероятность наступления которых в единицу времени постоянна. Эта величина распре- делена на интервале [0; ¥). Помимо области определения, признаком экс- поненциального распределения является отсутствие существенного разли- чия между средним значением случайной величины и её среднеквадрати- ческим отклонением. Экспоненциальное распределение является частным случаем гамма- распределения. Функция плотности вероятности экспоненциального распределения: 1 ( ) , x p x e m m - = где x — значение случайной величины, m — её математическое ожидание, e » 2,7182818 — основание натурального логарифма. Функция экспоненциального распределения: ( ) 1 x F x e m - = - В Excel плотность распределения вероятности экспоненциального распределения для значения, хранящегося в ячейке Значение, вычисля- ется с помощью формулы =ЭКСПРАСП(Значение;1/Средняя;0), где Средняя и Дисперсия — имена ячеек, содержащих соответствующие значения. Значение функции экспоненциального распределения (вероятно- сти того, что нормально распределённое случайное значение не превысит указанную величину) вычисляется с помощью формулы =ЭКСПРАСП(Значение;1/Средняя;1). 51 Определить величину, которую с заданной вероятностью не превысит экс- поненциально распределённое случайное значение, можно с помощью формулы =ГАММАОБР(Вероятность;1;Средняя), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности. Источник: http://ru.wikipedia.org Рис. 5. Графики экспоненциального распределения. В программе MathCad те же вычисления могут быть выполнены с помощью формул dexp(Значение,1/Средняя), , pexp(Значение,1/Средняя) , qexp(Вероятность,1/Средняя) 52 где Значение, Средняя и Вероятность — имена соответствующих пе- ременных. Распределение Пуассона Распределение Пуассона (рис. 6) является дискретным распределе- нием, моделирующим число независимых событий, происходящих в тече- ние заданного промежутка времени, если вероятность наступления каждо- го из них в течение периода данной продолжительности одна и та же. Оно тесно связано с экспоненциальным распределением, моделирующим дли- тельность промежутков времени между такими событиями. Источник: http://ru.wikipedia.org Рис. 6. Полигоны распределения Пуассона. Областью определения распределения Пуассона является множест- во целых неотрицательных чисел. Если случайная величина принимает дробные или отрицательные значения, её заведомо нельзя моделировать распределением Пуассона. Характерным признаком применимости распре- деления Пуассона в качестве модели случайной величины с заданным эм- 53 пирическим распределением является отсутствие существенного различия между эмпирическими значениями средней и дисперсии. В соответствии с распределением Пуассона вероятность наступле- ния k событий в течение периода составляет ( ) , ! k p k e k l l - = где l — параметр распределения, одновременно равный математическому ожиданию величины k и её дисперсии. Вероятность наступления k событий или менее (включая отсутствие события) вычисляется по формуле 0 ( ) ! x k x F k e k l l - = = å В Excel p(k) вычисляется с помощью формулы =ПУАССОН(ЧислоСобытий;Средняя;0), а F(k) — с помощью функции =ПУАССОН(ЧислоСобытий;Средняя;1), где в ячейках с именами ЧислоСобытий и Средняя хранятся значения k и l. Функции для вычисления k по заданной вероятности в Excel не пре- дусмотрено. Эту величину не составляет труда найти подбором либо напи- сав соответствующую функцию на VBA. В MathCad аналогичные вычисления производятся с помощью фор- мул dpois(ЧислоСобытий;Средняя), ppois(ЧислоСобытий;Средняя), qpois(Вероятность;Средняя), где ЧислоСобытий, Средняя и Вероятность — имена соответствующих переменных. Логнормальное распределение Логнормальное распределение (рис. 7) определено на интервале (0;¥). Если величина ln(x) подчиняется нормальному распределению, то x — логнормальному. Логнормальное распределение является теоретиче- ской моделью случайной величины, представляющей собой произведение 54 константы и стремящегося к бесконечности количества случайных вели- чин (помех), распределённых по произвольным законам на интервале (0; ¥). Плотность вероятности логнормального распределения задаётся формулой 2 2 (ln ) /2 1 ( ) , (0; ), 2 x p x e x x m s s p - - = Î ¥ где m — математическое ожидание величины ln(x), а s — её среднеквад- ратическое отклонение. Математическое ожидание самой величины x в со- ставляет 2 /2 , e m s + а дисперсия — 2 2 2 ( 1) e e s m s + - Источник: http://ru.wikipedia.org Рис. 7. Графики логнормального распределения при m = 0. Функция логнормального распределения через элементарные функ- ции не выражается. Она записывается следующим образом: 55 2 0 1 1 ln( ) ( ) Erf , 2 2 2 где 2 Erf( ) y t x F x y e dt m s p - - æ ö = + × ç ÷ è ø = ò Для вычисления функции плотности вероятности логнормального распределения в Excel при условии, что требуемое значение x хранится в ячейке под именем Значение, используйте формулу =НОРМРАСП(LN(Значение);Средняя;СтандОткл;0), где Средняя и СтандОткл — имена ячеек, содержащих значения m и s. Значение функции логнормального распределения (вероятности того, что нормально распределённое случайное значение не превысит указанную ве- личину) вычисляется с помощью формулы =НОРМРАСП(LN(Значение);Средняя;СтандОткл;1). Определить величину, которую с заданной вероятностью не превысит нор- мально распределённое случайное значение, можно с помощью формулы =EXP(НОРМОБР(Вероятность;Средняя;СтандОткл)), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности. В MathCad для аналогичных целей используйте формулы dlnorm(x;m;s), plnorm(x;m;s) и qlnorm(p;m;s) соответственно, где используемые имена переменных имеют те же значения, что и в фор- муле плотности распределения. Гамма-распределение Гамма-распределение (рис. 8) описывает многие случайные величи- ны, распределённые на интервале [0; ¥). Оно представляет собой теорети- ческую модель суммы a независимых случайных величин, распределённых по экспоненциальному закону с одинаковым параметром, равным b. Функ- ция плотности гамма-распределения: 1 ( ) , ( ) x e p x x b a a b a - - = × ×G 56 где 1 0 ( ) – x x e dx a a ¥ - - G = ò гамма-функция, значение которой для целых чисел равно факториалу её аргумента, уменьшенного на единицу; e » 2,7182818 — основание нату- рального логарифма; a и b — параметры, которые можно определить, зная математическое ожидание m и дисперсию s 2 , по следующим формулам: 2 2 2 ; m s a b s m = = Источник: http://ru.wikipedia.org Рис. 8. Графики гамма-распределения. Частными случаями гамма-распределения являются экспоненциаль- ное распределение (при a = 1), распределение Эрланга (при натураль- ном a) и распределение c 2 для n степеней свободы (при a = n/2 и b = 2). 57 С помощью гамма-распределения можно (при наличии теоретиче- ских оснований) моделировать левоскошенные эмпирические распределе- ния на интервалах [c; ¥) и правоскошенные на интервалах (–¥; c], где c — произвольное действительное число. Для этого в формуле плотности распределения в первом случае x прибавляют к c, во втором — отнимают от c. В Excel плотность распределения вероятности гамма-распределения для значения, хранящегося в ячейке Значение, вычисляется с помощью формулы =ГАММАРАСП(Значение; Средняя^2/Дисперсия;Дисперсия/Среднее;0), где Средняя и Дисперсия — имена ячеек, содержащих соответствующие значения. Значение функции гамма-распределения (вероятности того, что случайное значение, распределённое по данному закону, не превысит ука- занную величину) вычисляется с помощью формулы =ГАММАРАСП(Значение; Средняя^2/Дисперсия;Дисперсия/Среднее;1), Определить величину, которую с заданной вероятностью не превысит слу- чайное значение, подчиняющееся гамма-распределению, можно с помощью формулы =ГАММАОБР(Вероятность; Средняя^2/Дисперсия;Дисперсия/Среднее), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности. В программе MathCad те же вычисления могут быть выполнены с помощью формул 2 2 2 2 m m m s s s æ ö × ç ÷ è ø x dgamma ; , 2 2 2 , m m s s x pgamma( ; ) 58 2 2 2 , m s a s m ×qnorm(p; ) где имена переменных соответствуют обозначениям в формуле плотности гамма-распределения. Бета-распределение Бета-распределение (рис. 9) определено на интервале [0; 1]. Оно является теоретической моделью случайной величины A/(A+B), завися- щей от двух других случайных величин A и B, каждая из которых подчи- няется гамма-распределению. Часто бета-распределение является подхо- дящей моделью для величины, представляющей собой долю (или процент) от целого — например, доли пашни в сельхозугодьях или степени исполь- зования производственного потенциала. Источник: http://ru.wikipedia.org Рис. 9. Графики бета-распределения. 59 Плотность бета-распределения задаётся функцией 1 1 1 1 1 0 (1 ) ( ) , (1 ) x x p x x x dx a b a b - - - - - = - ò где a и b — параметры, которые можно определить, зная математическое ожидание m и дисперсию s 2 , по следующим формулам: 2 3 2 2 2 2 ( 1) ; 1. m m m m a m b m s s s × - = - - = + - Равномерное распределение является частным случаем бета- распределения при a=1 и b=1. Бета-распределение может быть использовано (при наличии теоре- тических оснований) для моделирования случайных величин, распределён- ных на произвольном отрезке [a; b], где a и b имеют содержательную ин- терпретацию 1 . Для этого нужно перенормировать исходную случайную ве- личину y, распределённую на [a; b], по следующему правилу: x = (y–a)/(b–a). В Excel для вычисления плотности бета-распределения потребуется писать функцию на VBA. Функция бета-распределения может быть вычис- лена с помощью формулы =БЕТАРАСП(Значение;Альфа;Бета;Начало;Конец), где в ячейке под именем Значение хранится значение случайной величи- ны y, в ячейке Альфа — параметр a, в ячейке Бета — параметр b, в ячейке Начало — значение a, в ячейке Конец — значение b. Перенор- мирование величины y производится автоматически. Определить значение y по заданной веротяности того, что оно не будет превышено (предположим, оно записано в ячейку под именем Веро- ятность), можно с помощью формулы =БЕТАОБР(Вероятность;Альфа;Бета;Начало;Конец). 1 Например, если коровы массой менее 400 и более 520 кг выбраковываются из основного стада, то при проверке гипотезы о согласии распределения живой массы ко- ров с бета-распределением значения a=400, b=520 будут приняты обоснованно. Если же верхняя граница массы для выбраковки не установлена, достаточных оснований для моделирования эмпирического распределения живой массы с помощью бета- распределения нет. 60 Встроенные функции MathCad не предусматривают перенормирова- ние случайной величины — оно должно быть выполнено заранее. Плот- ность бета-распределения вычисляется с помощью формулы dbeta(x;a;b), где обозначения соответствуют использованным в формуле плотности рас- пределения. Вероятность непревышения заданной величины определяется по формуле pbeta(x;a;b), а обратное вычисление — qbeta(p;a;b), где переменная p содержит пороговую вероятность. Поскольку результат представляет собой перенормированное значение, получить исходное зна- чение y можно при помощи следующей формулы: qbeta(p;a;b)·(b–a)+a, полагая, что границы a и b хранятся в одноимённых переменных програм- мы MathCad. 2. Проверка согласованности эмпирического и теоретического распределений с помощью критерия c 2 Как правило, критерий c 2 имеет практическое значение для сово- купностей численностью не менее 40 наблюдений. Для применения данно- го критерия интервал вариации случайной величины разбивается на непе- ресекающиеся классы. О согласии теоретического и эмпирического рас- пределений судят по наблюдаемым различиям в частоте попадания наблю- дений в каждый класс по сравнению с частотой, которая должна бы была иметь место, если бы распределение в точности соответствовало теорети- ческому. Если различия настолько велики, что с достаточно высокой веро- ятностью 1 (обычно в экономических исследованиях требуют, чтобы она 1 Эту пороговую вероятность называют уровнем доверия, или доверительной вероятностью. 61 была не менее 95%, при остром недостатке данных — не менее 90% 1 ) не могли бы возникнуть, если бы распределение случайной величины соот- ветствовало предполагаемому закону, — гипотезу о согласии эмпириче- ского распределения с выбранным теоретическим отвергают. В противном случае считают, что расхождение с предлагаемой тео- ретической моделью не доказано с достаточной степенью надёжности; а значит, нет оснований ставить под сомнение те теоретические соображе- ния, на основе которых выдвинута гипотеза о законе распределения — по крайней мере, до тех пор, пока новые, более полные, данные не придут в противоречие с нею. Выдвигая гипотезу о распределении, принимают во внимание сле- дующие сведения (в меру их доступности): ¨ область определения случайной величины; ¨ происхождение данной случайной величины; ¨ моменты распределения и их соотношение; ¨ форму гистограммы; ¨ результаты моделирования данной случайной величины, полу- ченные другими исследователями; ¨ аналогии с другими случайными величинами, распределение ко- торых установлено; ¨ численность наблюдений. В качестве области определения случайной величины не следует принимать наблюдаемый диапазон вариации (иначе у нас никогда не ока- залось бы оснований для использования нормального распределения). Её определяют исходя из сущности процесса или явления, отражаемого слу- чайной величиной. Например, урожайность культуры не может быть ниже нуля; существует также её объективный верхний предел, зависящий от массы гумуса в почве. Поэтому для её моделирования может подойти ка- кое-либо распределение, определённое на интервале [0; b] — например, бета или (при недостатке данных) треугольное. При этом величину b, раз она неизвестна, можно определить подбором, добиваясь наилучшего согла- сия опытных данных с теоретическим распределением. Можно ли использовать для моделирования урожайности, напри- мер, гамма-распределение? Очевидно, что в действительности урожайность не может соответствовать этому распределению, так как она в принципе не может быть сколь угодно большой. Но с некоторой степенью грубости 1 В последнем случае результаты обычно требуют перепроверки с привлечени- ем новых наблюдений. 62 гамма-распределение может оказаться практически приемлемой моделью, если оценённая по гамма-распределению (то есть теоретическая) вероят- ность значений урожайности, превышающих фактически наблюдаемые, пренебрежимо мала. То же касается нормального распределения, но тогда пренебрежимо мала должна быть также теоретическая вероятность отри- цательных значений урожайности. Последнее часто не выполняется. Если, кроме наблюдений, нет никаких оснований для выбора рас- пределения, то следует отдавать предпочтение самым простым распреде- лениям с наименьшим числом параметров. Если к тому же наблюдения малочисленны, лучше пользоваться такими распределениями, как равно- мерное и треугольное. Результаты, полученные при подобных обстоятель- ствах, требуют перепроверки в дальнейшем. Параметры гипотетических распределений, если только они не из- вестны заранее из теоретических соображений, определяют, когда воз- можно, на основе моментов эмпирического распределения (средней и дис- персии) 1 , а когда невозможно — подбором. После того, как гипотеза сформулирована, можно приступать к её проверке. Процедура проверки по критерию c 2 предполагает следующие этапы: ¨ разбиение интервала вариации на непересекающиеся классы; ¨ определение численности наблюдений эмпирического распреде- ления, приходящихся на каждый класс; ¨ определение теоретической численности наблюдений в соответ- ствии с выбранной моделью случайной величины; ¨ расчёт значения критерия c 2 ; ¨ определение критического уровня c 2 для заданной доверительной вероятности; ¨ сравнение фактического и критического значений c 2 и заключе- ние о том, следует ли отвергнуть предложенную теоретическую модель распределения случайной величины. Рассмотрим каждый из этих этапов. Считается, что практически приемлемый компромисс между чис- ленностью классов и численностью наблюдений в каждом классе достига- ется, если число классов определять по формуле , N где N — число на- блюдений, а ширину классов принимают равной. Чтобы обеспечить прием- лемую вероятность ошибки при расчёте значения c 2 , необходимо следить 1 См. формулы для определения значений параметров распределений при из- вестных средней и дисперсии в Приложении 1. 63 за тем, чтобы как фактическая, так и теоретическая численность наблюде- ний в каждом классе была не меньше 6…8. Если это не выполняется, ма- лочисленные классы объединяют; при этом численность классов не долж- на оказаться меньше пяти. В случае невыполнимости этих требований критерию c 2 доверять нельзя 1 . Если данная процедура порождает очень много пустых классов, а случайная величина строго положительна, то це- лесообразно перейти к исследованию распределения её логарифмов. Численность наблюдений, относящихся к каждому классу, обычно определяется по ранжированному ряду наблюдаемых данных с помощью функции Excel =СЧЁТЕСЛИ(Ряд,Условие). Теоретическая численность наблюдений для каждого класса опреде- ляется как (F(x 2 ) – F(x 1 ))·N, где F(·) — функция выбранного теоретическо- го распределения , N — число имеющихся наблюдений, x 2 и x 1 — соответ- ственно верхняя и нижняя границы класса. Значение критерия c 2 рассчитывается по формуле 2 1 ( ) , k i i i i n n n = ¢ - ¢ å где k — число классов, n i — число фактических наблюдений в классе i, n' i — теоретическая численность наблюдений в классе i. При различных разбиениях на классы значение c 2 оказывается различным, но при выпол- нении требований к числу наблюдений всего и в каждом классе, сформу- лированных выше, вероятность статистически существенных различий не- велика. Критическое значение может быть определено с помощью формулы Excel =ХИ2ОБР(1-УровеньДоверия;СтепениСвободы), где в ячейке УровеньДоверия содержится требуемая доверительная ве- роятность (выраженная в долях, а не в процентах), а в ячейке СтепениСвободы — величина, равная числу классов за вычетом увели- ченного на единицу числа параметров теоретического распределения, оп- ределённых с использованием эмпирических данных. В MathCad аналогич- ный расчёт выполняется с помощью формулы 1 В учебных заданиях данного практикума разрешается смягчать эти требова- ния в соответствии с указаниями преподавателя, обязательно отмечая в отчёте, что ре- зультат проверки гипотезы о согласии теоретического и эмпирического распределений недостоверен по причине недостаточной численности имеющихся наблюдений. 64 qchisq(1-УровеньДоверия;СтепениСвободы). Если значение c 2 превышает критическое, гипотезу о согласии рас- пределений отвергают с выбранным уровнем доверия. В противном слу- чае гипотеза не отвергается (что, разумеется, не означает её безуслов- ной истинности: быть может, этот результат случаен, а может, действи- тельное распределение мало отличается от гипотетического). Расчёты по проверке согласованности теоретического и эмпириче- ского распределений рекомендуется выполнять в таблице, строки которой (кроме итоговой) соответствуют классам, а столбцы — этапам вычисле- ний. В частности, в ней должны быть представлены величины n i , n' i и (n i – n' i ) 2 /n' i |