Главная страница
Навигация по странице:

  • Экспоненциальное распределение

  • Распределение Пуассона

  • Логнормальное распределение

  • Гамма-распределение

  • Бета-распределение

  • 2. Проверка согласованности эмпирического и теоретического распределений с помощью критерия

  • Практикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике


    Скачать 0.65 Mb.
    НазваниеПрактикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике
    Дата23.12.2022
    Размер0.65 Mb.
    Формат файлаpdf
    Имя файлаtssa2.pdf
    ТипПрактикум
    #861229
    страница5 из 6
    1   2   3   4   5   6
    Треугольное распределение
    Треугольное распределение (рис. 4) не характерно для случайных величин, описывающих экономические, социальные и природные процес- сы
    1
    . Однако оно может оказаться подходящим приближением к реальному распределению при следующих условиях:
    ¨ диапазон вариации случайной величины x заключён между зна- чениями a и b, каждое из которых имеет интерпретацию в терминах ис- следуемого процесса (подобно тому, как температура воды при атмосфер- ном давлении может быть распределена между 0 и 100°C);
    ¨ есть основания считать, что при x ® a и при x ® b плотность вероятности стремится к нулю;
    ¨ известно модальное значение случайной величины, равное c;
    ¨ среднее значение отличается от величины (а+b+c)/3 несущест- венно;
    ¨ дисперсия исследуемой случайной величины отличается от вели- чины
    2 2
    2
    (
    ) (
    )
    18
    a
    b
    c
    ab bc ac
    +
    +
    -
    +
    +
    несущественно.
    1
    За исключением тех редких случаев, когда оно оказывается частным случаем бета-распределения.

    49
    Обычно треугольное распределение оказывается приемлемой моде- лью только при малом числе наблюдений случайной величины. Принятие гипотезы о треугольном распределении, как правило, означает недостаточ- ную степень изученности моделируемой случайной величины, но может оказаться лучшей гипотезой из всех, которые не могут быть отвергнуты на имеющихся опытных данных.
    Источник: http://en.wikipedia.org
    Рис. 4. График треугольного распределения.
    Функция плотности вероятности равномерного распределения:
    2(
    )
    ,
    [ ; ];
    (
    )(
    )
    ( )
    2(
    )
    ,
    ( ; ],
    (
    )(
    )
    x a
    x
    a c
    b a c a
    p x
    b x
    x
    c b
    b a b c
    -
    ì
    Î
    ï -
    -
    ï
    = í
    -
    ï
    Î
    ï -
    -
    î
    где x — значение случайной величины , a и b — границы множества её значений, c — модальное (наиболее часто встречающееся) значение.
    Функция треугольного распределения:
    2 2
    (
    )
    ,
    [ ; ];
    (
    )(
    )
    ( )
    (
    )
    1
    ,
    ( ; ].
    (
    )(
    )
    x a
    x
    a c
    b a c a
    F x
    b x
    x
    c b
    b a b c
    ì
    -
    Î
    ï
    -
    -
    ï
    = í
    -
    ï -
    Î
    ï
    -
    -
    î
    50
    Математическое ожидание случайной величины, распределённой по треугольному закону, равно (a+b+с)/3; дисперсия составляет
    2 2
    2
    (
    ) (
    )
    18
    a
    b
    c
    ab bc ac
    +
    +
    -
    +
    +
    Экспоненциальное распределение
    Экспоненциальное распределение (рис. 5) является теоретической моделью случайной величины, представляющей собой время, проходящее между независимыми однородными случайными событиями, вероятность наступления которых в единицу времени постоянна. Эта величина распре- делена на интервале [0; ¥). Помимо области определения, признаком экс- поненциального распределения является отсутствие существенного разли- чия между средним значением случайной величины и её среднеквадрати- ческим отклонением.
    Экспоненциальное распределение является частным случаем гамма- распределения.
    Функция плотности вероятности экспоненциального распределения:
    1
    ( )
    ,
    x
    p x
    e
    m
    m
    -
    =
    где x — значение случайной величины, m — её математическое ожидание,
    e » 2,7182818 — основание натурального логарифма.
    Функция экспоненциального распределения:
    ( ) 1
    x
    F x
    e
    m
    -
    = -
    В Excel плотность распределения вероятности экспоненциального распределения для значения, хранящегося в ячейке Значение, вычисля- ется с помощью формулы
    =ЭКСПРАСП(Значение;1/Средняя;0), где Средняя и Дисперсия — имена ячеек, содержащих соответствующие значения. Значение функции экспоненциального распределения (вероятно- сти того, что нормально распределённое случайное значение не превысит указанную величину) вычисляется с помощью формулы
    =ЭКСПРАСП(Значение;1/Средняя;1).

    51
    Определить величину, которую с заданной вероятностью не превысит экс- поненциально распределённое случайное значение, можно с помощью формулы
    =ГАММАОБР(Вероятность;1;Средняя), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности.
    Источник: http://ru.wikipedia.org
    Рис. 5. Графики экспоненциального распределения.
    В программе MathCad те же вычисления могут быть выполнены с помощью формул dexp(Значение,1/Средняя),
    ,
    pexp(Значение,1/Средняя)
    ,
    qexp(Вероятность,1/Средняя)
    52 где Значение, Средняя и Вероятность — имена соответствующих пе- ременных.
    Распределение Пуассона
    Распределение Пуассона (рис. 6) является дискретным распределе- нием, моделирующим число независимых событий, происходящих в тече- ние заданного промежутка времени, если вероятность наступления каждо- го из них в течение периода данной продолжительности одна и та же. Оно тесно связано с экспоненциальным распределением, моделирующим дли- тельность промежутков времени между такими событиями.
    Источник: http://ru.wikipedia.org
    Рис. 6. Полигоны распределения Пуассона.
    Областью определения распределения Пуассона является множест- во целых неотрицательных чисел. Если случайная величина принимает дробные или отрицательные значения, её заведомо нельзя моделировать распределением Пуассона. Характерным признаком применимости распре- деления Пуассона в качестве модели случайной величины с заданным эм-

    53 пирическим распределением является отсутствие существенного различия между эмпирическими значениями средней и дисперсии.
    В соответствии с распределением Пуассона вероятность наступле- ния k событий в течение периода составляет
    ( )
    ,
    !
    k
    p k
    e
    k
    l
    l
    -
    =
    где l — параметр распределения, одновременно равный математическому ожиданию величины k и её дисперсии. Вероятность наступления k событий или менее (включая отсутствие события) вычисляется по формуле
    0
    ( )
    !
    x
    k
    x
    F k
    e
    k
    l
    l
    -
    =
    =
    å
    В Excel p(k) вычисляется с помощью формулы
    =ПУАССОН(ЧислоСобытий;Средняя;0), а F(k) — с помощью функции
    =ПУАССОН(ЧислоСобытий;Средняя;1), где в ячейках с именами ЧислоСобытий и Средняя хранятся значения k и l. Функции для вычисления k по заданной вероятности в Excel не пре- дусмотрено. Эту величину не составляет труда найти подбором либо напи- сав соответствующую функцию на VBA.
    В MathCad аналогичные вычисления производятся с помощью фор- мул dpois(ЧислоСобытий;Средняя), ppois(ЧислоСобытий;Средняя), qpois(Вероятность;Средняя), где ЧислоСобытий, Средняя и Вероятность — имена соответствующих переменных.
    Логнормальное распределение
    Логнормальное распределение (рис. 7) определено на интервале
    (0;¥). Если величина ln(x) подчиняется нормальному распределению, то
    x — логнормальному. Логнормальное распределение является теоретиче- ской моделью случайной величины, представляющей собой произведение
    54 константы и стремящегося к бесконечности количества случайных вели- чин (помех), распределённых по произвольным законам на интервале
    (0; ¥).
    Плотность вероятности логнормального распределения задаётся формулой
    2 2
    (ln
    ) /2 1
    ( )
    ,
    (0; ),
    2
    x
    p x
    e
    x
    x
    m
    s
    s
    p
    -
    -
    =
    Î
    ¥ где m — математическое ожидание величины ln(x), а s — её среднеквад- ратическое отклонение. Математическое ожидание самой величины x в со- ставляет
    2
    /2
    ,
    e
    m s
    +
    а дисперсия —
    2 2
    2
    (
    1)
    e
    e
    s
    m s
    +
    -
    Источник: http://ru.wikipedia.org
    Рис. 7. Графики логнормального распределения при m = 0.
    Функция логнормального распределения через элементарные функ- ции не выражается. Она записывается следующим образом:

    55 2
    0 1 1
    ln( )
    ( )
    Erf
    ,
    2 2 2
    где
    2
    Erf( )
    y
    t
    x
    F x
    y
    e dt
    m
    s
    p
    -
    -
    æ
    ö
    = + ×
    ç
    ÷
    è
    ø
    =
    ò
    Для вычисления функции плотности вероятности логнормального распределения в Excel при условии, что требуемое значение x хранится в ячейке под именем Значение, используйте формулу
    =НОРМРАСП(LN(Значение);Средняя;СтандОткл;0), где Средняя и СтандОткл — имена ячеек, содержащих значения m и s.
    Значение функции логнормального распределения (вероятности того, что нормально распределённое случайное значение не превысит указанную ве- личину) вычисляется с помощью формулы
    =НОРМРАСП(LN(Значение);Средняя;СтандОткл;1).
    Определить величину, которую с заданной вероятностью не превысит нор- мально распределённое случайное значение, можно с помощью формулы
    =EXP(НОРМОБР(Вероятность;Средняя;СтандОткл)), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности.
    В MathCad для аналогичных целей используйте формулы dlnorm(x;m;s), plnorm(x;m;s) и qlnorm(p;m;s) соответственно, где используемые имена переменных имеют те же значения, что и в фор- муле плотности распределения.
    Гамма-распределение
    Гамма-распределение (рис. 8) описывает многие случайные величи- ны, распределённые на интервале [0; ¥). Оно представляет собой теорети- ческую модель суммы a независимых случайных величин, распределённых по экспоненциальному закону с одинаковым параметром, равным b. Функ- ция плотности гамма-распределения:
    1
    ( )
    ,
    ( )
    x
    e
    p x
    x
    b
    a
    a
    b
    a
    -
    -
    =
    ×
    ×G
    56 где
    1 0
    ( )

    x
    x e dx
    a
    a
    ¥
    -
    -
    G
    =
    ò
    гамма-функция, значение которой для целых чисел равно факториалу её аргумента, уменьшенного на единицу; e » 2,7182818 — основание нату- рального логарифма; a и b — параметры, которые можно определить, зная математическое ожидание m и дисперсию s
    2
    , по следующим формулам:
    2 2
    2
    ;
    m
    s
    a
    b
    s
    m
    =
    =
    Источник: http://ru.wikipedia.org
    Рис. 8. Графики гамма-распределения.
    Частными случаями гамма-распределения являются экспоненциаль- ное распределение (при a = 1), распределение Эрланга (при натураль- ном a) и распределение c
    2
    для n степеней свободы (при a = n/2 и b = 2).

    57
    С помощью гамма-распределения можно (при наличии теоретиче- ских оснований) моделировать левоскошенные эмпирические распределе- ния на интервалах [c; ¥) и правоскошенные на интервалах (–¥; c], где
    c — произвольное действительное число. Для этого в формуле плотности распределения в первом случае x прибавляют к c, во втором — отнимают от c.
    В Excel плотность распределения вероятности гамма-распределения для значения, хранящегося в ячейке Значение, вычисляется с помощью формулы
    =ГАММАРАСП(Значение;
    Средняя^2/Дисперсия;Дисперсия/Среднее;0), где Средняя и Дисперсия — имена ячеек, содержащих соответствующие значения. Значение функции гамма-распределения (вероятности того, что случайное значение, распределённое по данному закону, не превысит ука- занную величину) вычисляется с помощью формулы
    =ГАММАРАСП(Значение;
    Средняя^2/Дисперсия;Дисперсия/Среднее;1),
    Определить величину, которую с заданной вероятностью не превысит слу- чайное значение, подчиняющееся гамма-распределению, можно с помощью формулы
    =ГАММАОБР(Вероятность;
    Средняя^2/Дисперсия;Дисперсия/Среднее), где Вероятность — имя ячейки, содержащей требуемое значение веро- ятности.
    В программе MathCad те же вычисления могут быть выполнены с помощью формул
    2 2
    2 2
    m
    m
    m
    s s
    s
    æ
    ö
    ×
    ç
    ÷
    è
    ø
    x dgamma
    ;
    ,
    2 2
    2
    ,
    m
    m
    s s
    x pgamma(
    ; )
    58 2
    2 2
    ,
    m
    s
    a
    s
    m
    ×qnorm(p;
    )
    где имена переменных соответствуют обозначениям в формуле плотности гамма-распределения.
    Бета-распределение
    Бета-распределение (рис. 9) определено на интервале [0; 1]. Оно является теоретической моделью случайной величины A/(A+B), завися- щей от двух других случайных величин A и B, каждая из которых подчи- няется гамма-распределению. Часто бета-распределение является подхо- дящей моделью для величины, представляющей собой долю (или процент) от целого — например, доли пашни в сельхозугодьях или степени исполь- зования производственного потенциала.
    Источник: http://ru.wikipedia.org
    Рис. 9. Графики бета-распределения.

    59
    Плотность бета-распределения задаётся функцией
    1 1
    1 1
    1 0
    (1
    )
    ( )
    ,
    (1
    )
    x
    x
    p x
    x
    x
    dx
    a
    b
    a
    b
    -
    -
    -
    -
    -
    =
    -
    ò
    где a и b — параметры, которые можно определить, зная математическое ожидание m и дисперсию s
    2
    , по следующим формулам:
    2 3
    2 2
    2 2
    (
    1)
    ;
    1.
    m
    m
    m m
    a
    m b
    m
    s
    s
    s
    ×
    -
    =
    -
    -
    =
    + -
    Равномерное распределение является частным случаем бета- распределения при a=1 и b=1.
    Бета-распределение может быть использовано (при наличии теоре- тических оснований) для моделирования случайных величин, распределён- ных на произвольном отрезке [a; b], где a и b имеют содержательную ин- терпретацию
    1
    . Для этого нужно перенормировать исходную случайную ве- личину y, распределённую на [a; b], по следующему правилу:
    x = (ya)/(ba).
    В Excel для вычисления плотности бета-распределения потребуется писать функцию на VBA. Функция бета-распределения может быть вычис- лена с помощью формулы
    =БЕТАРАСП(Значение;Альфа;Бета;Начало;Конец), где в ячейке под именем Значение хранится значение случайной величи- ны y, в ячейке Альфа — параметр a, в ячейке Бета — параметр b, в ячейке Начало — значение a, в ячейке Конец — значение b. Перенор- мирование величины y производится автоматически.
    Определить значение y по заданной веротяности того, что оно не будет превышено (предположим, оно записано в ячейку под именем Веро- ятность), можно с помощью формулы
    =БЕТАОБР(Вероятность;Альфа;Бета;Начало;Конец).
    1
    Например, если коровы массой менее 400 и более 520 кг выбраковываются из основного стада, то при проверке гипотезы о согласии распределения живой массы ко- ров с бета-распределением значения a=400, b=520 будут приняты обоснованно. Если же верхняя граница массы для выбраковки не установлена, достаточных оснований для моделирования эмпирического распределения живой массы с помощью бета- распределения нет.
    60
    Встроенные функции MathCad не предусматривают перенормирова- ние случайной величины — оно должно быть выполнено заранее. Плот- ность бета-распределения вычисляется с помощью формулы dbeta(x;a;b), где обозначения соответствуют использованным в формуле плотности рас- пределения. Вероятность непревышения заданной величины определяется по формуле pbeta(x;a;b), а обратное вычисление — qbeta(p;a;b), где переменная p содержит пороговую вероятность. Поскольку результат представляет собой перенормированное значение, получить исходное зна- чение y можно при помощи следующей формулы: qbeta(p;a;b)·(b–a)+a, полагая, что границы a и b хранятся в одноимённых переменных програм- мы MathCad.
    2. Проверка согласованности эмпирического и
    теоретического распределений с помощью
    критерия
    c
    2
    Как правило, критерий c
    2
    имеет практическое значение для сово- купностей численностью не менее 40 наблюдений. Для применения данно- го критерия интервал вариации случайной величины разбивается на непе- ресекающиеся классы. О согласии теоретического и эмпирического рас- пределений судят по наблюдаемым различиям в частоте попадания наблю- дений в каждый класс по сравнению с частотой, которая должна бы была иметь место, если бы распределение в точности соответствовало теорети- ческому. Если различия настолько велики, что с достаточно высокой веро- ятностью
    1
    (обычно в экономических исследованиях требуют, чтобы она
    1
    Эту пороговую вероятность называют
    уровнем доверия, или доверительной
    вероятностью.

    61 была не менее 95%, при остром недостатке данных — не менее 90%
    1
    ) не могли бы возникнуть, если бы распределение случайной величины соот- ветствовало предполагаемому закону, — гипотезу о согласии эмпириче- ского распределения с выбранным теоретическим отвергают.
    В противном случае считают, что расхождение с предлагаемой тео- ретической моделью не доказано с достаточной степенью надёжности; а значит, нет оснований ставить под сомнение те теоретические соображе- ния, на основе которых выдвинута гипотеза о законе распределения — по крайней мере, до тех пор, пока новые, более полные, данные не придут в противоречие с нею.
    Выдвигая гипотезу о распределении, принимают во внимание сле- дующие сведения (в меру их доступности):
    ¨ область определения случайной величины;
    ¨ происхождение данной случайной величины;
    ¨ моменты распределения и их соотношение;
    ¨ форму гистограммы;
    ¨ результаты моделирования данной случайной величины, полу- ченные другими исследователями;
    ¨ аналогии с другими случайными величинами, распределение ко- торых установлено;
    ¨ численность наблюдений.
    В качестве области определения случайной величины не следует принимать наблюдаемый диапазон вариации (иначе у нас никогда не ока- залось бы оснований для использования нормального распределения). Её определяют исходя из сущности процесса или явления, отражаемого слу- чайной величиной. Например, урожайность культуры не может быть ниже нуля; существует также её объективный верхний предел, зависящий от массы гумуса в почве. Поэтому для её моделирования может подойти ка- кое-либо распределение, определённое на интервале [0; b] — например, бета или (при недостатке данных) треугольное. При этом величину b, раз она неизвестна, можно определить подбором, добиваясь наилучшего согла- сия опытных данных с теоретическим распределением.
    Можно ли использовать для моделирования урожайности, напри- мер, гамма-распределение? Очевидно, что в действительности урожайность не может соответствовать этому распределению, так как она в принципе не может быть сколь угодно большой. Но с некоторой степенью грубости
    1
    В последнем случае результаты обычно требуют перепроверки с привлечени- ем новых наблюдений.
    62 гамма-распределение может оказаться
    практически приемлемой моделью, если оценённая по гамма-распределению (то есть теоретическая) вероят- ность значений урожайности, превышающих фактически наблюдаемые, пренебрежимо мала. То же касается нормального распределения, но тогда пренебрежимо мала должна быть также теоретическая вероятность отри- цательных значений урожайности. Последнее часто не выполняется.
    Если, кроме наблюдений, нет никаких оснований для выбора рас- пределения, то следует отдавать предпочтение самым простым распреде- лениям с наименьшим числом параметров. Если к тому же наблюдения малочисленны, лучше пользоваться такими распределениями, как равно- мерное и треугольное. Результаты, полученные при подобных обстоятель- ствах, требуют перепроверки в дальнейшем.
    Параметры гипотетических распределений, если только они не из- вестны заранее из теоретических соображений, определяют, когда воз- можно, на основе моментов эмпирического распределения (средней и дис- персии)
    1
    , а когда невозможно — подбором.
    После того, как гипотеза сформулирована, можно приступать к её проверке. Процедура проверки по критерию c
    2
    предполагает следующие этапы:
    ¨ разбиение интервала вариации на непересекающиеся классы;
    ¨ определение численности наблюдений эмпирического распреде- ления, приходящихся на каждый класс;
    ¨ определение теоретической численности наблюдений в соответ- ствии с выбранной моделью случайной величины;
    ¨ расчёт значения критерия c
    2
    ;
    ¨ определение критического уровня c
    2
    для заданной доверительной вероятности;
    ¨ сравнение фактического и критического значений c
    2
    и заключе- ние о том, следует ли отвергнуть предложенную теоретическую модель распределения случайной величины.
    Рассмотрим каждый из этих этапов.
    Считается, что практически приемлемый компромисс между чис- ленностью классов и численностью наблюдений в каждом классе достига- ется, если число классов определять по формуле
    ,
    N где N — число на- блюдений, а ширину классов принимают равной. Чтобы обеспечить прием- лемую вероятность ошибки при расчёте значения c
    2
    , необходимо следить
    1
    См. формулы для определения значений параметров распределений при из- вестных средней и дисперсии в Приложении 1.

    63 за тем, чтобы как фактическая, так и теоретическая численность наблюде- ний в каждом классе была не меньше 6…8. Если это не выполняется, ма- лочисленные классы объединяют; при этом численность классов не долж- на оказаться меньше пяти. В случае невыполнимости этих требований критерию c
    2
    доверять нельзя
    1
    . Если данная процедура порождает очень много пустых классов, а случайная величина строго положительна, то це- лесообразно перейти к исследованию распределения её логарифмов.
    Численность наблюдений, относящихся к каждому классу, обычно определяется по ранжированному ряду наблюдаемых данных с помощью функции Excel =СЧЁТЕСЛИ(Ряд,Условие).
    Теоретическая численность наблюдений для каждого класса опреде- ляется как (F(x
    2
    ) – F(x
    1
    ))·N, где F(·) — функция выбранного теоретическо- го распределения , N — число имеющихся наблюдений, x
    2
    и x
    1
    — соответ- ственно верхняя и нижняя границы класса.
    Значение критерия c
    2
    рассчитывается по формуле
    2 1
    (
    )
    ,
    k
    i
    i
    i
    i
    n
    n
    n
    =
    ¢
    -
    ¢
    å
    где k — число классов, n
    i
    — число фактических наблюдений в классе i,
    n'
    i
    — теоретическая численность наблюдений в классе i. При различных разбиениях на классы значение c
    2
    оказывается различным, но при выпол- нении требований к числу наблюдений всего и в каждом классе, сформу- лированных выше, вероятность статистически существенных различий не- велика.
    Критическое значение может быть определено с помощью формулы
    Excel
    =ХИ2ОБР(1-УровеньДоверия;СтепениСвободы), где в ячейке УровеньДоверия содержится требуемая доверительная ве- роятность (выраженная в долях, а не в процентах), а в ячейке
    СтепениСвободы — величина, равная числу классов за вычетом увели- ченного на единицу числа параметров теоретического распределения, оп- ределённых с использованием эмпирических данных. В MathCad аналогич- ный расчёт выполняется с помощью формулы
    1
    В учебных заданиях данного практикума разрешается смягчать эти требова- ния в соответствии с указаниями преподавателя, обязательно отмечая в отчёте, что ре- зультат проверки гипотезы о согласии теоретического и эмпирического распределений недостоверен по причине недостаточной численности имеющихся наблюдений.
    64 qchisq(1-УровеньДоверия;СтепениСвободы).
    Если значение c
    2
    превышает критическое, гипотезу о согласии рас- пределений
    отвергают с выбранным уровнем доверия. В противном слу- чае гипотеза
    не отвергается (что, разумеется, не означает её безуслов- ной истинности: быть может, этот результат случаен, а может, действи- тельное распределение мало отличается от гипотетического).
    Расчёты по проверке согласованности теоретического и эмпириче- ского распределений рекомендуется выполнять в таблице, строки которой
    (кроме итоговой) соответствуют классам, а столбцы — этапам вычисле- ний. В частности, в ней должны быть представлены величины n
    i
    , n'
    i
    и (n
    i

    n'
    i
    )
    2
    /n'
    i
    1   2   3   4   5   6


    написать администратору сайта