Главная страница
Навигация по странице:

  • Статистическое имитационное моделирование случайных процессов методика и конкретная реализация Аннотация

  • Постановка исследовательской задачи

  • Основная часть

  • IV Этап. Закон и параметры распределения остатков

  • V Этап. Построение итоговой модели

  • Анализ. 768. Теория измерений и анализ данных. 4 Всеросс. социолог. Статистическое имитационное моделирование случайных процессов методика и конкретная реализация


    Скачать 1.45 Mb.
    НазваниеСтатистическое имитационное моделирование случайных процессов методика и конкретная реализация
    АнкорАнализ
    Дата07.10.2019
    Размер1.45 Mb.
    Формат файлаpdf
    Имя файла768. Теория измерений и анализ данных. 4 Всеросс. социолог.конгр.pdf
    ТипДокументы
    #88890
    страница1 из 13
      1   2   3   4   5   6   7   8   9   ...   13

    IV Очередной Всероссийский социологический конгресс
    Социология и общество глобальные вызовы и региональное развитие
    4
    Секция Математическое моделирование и анализ данных в социологии
    Секция 4. Математическое моделирование и анализ данных в социологии
    2784
    Абдуллин АР, Уфа
    Статистическое имитационное моделирование случайных процессов методика и конкретная реализация
    Аннотация
    В статье описана методика построения имитационной модели для стохастических, социально-экономических процессов и рассмотрен начальный вариант ее компьютерной реализации на примере моделирования числа случайных алкогольных отравлений. Модель построена на основе статистических данных по Республике
    Башкортостан за период 1996-2010 гг..
    Ключевые слова случайный процесс, прогнозирование, имитационное моделирование, численные методы, математическое моделирование, метод
    Монте-Карло, генератор случайных чисел, тренд, ряды Фурье, остатки, условия
    Маркова-Гаусса
    Постановка исследовательской задачи
    Многие социально-экономические процессы являются случайными или могут быть рассмотрены как таковые. Например, финансовые рынки, образование очередей, распределение продаж, количества клиентов по часам, дням недели, месяцами т. п. Корреляционно-регрессионный анализ, проведенный по статданным Республики Башкортостан [1], показал, что, во-первых, на такой социальный показатель как ожидаемая продолжительность жизни, помимо экономических факторов, влияют также несчастные случаи и болезни во-вторых часть из них являются случайными величинами, характеризуемыми своими законами распределения. Так, числа умерших от алкогольных отравлений, утоплений и болезней новообразований имеют нормальное распределение, а от несчастных случаев на транспорте и болезней органов дыхания – логарифмически- нормальное Можно ли каким-то образом спрогнозировать значения подобных случайных величин Можно. Современная наука предлагает два подхода
    1) математический и 2) эконометрический. Чисто математический подход
    Секция 4. Математическое моделирование и анализ данных в социологии
    2785
    основан на так называемой теории случайных функций [3], [11] и чаще всего используется в физических и инженерных расчетах. Например, задача определения среднего времени, в течение которого электростанция не в состоянии обеспечить заявки потребителей тока вследствие случайных колебаний потребной мощности, или определения запаса прочности детали, работающей под воздействием случайной нагрузки и т. пс Решение таких задач чаще всего предполагает, что имеется корреляционная функция выраженная в аналитическом (!) виде, а непросто дан ее график
    (коррелограмма). Во втором случае, В эконометрии принято моделировать временной ряд как случайных процесс, называемый также стохастическим процессом, под которым понимается статистическое явление, развивающееся во времени согласно законам теории вероятностей [13, с. 348]. Эконометрический метод основан на построении разностных уравнений, известных как модель Бокса-Дженкинсона [4], и реализована в так называемой модели ARMA; в переводе эта аббревиатура означает
    авторегрессионный процесс скользящего среднего. Характерной особенностью стационарных процессов типа ARMA (p, q) является то, что корни ¾
    i характеристического уравнения
    ϕ
    (L)=0 находятся вне единичного круга. Если один или несколько корней лежат на единичной окружности или внутри нее, то процесс нестационарен. Теоретически можно предположить многоразличных типов нестационарных моделей ARMA (p, q), однако, как показывает практика, наиболее распространенным типом нестационарных стохастических процессов являются интегрированные процессы или, каких еще называют, процессы с единичным корнем. Единичным называют корень характеристического уравнения, равный действительной единице
    λ
    i
    = 1»
    [13, с. 463]. Эконометрические модели предполагают обязательное построение коррелограммы, те. графика автокорреляционной функции. Оба подхода, указанные выше, требуют незаурядного знания математического аппарата. В первом случае мы можем столкнуться со сложнейшими уравнениями математической физики, например с широко известными первыми вторым уравнением Колмогорова (уравнения Фоккера–
    Планка–Колмогорова). Однако, в этом случае, даже для профессиональных математиков решение уравнений Колмогорова может представлять сравнительную сложную задачу [11, с. 260]. Относительно эконометрии, отмечается следующее Традиционные модели временных рядов, такие как модель ARMA, не могут адекватно учесть все характеристики, кото-
    ARMA, не могут адекватно учесть все характеристики, кото-
    , не могут адекватно учесть все характеристики, которыми обладают финансовые временные ряды, и требуют расширения. Одна из характерных особенностей финансовых рынков состоит в том, что присущая рынку неопределенность изменяется во времени [13, с.
    523]. Так прогноз индекса акций «Moscow Times» с помощью модели
    ARIMA (были взяты ежедневные котировки с 1997 по г. те значений) показывает, что Сами прогнозируемые значения остаются постоянными после первого шага, в то время как ширина доверительного интервала прогноза увеличивается. Как и ожидалось, эта модель не является эффективным инструментом для построения долгосрочных прогнозов российского финансового рынка [8, с. 421]. Иными словами, имея данные залет, можно сделать прогноз на 1 шаг, что означает всего лишь 1 день
    Секция 4. Математическое моделирование и анализ данных в социологии
    2786
    Фактически же наличие нестационарности вызывает непреодолимые математические сложности в обоих случаях. Возникает вопрос нельзя ли как то обойти эти сложности Существуют ли методы, которые можно применить для решения задач, которые не решаются обычными аналитическими (математическими) методами Такие методы существуют, ив первую очередь это численные (вычислительные) методы, те. основанные на вычислительной технике. При использовании этих методов, сложность решаемой задачи преодолевается за счет большого количества однотипных вычислений причем, чем больше вычислений, тем точнее результат (решение. Применительно к нашей задаче – прогнозирования социально-экономических процессов – такой метод получил название статистического имитационного моделирования как будет показано ниже, этот метод основан на использовании вычислительной мощи ЭВМ, за счет чего как рази преодолеваются непреодолимые математические сложности. Поскольку имитационное моделирование с одной стороны это сочетание вычислительной техники, теории вероятности и статистики, с другой – для получения информации (результатов) предполагает прогон построенной имитационной модели с последующей статистической оценкой полученных на ней результатов, то такое моделирование также называют статистическим имитационным.
    Основная часть
    Имитационное моделирование это не панацея, а лишь крайнее средство. Там где задачу можно решить аналитически, например, используя указанные выше два подхода, то лучше таки поступить. Основное назначение имитации – это экспериментирование с моделью реальной системы. Для чего это нужно Одной из классических работ в области имитационного моделирования является работа американского специалиста Роберта Шеннона
    Имитационное моделирование систем – искусство и наука, где утверждается, что все имитационные модели представляют собой модели типа так называемого черного ящика
    [14, с. 22]. Можно согласится с позицией Е.К. Масловского (редактора перевода указанной работы, что среди методов прикладного системного анализа имитационное моделирование является, пожалуй, самым мощным инструментом исследования сложных систем, управление которыми связано с принятием решений в условиях неопределённости» там же, с. 5]. Эти две цитаты приведены для того, чтобы еще раз напомнить, что прогнозируя социально-эконмические процессы мы имеем дело с черным ящиком и должны действовать в условиях неопределенности. Иначе говорят. е. переходя на язык эконометрии если мы имеем процессы нес единичным корнем, то мы вынуждены обратиться к крайнему средству – имитационному моделированию
    Секция 4. Математическое моделирование и анализ данных в социологии
    2787
    Для того чтобы сымитировать случайный процесс надо применить метод Монте-Карало
    , который как пишет Р. Шеннон, является основным принципом моделирования систем, содержащих стохастические или вероятностные элементы [14, си который, в силу своей успешности, для многих специалистов стал даже синонимом термина имитационное моделирование там же. Суть этого метода состоит в том, что данные для опыта вырабатываются искусственно при помощи генератора случайных чисел в сочетании с предварительно выявленной функцией распределения вероятностей для исследуемого процесса. Своего рода классическим примером применения метода Монте-Карло является Задача о пьяном прохожем Пьяный, стоя на углу улицы, решает прогуляться, чтобы разогнать хмель. Пусть вероятности того, что достигнув очередного перекрёстка, он пойдет на север, юг, восток или запад, одинаковы. Какова вероятность того, что, пройдя 10 кварталов, пьяный окажется не далее двух кварталов от места, где он начал прогулку там же, с. Итак, рассмотрим какой-нибудь конкретный социальный стохастический процесс, например, число умерших от несчастных случаев, в частности от отравлений алкоголем по Республике Башкортостан за период 1996-2010 гг. Используя официальные статистические данные, построим график этого процесса (см. рис. 1). y = -0,3193x + 10,948
    R² = 0,3013 0
    2 4
    6 8
    10 12 14 16 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 на 100 000 чел Случайные отравления алкоголем
    Рис. 1. Число умерших от случайных отравлений алкоголем в РБ за период 1996-2010 гг.
    На этом рисунке представлены две кривые сам процесс и его тренд – прямая линия (на рисунке указано также и уравнение этой прямой. Квадрат коэффициента детерминации R
    2
    =0,301 говорит о том, что прямая
    Секция 4. Математическое моделирование и анализ данных в социологии
    2788
    линия лишь на 30% описывает этот процесс, и это уже первый сигнал, указывающий на то, что мы имеем дело со случайным процессом. (Более важными по сути, основным является показание автокорреляционной функции, анализ которой здесь опущен для простоты изложения. Ставится задача сделать прогноз такого рода случайного явления на последующие годы.
    Если строгий аналитический подход не дает удовлетворительного результата, то мы вынуждены перейти к имитационной модели. При этом будем считать (это наше допущение) что, любой нестационарный случайный процесс y(t), можно представить в виде y(t) = A(t) x(t), где x(t) – нелинейная функция стационарного случайного процесса, A(t) – детерминированный множитель. Иными словами, такой процесс относится к нестационарным случайным процессам, выборочные функции которых обладают общим детерминированным трендом» [3, с. 25]. Такое допущение вполне оправдано для нашего случая, т. к. моделирование случайного процесса будет осуществляться методом Монте-Карло.
    Как исходя из этих положений можно построить имитационную модель В данной работе будут рассмотрены основные этапы первой части построения модели – математическая модель, и только отчасти второй (вторая часть – написание компьютерной программы третья – проведение статистических испытаний. Забегая вперед можно отметить, что первые три этапа (первой части) не представляют собой особой сложности и широко используются в задачах прогнозирования. Поскольку мы исходим из крайнего случая, а именно полагаем, что рассматриваемый процесс имеет сложный нелинейный характер, то для его моделирования, получения аналитической функции, воспользуемся анализом Фурье [10, с.
    193]. Итак, построение математической модели осуществим в пять этапов. Поскольку целью исследования является построение имитационной модели, то наш текст будем сопровождать соответствующими иллюстрациями этой модели Этап. Удаление тренда

    По имеющимся статданным, используя метод наименьших квадратов (МНК), оценим и удалим тренд. Иными словами, на этом этапе мы получаем уравнение прямой x = a + bt уравнение тренда, о чем уже говорилось выше. Поэтому уравнению находим значения тренда, те. теоретические (вычисленные) значения и вычитаем их из эмпирических данных (наших статданных). Полученная при этом разница называется остатками (по сути это ошибки расчета. Полученному уравнению на графике соответствует прямая линия, те. это тренд рассматриваемого процесса (см. рис. На этом рисунке, как и на последующих, в левой части указаны все необходимые параметры моделирования, в частности здесь указаны годы с 1996 по 2014 гг.) и коэффициенты (a,b) уравнения прямой линии
    Секция 4. Математическое моделирование и анализ данных в социологии
    2789
    Рис. 2. Уравнение тренда
    II Этап. Анализ Фурье
    Для полученных остатков, используя ряды Фурье, подберём соответствующую кривую, которая будет иметь следующий вид ; где a
    0
    и b
    0
    – коэффициенты Фурье x – время (t = 1,2,3 …); n – номер гармоники
    L – число испытаний (наблюдений) (кратно к. Число испытаний – это количество имеющихся статданных; оно должно быть равным только 1, 2, 4, 8, 16, 32 и т. д. Это связано стем, что такой подход упрощает расчет коэффициентов Фурье. Расчет этих коэффициентов можно выполнить в Excel. Количество гармоник исследователь определяет индивидуально. Считается, что для анализа социально-экономических процессов, можно ограничиться первыми четырьмя гармониками. На графике полученному уравнению (поли- гармоническая функции) соответствует кривая, имеющая нелинейный вид (см. рис. 3).
    Секция 4. Математическое моделирование и анализ данных в социологии
    2790
    Рис. 3. Сумма двух первых гармоник (анализ рядов Фурье Этап. Анализ остатков

    Еще раз повторим операции первого этапа. По вновь полученному уравнению вычислим теоретические значения и вычтем их из остатков, на основе которых было получено это уравнение Фурье. Таким образом, мы второй раз получим остатки. Напомним, что остатки – это разница между фактическими статданными и теми расчетными значениями, что предсказывает наша теория если же остатки включают в уравнение регрессии, то тогда их называют случайным членом. При традиционном аналитическом подходе на этом построение модели заканчивают и переходят к определению ошибки прогноза (среднеквадратичному отклонению где y*
    – расчетные (теоретические) значения y
    – фактические значения k
    – число степеней свободы L
    – число наблюдений (испытаний)
    [10, с. 196].
    Секция 4. Математическое моделирование и анализ данных в социологии
    2791
    Но можно ли на этом останавливаться, будет ли это компетентным анализом Вот что поэтому поводу пишет автор одного из самых популярных на Западе учебников эконометрики, К. Доугерти: В самом деле, для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова. Не будет преувеличением сказать, что именно понимание важности этих условий отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты [6, с. 79–80]. Условия Гаусса-Маркова сводятся к следующим) математическое ожидание (среднее значение) случайного члена остатков) должно быть равным нулю 2) дисперсия случайного члена должна быть постоянной 3) отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях 4) объясняющие переменные не являются стохастическими. При этом предполагается, что остатки подчиняются нормальному распределению. Будут ли полученные в результате анализа остатки подчинятся этим условиям Ответ на этот вопрос является решающим для проверки адекватности полученной модели. Таким образом, – пишут крупнейшие американские специалисты по регрессионному анализу, – если подбираемая нами модель правильная, то остатки будет проявлять тенденцию к подтверждению сделанных предположений или по меньшей мере не будут противоречить им. Именно эта идея лежит в основе исследования остатков мы должны сформулировать вопрос Не показывают ли остатки, что наши предположения ошибочны [7, с. 187]. Неслучайно, в этой работе ана-
    7, с. 187]. Неслучайно, в этой работе анализу остатков посвящена целая глава (Глава 3. Исследование остатков. Все дело в том, что чаще всего, остатки не проявляют тенденцию к подтверждению и ситуацию исправить невозможно. Это говорит о том, что мы не можем получить удовлетворительную аналитическую зависимость для исследуемого случайного процесса. Но что нам нужно в конечном счете аналитическая зависимость или же все-таки прогноз Прогноз.
    IV Этап. Закон и параметры распределения остатков
    Чтобы получить прогноз исследуемого процесса, нужно поступить иначе. Если остатки не подчиняются условиям (Гаусса-Маркова) и нет возможности заставить их подчинится, те. невозможно найти такую формулу, которая адекватно представляла бы исследуемый процесс, то тогда эти остатки надо смоделировать. Дав этом случае, мы не сможем получить аналитическую зависимость, номы сможем получить прогнозное значение, а это то, что нам как рази нужно. В этом состоит суть метода
    Секция 4. Математическое моделирование и анализ данных в социологии
    2792
    Монте-Карло. Хотя этот метод не позволяет получить формулу, но позволяет выявить наиболее вероятное значение для исследуемого случайного процесса. Поскольку остатки являются случайными величинами, то для их характеристики нужно сначала выявить а) по какому закону они распределены б) параметры этого распределения. Если имеются соответствующие данные, то сделать это несложно. Например, для нормального распределения (что имеет место в подавляющем большинстве случаев) надо определить среднее значение (математическое ожидание) и среднеквадратичное отклонение (
    σ
    ).
    V Этап. Построение итоговой модели
    Рассматривая модель как аддитивную, сложим значения полученные на I и II этапах. Результат такого сложения представлен на рис. Рис. 4. Уравнение тренда и две гармоники
    Если статданных было использовано много, то можно ограничиться последними (10 – 20 вполне достаточно затем нужно добавить к ним столько значений, насколько шагов мы хотим сделать прогноз. Поясним это на нашем примере. У нас имеются статданные за период 1996-2010 гг., теза лети нам нужно дать прогноз на последующие 4 года, те. до
    Секция 4. Математическое моделирование и анализ данных в социологии 2014 г. По формулам, полученным на I и II этапах надо вычислить значения за период 1996 –2014 гг. Затем по параметрам, полученным на IV этапе, в каждой из этих 19 точек нужно сгенерировать случайные величины. Таким образом, для исследуемого процесса мы будем иметь а) 15 значений фактических статданных; б) 15 + 4 значений, полученных как теоретически, таки сгенерированных случайным образом. В результате мы получим кривую сгенерированную случайным образом, один из вариантов которой представлен на рис. Рис. 5. Итоговая модель (уравнение тренда, гармоники и случайная величина)
    После этого сравним эти значения по общим для них 15 точкам. Если значения совпадают (коррелируют, то можно предполагать, что наша имитационная модель адекватна реальному процессу и, следовательно, полученные четыре прогнозных значения могут иметь место. Если же значения не совпадают, то будем генерировать их до тех пор, пока они не совпадут. Современная вычислительная техника позволяет проделать это сотни тысяч раз. Для повышения точности прогноза, нужно иметь как можно больше совпавших значений. Однако проведение статистических испытаний и их оценка, это уже последующие части исследования.
    Секция 4. Математическое моделирование и анализ данных в социологии
    2794
      1   2   3   4   5   6   7   8   9   ...   13


    написать администратору сайта