Анализ. 768. Теория измерений и анализ данных. 4 Всеросс. социолог. Статистическое имитационное моделирование случайных процессов методика и конкретная реализация
Скачать 1.45 Mb.
|
Библиографический список 1. Белотелов Н.В., Бродский Ю.И., Павловский ЮН. Сложность. Математическое моделирование. Гуманитарный анализ. М Книжный дом «ЛИБРОКОМ», 2009, 320 с. 2. Бродский Ю. И. ТОЛЕРАНТНОСТЬ, НЕТЕРПИМОСТЬ, ИДЕНТИЧНОСТЬ простейшие математические модели взаимодействия культур – Saarbr ü cken: LAP Lambert Academic Publishing, 2011, 68 с 3. Бродский Ю. И. Исследование процессов миграции с помощью математической модели взаимодействия культур // Сборник Моделирование, декомпозиция и оптимизация сложных динамических процессов / Отв. Ред. ЮН. Павловский. – М ВЦ РАН, 2011, С. 88-94. 4. Поспелов И.Г. Принцип рациональных ожиданий обзор концепций и примеры моделей. М ВЦ РАН, 2008, 79 с 5. Триандис Г.К. Культура и социальное поведение. М ФОРУМ, 2007, с Секция 4. Математическое моделирование и анализ данных в социологии 2815 Гаврилец ЮН, Москва Динамическая модель политического соперничества двух сил в обществе 1 Аннотация В работе предложена математическая модель взаимодействия двух противоположных политических сил в обществе в условиях идеологической борьбы. Модель реализована на компьютере в пакете MATHCAD на условных примерах. Ключевые слова социальные группы, установка, подражание, цепь Маркова, дифференциальные уравнения, вероятность перехода Социально-политическая поляризация в России за последние годы не перестаёт ослабевать. Всё большая часть населения оказывается втянутой в активную борьбу за свою политическую позицию. СМИ и взаимные контакты между людьми формируют эти позиции, зачастую вопреки реальным интересам людей и общества в целом – в силу действия социально- психологических законов подражания, иррациональности и стадности поведения больших масс людей [1]. В связи с этим построение и анализ математических и компьютерных моделей указанных процессов представляет оправданный интерес Рассматривается условное общество [3], состоящее из пяти взаимодействующих групп переменной численности y – численность малополитизированной (пассивной) группы численность политизированной группы «зелёных»; z– численность политизированной группы синих – численность активной группы «зелёных»; zz– численность активной группы синих. Общее количество участников в политической жизни фиксировано, так что выполняется баланс +xx+zz+y=N. Члены пассивной части населения имеют базовую социально- политическую установку, характеризующую склонность к поддержке «зелёных» (неподдержка синих, значения которой распределены на 1 Работа выполнена при поддержке РФФИ, грант №10-06-00362. Секция 4. Математическое моделирование и анализ данных в социологии 2816 действительной числовой оси согласно Гауссовому распределению сну- левым математическим ожиданием и дисперсией 2 σ [1]. Изменение этой установки на величину ψ описывается дифференциальным уравнением d ψ /dt =A(x-z)-a ψ , где А – коэффициент подражания большинству, и коэффициента характеризует скорость затухания приобретённого (положительного или отрицательного) подражательного довеска ψ . Величина ψ определяет вероятность перехода части пассивного населения в ту или иную поли- тизированную группу. Предполагается, что для конкретного пассивного индивида с установкой u+ ψ вероятность перейти в группу «зелёных» равна значению соответствующего интеграла вероятности с дисперсией 2 k . Можно показать, что доля пассивных, переходящих в момент t в полив полив поли- тизированную группу «зелёных», в этом случае будет равна где все коэффициенты считаются известными. Доля переходящих в синие выражается похожим образом: Здесь коэффициенты Ѱ 1 , Ѱ 2 показывают, какая доля из пассивных, но поддерживающих «зелёных» или синих, переходят в эти группы (x или Члены политизированных групп имеют установки e1, e2 , которые определяют вероятности их перехода в группу активной борьбы. Эти установки определяются в зависимости от соотношения численностей группа также под влиянием внешнего стандарта (пропаганда, СМИ и т. д. Их динамика описывается двумя дифференциальными уравнениями [4,5]. Таким образом, все три установки задаются уравнениями (в разностном виде Секция 4. Математическое моделирование и анализ данных в социологии 2817 где параметры A1, A2 суть коэффициенты подражания среднему мнению в среде политизированных групп; В1, В – коэффициенты влияния внешней пропаганды ЕЕ на установку члена группы. Численность политизированных групп меняется также вследствие непосредственных контактов между ними. Кроме того часть населения из активных борцов (xx, zz) переходит в более спокойные группы. В резуль- xx, zz) переходит в более спокойные группы. В резуль- , zz) переходит в более спокойные группы. В резуль- zz) переходит в более спокойные группы. В резуль- ) переходит в более спокойные группы. В результате мы получаем динамический процесс, описываемый приведёнными дифференциальными уравнениями изменений установок, а также некоторой марковской цепью для пяти численностей групп. Матрица P пере пере- переходных вероятностей равна: а динамика описывается соотношениями Секция 4. Математическое моделирование и анализ данных в социологии 2818 Параметры α 1, α 2, γ 1, γ 2, δ, ω , ρ , μ, φ обозначают доли переходящих из одних групп в другие. Величины cnorm(e/d) обозначают (из пакета MATHCAD) интеграл вероятности со среднеквадратическим отклонением 2 d , а φ cnorm(e/d) выражает вероятность соответствующего перехода в груп- (e/d) выражает вероятность соответствующего перехода в груп- e/d) выражает вероятность соответствующего перехода в груп- /d) выражает вероятность соответствующего перехода в груп- d) выражает вероятность соответствующего перехода в груп- ) выражает вероятность соответствующего перехода в группу активных действий при установке В пакете MATHCAD были произведены расчёты при разных ком были произведены расчёты при разных ком- были произведены расчёты при разных комбинациях значений параметров и получены разные варианты сходимости к устойчивому стационарному состоянию общей системы. Как нам представляется, главной особенностью данного подхода явилось объединение дифференциальных уравнений с цепью Маркова в единую модель. По-видимому, при наличии необходимой статистической информации с помощью подобной модели можно не только прогнозировать ход политической борьбы, но и управлять этим процессом. На рисунках ниже показаны отдельные траектории общего процесса смысл обозначений был указан в тексте). Рис. 1 Секция 4. Математическое моделирование и анализ данных в социологии 2819 Рис. На этих рисунках видно, что при заданных значениях параметров стационарные величины всех установок реализуются гораздо быстрее, чем значения численностей взаимодействующих групп. Библиографический список 1. Н.Рашевский, Две модели подражательное поведение и распределение статуса, в сборнике Математические методы современной буржуазной социологии, М, Мир, 1966. 2. Ю.Н.Гаврилец, К синтезу теории систем и кибернетики в экономике, М, 2009, Международная академия организационных наук, ротапринт ЦЭМИ РАН. 3. В.Л.Макаров, Социальный кластеризм, М, Бизнес Атлас, 2010. 4. Ю.Н.Гаврилец, Стохастическое моделирование межгрупповых информационных взаимодействий, ЭММ, №2, 2003. 5. W.Weidlich, Sociodynamics, Taylor & Francis, 2002. Секция 4. Математическое моделирование и анализ данных в социологии 2820 Галицкий Е. Б, Москва Категориальный метод главных компонент и нелинейная оптимизация в задаче прогнозирования итогов выборов Аннотация В статье рассматриваются проблемы, возникающие при прогнозировании итогов выборов, и принципы преодоления этих проблем, на основе которых автор строит прогнозы, используемые в Фонд Общественное Мнение. Входе анализа данных применяются категориальный метод главных компонент и нелинейный метод обобщенного понижающего градиента. Ключевые слова электоральные прогнозы, опросы населения, метод главных компонент, нелинейный метод обобщенного понижающего градиента Основные проблемы прогнозирования итогов выборов Сегодня стало устойчивой традицией проведение опросов для предсказания итогов выборов. Мы не будем здесь обсуждать проблему репрезентативности таких опросов. Будем считать, что наши выборочные опросы не содержат систематических смещений по сравнению стем, как если бы мы опросили всех без исключения избирателей. Рассмотрим лишь проблемы анализа данных. Мы не будем приводить принадлежащих Фонду Общественное Мнение конкретных методик прогнозирования, разработанных в результате этого анализа, обсудим лишь его основные принципы. Со стороны задача прогнозирования выборов кажется простой. Надо спросить попавших в выборку избирателей, как они проголосуют, а все проголосуют примерно также. Однако когда необходимо получить достаточно точный прогноз, возникают сложности. Действительно, анкета предвыборного опроса всегда содержит прямой вопрос о том, как респондент планирует поступить вдень выборов. В предлагаемом респонденту меню ответов наряду со списком возможных кандидатов, есть варианты испортил бы бюллетень и не пошёл бы на выборы. Если бы каждый респондент мог выбрать один из этих вариан- 1 Здесь и далее имеются ввиду, как кандидаты, таки партии Секция 4. Математическое моделирование и анализ данных в социологии 2821 тов, явку на выборы можно было бы оценить подоле давших любой ответ, кроме не пойду на выборы, а распределение голосов избирателей – подоле выбравших соответствующие варианты ответа от числа учтённых при расчёте явки. К сожалению, многие респонденты (так называемые, неопре- делившиеся) не говорят, что сделают вдень выборов. Их доля даже за неделю довыборов бывает значительной 20% и более. (Например, за неделю довыборов Президента РФ 4 марта 2012 года затруднились ответить на такой вопрос 18,0% респондентов, причём точно такая же доля (18,0%) была и за месяц довыборов. Когда нужно приблизительно оценить распределение сил между кандидатами, неопределившиеся респонденты обычно просто исключаются из рассмотрения, и расчёты выполняются без их учёта. Тем самым негласно предполагается, что голоса неопределившихся распределятся также, как голоса остальных, определившихся. Предположение это, однако, совершенное безосновательно, ив этом состоит первая проблема, снижающая точность прогнозирования. Вторая проблема состоит в том, что доля тех, кто не выбрал вариант не пойду на выборы при ответе на прямой вопрос анкеты, всегда оказывается намного выше, чем доля реально участвующих в выборах. Например, за неделю довыборов Президента РФ выбрали такой вариант лишь 8,2% респондентов, те от числа определившихся. Фактически же была зафиксирована явка 65,34%, то есть не пришли голосовать почти 35% избирателей. Таким образом, одного лобового вопроса для прогноза результатов выборов недостаточно, нужен ещё хотя бы один детальный вопрос о склонности к участию в выборах. Приведем процентное распределение ответов на такой вопрос, заданный за неделю до Президентских выборов 2012 г.: Таблица Совершенно точно приму участие в выборах 54,1 Вероятнее всего приму участие в выборах 20,5 Скорее приму, чем не приму участие в выборах 10,2 Скорее не приму, чем приму участие в выборах 3,4 Вероятнее всего не приму участия в выборах 2,6 Совершенно точно не приму участия в выборах 5,5 Ещё не решила, затрудняюсь ответить 3,7 Учитывая зафиксированную ЦИК явку, можно заключить, что в выборах участвовала какая-то (достаточно высокая) доля респондентов, сообщивших, что совершенно точно придут на выборы, какая-то другая – что вероятнее всего придут на выборы и т. д. А если учесть, что электоральные предпочтения, а следовательно, и голоса респондентов, намеревавшихся совершенно точно прийти на выборы, могли распределиться не совсем так, как голоса, с более низкой готовностью участвовать в выборах, становится Секция 4. Математическое моделирование и анализ данных в социологии 2822 понятно, что соотношение вероятностей прихода на выборы представителей каждой из вышеупомянутых семи групп влияет на прогноз не только явки, но общего распределения голосов. Таким образом, для точного прогноза итогов выборов необходимо решить, по крайней мере, две проблемы проблему распределения голосов тех, кто не сказал, что сделает вдень выборов, и проблему толкования ответов респондентов о склонности принять участие в выборах. Если бы анкета состояла только из приведённых выше двух вопросов и методика прогнозирования разрабатывалась бы для каждых выборов независимо, решить эти проблемы было бы нельзя. Согласно подходу ФОМ, о будущих действиях респондентов, затруднившиеся ответить на первый вопрос, можно судить по их ответам на другие, дополнительные вопросы об отношении к кандидатам, а о вероятности участия в выборах – путем сравнения распределения ответов на соответствующий вопрос с явкой, зафиксированной на ранее проведённых выборах. Принцип прогнозирования поведения неопределившихся респондентов Как уже отмечалось, поведение на выборах неопределившихся респондентов прогнозируется по их ответам наряд косвенных вопросов электоральной направленности. В частности, в уже упоминавшемся опросе респондентам задавались следующие вопросы 1. Скажите, пожалуйста, к кому из перечисленных политиков Вы относитесь положительно 2. А к кому из перечисленных политиков Вы относитесь отрицательно. Если Вы примете участие в президентских выборах, то как, за кого из кандидатов Вы проголосуете (Далее голосование 4. Скажите, пожалуйста, Ваше намерение голосовать за названного политика (испортить бюллетень, не участвовать в выборах) может или не может измениться Вопрос задавался только определившимся респондентам. (Далее возможность изменений 5. Если Вы ещё не определились, то, может быть, Вы могли бы назвать двух-трёх кандидатов, из числа которых Вы, скорее всего, станете выбирать в марте 2012 года Вопрос задавался только неопределившим- ся респондентам 6. Скажите, пожалуйста, Вы допускаете или исключаете для себя возможность проголосовать за …? Вопросы данной серии последовательно задавались о каждом кандидате. В качестве вариантов ответа предлагались варианты безусловно, допускаю, скорее, допускаю, скорее, исключаю, безусловно, исключаю и затрудняюсь ответить. Далее шкала Секция 4. Математическое моделирование и анализ данных в социологии 7. Скажите, пожалуйста, предвыборная агитация в пользу каких кандидатов Вам нравится 8. А предвыборная агитация в пользу каких кандидатов Вам не нравится, вызывает раздражение? 1 Благодаря разнообразию вопросов, подавляющее большинство в данном случае 98,3%) респондентов хотя бы раз выказало какое-либо отношение к предстоящим выборам. Таким образом, дополнительные семь вопросов позволили сократить область полной неопределённости более чем на порядок с 18,0% до Однако, как по ответам на все эти вопросы распределить между кандидатами голоса неопределившихся респондентов Например, кому приписать голос респондента, сказавшего, что он положительно относится сразу к двум кандидатам, если за первого из них он скорее допускает возможность проголосовать, но предвыборная агитация ему не нравится. Предвыборная же агитация второго кандидата респонденту нравится, но он затрудняется сказать, допускает ли возможность за него проголосовать. Заметим это ещё простая ситуация, здесь ещё можно принять какое-либо решение из содержательных соображений. В реальности же встречаются более замысловатые сочетания ответа на перечисленные выше вопросы, и для приписывания таких респондентов к тому или иному кандидату необходимы чёткие количественные основания. Эти основания мы получаем с помощью метода главных компонент. Его применение в данном случае базируется на гипотезе, что в основе электорального поведения лежит индикатор – скрытая (латентная) переменная, характеризующая отношение респондентов к каждому кандидату. Респондент голосует за того кандидата, индикатор отношения к которому у него выше. Если максимальные значения индикатора наблюдаются у двух и более кандидатов, голос этого респондента делится между ними поровну. Поскольку мы планируем сравнивать значения индикатора у разных кандидатов, правило его построения по исходным переменным должно быть единым. Поэтому данные для анализа главных компонент должны быть подготовлены так, чтобы каждая переменная содержала ответы респондентов сначала о первом, затем о втором и т. д. кандидате. Только тогда, сопоставив ответы на разные вопросы, можно найти то общее, что лежит за ответами, те. количественно описать отношение респондентов к кандидату. Заметим, в нашем случае ответы на все вопросы, кроме одного, напрямую относятся к какому-либо кандидату. Вопрос же возможность изменений нельзя напрямую включать в число исходных переменных хотя ответы на него тоже говорят об отношении респондента к кандидату, но чтобы узнать, к какому именно, надо учесть ответ на вопрос голосование. Ответ «моё решение, безусловно, не может измениться может свидетельствовать как о высокой приверженности респондента к определённому кан- 1 Когда речь идёт о партиях, задается ещё один вопрос может ли респондент назвать себя сторонником какой-либо партии, и если да, то какой Секция 4. Математическое моделирование и анализ данных в социологии 2824 дидату (если ранее он выразил намерение за него проголосовать, таки об абсолютном отсутствии такой приверженности (если респондент назвал другого кандидата, выказал намерение испортить бюллетень или не идти на выборы. Поэтому на основе переменных «голосование»и возможность изменений предварительно нужно сформировать степень уверенности голосования со следующими категориями голосует и, безусловно, исклю- » со следующими категориями голосует и, безусловно, исключает возможность изменить своё решение, голосует и, скорее, исключает возможность изменить своё решение и т. д. вплоть доне голосует и, безусловно, исключает возможность изменить своё решение». Итак, мы имеем таблицу данных, каждая клетка которой характеризует отношение определённого респондента к определённому кандидату. При этом клетки одной строки характеризуют это отношение с самых разных сторон. Если бы все переменные были бинарными измерялись в интервальной шкале, индикатор отношения к кандидатам можно было бы получить с помощью метода главных компонент, реализованного в SPSS в группе методов факторного анализа. Действительно, этот метод позволяет сформировать новую переменную, объясняющую наибольшую долю дисперсии исходных переменных. Далее метод позволяет построить вторую переменную, объясняющую наибольшую часть оставшейся дисперсии, третью и т. д. Для наших целей важна только первая из этих новых переменных, будем называть её первым фактором. По нашему предположению в основе ответов респондентов на все перечисленные выше вопросы о каком-либо кандидате лежит скрытая, возможно даже от них самих (латентная) переменная, комплексно характеризующая их отношение к этому кандидату. Поскольку первый фактор объясняет больше всего дисперсии, он лучше, чем любая другая переменная, способен объяснить, почему на вопросы о томили ином кандидате респондент ответил именно так. Поэтому первый фактор можно считать искомым индикатором, комплексно описывающим скрытое (латентное) отношение респондентов к кандидатам. Атак как фактор представляет собой линейную комбинацию исходных переменных, то с помощью регрессионного анализа легко найти его формулу, правило, по которой он построен. Метод анализа главных компонент применим, только когда все исходные переменные являются бинарными или измеряются в интервальной шкале. В нашем случае это совершенно не так. Например, переменная шкала имеет варианты ответов безусловно, допускаю, скорее, допускаю, скорее, исключаю, безусловно, исключаю, затрудняюсь ответить. Довольно часто исследователи перекодируют такие переменные, помещая позицию затрудняюсь ответить между скорее, допускаю и скорее, исключаю, после чего трактуют получившуюся шкалу как интервальную, те. шкалу равных интервалов. Такой подход, конечно, допустим, ноне в таких ответственных случаях, когда результаты выборов нужно предсказать как можно точнее. Здесь же приходится учитывать, что в действительности различие между позициями безусловно, допускаю и скорее, допускаю содержательно может быть несколько иным, чем, например, между скорее, допускаю и затрудняюсь ответить и т. д Секция 4. Математическое моделирование и анализ данных в социологии 2825 Отказ от трактовки такого рода переменных как интервальных вле- чёт необходимость использования неклассического, а категориального метода главных компонент, реализованного в SPSS в блоке «Categories». Этот метод итеративно меняет количественную трактовку (квантифика- цию) каждой категории каждой переменной, начиная с тривиальной трактовки категория с кодом 1 – число 1, категория с кодом 2 – число 2 и т. д. На каждом шаге алгоритма метод пробует выявить закономерности путем построения на квантифицированных переменных заданного числа факторов (в нашем случае – одного, а затем пробует модифицировать кван- тификацию. Пока квантификация остаётся недостаточно эффективной, факторы будут объяснять относительно небольшую часть дисперсии. Метод прекращает работу, когда удаётся оптимальным образом истолковать категории всех переменных и построить факторы. Надо сказать, что квантификации переменных представляют отдельный интерес. Они позволяют измерить реальные смысловые различия между разными категориями исходных переменных. Иногда может оказаться, что между какими-то категориями различия значительны, а между какими-то их практически нет. Исходя из этого, иногда принимается решение о слиянии каких-то категорий исходных переменных. Именно так были слиты все категории, кроме голосует и безусловно исключает возможность изменить своё решение и голосует и скорее исключает возможность изменить своё решение синтетической переменной степень уверенности голосования, о которой говорилось выше. После этого категориальный анализ главных компонент был реализован снова. Чтобы выявить правило построения индикатора отношения к кандидатам, можно, например, применить линейный регрессионный анализ, взяв в качестве зависимой переменной фактора в качестве независимых квантифицированные исходные переменные. Полученная формула, дополненная правилами квантификации, позволяет построить такой же индикатор на любом новом опросе. А поскольку в нашем случае абсолютное значение индикатора не играет роли, а важно лишь знать, при каком сочетании исходных переменных это значение выше, а при каком – ниже, мы обычно применяем к индикатору линейное преобразование, такое, чтобы наименьшее изв принципе возможных его значений равнялось нулю баллов, а наибольшее – ста баллам. Так мы решаем первую проблему толкование ответов неопределив- шихся респондентов относительно того, что они сделают вдень выборов 1 Заметим: как видно из приведённого выше изложения, индикатор строится по ответам всех, а не только неопределившихся респондентов. Иначе было бы невозможно проследить закономерности, связывающие намерение сделать то или иное вдень голосования с ответами респондентов на другие вопросы анкеты Как видно из приведённого выше изложения, индикатор строится по ответам всех, а не только неопределившихся респондентов. Это необходимо для того, чтобы проследить закономерности, связывающие намерение сделать то или иное вдень голосования с ответами респондентов на другие вопросы анкеты Секция 4. Математическое моделирование и анализ данных в социологии 2826 При использовании приведённых выше вопросов слова респондента, что он намерен проголосовать за определённого кандидата, сразу обеспечивают ему более высокое значение индикатора отношения к этому кандидату, чему любых респондентов, не высказавших такого намерения напрямую, вне зависимости от их ответов на остальные электоральные вопросы. Поэтому и прогноз по индикаторам делается не только по неопределившимся, а по всем респондентами это не влияет на результат. Сказавшие, как проголосуют, распределяются по ответам на прямой вопроса неопределившиеся – в зависимости от значений индикатора. |