Анализ. 768. Теория измерений и анализ данных. 4 Всеросс. социолог. Статистическое имитационное моделирование случайных процессов методика и конкретная реализация
Скачать 1.45 Mb.
|
Принцип оценки вероятности явки респондента на выборы Обсудим теперь принципы отыскания вероятности участия в выборах, которую следует приписать каждому респонденту в зависимости от его ответа на уже приводившийся выше вопрос Скажите, пожалуйста, Вы примете или не примете участие в президентских выборах 4 марта 2012 года Опишем сначала базовый принцип определения такой вероятно Опишем сначала базовый принцип определения такой вероятности, а затем кратко остановимся натр х приёмах, позволяющих повысить качество прогноза. Поскольку ФОМ за последние год-два прогнозировал результаты многих региональных выборов, у насесть возможность сопоставить высказывания респондентов об их намерении прийти на выборы с официально зафиксированной явкой. Для этого можно рассчитать доли респондентов, давших тот или иной ответ на приведенный выше вопрос (совершенно точно приму участие, вероятнее всего приму участие в выборах и т. д, после чего приписать им какие-либо пробные вероятности участия и определить, исходя из них, расчётную явку, сопоставив её с официальной. Затем можно подправить приписываемые вероятности, стремясь уменьшить сумму квадратов расхождений между расчётной и официальной явками. Процесс такой оптимизации продолжается до тех пор, пока эта сумма квадратов не достигнет минимума. Для этого можно использовать, например, нелинейный метод обобщенного понижающего градиента (ОПГ), реализованный в надстройке Поиск решения пакета Microsoft Excel. Таков основ Excel. Таков основ Excel. Таков основ. Таков основ. Таков основной принцип решения данной проблемы. Отметим теперь три частных принципа, делающих применение общего принципа более эффективным. Первый частный принцип полезен в связи стем, что, как уже отмечалось, вопрос о намерении участвовать в выборах предусматривает семь вариантов ответа. Соответственно, при описанном выше подходе пришлось бы отыскивать слишком много – семь – параметров модели. Это число 1 Кстати, попытки изменить данную ситуацию в ФОМ делались, но оказались неудачными. Таким образом, нам пока не удалось разоблачить путем задавания хитрых вопросов тех не слишком искренних респондентов, которые, например, в ответ на прямой вопрос говорят, что проголосуют за кандидата власти, а в ответах на другие вопросы симпатии к этому кандидату не демонстрируют. Как будет показано ниже, проблему такого рода неискренних социально одобряемых ответов мы решаем иным способом Секция 4. Математическое моделирование и анализ данных в социологии 2827 сопоставимо с числом региональных выборов, поданным которых данная оптимизация должна была бы осуществляться, а следовательно, решение могло бы оказаться неустойчивым. Дело осложняется ещё и тем, что применяемый алгоритм оптимизации отыскивает не глобальный, а локальный минимум. Её результат может зависеть от начальных условий, ив семимер- ном пространстве шансы наткнуться на такую зависимость существенно выше. Для уменьшения числа параметров оптимизации с семи до двух принимается гипотеза, что искомая кривая вероятности участия в выборах является двухпараметрической образной, например, интегральной функцией нормального распределения 1 Второй частный принцип позволяет решить проблему социально одобряемых ответов, которая стоит у нас весьма остро. Для её решения строится не одна, а две кривые вероятностей участия в выборах. Одна для респондентов, хотя бы часть голоса которых согласно прогнозу отходит находящемуся у власти кандидату, вторая – для всех остальных респондентов. Опыт показывает, что вторая кривая проходит существенно выше первой. И, наконец, третий принцип – одновременно минимизировать сумму квадратов отклонений процента явки и процента голосов за кандидата власти. Как показывает опыт, указанные три частных принципа заметно повышают точность прогнозирования. Заключение Итак, мы рассмотрели основные принципы, согласно которым автор прогнозирует итоги выборов. Эти прогнозы сопоставляются с ещё одним прогнозом, иногда на основе информации качественного характера вносятся небольшие поправки, после чего формируются официальные прогнозы Фонда Общественное Мнение. Как показывает опыт, такая процедура обеспечивает весьма высокую точность прогнозирования В качестве аргумента используются не номера категорий, а соответствующие им квантифици- рованные значения, которые находятся с помощью категориального анализа главных компонент поданным специального расширенного опроса, где задавались два дополнительных вопроса ходит ли обычно респондент на выборы, и посещают ли обычно выборы его близкие и знакомые Секция 4. Математическое моделирование и анализ данных в социологии 2828 Зангиева ИК, Москва К вопросу о заполнении пропусков в социологических данных Аннотация Статья посвящена различным аспектам заполнения пропусков в данных. Описываются основные разновидности неполной социологической информации недостижимые и неполные наблюдения, созданные пропуски. Анализируется связь между причинами неответов на вопросы и степенью случайности порождаемых ими пропусков, определяющей допустимость их заполнения. Ключевые слова неполная информация, неполные наблюдения, отдельные пропуски, заполнение пропусков, неответы на вопросы, степень случайности, заполнение пропусков Виды неполной информации Начать следует с фиксации объекта исследования-основного фокуса данной статьи. В ней речь идет, прежде всего, об отдельных пропусках в данных, соответствующих неполным наблюдениям. Отдельные пропуски в данных являются частным случаем неполной информации, наряду с недостижимыми наблюдениями и сознательно созданными пропусками. Кратко охарактеризуем каждый из них. Цель полевого этапа любого эмпирического социологического исследования – собрать максимальное количество релевантных данных, то есть получить ответы на все вопросы (в ситуации опроса) от всех запланированных респондентов. Если респондент отвечает на все поставленные вопросы ему соответствует полное наблюдение (full response). Задача полевого этапа - максимизация количества полных наблюдений. В идеале, который практически недостижим, их должно быть В реальности исследователь всегда имеет дело с неполной информацией. Всегда есть респонденты, которых не удалось опросить и респонденты, которые будучи опрошенными, не ответили на некоторые заданные им вопросы. В первом случае возникают недостижимые наблюдения (unit – nonresponse), во втором - неполные наблюдения (отдельные пропуски /partial nonresponse). Неполные наблюдения, для которых известна только Секция 4. Математическое моделирование и анализ данных в социологии 2829 часть информации, являются промежуточным звеном между полными наблюдениями (известная вся информация) и недостижимыми наблюдениями (нет информации вообще). Недостижимые наблюдения недостижимость респондентов) В отечественной литературе в качестве синонима недостижимости часто используется понятие труднодоступности. Труднодоступными считаются респонденты, которые не могут (длительные командировки, болезни и т. дне хотят принять участие вопросе, которых трудно застать дома или невозможно опросить по причине того, что они проживают на отдаленных территориях [1; Таким образом, недостижимыми являются респонденты, которых не удалось опросить в принципе. Недостижимость в массовых социологических опросах представляет собой серьезную проблем. Наличие труднодоступных единиц наблюдения является источником систематических ошибок, т. к. недостижимые респонденты могут существенно отличаться от тех, кто в итоге принял участие в исследовании и ответил на вопросы [3, с. Масштабы недостижимости часто используются в роли индикаторов качества проведенного исследования и, прежде всего, реализации полевого этапа Высокий процент откликов стал синонимом эффективной и высококачественной организации исследования [8, с .25]. Неполные наблюдения (отдельные пропуски) Далее понятия неполные наблюдения и отдельные пропуски будут использоваться как синонимы. Отдельные пропуски в данных можно разделить на два вида реальные пропуски и вынужденные пропуски. Реальные отдельные пропуски возникают когда, несмотря на все усилия исследователя или интервьюера (анкетера, респондент не отвечает на некоторые вопросы. Вынужденные отдельные пропуски возникают в результате чистки массива, осуществляемой по завершении сбора и ввода данных. При чистке массива удаляются нереалистичные, заведомо ложные, нарушающие логику варианты ответа. Последние имеют место, если на один из вопросов респондент дает ответ, противоположный другим ответам на взаимосвязанные вопросы, нарушая тем самым всю логику последовательности, с. 145]. В литературе вынужденные пропуски также называют искусственными. Можно привести следующие примеры заведомо ложных значений. Подросток в качестве уровня образования указывает кандидат наук, человек без определенного места жительства указывает площадь квартиры, Секция 4. Математическое моделирование и анализ данных в социологии 2830 в которой якобы проживает на данный момент. Чтобы заведомо не вносить ложную информацию в данные, эти ответы из массива будут удалены, в результате чего возникнут искусственные, «артефактные» пропуски, или просто артефакты. Следует отметить, что наличие пропусков в данных наносит существенный урон качеству исследовательских результатов из-за: • искажения распределений признаков (в некоторых случаях - возникновению систематических смещений снижения статистической мощности результатов анализа данных в силу сокращения объема выборки перехода порядковых шкал в частично упорядоченные перехода непрерывных шкал в дискретные. Сознательно созданные пропуски Ограниченность ресурсов накладывает ограничения на стоимость, время проведения проекта и на количество вопросов, и, следовательно, тем, которые включаются в инструментарий. В некоторой степени уменьшить влияние данных факторов удается за счёт разбиения анкеты на несколько частей, предназначенных для различных групп респондентов, в рамках одного панельного исследования с чередующимися темами. Опрос в рамках одной волны нескольких групп респондентов по разным анкетам позволяет сэкономить временные, финансовые ресурсы и при этом ослабить нагрузку на респондентов. Такой способ раздельного сбора данных с последующим объединением (слиянием) данных получил название data fusion. Пропуски по вопросам блока анкеты, отсутствующему в данной волне некоторая группа респондентов не опрашивалась, затем заполняются с помощью стандартных алгоритмов заполнения отдельных пропусков [5; 11; 12]. Следует разделять пропуски, сознательно созданные исследователем еще на этапе планирования исследования, и незапланированные вынужденные пропуски, о которых было сказано выше. Первые представляют собой пропуски, полученные входе заранее спланированного экспериментального дизайна исследования, вторые же имеют вынужденный характер и изначально запланированы небыли. Решение проблемы недостижимости определенных респондентов и отдельные аспекты data fusion представляют собой крайне перспективные и актуальные направления для самостоятельных исследований и разработок, поэтому в данной работе мы не будем их далее рассматривать, а сосредоточимся только на работе с отдельными пропусками в данных. Далее перейдем к работе с отдельными пропусками в данных. Существует 3 основных подхода к работе сними уже после сбора данных удаление неполных наблюдений, взвешивание имеющихся наблюдений для Секция 4. Математическое моделирование и анализ данных в социологии 2831 достижения запланированного объема выборки и искусственное заполнение пропусков. В данной статье мы будем говорить только о заполнении пропусков, так как этот подход наиболее распространён в современной исследовательской практике и методической литературе и представляется наиболее перспективным. Заполнение пропусков как центральный подход к работе с пропусками В пользу актуальности заполнения пропусков для современной исследовательской практики и методической литературы говорит следующее. Статьи, посвященные различным аспектам заполнения пропусков, появляются в таких журналах, как Sociological Methods and Research издательство (издательство Wiley), International Journal of Social Research Methodology (издательство Taylor & Francis). Первый из этих журналов занимает 6 место в рейтинге влиятельности 132 социологических журналов (данные Thomson Reuters, Следует говорить именно об искусственном заполнении пропусков, так оно происходит уже постфактум, с помощью математических или, что встречается значительно реже, логических процедур. Искусственности заполнения, в упомянутом смысле, можно было бы избежать, повторно обращаясь к каждому не ответившему на определенный вопрос респонденту с просьбой все-таки дать ответ на вопрос. Заполнение пропусков имеет четыре основных сравнительных преимущества относительно удаления неполных наблюдений или взвешивания полных. Во-первых, в отличие от взвешивания полных наблюдений, заполнение пропусков позволяет реально сохранить объем выборки на запланированном уровне. Во-вторых, при заполнении пропусков, наряду с приращением новой информации, сохраняется вся известная информация, которая могла быть утеряна при удалении наблюдений с пропусками или взвешивании имеющихся. В-третьих, в отличие от взвешивания полных наблюдений, заполнение пропусков не вызывает смещений по другим переменным, значения которых известны или в данный момент не восстанавливаются. В-четвертых, после заполнения пропусков запланированный анализ данных может осуществляться в обычном режиме. Ненужно вводить дополнительных поправок, как например при взвешивании. Массив данных воспринимается и анализируется, как будто изначально от всех респондентов были получены ответы на все вопросы, и пропусков в данных не было в принципе. Наряду с названными преимуществами заполнение пропусков как способ решения проблемы недостающей информации имеет несколько недостатков, которые нельзя не учитывать Секция 4. Математическое моделирование и анализ данных в социологии 1. Использование для предсказания пропусков имеющихся данных может искажать общую структуру данных, которая смещается в сторону структуры только полных наблюдений 2. Искусственное заполнение вносит в массив определенную долю равную доле пропусков, в том случае если заполнялись все пропуски) искусственных данных. Можно встретить точку зрения о неэтичности математического заполнения пропусков. Критики заполнения пропусков говорят о его неэтичности, обусловленной вменением не ответившим на вопрос респондентам искусственных, рассчитанных или подобранных математическими способами значений (ответов, которые затем выдаются за истинные. Нам данное соображение кажется в корне ошибочным. При заполнении пропусков не стоит задачи точного угадывания сокрытого ответа каждого не ответившего респондента. Задача заключается в восстановлении общего распределения изучаемого признака, искаженного наличием пропущенных значений. Здесь важно понимать, что заполнение пропусков математическими методами применяется в первую очередь в массовых количественных исследованиях, основанных на опросе большого числа респондентов. В силу «количественности» при анализе данных важно получить выводы обо всей изучаемой совокупности, а не о каждом ее отдельном представителе. Поэтому ответ каждого отдельного респондента как таковой значения не имеет. Исходя из этого, при заполнении пропусков происходит восстановление максимально достоверной статистической картины всей совокупности, а не угадывание ответа каждого не ответившего респондента или вменение, приписывание ему искусственно определенных значений. Точность угадывания пропущенных значений используется как показатель эффективности заполнения пропусков в специальных методических экспериментах со смоделированными пропусками. В реальных же исследованиях точность подстановки нельзя оценить, так как истинное значение неизвестно. При заполнении пропусков физическое приписывание ответов значений переменных) – подстановка некоторых чисел на место каждого пропуска в массиве данных с помощью статистического пакета происходит только для того чтобы сделать возможной обработку данных с помощью традиционных методов анализа данных, предполагающих работу только с полными наблюдениями. По итогам заполнения пропусков нив коем случае не говорится, что конкретный не ответивший на вопрос респондент на самом деле ответил согласно значению, подставленному на место имеющегося у него пропуска. Данное высказывание, действительно было бы неэтичным. При заполнении пропусков этика не нарушается. Необходимо соблюдать этику при презентации и публикации результатов исследования. Этические соображения здесь требуют от исследователя в отчете по Секция 4. Математическое моделирование и анализ данных в социологии 2833 результатам исследования или в любой другой публикации результатов указания на то, что имело место заполнение указанного количества пропусков конкретным способом (алгоритмом. Однако, даже с соблюдением всех этических норм и только для получения обобщенных результатов обо всей совокупности в целом, заполнение пропусков допустимо и правомочно далеко не всегда. Допустимость заполнения пропусков определяется их характером, а именно степенью случайности. Степень случайности пропусков как условие допустимости их заполнения По степени случайности в литературе выделяют полностью случайные пропуски (missing completely at random– MCAR), случайные пропуски) и неслучайные пропуски (not missing at random – Смысл каждого вида случайности можно пояснить на примере опроса следующим образом. Каждому вопросу в соответствие можно поставить случайную величину «ответ-неответ». Тогда степень случайности пропусков в ответах на конкретный вопрос определяется теми факторами, от которых зависит вероятность неответа респондентов на соответствующий вопрос (те. вид распределения дихотомической случайной величины «ответ-неответ», привязанной к каждому вопросу при полной случайности пропусков вероятность неответа на вопрос не зависит ни от возможного ответа на данный вопрос, ни от ответов на другие вопросы. Распределение дихотомической величины «ответ-не- ответ в данном случае одинаково при всех значениях данной переменной и при всех значениях остальных переменных. при случайности пропусков вероятность неответа не зависит от ответа на данный вопрос, но зависит от ответов на другие вопросы. Когда пропуски случайны распределение случайной величины «ответ-неответ» одинаково при всех значений рассматриваемого признака, но разное в группах, выделенных по значениям других рассматриваемых признаков. при неслучайности пропусков вероятность неответа на вопрос зависит оттого, какой вариант ответа имеется ввиду. Когда пропуски неслучайны и имеют систематический характер, распределение случайной величины «ответ-неответ» определить невозможно, так как оно разное для каждого значения рассматриваемой переменной [6, с.154-155]. При этом учитываются только факторы, отраженные в имеющейся у социолога информации о респондентах, те. в ответах на другие вопросы анкеты. Степень случайности является математическим конструктом, оторванным от ситуации реального социологического исследования. Было бы полезно, помимо математического, найти и содержательное обоснование Секция 4. Математическое моделирование и анализ данных в социологии 2834 допустимости заполнения пропусков. В качестве такого содержательного обоснования можно рассмотреть причины возникновения пропусков. Предположение о том, что пропуски каждой степени случайности порождаются определенными причинами, требует для своей проверки установления связи между причинами возникновения пропусков и степенью случайности порождаемых этими причинами пропусков. В литературе выделяются три группы причин, по которым респонденты не отвечают на вопросы психологические (различные характеристики личности респондента, социальные (особенности социальной ситуации и социального окружения в которых разворачивается ситуация опроса) и методические (различного рода ошибки, допущенные исследователем на этапе планирования исследования или интервьюером на этапе сбора данных) [7, с. Авторы, изучавшие основные причины возникновения пропусков (неответов респондентов на отдельные вопросы) не связывали причины неответов на вопросы со степенью случайности порождаемых ими пропусков. Аналогичное утверждение справедливо и для работ, посвященных изучению пропусков разной степени случайности в этих работах практически не уделяется внимания причинам их возникновения. Другими словами, причины пропусков и их рассмотрение сточки зрения случайности в литературе рассматриваются раздельно. Это в определенном смысле естественно первым аспектом фактически занимаются люди, решающие содержательные задачи (в нашем случае – социологи, вторым – математики. Попытаемся ликвидировать этот недостаток. Говоря о выделенных выше типах причин возникновения пропусков нельзя установить жесткое соответствие между каждым типом причини каждым типом пропусков по степени случайности. В рамках каждой группы одни причины могут вызывать полностью случайные или случайные пропуски, а другие-не случайные. На самом деле не всегда можно вычленить единственную причину, по которой респондент не ответил на вопрос. Процесс вопросно-ответной коммуникации иногда может быть подвержен влиянию нескольких причин одновременно. И, определение причин возникновения пропусков должно быть основано не столько на строгих доказательствах, сколько на опыте исследователя и его знаниях об особенностях темы и объекта исследованиях. Выводы о связи между причинами возникновения пропусков, типами порождаемых ими пропусков по степени случайности и допустимыми способами работы с последними резюмируются в следующей таблице см. таблицу 1). Секция 4. Математическое моделирование и анализ данных в социологии 2835 |