Математико-статист модели в социологии. Учебное пособие оглавление введение. В основная цель курса, адресат
Скачать 2.75 Mb.
|
Примеры задачДобавочная литература к теме 13 Тема 14. Однофакторный дисперсионный анализОднофакторный дисперсионный анализ как метод анализа результатов эксперимента при изучении причинно-следственных отношений Модель однофакторного дисперсионного анализа 14.3. Однофакторный дисперсионный анализ как проверка статистической гипотезы О понимании термина «влияет» (или: что значит доказать наличие причинно-следственного отношения с помощью дисперсионного анализа) Множественные сравнения для однофакторного дисперсионного анализа Примеры задач Тема 15. Двухфакторный дисперсионный анализ 15.1. Двухфакторный дисперсионный анализ как метод анализа результатов эксперимента при изучении причинно-следственных отношений Модель двухфакторного дисперсионного анализа Двухфакторный дисперсионный анализ как проверка статистических гипотез Примеры задач Добавочная литература к темам 14 и 15 ПРИЛОЖЕНИЯ. П.1. Основная литература. П.2. Примерные экзаменационные вопросы. П.3. Ориентировочные темы эссе (рефератов). П.4. Статистические таблицы ВВЕДЕНИЕ В.1. Основная цель курса, адресатКурс рассчитан на студентов-социологов и посвящен изложению основ математической статистики. По существу он является продолжением курса по теории вероятностей. Как известно, подобные курсы традиционно читаются студентам самых разных специальностей. Объясняется это тем, что изучение статистических закономерностей требуется практически в любой отрасли человеческого знания. Отечественная литература в соответствующем отношении очень богата, имеется множество учебников (в том числе переводных) и методических пособий самого разного плана: с разной широтой охвата проблематики, рассчитанных на читателей с различной подготовкой и т.д. Казалось бы, преподавание математической статистики для студентов - прикладников стало рутинным делом. Тем не менее, предлагаемое учебное пособие имеет ряд особенностей, позволяющих считать его в некоторых отношениях оригинальным (именно это обусловило изменение названия курса). Особенности эти вызваны желанием автора сделать курс хорошо воспринимаемым именно социологами. Ситуация, обусловившая потребность в соответствующих разработках, состоит в следующем. В.2. Проблемы преподавания математических дисциплин студентам-социологамОпыт показывает, что студенты-социологи часто бывают настроены на «гуманитарный» лад, и либо вообще отрицают необходимость серьезного рассмотрения каких бы то ни было математических методов, либо делают это формально, в глубине души считая соответствующие знания для себя лишними. В результате - если не отсутствие знаний, то освоение материала на «абстрактном» уровне, без всякого сопряжения с практикой проведения социологических исследований. Во всяком случае, автору неоднократно приходилось наблюдать, что даже добросовестные студенты плохо представляют себе, как использовать знания, полученные им в курсе теории вероятностей и математической статистики, в практической работе социолога. Преодолеть соответствующую проблему, на наш взгляд, можно путем определенной «привязки» курса к социологическим проблемам. В.3. Особенности курсаОсновной чертой предлагаемого учебного пособия, отличающего его от других учебников соответствующей направленности, является прежде всего то, что все вводимые теоретические положения сопровождаются иллюстрациями их использования в социологических исследованиях. В качестве примеров случайных событий служат события, каждое из которых состоит в том, что какой-либо респондент обладает определенным сочетанием значений рассматриваемых признаков. Сами признаки служат примерами случайных величин (вместо вероятностей в примерах, естественно, фигурируют относительные частоты). Еще одна особенность работы состоит в том, что в ней большое внимание уделяется проблеме измерения исходных данных. Дело в том, что в социологии проблемы выбора способа получения данных и метода их анализа (в том числе и с помощью алгоритмов математической статистики) не могут решаться отдельно друг от друга, поскольку отражают две стороны одного и того же процесса. В предлагаемом курсе это проявляется прежде всего в том, что, говоря о параметрах распределений, мы соотносим их с типами шкал, использованных при получении исходных данных. Существенное внимание в курсе уделяется описанию роли статистического подхода в социологии; обсуждается возможность обеспечения того комплекса условий, реализация которого приводит к появлению интересующих социолога случайных событий; в частности, затрагивается проблема существования случайных величин. Рассматривается ряд часто встречающихся в социологии ситуаций, в которых не выполняются условия реализации известных математико-статистических методов. Показывается, как может действовать социолог в таких случаях. В определенной мере затрагивается история применения статистического подхода к изучению социальных явлений. Потребность в этом объясняется следующими обстоятельствами. Статистический подход, зародившись в XVII веке именно при изучении общества, потом, на стыке XIX и XX веков, начал необоснованно отвергаться некоторыми обществоведами. В какой-то мере возникший кризис был преодолен. Но сейчас, через сто лет, история повторяется. И ретроспективный анализ работ наших предшественников оказывается весьма полезным для современной ситуации. Одним из проявлений кризисности современной ситуации с использованием математического языка в социологии является присущая многим социологам механистичность использования методов, отсутствие потребности в анализе задействованных в методах моделей, в сопряжении их со смыслом решаемой задачи. Для исправления такого положения дел и представляется полезным обращение к «истокам», «корням», к рассмотрению тех обстоятельств, которые привели к рождению того или иного метода. Разговор о роли математической статистики в социальных исследованиях в данной работе ведется на фоне обсуждения общих принципов использования математики в социологии. И в качестве основного пласта содержательных задач, выбранного для иллюстраций, используются задачи изучения причинно-следственных отношений. Это представляется естественным, поскольку в содержательном плане методы математической статистики в значительной мере направлены именно на решение соответствующих проблем. Для обеспечения возможности серьезного разговора по поводу связи содержания социологической задачи и математического формализма в работе коротко рассматривается развитие понятия причины и анализируется роль статистического (и не статистического) подхода к ее изучению. И здесь мы также пытаемся обратиться к истокам соответствующих теоретических положений, руководствуясь сформулированным выше принципом: в кризисной ситуации эффективным может быть обращение к «корням». В.4. Общие организационные требования. Курс продолжается в течение двух модулей. В конце первого модуля - контрольная работа, в конце второго – экзамен1. К середине второго модуля необходимо сдать реферат (эссе). Примерные темы см. в конце книги. Они охватывают следующие направления: анализ исторических корней математической статистики, их общности с корнями эмпирической социологии; изучение методических достижений русской земской статистики; оценка гносеологических аспектов использования статистических закономерностей в социологии; рассмотрение проблемы построения выборки; осмысление методологических вопросов, возникающих при получении нового социологического знания с помощью математических методов. Чтение лекций сопровождается проведением семинарских занятий. Примерная тематика последних отражается в списках ориентировочных задач, которые приведены после раскрытия большинства тем. Кроме того, на семинаре должна осуществляться та связь с курсом теории вероятностей, о которой идет речь ниже. В.5. Связь с курсом теории вероятностей. Успешное освоение предлагаемого курса возможно только после знакомства студента с элементами теории вероятностей в том объеме, который обычно предполагается рассчитанными на социологов учебными программами соответствующей дисциплины. Ниже указывается, какие именно знания по теории вероятностей требуются для освоения того или иного фрагмента настоящего курса. Такие указания оформлены в виде специальных рубрик (как было сказано, это – материал для семинарских занятий). В.6. Специфика представления библиографии В отечественной литературе имеется очень много работ (в том числе переводных), прекрасно описывающих основные положения математической статистики. Список этих работ приведен в конце книги. В них можно найти материал почти по все темам. К обязательной литературе мы отнесли работы, либо выпущенные в последние годы, либо ориентированные на социологов или по способу изложения, или по специфике рассматриваемых аспектов (к сожалению, эти работы зачастую опубликованы довольно давно). После некоторых лекций приведены списки книг, содержание которых более узко - касается только рассматриваемой лекции. Эти списки называются добавочными. Указываются отдельные работы и внутри текста (имеются в виду работы, содержание которых выходит за пределы стандартных курсов по теории вероятностей и математической статистике). Раздел I. ОБЩЕЕ ПРЕДСТАВЛЕНИЕ О МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ ОБ ОСНОВНОМ ОБЪЕКТЕ ЕЕ ИЗУЧЕНИЯ – СЛУЧАЙНЫХ ВЕЛИЧИНАХ (измерение, стандартизация, виды распределений, предельные теоремы) ТЕМА 1 Объект, предмет, цели и задачи математической статистики. Понятия выборки и генеральной совокупности. Надеемся, читатель уже не в первый раз сталкивается с означенными в заголовке параграфа понятиями. Исследователь практически всегда хочет изучить генеральную совокупность, но практически всегда же имеет дело с выборкой. Генеральная совокупность обычно бывает «неуловима». Все те положения математической статистики, которые мы будем изучать, справедливы лишь для случайной выборки. Случайной выборкой называется такая выборка, при построении которой обеспечена одинаковая вероятность попадания в неё любого объекта генеральной совокупности. Классический способ построения случайной выборки состоит в использовании датчика равномерно распределенных случайных чисел применительно к т.н. основе выборки, т.е. к перечню всех элементов генеральной совокупности. Используются также другие способы моделирования случайности, например, механическая выборка. К числу случайных иногда относят также стратифицированную (районированную) и гнездовую (кластерную) выборки. 2 Социолог практически никогда не имеет основы выборки и поэтому не может обратиться ко всем тем объектам, номера которых выданы с помощью датчика случайных чисел. Следствием этого служит то, что используемая социологом выборка или является результатом лишь некоторого моделирования случайности, либо вообще не является случайной. Это надо иметь в виду, пользуясь результатами математической статистики. Понятие случайной величины. В курсе по теории вероятностей обычно вводится понятие случайной величины. Но, к сожалению, довольно типичным является следующий диалог студентов и преподавателя, начинающего читать курс математической статистики после того, как студенты освоили курс теории вероятностей. - Что такое случайная величина? Приведите примеры случайных величин из социологической практики. Молчание. Допустим, что мы провели анкетный опрос, собрали данные. Присутствуют ли в этих данных хотя бы в каком-то виде случайные величины? Ну, например, мы подсчитали, что у нас 20 процентов мужчин. Это и есть случайная величина. Ответы студентов говорят о том, что у них зачастую складывается совершенно неверное представление о том, что такое случайная величина. Доля мужчин станет случайной величиной только в том случае, если единицей наблюдения у нас будет, скажем, вуз, и мы тем или иным способом будем подсчитывать, каков состав студентов каждого рассматриваемого вуза по полу. Скажем, в каком-то социологическом вузе – 20% юношей, в другом – 18%, в некоем техническом вузе – 83% и т.д. Здесь доля мужчин – случайная величина, 20% - одно из ее значений. А при анкетном опросе в качестве случайной величины может выступать, например, возраст респондентов. Единица наблюдения – человек. 20 лет, 35 лет, 16 лет – это значения нашей случайной величины. Далее мы увидим, что единицей наблюдения может быть даже выборка: для каждой такой единицы мы можем, например, вычислять среднее арифметическое значение возраста попавших в выборку респондентов. Средний возраст здесь – это случайная величина, среднее значение возраста для конкретной выборки – конкретное значение этой величины. Подчеркнем, что случайная величина всегда задается некоторым распределением вероятностей встречаемости ее значений; далее вместо столь длинного оборота будем говорить либо просто о распределении, либо о распределении вероятностей, либо о распределении случайной величины. Задать случайную величину – значит задать отвечающее ей распределение; задать некоторое распределение – значит задать некоторую случайную величину. Мы будет рассматривать в основном числовые случайные величины, т.е. такие, значениями которых служат числа (хотя для социолога огромное значение имеют нечисловые случайные величины, статистика которых разработана весьма слабо3). Случайная величина может быть одномерной, многомерной4; непрерывной (когда в принципе ее значением может быть любая точка числовой оси) и дискретной (когда она принимает счетное, чаще всего – конечное число значений). Важно отметить, что понятия вероятности, распределения вероятностей и, соответственно, случайной величины, сопрягаются с генеральной совокупностью. Изучая выборку, мы имеем дело с выборочными оценками вероятностей и их распределений (в качестве таковых обычно фигурируют относительные частоты встречаемости соответствующих событий и частотные распределения), выборочными реализациями значений случайной величины (выступающих перед нами в виде значений некоторых признаков). Подчеркнем также важность выделения двух видов случайных событий, задействованных при рассмотрении случайных величин в социологии. Сама случайная величина определена на множестве случайных событий, имеющих определенные вероятности. В качестве такого события для социолога, как правило, выступает выбор того или иного респондента (конечно, вместо респондентов могут фигурировать и другие объекты – разного рода малые и большие социальные группы, регионы и т.д.). Ясно, что вероятность встречаемости подобных событий связана с тем, каков способ построения выборки. Другой вид интересующих нас случайных событий – это события, состоящие в том, что те или иные случайные величины принимают те или иные значения. Другими словами, мы говорим о распределениях случайных величин. Выбрав того или иного респондента, мы можем определить соответствующее значение нашей случайной величины. Например, можем определить, что возраст выбранного респондента равен 23 годам. И мы относим возраст к категории случайных величин только в том случае, если можно говорить о распределении вероятностей встречаемости разных значений возраста (хотя это распределение может и не быть известным нам заранее). Как известно, каждое распределение характеризуется определенным набором своих параметров. Наиболее популярные из них – меры отвечающих распределению средних тенденций (математическое ожидание, мода, медиана) и меры разброса значений случайной величины (например, дисперсия, среднее квадратическое отклонение, абсолютный размах). Изучением такого рода параметров мы и будем в основном заниматься. Понятие статистической закономерности. Статистической закономерностью обычно называют закономерность, характеризующая совокупность изучаемых объектов в целом, как систему. Чаще всего – это закономерность, говорящая об изучаемой совокупности «в среднем». Для того, чтобы глубже понять, что именно здесь имеется в виду, совершим небольшой исторический экскурс. Само представление о статистических закономерностях (и, соответственно, о статистических методах, о статистическом подходе) зародилось в XVII веке, когда родилось то направление в обществознании, которое впоследствии было названо политической арифметикой5. О статистических приемах изучения общества стали говорить в тех ситуациях, когда цель исследования заключалась «не в исследовании качественных признаков отдельного явления, а в определении количества явлений с известными качествами. … Каждый знает, что дети и старики подвергаются большей опасности умереть, чем люди в средних возрастах; мы получили это сведение из векового жизненного опыта; но лишь по переводе в числа оно приобретает в наших глазах полную убедительность, возвышается до степени общественного закона. Если нам покажут, что в Европейской России в среднем выводе за десятилетие 1874-1884, в течение первого года жизни из 1000 родившихся умирало 305 человек, в возрасте от 10 до 15 лет – только 6 человек, а в возрасте от 75 до 80 лет 130 человек на 1000, живущих этого возраста, то наше представление о распределении смертности по возрастам приобретет совершенно точный вид. Таким образом, систематическое изучение общества может состоять с одной стороны в качественном наблюдении отдельных явлений, с другой стороны в количественном наблюдении обширный масс явлений. Этот последний прием изучения и носит название статистического».6 Представляется небезынтересным отметить, что первыми стали пользоваться статистическими приемами именно обществоведы, а отнюдь не естествоиспытатели, как иногда пишется в ориентированной на социолога литературе Приведем цитату из работы А.А.Чупрова:7. «В известных условиях массовый итог являет закономерность, постижимую для нас и без того, чтобы была необходимость знать в точности ход всех единичных процессов, которые к нему приводят. …Статистические формы знания … зародились в XVII столетии. Однако их применение долгое время ограничивалось исследованием явлений социальной жизни. … Потребовалось добрых два века, прежде чем они были осознаны во всей своей общеприменимости…. Статистическая точка зрения знаменует собой отказ от того прослеживания единичных событий, которое рисуется уму естествоиспытателя как идеал полноты и совершенства знания».8 Определение статистического подхода как подхода, позволяющего изучать рассматриваемую совокупность объектов «в среднем» господствовало в литературе примерно до второй половины XIX века. Не потеряло оно своего смысла и сейчас. Но мы не можем им ограничиться. В процессе институциализации математической статистики это определение претерпело изменение (уточнение). Когда говорят об использовании математико-статистических приемов, представление о статистической закономерности обычно связывают с предположением о вероятностном порождении данных: предполагается, что все наши признаки – это выборочные представления случайных величин, каждое выборочное значение какого-либо признака – это реализация одного из значений случайной величины, и такая реализация имеет определенную вероятность. Поиск любой статистической закономерности сводится к поиску значений совокупности параметров распределений каких-либо случайных величин (одномерных, двумерных, многомерных). Подчеркнем, что сказанное означает, что само понятие закономерности мы в таком случае связываем не с выборкой, а с генеральной совокупностью. Так, казалось бы, простейшими примерами статистических закономерностей, характеризующих студентов какого-либо вуза, мы можем считать утверждения вида: «20% студентов вуза – юноши»; «средняя успеваемость студентов – 6,7 баллов»; коэффициент корреляции между успеваемостью студента на первом и на пятом курсе равен 0,8 и т.д. Однако, в соответствии со сказанным, мы имеем право расценивать эти соотношения как статистические закономерности только в том случае, если «переведем» их на «язык» генеральной совокупности. К примеру, говоря о среднем арифметическом значении какого-либо признака для выборки, мы полагаем, что закономерность будет найдена только в том случае, если мы сумеем на базе выборочного среднего арифметического сделать какие-то выводы о генеральном среднем. Например, мы можем полагать, что найденное выборочное среднее само по себе является хорошей оценкой генерального. Но обычно такого рода утверждения являются не очень корректными. Оказывается, что можно на основе выборочного среднего по определенным правилам сформировать некое более адекватное (вероятностное) представление о генеральном. Собственно, такого рода формирование и является основной задачей математической статистики, о чем мы подробно будет говорить в следующих разделах. Поскольку все интересующие нас статистические закономерности мы связали с поиском параметров распределений случайных величин в генеральной совокупности, то по сути дела само понятие генеральной совокупности мы связали с существованием, осмысленностью тех случайных величин, которые «стоят» за нашими наблюдаемыми признаками. Для социолога очень важно то, что выполнение предположения о вероятностном порождении исходных данных при решении социологических задач далеко не всегда бывает очевидным. Здесь хотелось бы выделить две основные причины такой неочевидности (обе связаны с возможными сомнениями в существовании «генеральных» случайных величин). Во-первых, нередко у исследователя имеются сомнения в том, что он имеет дело с выборкой из какой бы то ни было генеральной совокупности (и, соответственно, с выборочными реализациями значений какой-то случайной величины). Изучаем, скажем, 100 студентов, и у нас нет никаких оснований считать их частью какой-то генеральной совокупности, обобщать соответствующим образом результаты; все выводы считаем справедливыми только для этих 100 человек. В таком случае, естественно, сомнительным становится и использование положений математической статистики. Подобные ситуации были учтены при разработке ряда методов анализа данных. Существуют такие методы, которые заведомо не предполагают вероятностного порождения данных9. И мы не можем их сбрасывать со счета даже тогда, когда говорим о математической статистике. Дело в том, что одна и та же (с содержательной точки зрения) социологическая задача может решаться по-разному в зависимости от того, что думает исследователь по поводу модели порождения имеющихся в его распоряжении данных. Мы должны сознательно выбрать тот или иной подход (в данном случае речь идет о выборе математико-статистического подхода или отказа от него).10 И не говорить об этом нельзя. К этому вопросу мы вернемся при изложении темы 12 (в п. 12.3, где идет речь об эксперименте по Миллю). Во-вторых, мы можем, не сомневаясь в существовании генеральной совокупности, сомневаться в объективности нашего знания о том, как соотносятся наши наблюдаемые признаки и генеральные случайные величины. Так, к примеру, мы можем, опираясь на расчет средней выборочной зарплаты составляющих выборку респондентов, использовать мощный аппарат математической статистики и находить интервал, в который с определенной вероятностью попадает генеральное математическое ожидание рассматриваемого признака. А в действительности в генеральной совокупности существует, скажем, два распределения: одно для малооплачиваемых, нормальное со средним в 5000 рублей, а другое – для высоко оплачиваемых, тоже нормальное со средним 50000 рублей. Другими словами, в нашей генеральной совокупности существует не одна, а две случайные величины, и с каждой из них надо работать отдельно (отдельно осуществлять все требующиеся оценки). Математическая статистика может помочь «разделить» такую «смесь», но очень трудно заранее догадаться о том, что это надо делать. Отметим, что здесь проблема существования случайной величины переплетается с проблемой однородности генеральной совокупности (о проблеме однородности мы будем также говорить в п. 1.7): под однородной совокупностью нередко понимают такую, на которой задана содержательно интерпретируемая нормально распределенная случайная переменная. 11 Проблема однородности в социологии иногда бывает очень сложной.12 Особенно тонкие и важные для нашей темы моменты возникают в связи с осмыслением понятия вероятности. Адекватный поиск статистических закономерностей (понимание которых не отделимо от понимания вероятности) предполагает умение исследователя различать две ситуации: (1) когда изменение относительной частоты изучаемого явления обусловлено действием случайных по отношению к этому явлению факторов и поэтому может быть нейтрализовано действием закона больших чисел (этот закон будет сформулирован в п. 4.2) и (2) когда то же изменение возникло из-за изменения того комплекса условий, который входит в само определение вероятности; в таком случае закон больших чисел не при чем, мы имеем дело с разными статистическими закономерностями13. К этому мы еще вернемся (п.12.3). Иногда говорят о том, что статистическая закономерность как бы отвечает некой необходимости, «пробивающей себе дорогу» через массу случайностей (в том же смысле обычно говорят о наличии средней тенденции). Например, если коэффициент корреляции близок к единице, то можно говорить, что между признаками «в среднем» имеется линейная зависимость. В частности, с ростом значений одного признака «в среднем»растут значения другого. Но только «в среднем». В этом процессе могут быть «сбои»14. Ясно, что говорить о таком понимании статистической зависимости более целесообразно в том случае, когда речь идет о «средней» ситуации для разных выборок: взяли одну выборку – одни точки признакового пространства отклоняются от прямой линии, взяли другую выборку – другие, а «в среднем» все же большинство точек плотным облаком охватывают прямую (надеемся, читатель имеет представление о том, какова сущность коэффициента корреляции и какая прямая линия имеется в виду; мы еще вспомним об этом в конце данной темы и в п. 13.1). Конечно, о какой-то средней «тенденции» можно говорить и в случае, когда нам кажется неадекватной реальности гипотеза о вероятностном порождении исходных данных. Однако обнаружение такой «тенденции» вряд ли можно считать нахождением научно осмысленной закономерности. Пусть, например, мы опросили какое-то количество (например, 100 человек) мужчин – студентов московских вузов, подсчитали их среднюю успеваемость (4,3 балла) и вычислили формально по известной формуле значение коэффициента корреляции между какими-то двумя переменными (0,9). Предположим также, что у нас нет оснований считать, что наши респонденты являются выборкой из некоторой генеральной совокупности и, соответственно, что значения любого из наших признаков – это реализации некоторой случайной величины). Тогда мы не имеем права хотя бы как-то обобщать эти результаты ни на московских студентов вообще, ни на студентов-мужчин, ни на какую-либо другую совокупность людей. Вполне может случиться так, что если мы добавим к этой совокупности еще 50 юношей-студентов московских вузов, то получим совсем другие цифры (скажем, среднюю успеваемость – 2.3 балла, коэффициент корреляции между теми же переменными – 0,1). И мы даже не можем сказать, какова вероятность такой метаморфозы. 15 Мы вернемся к рассмотрению понятия статистической закономерности в п. 12.1, где нас будет интересовать его соотнесение с понятием причинно-следственной связи. Объект изучения для математической статистики Основным объектом изучения для математической статистики являются случайные величины. Эта наука изучает различные распределения (а, как мы уже отмечали, задать случайную величину и задать распределение вероятностей – это одно и то же), их выборочные представления, соотнесение одних с другими. Предмет изучения для математической статистики Как было сказано, случайная величина отождествляется с определяющим ее значения распределением вероятностей, а поиск всех изучаемых математической статистикой закономерностей сводится к вычислению значений той или иной совокупности параметров распределений каких-либо случайных величин. Поэтому можно сказать, что предметом изучения для математической статистики являются параметры распределений случайных величин. Здесь, наверное, уместно сказать, что судить об этих параметрах исследователь может только на основе выборочных данных 1.6. Основная задача математической статистики Основная задача – изучение проявления статистической закономерности на выборке и перенос результатов с выборки на генеральную совокупность. Перенос осуществляется на вероятностном языке. Существует два способа переноса (отвечающих двум мощным направлениям математической статистики) – статистическое оценивание параметров (этот подход, в свою очередь делится на точечное и интервальное оценивание) и проверка статистических гипотез. Все это подробно будет рассмотрено в следующих темах. Ниже приводится таблица соотнесения основных понятий генеральной совокупности и выборки. В данном случае эта пара терминов в определенном плане синонимична паре «математическая статистика и эмпирическая социология». В соответствии с традицией, понятия, отвечающие генеральной совокупности, обозначаются преимущественно греческими буквами; выборочные их представления - созвучными латинскими буквами.
Таблица 1.1. Соотнесение понятий, отвечающих генеральной и выборочной совокупностям. Ниже мы (в соответствии со сложившимися обычаями) не будем очень строго выдерживать эти обозначения. Так, для обозначения случайных величин чаще будем иногда использовать латинские буквы, а не греческие. Очень строго будем придерживаться лишь обозначений для среднего квадратического отклонения (дисперсии) 1.7. Методологические принципы использования математики в социологии Поскольку математическая статистика – ветвь математики, то, используя ее достижения в социологии, нельзя забывать об основных методологических принципах использования в социологии математических методов. Поясним подробнее, о чем идет речь.Любой математический метод предполагает адекватной реальности определенную модель того явления, которое с помощью этого метода изучается (заметим, что это касается не только такой ситуации, когда мы пытаемся моделировать реальность с помощью математических методов, но и любого научного исследования вообще: любая наука имеет дело с моделью, и для успешности научных изысканий весьма часто требуется осознание того, какая модель используется исследователем). Конечно, об этом надо думать при использовании математики в любой отрасли знания. Но если в естественных и технических науках мы, применяя тот или иной математический метод, можем не задумываться о том, какая именно модель в нем заложена, то для социологии вопрос о выборе такой модели стоит довольно остро. Объясняется это в первую очередь тем, что наука пока не предложила методов, полностью адекватных большинству социологических ситуаций. Поясним сказанное примерами. Применяя математику, скажем, в строительстве, мы рассчитываем нагрузку на некоторую балку, используя сложные формулы. При этом мы можем совершенно не помнить, как эта формула получена. Правильно рассчитаем – дом будет стоять. А в социологии не так. Например, одних только коэффициентов, измеряющих связь между двумя признаками – более сотни. Все они изменяются от 0 до 1 (или от -1 до +1). Значение «1» говорит о сильной связи, «0» – об отсутствии оной. Но каждый коэффициент по-своему «понимает» связь. Разные коэффициенты принимают значение «1» в разных ситуациях. Что же делать социологу, если один из коэффициентов равен 0,9, а другой – 0,2? Описанный факт не уникален. Имеет место следующее обстоятельство: если для решения какой-то социологической задачи существует некий математический метод, то, как правило, он не единствен. Одной из основных трудностей использования математики в социологии является выбор метода, сравнение методов друг с другом и т.д. Однако на этом проблемы не кончаются. Назовем, по крайней мере, еще две. Во-первых, каждый математический метод требует определенной однородности изучаемой с его помощью совокупности объектов. Один из самых очевидных примеров: среднее арифметическое значение какого-либо признака бессмысленно считать для такой совокупности, в которой разброс значений этого признака велик (скажем, для современной России бессмысленным является среднее значение зарплаты). Как мы уже упоминали в сноске 9, при изучении статистических закономерностей однородность совокупности нередко понимается как существование некоторой определенной для всех элементов совокупности случайной величины (или нескольких величин). А все интересующие нас закономерности, как было отмечено выше, – это параметры таких величин. Значит, однородность по существу должна отождествляться с осмысленностью для изучаемой совокупности выявляемой статистической закономерности. Во-вторых, процесс применения математического аппарата в социологии, как правило, не может быть сведен непосредственно к выбору и реализации того или иного алгоритма анализа некой информации. В силу сложности проблемы концептуализации предмета исследования (в частности, вычленения и операционализации понятий, обеспечения процесса измерения, выбора модели изучаемой закономерности), неоднозначности толкования человеческих суждений, отсутствия строгой границы между объектом и субъектом исследования и т.д. использование любого математического аппарата «обрастает» огромным количеством проблем, решаемых на самых разных этапах социологического исследования. Опираясь на сказанное, следующим образом сформулируем основные методологические принципы применения математики в социологии: (1) соотнесение модели, заложенной в методе, с содержанием решаемой с его помощью социологической задачи; (2) обеспечение однородности изучаемой совокупности объектов; связь представления об однородности с содержанием задачи; (3) обеспечение органической связи всех этапов исследования друг с другом, особенно этапа измерения и этапа анализа; (4) комплексное использование разных математических методов: последовательное (когда разные методы используются на разных этапах и, чаще всего «выход» одного метода служит «входом» для другого) и параллельное, когда разные методы используются для решения одной и той же задачи и исследователь должен сравнивать получающиеся результаты на базе сравнения заложенных в методах моделей. Подчеркнем, что мы сформулировали лишь самые основные принципы, которые в первую очередь будут учитываться нами при обсуждении проблем, связанных с обеспечением корректности применения в социологии теории вероятностей и математической статистики. 1.8. Некоторые замечания о терминах, использующихся в западной литературе. Терминология, использующаяся в отечественной и западной литературе интересующего нас плана (мы имеем в виду в первую очередь американские учебники по т.н. статистике) в определенной мере различна16. И за этим различием зачастую стоят разные методологические позиции. Коснемся подобной ситуации, имеющей место для некоторых терминов, рассмотренных выше. Представляется, что анализ соответствующих методологических аспектов имеет непосредственное отношение к практике использования социологом достижений математической статистики. Итак, мы разделил все интересующие нас статистические показатели на две большие группы – параметры распределений, т.е. как бы «истинные», генеральные характеристики случайных величин, и статистики – выборочные оценки «истинных» параметров. Процедура поиска параметров может иметь весьма разную степень сложности. Одни параметры просто говорят об описании совокупности. Это, скажем, математическое ожидание и дисперсия. Поиск их сравнительно прост. Другие – позволяют изучать причинно-следственные отношения. Это, например, коэффициент корреляции. Его найти уже сложнее, соответствующая процедура включает в себя, в частности, расчет математических ожиданий и средних квадратических отклонений. Третьи параметры дают возможность прогнозировать ситуацию. Это делает, например, регрессионный анализ (коэффициенты уравнения регрессии – это тоже набор параметров, характеризующих распределение случайной величины). Построение уравнения регрессии – еще более сложная процедура, включающая в себя, в частности, расчет разного рода коэффициентов корреляции. Выбор рассчитываемых параметров определяется решаемой содержательной задачей. И прежде всего здесь можно указать на три огромные класса задач, обычно выделяемые в методологии науки как основные, отвечающие целям любой наукой – описание, объяснение, предсказание. Первую задачу обычно связывают с термином «описательная (дескриптивная) статистика», называя таким образом и совокупность простейших параметров распределения, таких, как математическое ожидание и дисперсия (или их выборочные оценки), и ветвь статистики (как науки), позволяющую эти характеристики найти. Наверное, можно было бы вводить термины «объяснительная статистика», «предсказательная статистика» и т.д. Но этого не делается, поскольку слишком много методов могут «объяснять» или «предсказывать» изучаемые явления, слишком трудно провести границу между теми и другими задачами. Подчеркнем, что всегда, какие бы параметры мы ни рассчитывали (и, соответственно, какую бы задачу ни решали), всегда мы сначала будем находить соответствующие выборочные статистики, а потом «соображать», с какой вероятностью в генеральной совокупности будет иметь место та или иная ситуация с параметрами изучаемых распределений. И всегда за нашими действиями будет стоять определенная модель, в наличии которой мы должны давать себе отчет. Модель стоит даже за самыми простейшими параметрами. Так, выбирая для оценки средней тенденции математическое ожидание, моду или медиану, мы по-разному понимаем смысл этой самой средней тенденции (а ведь бывают и другие меры средней тенденции – например, среднее геометрическое, среднее гармоническое, да и квантили тоже можно считать своеобразными средними). То же можно сказать о разных мерах разброса, коих тоже немало17. В западной же литературе вся статистика обычно делится на описательную (descriptive) и «выводимую» (inferential). Descriptive statistics consists of the collections, organizations, summarizations, and presentations of data18. В дескриптивной статистике исследователь пытается описать ситуацию, определенным образом собирая данные, рассчитывая определенные средние и проценты и представляя собранную информацию в наглядном виде, используя диаграммы, графики, таблицы. Типичным примером использования описательной статистики является перепись населения. Трудно возразить против описанного термина, если не попытаться уточнить его смысл путем сопоставления понятия «дескриптивная статистика» с понятием, ему противопоставляемым, - «выводимой статистикой». «Inferential statistics consists of generalizing from samples to population, performing hypothesis tests, determining relationships among variables, and making predictions»19. Работая в рамках выводимой статистики, исследователь пытается перенести результаты с выборки (sample) на генеральную совокупность (population) путем проверки статистических гипотез. Но этим цели выводимой статистики (как науки) не ограничиваются. В нее еще входит изучение соотношений между переменными и осуществление предсказаний. На наш взгляд, некорректно объединять в одну группу проверку статистических гипотез и, скажем, изучение связей между переменными. Остается абсолютно неясным основание выделения такой группы. Сомнительным выглядит и противопоставление этой группы методам дескриптивной статистики. Опишем причины наших сомнений. Во-первых, проверка статистических гипотез требуется абсолютно для всех методов – и для описательной статистики, и для разного рода коэффициентов связи, и для прогнозных алгоритмов.. Во-вторых, четкой границы между методами описательной статистики и методами изучения отношений переменных нет. Так, коэффициенты корреляции нередко используются в чисто описательных целях. В третьих, методы описательной статистики не менее «выводимы», чем методы изучения связей между переменными и прогнозирования. Так, собирая данные, мы используем иногда совсем не очевидные модели: именно так, а не иначе измеряем переменные (а в каждом методе измерения заложена своя модель); разбиваем диапазон изменения признака на интервалы (это – в значительной мере субъективная процедура, а от нее зависит и характер получаемого описания, и величина коэффициентов связи и т.д.); выбираем то или иное понимание средней тенденции или разброса и т.д. Более адекватной представляется нам терминология, которую мы ввели выше и которая соответствует традициям отечественной школы. Отметим, что описанная выше точка зрения отвечает взглядам и современных русских ученых, и российских исследователей начала 20-го века. Так, известный математик-социолог А.А.Чупров называл «вероятностным априори» то, для обозначения чего мы используем словосочетание «генеральные параметры», и говорил о необходимости отчетливого и выдержанного разграничения априорных искомых и эмпирических данных статистического исследования. В частности, он полагал, что именно смешение указанных объектов изучения приводят к сбивчивости в трудах представителей известной английской статистической школы, возглавляемой К.Пирсоном. Сбивчивость, по мнению Чупрова, затрудняла усвоение работ этой школы (которую Чупров ценил очень высоко; результаты, полученные Пирсоном и окружающими его исследователями, он активно пропагандировал в своих работах). А.А.Чупров был воспитан на трудах крупнейших русских математиков – П.Л.Чебышева, А.М.Ляпунова, А.А.Маркова, занимающих лидирующие позиции в мировой математической статистике второй половины 19-го – начала 20-го века. |