Главная страница
Навигация по странице:

  • Дополнительная литература

  • Девятко И. Методы социологического исследования. Логика социологического исследования методология и логика социологического исследования. Возможно ли объективное и научное социальное знание


    Скачать 1.69 Mb.
    НазваниеЛогика социологического исследования методология и логика социологического исследования. Возможно ли объективное и научное социальное знание
    АнкорДевятко И. Методы социологического исследования.doc
    Дата20.03.2018
    Размер1.69 Mb.
    Формат файлаdoc
    Имя файлаДевятко И. Методы социологического исследования.doc
    ТипДокументы
    #16933
    КатегорияСоциология. Политология
    страница18 из 18
    1   ...   10   11   12   13   14   15   16   17   18

    Множественная регрессия и путевой анализ

    Выше описывалась модель линейной регрессии для двух переменных. В дей­ствительности социолог довольно редко сталкивается со столь простыми моде­лями данных. Влияние одного фактора обычно может объяснить лишь часть разброса наблюдаемых значений независимой переменной. Метод частной кор­реляции позволяет нам проконтролировать эффекты воздействия любых дру­гих контрольных переменных, которые мы в состоянии измерить. (Стоит снова подчеркнуть здесь, что статистические методы изучения причинных взаимо­связей, в отличие от экспериментальных, позволяют нам контролировать лишь те источники вариации, которые мы способны концептуализировать и измерить.) Однако еще более интересной задачей является контроль одновременного воз­действия нескольких независимых на одну зависимую переменную, а также срав­нение эффекта воздействия разных независимых переменных и предсказание «отклика» независимой переменной. Именно эти задачи решают методы анали­за, о которых пойдет речь в данном параграфе. Наше изложение будет непол­ным, так как более детальное обсуждение требует дополнительной математи­ческой подготовки. Мы будем ориентироваться на сравнительно скромные цели понимания общей логики и интерпретации результатов соответствующих ста­тистических процедур.

    Уравнение множественной регрессии — это определенная модель порождения данных. Важные допущения, принимаемые в этой модели, касаются уже извес­тного вам требования линейности, а также аддитивности суммарного эффекта независимых переменных. Последнее означает, что воздействия разных неза­висимых переменных просто суммируются, а не, скажем, перемножаются (муль­типликативный эффект, в отличие от аддитивного, имеет место тогда, когда ве­личина воздействия одной независимой переменной на зависимую, в свою оче­редь, находится под влиянием другой независимой переменной, т. е. независимые переменные взаимодействуют друг с другом).

    Множественная регрессия во многом аналогична простой (бивариантной) рег­рессии. Отличие состоит в том, что регрессия осуществляется по двум и более независимым переменным одновременно, причем каждая из них входит в рег­рессионное уравнение с коэффициентом, позволяющим предсказать значения зависимой переменной с минимальным количеством ошибок (критерием здесь снова является метод наименьших квадратов). Частные коэффициенты в урав­нении множественной регрессии показывают, какой будет величина воздействия соответствующей независимой переменной на зависимую при контроле влия­ния других независимых переменных. Если воспользоваться простейшей сис­темой обозначений, то уравнение множественной регрессии для трех независи­мых переменных можно записать как:



    где Y— это предсказываемое значение зависимой переменной, X1 ... Х3, неза­висимые переменные, а b, ... b3, частные коэффициенты регрессии для каж­дой из зависимых переменных.

    Коэффициенты b могут быть интерпретированы как показатели влияния каж­дой из независимых переменных на зависимую при контроле всех других неза­висимых переменных в уравнении. В отличие от коэффициентов частной кор­реляции коэффициенты регрессии обладают размерностью. Они показывают,

    на сколько единиц изменится зависимая переменная при увеличении независи­мой на одну единицу (при контроле всех остальных переменных модели). Пусть, например, мы построили уравнение множественной регрессии, описываю­щее зависимость дохода от интеллекта 1) и стажа работы 2). Если вели­чина b1 оказалась равной 100, это означает, что каждый дополнительный балл по шкале интеллекта увеличивает доход на 100 рублей. Значение b2= 950 говорит нам, что год стажа прибавляет 950 рублей. Однако «сырые» оценки интеллекта и стажа измерены в разных единицах. Для определения сравни­тельной значимости независимых переменных, входящих в уравнение мно­жественной регрессии, мы должны подвергнуть все переменные стандар­тизации (т. е. перевести их в Z-оценки, см. выше). Стандартизованные ко­эффициенты множественной регрессии, которые удобнее всего обозначать как b* (либо греч. «бета» — B), меняются в пределах от -1,0 до +1,0. Они сохраняют свою величину при изменении масштаба шкалы: переход от измерения возраста в годах к измерению в днях не изменит соответству­ющий b*.

    Стандартизованные коэффициенты позволяют оценить «вклад» каждой из переменных-предикторов в предсказание значений независимой перемен­ной. Если в примере с влиянием интеллекта и стажа работы на доход ока­жется, что b1* = 0,25, a b2*=0,30, то можно заключить, что сравнительная значимость «веса» интеллекта и стажа в предсказании дохода различаются незначительно. Если же для одной переменной b1* =0,80, тогда как b2* =0,40, мы можем сказать, что эффект воздействия второй переменной в два раза меньше эффекта первой.

    Чтобы определить ожидаемые значения зависимой переменной для отдельных индивидов, достаточно подставить в уравнение множественной регрессии со­ответствующие значения переменных-предикторов и вычисленных коэффици­ентов Ь. Пусть, например, мы хотим рассчитать прогнозное значение величины дохода для человека, чей коэффициент интеллекта равен 110, а стаж работы — 20 годам. Если b1, как в вышеприведенном примере, составляет 100, b2 = 950, а слагаемое а = 50000, то мы получим:

    ожидаемый доход = 50000 +100 х 110 + 950 х 20 = 80000 руб.

    Множественную регрессию можно использовать и для предсказания средних групповых значений, например среднего дохода мужчин-врачей. Единственное различие в данном случае заключается в использовании средних значений неза­висимых переменных для подстановки в уравнение множественной регрессии. В качестве независимой переменной множественной регрессии могут исполь­зоваться и дихотомические переменные, которым приписывают значения 0 и 1 (например, пол). Для того чтобы включить в уравнение номинальную перемен­ную с более чем двумя категориями, нужно создать соответствующее число новых, «фиктивных» переменных, каждая из которых будет кодироваться как О или 1 в зависимости от наличия или отсутствия категории-признака. Скажем, состоящую из трех категорий переменную «цвет глаз» можно представить с помощью трех переменных: Х1 «голубые глаза», Х2 «карие глаза», Х3,«зеленые глаза». (Человек с голубыми глазами получит 1 по Х1 и 0 по двум другим переменным.)

    Метод множественной регрессии очень популярен среди социологов. Вот, на­пример, как выглядели результаты его применения в исследовании Л. Бэрона и

    Таблица 8.12 Множественный регрессионный анализ статистики изнасилований, 1979 г.21

    Независимая переменная

    Коэффициент b

    Коэффициент

    b*

    p<

    Индекс совокупного тиража порнографических журналов (SMCX)

    6,99

    0,52

    0,001

    Показатель числа убийств и непредумышленных убийств

    1,70

    0,55

    0,001

    Показатель числа публичных оскорблений с угрозой применения физической силы

    0,04

    0,32

    0,001

    Индекс положения женщин (SWX)

    0,43

    0,27

    0,014

    Число грабежей

    -0,03

    -0,25

    0,052

    Процент черного населения

    -0,41

    -0,38

    0,001

    Процент живущих ниже федерального уровня бедности

    1,11

    0,29

    0,011


    М. Строса, изучавших факторы, влияющие на статистику изнасилований20. Использованная в планировании этого исследования матрица данных включа­ла в себя в качестве объектов («случаев») различные штаты США. Признаками, по которым описывались штаты, служили около десятка независимых и соб­ственно контрольных переменных, предположительно воздействующих на за­висимую переменную,—количество зарегистрированных полицией изнасило­ваний на 100000 населения в год для данного штата (по данным ежегодных статистических отчетов ФБР). Предполагалось, что существующие различия между штатами в уровне изнасилований можно будет объяснить различиями в уровнях независимых переменных. Нужно отметить, что разброс «случаев» по зависимой переменной был весьма велик — от 71,9 на Аляске до 8,2 в Север­ной Дакоте (1979). Из десятка переменных, включенных в уравнение множе­ственной регрессии, девять оказались статистически значимы. Основные ре­зультаты регрессионного анализа для семи переменных представлены в таб­лице 8.12.

    Из таблицы видно, что индекс совокупного тиража порнографических журна­лов (интегральный показатель, учитывающий уровни продаж восьми популяр­ных изданий) имеет коэффициент регрессии 6,99. Это означает, что рост индек­са на единицу в среднем увеличивает количество изнасилований почти на 7 случаев (в расчете на 100000 населения). Весьма значительно и влияние чис­ла убийств, что особенно заметно при сравнении стандартизованных коэффи­циентов (b*), не зависящих от шкалы измерения признака. Фактически количе­ство убийств вносит самый значительный «вклад» в предсказание значений за­висимой переменной (b* = 0,55). Интересно отметить, что одна из независимых переменных в описываемом исследовании — индекс положения женщин, рас­считанный на основании 22-х политических, экономических и социальных ин­дикаторов,—при анализе простых взаимосвязей продемонстрировала практи­чески нулевую корреляцию с количеством изнасилований (г = 0,17), причем

    20 Baron L., Strauss M. A. Sexual Stratification, Pornography, and Rape in the United States // Malamuth N.. Donnerstein E. (eds.) Pornography and Sexual Aggression. Orlando etal.:

    Academic Press, 1984. P. 185—209.

    21 Таблица приводится в сокращении по источнику: Baron L, Strauss V. A. Sexual Stratification, Pornography, and Rape...

    результаты анализа диаграммы рассеивания также не дали никаких свидетельств в пользу гипотезы о нелинейной связи. Множественная регрессия позволила уточнить первоначальные выводы: при контроле прочих переменных модели, чем выше статус женщин, тем выше уровень изнасилований (результат, которо­му довольно трудно найти теоретическое объяснение). Использование девяти независимых переменных позволило объяснить 83% дисперсии в показателях количества изнасилований (квадрат коэффициента множественной корреляции r2 составил 0,83).

    При интерпретации результатов множественной регрессии стандартизован­ные коэффициенты, как уже говорилось, используют в качестве показателей значимости, «вклада» соответствующих переменных. Эта трактовка верна лишь в определенных пределах. При нарушении некоторых условий сравне­ние абсолютных величин стандартизованных коэффициентов может вести к неверным выводам. Дело в том, что коэффициенты регрессии подвержены влиянию случайных ошибок измерения (см. с. 116). Использование ненадеж­ных индикаторов «сдвигает» регрессионные коэффициенты к нулю22. Ины­ми. словами, более надежные индикаторы дают более высокие оценки коэф­фициентов. Пусть, например, для предсказания риска сердечно-сосудистых заболеваний использовались две независимые переменные индивидуально­го уровня—«ориентация на достижения» и «склонность подавлять агрес­сию»,—причем шкала для измерения первой обладала более высоким коэф­фициентом надежности. Если стандартизованный коэффициент регрессии для достиженческой мотивации окажется выше, чем для подавления агрес­сии, это может рассматриваться как следствие таких содержательных раз­личий между переменными, которые важны с точки зрения теории психосо­циальных факторов заболеваемости. Но нельзя исключить и альтернатив­ное объяснение, связывающее более высокий регрессионный коэффициент первой переменной с побочными эффектами методов измерения: влияние ориентации на достижения не превосходит влияния, оказываемого на риск инфаркта склонностью подавлять агрессию, а наблюдаемые различия рег­рессионных коэффициентов связаны лишь с ненадежностью использован­ных индикаторов склонности к подавлению.

    Другая проблема, требующая некоторой осторожности в интерпретации ко­эффициентов регрессии, возникает вследствие того, что модель множествен­ной регрессии не обязывает нас ни к каким строгим предположениям о при­чинных связях между независимыми переменными. Регрессионное уравне­ние, образно говоря, не делает никаких различий между собственно независимыми, т. е. теоретически специфицированными, переменными и дополнительными—контрольными, опосредующими и т. п.—факторами, вводимыми в модель с целью уточнения. В тех случаях, когда теоретическая гипотеза, проверяемая в ходе исследования, допускает: 1) существование взаимосвязей между независимыми переменными, 2) наличие прямых и кос­венных (опосредованных) влияний, а также 3) использование нескольких индикаторов для каждого латентного фактора, могут понадобиться более совершенные статистические методы. Одна из возможностей здесь—это использование путевого анализа.

    22 Это явление называют аттенюацией. Существуют специальные методы внесения поправок на аттенюацию, но здесь они обсуждаться не будут.

    Путевой анализ один из основных способов построения и проверки причин­ных моделей в социологии. Многие более продвинутые статистические техники основаны на сходной исследовательской методологии.

    Важным достоинством путевого анализа является то, что он позволяет оценить параметры каузальных моделей, причем в расчет принимаются не только пря­мые, но и непрямые (опосредованные) влияния. Если, например, в результате корреляционного или регрессионного анализа мы обнаружили, что интеллект (измеренный как IQ) лишь умеренно влияет на доход, нам не следует торопить­ся с общими выводами. Мы оставили неучтенной возможность того, что интел­лект может иметь существенное влияние на образование, которое, в свою оче­редь, воздействует на последующий доход. Таким образом, нам нужно принять во внимание то, что интеллект — помимо прямого эффекта — может иметь еще и опосредованное, непрямое влияние на доход посредством влияния на образо­вание. Методы, рассматривавшиеся нами до сих пор, описывали только пря­мые эффекты.

    Путевой анализ включает в себя технику представления прямых и косвен­ных причинных влияний при помощи специальных диаграмм (потоковых графов). Эти диаграммы часто называют просто причинными (структурны­ми) моделями.

    Последовательно «считывая» такую модель, можно легко определить все пути влияния одной переменной на другую и соответственно оценить величину чис­того эффекта. Во многих разделах этой книги причинные модели уже исполь­зовались для представления сравнительно сложных причинных гипотез (см., например, с. 122), поэтому общая логика их построения не требует детального обсуждения. Порядок представления переменных на диаграмме отражает пред­полагаемое направление причинной связи, а диапазон включенных в диаграм­му переменных и отношения между ними зависят от принятых исследователем теоретических гипотез. Так называемые путевые коэффициенты, описыва­ющие связи между переменными (связям соответствуют стрелочки на диаг­рамме), равны стандартизованным коэффициентам множественной рег­рессии (b*)23.

    Обычно путевую диаграмму рисуют слева направо — от самых «ранних» по порядку следования независимых переменных до зависимой. Путевые коэффи­циенты часто обозначают латинскими «р» с подстрочными индексами 21это путевой коэффициент для связи между переменными X1 —> Х2). На рисунке 24 в качестве примера изображена путевая диаграмма, отражающая гипотети­ческие отношения между интеллектом 1), образованием 2), социально-эко­номическим статусом 3), доходом 4) и размерами сбережений 5).

    Специальные правила позволяют перевести отношения, изображенные на ди­аграмме, в совокупность структурных уравнений, описывающих механизмы прямого и опосредованного воздействия одних переменных на другие. На ри­сунке 24, в частности, видно, что не существует пути для прямого воздействия интеллекта на размеры сбережений, однако общий эффект воздействия интел­лекта будет включать в себя совокупность непрямых эффектов: X1 воздейству­ет на X5 и через образование 2), и через достигнутый статус 3), и через доход 4). Иными словами, хотя и нельзя утверждать, что склонность откладывать деньги «в кубышку» зависит от умственных способностей, последние влияют

    23 В оценивании также используется метод наименьших квадратов.



    и на возможность получения образования, и на статус, и на доход. В свою оче­редь, люди с определенным социальным и экономическим статусом обнаружи­вают склонность иметь сбережения.

    В общем случае, полный эффект влияния переменной равен сумме ее непосред­ственного эффекта и всех косвенных эффектов влияния. Величины возмуще­ний (е2 — e4) Ha рисунке позволяют оценить, насколько хорошо работает мо­дель, показывая, какая часть дисперсии соответствующей переменной осталась необъясненной. В результате путевой анализ позволяет пересматривать и уточ­нять исходную теоретическую модель, сравнивать «эффективность» несколь­ких конкурирующих теорий для объяснения существующей совокупности эм­пирических наблюдений. Существуют даже компьютерные программы, осу­ществляющие автоматический поиск наилучшей структурной модели, т. е. процедуру, сходную с отбором из нескольких существующих теорий та­кой, которая максимально соответствовала бы полученным в исследовании дан­ным24. Важно, однако, осознавать, что сами по себе результаты применения регрессионных методов и причинных моделей (регрессионные коэфициенты, линии регрессии, путевые диаграммы) решают прежде всего задачу обобщен­ного описания уже полученных эмпирических данных. Они могут служить на­дежной основой для интерполяции, оценки положения гипотетических «точек» в пределах ряда наблюдавшихся значений, однако их использование в целях экстраполяции и прогноза может вести к существенным ошибкам в тех случа­ях, когда такой прогноз не подкреплен более широкой теорией, не сводимой к отдельной модели для конечной совокупности данных. (Достаточно указать в качестве примера на многочисленные ошибочные прогнозы в экономике — на-

    24 Подробнее см.: И. Ф. Девятко. Диагностическая процедура в социологии: очерк ис­тории и теории. М.: Наука, 1993. С.121—136.

    уке, где количество эмпирических данных и описывающих их структурных моделей многократно превзошло количество существующих теорий.)

    Путевой анализ, как и множественная регрессия, сегодня является частью боль­шинства стандартных статистических программ для компьютера. Не стоит, од­нако, забывать о том, что при любом уровне прогресса в компьютерном обеспе­чении задать причинную модель, т. е. совокупность содержательных гипотез, подлежащих статистическому оцениванию, может только сам исследователь.

    Дополнительная литература

    Вайнберг Дж., Шумекер Дж.. Статистика. М.: Финансы и статис­тика, 1979.

    Гласе Дж., Стэнли Дж. Статистические методы в педагогике и пси­хологии. М.: Прогресс, 1976.

    Интерпретация и анализ данных в социологическом исследовании. М.: Наука, 1987.

    Татарова Г. Г. Типологический анализ в социологии. М.: Наука,

    1993.

    Типология и классификация в социологических исследованиях. М.:

    Наука, 1982.

    Толстова Ю. Н. Логика математического анализа социологических

    данных. М.: Наука, 1991.

    Хейс Д. Причинный анализ в статистических исследованиях. М.:

    Финансы и статистика, 1981.

    Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. М.: Финансы и статистика, 1989.

    Ядов В. А. Социологическое исследование: методология, програм­ма, методы. 2-е изд. М.: Наука, 1987. Гл. 5.
    1   ...   10   11   12   13   14   15   16   17   18


    написать администратору сайта