Главная страница
Навигация по странице:

  • ДЛЯ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ ФУНКЦИОНИРОВАНИЯ И ПОВЕДЕНИЯ СЛОЖНЫХ СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМ 8.1. Статистический выборочный метод

  • 8.2. Корреляционный анализ

  • Расчет коэффициента корреляции рангов «стаж-квалификация» по 10 рабочим Таблица 8 2 I D О fj эс a о

  • 71. Ч АРЛЬЗ С ПИРМЕН (1863 - 1945) - английский психолог. Разработал цикл статистических методов с целью измерения структуры интеллекта. Изучая

  • Зависимость между степенью выполнения норм выработки и полом рабочих

  • Системный анализ. 2009_Ракитов АИ и др_Системный анализ и аналитические исследован. Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40


    Скачать 2.27 Mb.
    НазваниеРуководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40
    АнкорСистемный анализ
    Дата07.05.2023
    Размер2.27 Mb.
    Формат файлаpdf
    Имя файла2009_Ракитов АИ и др_Системный анализ и аналитические исследован.pdf
    ТипРуководство
    #1114104
    страница15 из 25
    1   ...   11   12   13   14   15   16   17   18   ...   25
    Глава 8
    ИСПОЛЬЗОВАНИЕ СТАТИСТИКИ, ТЕОРИИ
    ВЕРОЯТНОСТИ, ЭЛЕМЕНТОВ КОМБИНАТОРИКИ
    ДЛЯ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ
    ФУНКЦИОНИРОВАНИЯ И ПОВЕДЕНИЯ СЛОЖНЫХ
    СОЦИАЛЬНЫХ И ЭКОНОМИЧЕСКИХ СИСТЕМ
    8.1. Статистический выборочный метод
    Под выборочным методом понимают технологию выявления признаков свойств генеральной совокупности бб по данным анализа малой совокупности.
    Альтернативой выборочному методу является сплошное обследование
    -дорогостоящий метод, чреватый приписками, волюнтаризмом, очковтирательством.
    Математика показывает также, что сплошное отслеживание по точности не лучше выборочного, поэтому искусство делать выборку сейчас
    65 Несмотря на то, что сегодня эти задачи быстро решаются на компьютерах, знать математическое содержание проблемы необходимо, для того чтобы дать правильную интерпретацию полученных результатов
    66. Генеральная совокупность - вся изучаемая выборочным методом статистическая совокупность объектов и/или явлений общественной жизни, имеющих общие качественные признаки или количественные переменные
    262
    очень востребовано. Кроме того, встречаются ситуации, при которых выборочный метод является единственно возможным методом анализа, например, контроль качества при производстве изделий одноразового пользования
    (огнетушителей, патронов и др.), исследования, апеллирующие к безграничной генеральной совокупности (медицинская статистика, статистика в биологии).
    При выборочном обследовании из генеральной совокупности выделяется для сплошного обследования некоторая часть, называемая выборкой. Есть много способов формирования выборки, но только один из них обеспечивает репрезентативность
    («представительность») - это случайный выбор.
    Случайный выбор позволяет контролировать, как мы увидим далее, и точность полученных выводов, основываясь на результатах выбора.
    На практике простой случайный выбор организовать нелегко. Поэтому практикуют различные способы квазислучайного выбора. Поскольку главное при выборочных обследованиях - это правильно составленная выборка, то такими выборками дорожат и часто обращаются к одним и тем же выборкам неоднократно
    (например, при бюджетных обследованиях семей). Самое первое, главное и отстоящее от всех других требований заключается в том, чтобы обеспечить всем опрашиваемым или исследуемым единицам равный шанс на участие в выборке. Если этого не делать, выборка получается, как говорят специалисты, «смещенной». Выводы, сделанные на основе смещенной выборки, заведомо неправильные и не должны использоваться в аналитических исследованиях.
    Классический пример неправильно построенной выборки относится к 1936 г., когда, в разгар президентской избирательной кампании в США журнал
    «Literary Digest» разослал своим подписчикам, имеющим телефоны, вопросник по поводу вероятного исхода голосования (всего было разослано около 10 млн. анкет).
    Поступило около 2300 тыс. ответов. Они уверенно предсказывали победу республиканскому кандидату
    Л
    ЭНДОНУ
    Победил же, причем с большим отрывом, демократический кандидат

    263

    Ф. Р
    УЗВЕЛЬТ
    Очевидно, что принадлежавшие к высшему обществу США подписчики данного журнала, к тому же обладавшие редкими тогда телефонными аппаратами, не могли представлять все американское общество.
    Другой классический пример связан с мобилизацией армии и флота в США в 1940 г. Десять тысяч капсул с номерами, соответствующими именам призывников, помещались в некое устройство, наподобие современного лототрона, и перемешивались. Далее в присутствии публики из лототрона наугад извлекались капсулы и определялись те молодые люди, кто пойдет служить. В результате было много номеров, выпавших подряд. Разбирательство показало, до какой степени был недоучтен фактор необходимости гораздо более длительного перемешивания этого огромного количества капсул.
    Точность выборочного метода. Предположим, что образующие генеральную совокупность объекты могут обладать (а могут и не обладать) некоторым определенным свойством. Назовем его свойством А. Цель обследования - определить, какую долю генеральной совокупности составляют объекты, обладающие свойством А. Случайный выбор одного элемента из генеральной совокупности называют простым, если все элементы имеют равные вероятности быть выбранными.
    Случайный выбор предписанного числа п элементов совокупности называют простым, если на каждом шаге производится простой случайный выбор элементов.
    Ради простоты предположим, что объем выборки пренебрежимо мал по сравнению с объемом генеральной совокупности. В этом случае можно считать, что на каждом шаге формирования выборки имеется одна и та же вероятность выбора объекта со свойством А, и равна она доле 0 этих объектов во всей совокупности.
    Пусть X обозначает число элементов выборки, которые обладают свойством А. При случайном выборе величина X тоже случайна. Вообще говоря, доля объектов выборки, обладающих свойством А, не совпадает с их долей во всей генеральной совокупности, т.е. 2L ф
    Q
    .
    264
    Однако:
    a) при простом случайном выборе ожидаемая доля таких объектов равна именно 0 (говорят также, что ма тематическое ожидание величины 2L. равно 9): м— * 6J
    b) с ростом объема выборки эта доля приближается к 0.
    Так что при больших п пункты а) и Ь) дают новое понимание репрезентативности, когда выбор случаен.
    Разность между ожидаемой в выборке долей объектов, обладающих свойством А, и их долей в генеральной совокупности как раз и называют смещением выборки.
    Отсутствие смещения может быть обеспечено только планом обследования и его аккуратным осуществлением.
    Большая часть ошибок при выборочных обследованиях связана именно со смещениями. Смещения возникают иногда из-за трудности, а то и невозможности осуществить простой случайный выбор.
    Точность приближенного равенства -К. s 0 можно оценить по самой выборке. А именно, в силу описанной выше нами центральной предельной теоремы выполняется следующее неравенство:
    X
    Это значит, что расхождение между измеренной долей Ж. носителей признака А и ее истинной величиной
    0 всегда может быть уменьшено относительно заданной величины, а у исследователя есть резервы повышения точности обследования
    67
    . По своему статистическому смыслу последнее выражение - дисперсия случайной ве-
    67 Однако системным аналитикам нужно четко понимать, какой уровень точности необходим для удовлетворительного решения той или иной задачи Иногда, и это часто встречается при анализе быстро меняющихся ситуаций в бизнесе или социально- политических процессах, на дополнительные вычисления может уйти достаточно много времени даже при использовании мощных вычислительных машин Но суть дела это может и не изменить Поэтому зачастую приходится, опираясь на те или иные ограничения, находить удовлетворительный уровень точности в статистических и вероятностных вычислениях с тем, чтобы погоня за максимальной точностью не привела к запаздыванию в получении основных аналитических результатов
    265
    личины _2С. Поэтому впредь, говоря о точности той или
    Л.
    иной несмещенной оценки 8 , мы будем иметь в виду ее дисперсию. На точность оценки, в свою очередь, влияет:
    a) Число наблюдений п, точнее \п. Чтобы увеличить точность оценки вдвое, надо увеличить п вчетверо; b) Величина 0(1-9) : чем она больше, тем ниже точ ность. В свою очередь, 6(1-8) зависит определенным образом от измеряемой величины 6. Если внимательно проанализируем последнее неравенство, то увидим, что, чем ближе 9 к 0 или к 1, тем меньше ошибка измерения величины 8 при заданном объеме выборки п.
    Обратим внимание на то, что при выводе выражений мы нигде не встречались с тем, какую долю составляет численность выборки относительно численности генеральной совокупности. Поэтому такая величина, как процент охвата, вообще не должна участвовать в планировании статистических обследований. Возникает вопрос, можем ли мы уменьшить нашу выборку до 2-3 человек, а потом по этой выборке судить о миллионе. Ответ именно в том, что на малой выборке точность невысока, но увеличение числа респондентов для достижения точности и обеспечение мифического процента охвата - совершенно разные понятия
    68
    При проведении системного анализа сложных явлений может оказаться так, что генеральная совокупность будет представлять собой совокупность нескольких меньших и непересекающихся совокупностей. Их называют слоями или стратами. В этом случае хорошей альтернативой простому случайному выбору является выбор из расслоенной совокупности или, другими словами, стратифицированный выбор. Признак, в отношении которого генеральная совокупность разбивается на слои
    (страты), называется стратифицирующим.
    Мы уже отмечали, что точность оценивания 9 тем больше, чем дальше это значение отстоит от центра интервала (0,1). Может оказаться, что в отдельных стратах доля объектов со свойством А сильно отличается от сред-
    68. Т
    ЮРИН
    Ю., М
    АКАРОВ
    А. Анализ данных на компьютере. - М.: Инфра-М, 2003.
    него по всей генеральной совокупности: в этих частях она может быть близкой либо к 0, либо к 1. Если так, то для оценивания 8 в этих совокупностях достаточны выборки небольших объемов по сравнению с простым случайным выбором. Эта идея и реализуется в стратифицированном выборе.
    Предположим, что доля ш, каждого слоя I в генеральной совокупности известна, и что из каждого слоя может быть извлечена простая случайная выборка.
    Пусть 9, -доля объектов с признаком А в слое номер I.
    Ясно, что
    Из каждого слоя I извлечем выборку объема п,
    причем п=пш,, где п - суммарный объем совокупной выборки. Математикой доказано, что уже известное нам выражение 9(1-9) (дисперсия при простом случайном
    п выборе) превосходит дисперсию стратифицированной оценки на величину, пропорциональную 2(6,-б)
    2
    !/;,. Эта последняя величина положительна почти всегда, исключая случай, когда никакого расслоения нет, т.е. при
    e
    1
    =...e
    2
    =...e
    3
    =...9
    !
    =...
    Разделение совокупности (особенно, когда речь идет о сложных иерархических системах) на слои обычно производится с помощью какого-либо признака или признаков (иного, чем нас интересующий). Полученный выше результат можно сформулировать так:
    стратифицированный выбор не дает улучшения по
    сравнению с простым случайным выбором только
    тогда, когда признак А и стратифицирующий признак
    (стратифицирующие признаки) независимы. Во всех других случаях стратифицированный выбор дает лучшие по точности результаты по сравнению с простым случайным выбором.
    План обследования расслоенной совокупности возможен, если известны численности слоев (т.е. их доли

    266 267
    в общей совокупности). Для разделения на слои следует выбирать признаки, наиболее тесно связанные с интересующим нас признаком, т.е. наиболее согласованные с целями обследования. Разделение на слои осуществить тем легче и эффективнее, чем лучше изучена генеральная совокупность. Поэтому стратифицированному выбору предшествует обычно пилотное обследование генеральной совокупности.
    Каждый слой должен быть как можно более однородным с точки зрения изучаемого признака. Исследуя удовлетворенность уровнем жизни, аналитик может выбрать следующие грубые страты: миллиардеров в
    России - 78 человек, миллионеров - 119 тыс., далее идет страт - лица с состоянием от 500 тыс. до 1 млн. долларов и т.д. По всей совокупности процент удовлетворенных уровнем жизни будет существенно отличаться от величины удовлетворенности в каждом страте.
    Наградой за правильное деление совокупности на слои является резкое уменьшение необходимого объема общей выборки по сравнению с планом обследования, предполагающим простой случайный выбор, и, следовательно, значительная экономия средств. Выбор из расслоенной совокупности широко используется в маркетинговых и социально-политических исследованиях, поскольку людей достаточно легко классифицировать по профессиональным, экономическим, социальным, религиозным и другим группам.
    Организационные трудности, денежные затраты, стремление провести обследование быстро и прочие подобные причины часто заставляют исследователей отступать от описанных выше классических схем и проводить исследования по какому-либо другому плану.
    Таких планов известно много. Более того, каждое конкретное исследование идет по своему собственному плану. Поэтому говорить обо всех них невозможно.
    Ограничимся примером так называемого ступенчатого
    (многоступенчатого) или кластерного выбора.
    Предположим, что генеральная совокупность каким-либо естественным образом разбивается на «кластеры», т.е. на отдельные совокупности.
    В отличие от упоминавшихся ранее страт, кластеры по
    268
    численности невелики, но многочисленны. Обследование проводится так: единицами простого случайного выбора служат кластеры; выбранные кластеры затем исследуют сплошь. Если кластеры слишком велики, внутри кластера может быть осуществлен какой-либо случайный выбор
    (например, снова кластерный
    - это уже многоступенчатый выбор).
    К сожалению, кластерный выбор дает смещенную оценку. Это смещение пренебрежимо мало, только если число кластеров в выборке велико. Кластерный выбор дает и менее точные результаты, чем простой случайный выбор, при одинаковых объемах обследованных объектов.
    Выигрыш при применении кластерного или других видов ступенчатых обследований может достигаться за счет того, что число обследованных объектов может быть большим. Главная же опасность — возможные смещения.
    К другим планам выбора относятся также систематическая выборка (контроль качества продукции на конвейере) и визит-выборка
    (медицинская статистика). Систематическая выборка предполагает, что с помощью таблицы случайных чисел определяется лишь номер первого оцениваемого объекта, а далее отбирается каждый десятый (или сотый, в зависимости от необходимой точности) объект
    69
    . Если первым выпал третий номер объекта (например, бутылки пива на конвейере), то следующей отбирается 13-я бутылка, 23-я,
    33-я и т.д. Визит-выборка состоит в том, что врач учитывает подряд, без исключений всех пациентов, обратившихся к нему с жалобой на данное заболевание.
    Так, он должен описать все 50 последних случаев проявления острого аппендицита. Исключение любого случая нарушает истинно случайный характер визит- выборки.
    8.2. Корреляционный анализ
    Подсистемы (компоненты) различных уровней и элементы сложных иерархических систем связаны определенными взаимодействиями, отношениями и т.д., поэто-
    69. Langley R. Practical statistics simply explained. - N Y.: Dover Pub., 1971.
    269
    му статистический анализ связей, их влияния на функционирование или динамику той или иной системы требует применения особых методов, получивших название «корреляционный анализ». Для практических аналитиков они представляют первостепенный интерес
    (например, корреляционный анализ взаимосвязей роста цен на нефть и биржевых котировок тех или иных ценных бумаг).
    Известно, что все явления объективного мира, в том числе и общественные, находятся в причинно- следственных взаимных связях и взаимной обусловленности. Глубокое познание социальных явлений означает их познание во всех или решающих взаимосвязях и взаимозависимостях. В силу этого одной из основных задач статистика-исследователя является установление причинно-следственных связей, имеющихся в общественных явлениях. Пр*и решении многих задач системного анализа требуется установить, как связаны между собой две или более переменные, характеризующие признаки отдельных единиц исследуемой совокупности. Термин «корреляция» был введен в науку выдающимся английским ученым Ф.
    Г
    АЛЬТОНОМ В
    1886 г.
    Выявление, установление связей между социальными явлениями имеет не только чисто теоретическое, познавательное, но и непосредственно практическое значение, так как позволяет перейти от констатации фактов к их объяснению и активному на них воздействию. Связи между признаками явлений и самими явлениями бывают различные. Различают, прежде всего,
    связи функциональные и корреляционные. Функциональная связь - это такая связь, когда изменению значения одного признака соответствует изменение другого признака на строго определѐнную величину. Например, с увеличением радиуса окружности на 1 см, длина окружности увеличивается на 6,28 см. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
    Иными словами, при одном и том же значении признака х встречаются разные значения признака у, при этом, однако, между ними имеется та-
    270 кое соотношение, что определѐнному изменению первого признака соответствуют средние изменения признака второго. Так, при одном и том лее стаже работы отдельные рабочие могут иметь различную квалификацию, выражающуюся в присвоенном им тарифном разряде, тем не менее, с увеличением стажа тарифный разряд рабочих в среднем также увеличивается. Следовательно, корреляционная связь - это связь, проявляющаяся в общем, в среднем, во всей совокупности явлений в целом. Наличие этой связи характерно для процессов, складывающихся под влиянием множества причин. Изучать корреляционные связи можно только на представительных выборках методами математической статистики.
    Корреляционные связи бывают прямолинейные
    и криволинейные. Под прямолинейной корреляционной связью понимают такую связь, при которой с возрастанием одного признака происходит непрерывное возрастание (или убывание) другого признака в среднем на постоянную величину. При криволинейной связи между признаками имеется не постоянное, а меняющееся соотношение
    (результативный признак то увеличивается, то уменьшается с различной степенью интенсивности).
    Если функциональные связи присущи преимущественно явлениям из области естественных наук, то в области общественной действуют почти исключительно связи корреляционные. Связи по общему направлению могут быть прямые и обратные, они также могут быть различной степени тесноты. Если значению признака х соответствуют близкие друг другу, тесно расположенные около своей средней значения признака у, то связь является тесной. Если значения признака у при одном и том лее значении признака х
    варьируют значительно - связь менее тесная. Таким образом, степень тесноты связи зависит от степени варьирования у при фиксированном значении х.
    Прежде чем устанавливать наличие и измерять связи статистически, во всех случаях необходимо произвести предварительный анализ материального содержания изучаемого процесса. Такой анализ в первую очередь должен
    271
    показать, однокачественны ли явления, признаки которых подлежат изучению. Измерять связи можно лишь между признаками однородных совокупностей явлений. Очень важно посредством предварительного теоретического анализа установить, имеется ли между известными признаками связь, и если да, то какая.
    Встречаются случаи обнаружения так называемых ложных связей. Так, в печати публиковались данные о том, что автомобильные катастрофы чаще случаются на широких автомагистралях, а не в узких улочках. Из этого следовало, что чем шире дороги, тем больше на них катастроф. Этот вывод неправильный: не учтена степень интенсивности движения на дорогах различной ширины. Известно, что на широких дорогах движение значительно интенсивней. По этой причине и автокатастроф на них больше. Таким образом, наличие формально обнаруживаемой связи не обязательно свидетельствует о наличии причинно-следственных связей между изучаемыми признаками. В частности, такая связь может быть обнаружена, когда оба изучаемых признака оказываются зависимыми от третьего.
    После того как исследователь пришѐл к заключению, что связи между изучаемыми признаками, скорее всего, наличествуют, и сформулировал некую гипотезу, можно применить те или иные способы их измерения.
    Статистика выработала немало приѐмов установления и измерения связей.
    Так, теснота корреляционной связи выражается с помощью одного из коэффициентов корреляции.
    Какой из них применять в каждом конкретном случае, зависит от того, какими шкалами измеряются переменные в данной задаче. К числу наиболее распространенных относятся следующие три коэффициента:
    1. Коэффициент парной корреляции Пирсона (обслу живает переменные, которые измеряются количествен ными шкалами: доход, рост, вес).
    2. Коэффициент ранговой корреляции Спирмена
    (обслуживает ранговые переменные).
    3. Коэффициент ассоциации Юла (попытка провести корреляцию альтернативных переменных, которые измеряются на качественных или номинальных шкалах).
    Коэффициент парной корреляции ввел в научный обиход К
    АРЛ
    П
    ИРСОН
    ,
    ученик Ф. Г
    АЛЬТОНА
    Сам коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и У. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. Если же связь между переменными Хи Уне линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение, о котором можно прочитать в соответствующей литературе
    70
    Коэффициент Пирсона выступает показателем тесноты связи.
    Формула этого коэффициента применительно к прямолинейной связи следующая:
    ста где о
    - среднеквадратичное отклонение значений соответствующего признака, ху - среднее попарных произведений значений обоих признаков
    Коэффициент Пирсона применим, если оба признака имеют значения, располагающиеся на количественной шкале.
    Величина коэффициента линейной корреляции
    Пирсона не может превышать +1 и быть меньше, чем -
    1. Эти два числа +1 и -1 - являются границами для коэффициента корреляции.
    Когда при расчете получается величина большая +1 или меньшая -1, это означает, что произошла ошибка в вычислениях. Если коэффициент корреляции по модулю оказывается близкими 1, то это
    70 Т
    ЮРИН
    Ю , М
    АКАРОВ
    А Цит соч
    272 273
    г =
    соответствует высокому уровню связи между переменными. Так, в частности, при корреляции переменной величины с самой собой величина коэффициента корреляции будет равна +1. Подобная связь характеризует прямо пропорциональную зависимость. Если же значения переменной х будут расположены в порядке возрастания, а те же значения
    (обозначенные теперь уже как переменная у ) будут располагаться в порядке убывания, то в этом случае корреляция между переменными х и у будет равна точно -1. Такая величина коэффициента корреляции характеризует обратно пропорциональную зависимость.
    При этом выбор переменной, которой приписывается характер (тенденция) возрастания, произволен. Это может быть как переменная х, так и переменная у. Если аналитик-исследователь будет считать, что увеличивается переменная х, то переменная
    у будет соответственно уменьшаться, и наоборот. Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости.
    Графически корреляционные связи различной тесноты и направления могут быть изображены с помощью диаграмм т.н. полей рассеяния (рис. 15).
    а)
    J
    S
    t
    О
    Л.
    f n \ J

    *t

    Рис. 15. Поля рассеяния значений признаков х и у:
    (а) сильная прямая корреляционная связь
    (б) умеренная прямая корреляционная связь
    1

    Рис. 15. Поля рассеяния значений признаков х и у:
    (в) корреляционная связь, отсутствует (г)
    умеренная обратная корреляционная связь
    (д) сильная обратная корреляционная связь (е)
    умеренная нелинейная корреляционная связь
    Для применения коэффициента корреляции
    Пирсона необходимо соблюдать следующие условия:
    1. Сравниваемые переменные должны быть получе ны в интервальной шкале или шкале отношений.
    2. Распределения переменных х и у должны быть близки к нормальному.
    3. Число варьирующих признаков сравниваемых пе ременных х и у должно быть одинаковым.
    Как известно, реальные жизненные явления складываются под воздействием не одной, а многих причин, поэтому в практике корреляционного анализа приходит-
    274 275
    ся иметь дело со многими факторами, определяющими тот или иной результат. В силу этого статистики сталкиваются с необходимостью заниматься как минимум парной корреляцией, а как максимум - множественной, т.е. такой, посредством которой изучается зависимость результативного признака от ряда признаков-факторов.
    Методология
    множественной
    корреляции
    основывается на тех же общих принципах, которые относятся к парной корреляции. Однако в ней многие проблемы усложняются, значительно возрастает и сложность математического аппарата.
    Весьма существенными методологическими вопросами корреляционного анализа вообще, но особенно методологии множественной корреляции, являются вопросы о единице наблюдения и сопоставимости уровней коррелируемых признаков.
    Включаемые в расчет уровни должны быть сопоставимыми по всем известным направлениям.
    Единица наблюдения (в пространстве - человек, семья, учреждение и т.д.; во времени -месяцы, кварталы, годы) должна быть такой, чтобы в ней могли отразиться те стороны явлений, которые интересуют исследователя. Например, в данных об отдельном человеке не могут найти отражения его жилищные и бытовые условия, информация о которых может быть получена лишь при наблюдении за семьей (если, конечно, речь не идет об одиноком гражданине).
    Следовательно, при исследовании жилищно-бытовых условий единицей наблюдения надо взять семью, а не отдельного человека.
    Главная принципиальная сложность множественной корреляции - отбор факторов для расчета и составления уравнения связи отобранных признаков. Исходя из теоретических соображений и поставленной задачи, аналитик устанавливает теоретически возможные связи и определяет круг взаимосвязанных признаков. Он должен взять все существенные и важные признаки- факторы, оказывающие влияние на результативный признак.
    На следующем этапе из выбранной в итоге качественного анализа системы признаков отбираются та-
    276
    кие, что могут быть включены в уравнение связи. Из системы исключаются, во-первых, такие признаки, которые уже по предварительным логическим соображениям мало значимы; во-вторых, те, что невозможно количественно измерить в силу отсутствия необходимой для этого информации.
    После этого следует выяснить, насколько существенны отобранные признаки-факторы. В частности, под- считываются парные коэффициенты корреляции и их критерии надежности (при незначительной величине г соответствующие факторы могут быть сразу исключены), коэффициенты регрессии и т.д. Нельзя оставлять для исследования факторы, тесно связанные между собой (об их взаимосвязи могут свидетельствовать коэффициенты парной корреляции), а также факторы, в достоверности которых нет уверенности.
    Отобрав в итоге предварительной работы соответствующие значимые факторы, устанавливают конкретный вид уравнения связи.
    При небольшом числе исходных данных в случае, когда количественные сведения носят приближенный характер или когда можно обойтись приближенной количественной характеристикой связи, а также при наличии атрибутивных признаков со значениями различной интенсивности (отлично, хорошо, темно- синий, синий, светло-синий и т.д.), молено использовать коэффициент корреляции рангов.
    Графическое представление метода ранговой
    корреляции.
    Чаще всего корреляционную связь представляют графически в виде облака точек или в виде линий, отражающих общую тенденцию размещения точек в пространстве двух осей: оси признака А и признака
    Б.
    Попробуем изобразить ранговую корреляцию в виде двух рядов ранжированных значений, которые попарно соединены линиями (рис. 16). Если ранги по признаку А и по признаку Б совпадают, то между ними оказывается горизонтальная линия, если ранги не совпадают, то линия становится наклонной. Чем больше несовпадение рангов, тем более наклонной становится линия. Слева на рисунке отображена максимально высокая положи-
    277
    тельная корреляция (р=+1,0) - практически это
    «лестница». В центре отображена нулевая корреляция - плетенка с неправильными переплетениями. Все ранги здесь перепутаны. Справа отображена максимально высокая отрицательная корреляция (р=-1,0) - паутина с правильным переплетением линий.
    в)
    Рис. 16. Графическое изображение ранговой корреляции
    а) сильная положительная корреляционная связь
    б) нулевая корреляция в) сильная
    отрицательная корреляционная связь
    Коэффициент ранговой корреляции Спирмена.
    Количественно эту идею оформил С
    ПИРМЕН
    71
    , введя коэффициент ранговой корреляции р:
    ковый. Ведь количественный признак всегда можно превратить в порядковый.
    Используем ранжированный ряд по стажу работы, занумерованный с 1 по 10, занумеруем также второй ряд в порядке возрастания тарифных разрядов. При этом в случае наличия одинаковых вариантов для полной объективности рекомендуется брать среднее арифметическое значение рангов
    72
    . Соответствующий расчет разности рангов, хорошо знакомый социологам, экономистам и психологам, приводится в таб. 8.
    Расчет коэффициента корреляции
    рангов «стаж-квалификация» по 10 рабочим
    Таблица 8
    2
    I
    D
    О fj
    эс a
    о
    р = 1 -
    n(n
    2
    - 1)
    где n - число сопоставляемых пар, d - разность между рангами (порядковыми номерами) в двух рядах.
    Методику расчета коэффициента корреляции рангов покажем на примере с 10 рабочими. Их имена А, Б,... К.
    Нас интересует, в какой степени стаж работы (в годах) работника связан с повышением квалификации (в виде тарифного разряда). При этом нас не должно смущать, что первый признак количественный, а второй поряд-
    71. Ч
    АРЛЬЗ
    С
    ПИРМЕН
    (1863 - 1945) - английский психолог. Разработал цикл
    статистических методов с целью измерения структуры интеллекта. Изучая
    корреляции между результатами выполнения различных заданий и используя
    факторный анализ, предложил двухфакторную теорию интеллекта (Спирмен Ч.
    Способности человека. - 1927.).
    278
    8
    0
    0,25 0,25 2,25 4
    0,25 а)
    ей
    а
    ч
    f
    А
    Б
    В
    Г
    д
    Е
    Ж
    3
    И
    К
    2 4
    4 5
    6 11 15 19 21 28 1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    1
    2,5
    2,5
    4
    5
    6
    7
    8
    9
    10
    1
    2
    2
    3
    2
    3
    5
    4
    5
    6
    1
    2
    3
    5
    4
    6
    8
    7
    9
    10
    1
    3
    3
    5,5
    3
    5,5
    8,5
    7
    8,5
    10
    0
    -0,5
    0,5
    -1,5
    2
    0,5
    -1,5
    1
    0,5
    0

    2,25 1
    0,25 0 d
    2
    =10,50
    72. Среди 10 рабочих 2-й тарифный разряд имеют трое рабочих с рангами 2, 3 и
    4; средняя - 3; этот ранг для расчета присвоен всем трем рабочим.
    279

    Обратим внимание, что разности рангов вычисляются с использованием колонок 4 и 7, содержащих так называемые расчетные ранги.
    Исходные ранги (колонки 3 и 6) для расчетов не годятся, поскольку они могут быть «конфликтными».
    Так, рабочие Б и В претендуют на второе место по стажу работы. Этот конфликт разрешается в четвертой колонке: каждый из них получил ранг 2,5. Нас интересует сумма квадратов разности рангов, а именно сумма, исчисленная по последней колонке. Она равна
    10,5. Теперь молено вычислить коэффициент Спирмена и получить окончательный ответ.
    = 0 9 4 990
    Уровень корреляции мы получили очень высокий (почти 1). Вывод: на данном предприятии созданы условия для квалификационного роста. Правда, попался один лодырь (а именно, рабочий Д), который, отработав 6 лет, так и застрял во 2 разряде.
    Коэффициент корреляции рангов, так же, как и парный коэффициент корреляции, принимает значение от -1 до +1. Смысл у р такой же, что и у г. Однако ранговый коэффициент имеет преимущество перед парным в том, что его исчисление может производиться при любой форме распределения исследуемой совокупности, тогда как г приспособлен и дает хорошие результаты лишь при нормальном распределении.
    Коэффициент Спирмена также используется для вычисления ранговой корреляции индивидуальных профилей двух объектов (например, таковы типичные задачи, решаемые кадровыми службами коммерческих структур). Очевидно, что кандидаты на заполнение тех или иных вакансий характеризуются профилями, включающими в качестве составляющих те или иные индивидуальные черты (или переменные). В качестве переменных используются составляющие профилей.
    Так,
    при сравнении профилей родителей и их взрослых детей пара «мать-дочь» заполняет анкету, в которой каждой из женщин предложено ранжировать 18 ценностей, а именно «Активная, деятельная жизнь»,
    «Здоровье», «Интересная работа» и т.д. Анализ корреляционной связи ответов обеих анкет позволяет сравнить отношение к жизни двух поколений
    73
    Имеются ограничения применимости коэффициента ранговой корреляции. Для приемлемой точности по каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя граница выборки определяется примерно 40 наблюдениями.
    Коэффициент Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений. В случае если это условие не соблюдается, необходимо вносить поправку на одинаковые ранги.
    Несколько замечаний по поводу измерения связей между атрибутивными или качественными признаками. Как уже отмечалось в разделе 7.1., если значения качественных признаков различаются интенсивностью (в силу чего им можно присвоить ранги), связь между ними может быть охарактеризована посредством ранговых коэффициентов. Во всех остальных случаях тесноту связи между атрибутивными признаками измеряют с помощью специальных коэффициентов.
    Представим простейший случай: выяснение связи двух атрибутивных альтернативных признаков (т.е. признаков, значения которых возникают как ответ на дихотомический вопрос). Этих значений у каждого из признаков два: «да» и «нет». Соответствующие данные эмпирического исследования могут быть сведены в так называемую четырехпольную (или четырехклеточную) таблицу (таб. 9):
    73 С
    ИДОРЕНКО
    Е.В. Методы математической обработки в психологии - СПб . ООО
    .Речь», 2001.
    280 281 р = 1 -
    = 1-
    п(п
    2
    -

    Таблица четырех полей
    Таблица
    9
    А
    Ъ
    С
    d
    Здесь а, Ь, с, d- частоты сопоставляемых признаков.
    Например, нас интересует связь пола рабочего со степенью выполнения им норм выработки. Всего обследовано 100 рабочих (70 мужчин и 30 женщин).
    Данные можно представить в виде следующей таб. 10
    (главные четыре поля обведены).
    Зависимость между степенью выполнения
    норм выработки и полом рабочих
    Таблица 10
    Выполняющие нормы
    Не выполняющие нормы
    Итого
    Мужчины
    65 5
    70
    Женщины
    27 3
    30
    Итого
    92 8
    100
    В этой таблице а=65, b=5, c=27, d=3.
    Теснота связи двух атрибутивных признаков, имеющих по два варианта, определяется посредством коэффициента ассоциации:
    __
    ad-be
    Коэффициент ассоциации свидетельствует о значимой связи, если его абсолютная величина не меньше 0,5. В данном примере:
    .195- 135 195 +135
    =
    Полученная в данном примере величина коэффициента очень мала. При величине ниже 0,5 коэффициенту ассоциации не следует придавать существенного значения.
    Данные здесь понятия и иллюстрирующие их примеры показывают, что в аналитических исследованиях проведение таких относительно простых вычислений и учет тесноты связей признаков могут играть достаточно серьезную роль при формулировании выводов относительно той или иной системы или подсистемы изучаемой целостности.
    1   ...   11   12   13   14   15   16   17   18   ...   25


    написать администратору сайта