Главная страница
Навигация по странице:

  • Гистограмма для данных о расходах на телефонные переговоры

  • Полигон распределения для оценок телегеничности политического лидера

  • Заболеваемость вялотекущей формой шизофрении у подростков муж­ского пола по возрастам, %

  • Возраст

  • Распределение, скошенное вправо

  • Девятко И. Ф. Методы социологического исследования. Екатеринбург, Изд-во Урал, ун-та, 1998. 208 с. Девятко И. Ф. Методы социологического исследования. Екатеринбург. Социологического исследования екатеринбург Издательство Уральского университета


    Скачать 1.7 Mb.
    НазваниеСоциологического исследования екатеринбург Издательство Уральского университета
    АнкорДевятко И. Ф. Методы социологического исследования. Екатеринбург, Изд-во Урал, ун-та, 1998. 208 с.doc
    Дата27.05.2017
    Размер1.7 Mb.
    Формат файлаdoc
    Имя файлаДевятко И. Ф. Методы социологического исследования. Екатеринбург.doc
    ТипКнига
    #8072
    КатегорияСоциология. Политология
    страница20 из 28
    1   ...   16   17   18   19   20   21   22   23   ...   28

    Дополнительная литература


    Кокрен У. Методы выборочного обследования. М.: Статистика, 1976.

    Петренко Е. С., Ярошенко Т. М. Социально-демографические показатели в социологических исследованиях. М.: Статистика, 1979.

    Территориальная выборка в социологических исследованиях. М.: Наука, 1980.

    Чурилов Н. Н. Проектирование выборочного социального исследования. Киев: Наукова думка, 1986.

    Глава 8. Анализ данных




    Виды анализа данных


    Методы, применяемые социологами для анализа данных, многообразны. Вы­бор конкретного метода зависит, в первую очередь, от характера исследователь­ских гипотез, т. е. от того, на какие вопросы мы хотим получить ответ. Если целью является описание одной характеристики выборки в определенный мо­мент времени, разумно ограничиться одномерным анализом, т. е. описанием распределения наблюдений («случаев») вдоль оси интересующего нас призна­ка. Разнообразные техники многомерного анализа позволяют одновременно исследовать взаимоотношения двух и более переменных и в той или иной фор­ме проверять гипотезы о причинных связях между ними. Различия между этими методами — точнее, классами методов — неабсолютны. В реальном ис­следовании каждое уточнение исходных гипотез или выдвижение новой гипо­тезы в ходе анализа результатов приводит к необходимости выбора новой техники анализа данных. Так, если изначальная модель взаимоотношения двух переменных (скажем, профессии и дохода) не позволяет выявить определен­ную закономерность в собранных данных, исследователь выбирает одну из ста­тистических техник, позволяющих контролировать влияние какой-то третьей переменной, например пола, на интересующее его отношение.

    Помимо характера исследовательских гипотез на выбор методов статистичес­кого анализа влияет и природа полученных социологом данных. Мы уже гово­рили о том, что разные уровни измерения социологических переменных опре­деляют возможности и ограничения анализа. Для того чтобы охарактеризовать распределение в выборке такого номинального признака, как «пол», мы не мо­жем воспользоваться его среднеарифметическим значением и, следовательно, нам потребуются какие-то другие приемы компактного и точного представле­ния полученной информации.

    Методы, используемые для анализа связи между двумя номинальными пере­менными, также будут отличаться от методов анализа связи между номиналь­ной переменной и переменной, измеренной на интервальном уровне. Таким образом, выбор той или иной статистики будет зависеть и от целей анализа, и от уровня измерения исследуемых переменных.

    Существует два основных класса задач, решаемых с помощью статистических методов анализа. Задачей дескриптивной (описательной) статистики являет­ся описание распределения переменной-признака в конкретной выборке. Ме­тоды дескриптивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связанный с необходи­мостью вывести свойства большой совокупности, основываясь на имеющейся информации о свойствах выборки из этой совокупности, решается с помощью методов индуктивной статистики, или теории статистического вывода, осно­ванной на вероятностном подходе к принятию решений. Воспользовавшись какой-то моделью для анализа полученных выборочных данных, социолог обыч­но также применяет некоторые методы статистического вывода, позволяющие определить, выполняются ли обнаруженные им при анализе данных отношения на уровне большой совокупности, из которой была извлечена выборка.

    В этой главе мы уделим основное внимание использованию дескриптивной ста­тистики в анализе социологических данных. Нашей целью здесь будет скорее качественное, содержательное понимание сути этих методов, основанное лишь на самых элементарных математических представлениях и, в некоторых случа­ях, на интуитивном понимании «физического смысла» статистических моде­лей. Такое понимание может служить определенным фундаментом для более глубокого изучения прикладной статистики. Кроме того, оно совершенно необ­ходимо для того, чтобы самостоятельно формулировать задачи анализа данных и ориентироваться в существующем разнообразии методов и техник, использу­емых другими исследователями при решении этих задач.

    Одномерный анализ: табулирование и представление данных


    Результаты измерения любой переменной могут быть представлены с помощью распределения наблюдений («случаев») по отдельным категориям данной пе­ременной. Категория, в которую попадают одинаковые наблюдения, может быть номинальной («православный», «протестант» и т.п.) либо иметь числовое зна­чение. В любом случае результатом такого упорядочения наблюдений будет их группировка. Работать с упорядоченными данными значительно проще, чем с исходным «сырым» массивом: в «сырых» данных, конечно, содержатся сведе­ния о том, как много в выборке, например, пенсионеров, однако для получения нужной цифры придется перебрать все наблюдения «случай» за «случаем». Если данные сгруппированы, достаточно посмотреть, какова абсолютная частота, т. е. число наблюдений в данной выборке, попадающих в интересующую нас категорию. Для переменных, имеющих не произвольную метрику, т. е. изме­ренных на ординальном или интервальном уровне (см. гл. 6), нередко исполь­зуется еще одна процедура, делающая представление данных более компакт­ным и удобным в работе при сохранении заданного уровня точности. Предпо­ложим, что в каком-то исследовании 22,0782% опрошенных поддержали государственную программу приватизации, а исследование, проведенное ме­сяц спустя, дало иное значение — 22,1327%. Даже если теоретический конст­рукт «поддержка программы приватизации» можно представить как непре­рывный ряд числовых значений, на практике исследовательской перемен­ной будет соответствовать некоторый набор дискретных числовых величин (категорий). Кроме того, тысячные или сотые доли процента едва ли будут су­щественны для интерпретации полученных результатов. Поэтому в представ­лении данных обычно используют процедуру округления. Определив необходи­мую степень точности — и соответственно приемлемый уровень неточности, — ис­следователь может округлить все полученные числовые значения до десятых долей или, скажем, до целых процентов. Так, в нашем примере округление до целого числа даст цифру 22%. В дальнейшем каждое последующее наблюде­ние, дающее числовое значение в интервале между 21,5% и 22,5%, будет попадать в класс «22% поддержки приватизации». В результате процедуры округле­ния исследователь фактически устанавливает границы классов, объединяющих значения переменной в заданном интервале, и середины (центры) классов, т. е. усредненные значения для каждого интервала.

    Необходимость объединить значения переменной в 10—15 крупных классов-категорий часто возникает и при работе со «слишком хорошо измеренными» признаками, соответствующими шкалам интервалов или отношений (возраст, доход и т. п.). Во-первых, чрезмерное количество градаций переменной препят­ствует ее компактному представлению — табличному или графическому. Во-вторых, для конечной выборки обычно соблюдается следующая закономер­ность: число градаций (категорий) признака обратно пропорционально их за­полненности. Переменная с огромным числом градаций, содержащих по 2—3 наблюдения, часто создает серьезные проблемы в статистическом анализе и оценивании (хотя для некоторых методов анализа — корреляция, регрес­сия и т. п. — эти проблемы, как мы увидим дальше, несущественны). Самым целесообразным выходом обычно оказывается перекодирование, «сжатие» исследовательской переменной. Здесь существует два основных подхода:

    1) исходные градации объединяются в более крупные классы на основа­нии каких-то содержательных соображений, причем полученные классы имеют приблизительно равную ширину (например, данные о возрасте часто перекодируют в более широкие «десятилетние» категории — 20—29 лет, 30—39 лет и т. п.);

    2) решение о способе «сжатия» переменной принимают, основываясь на рас­пределении наблюдений («случаев») по оси переменной, например, границы между «низким», «средним» и «высоким» доходом устанавливают так, что­бы в каждую категорию попало 33% наблюдений.

    Стремление к компактности и «читабельности» данных не должно вести к край­ностям. Руководствуясь соображениями здравого смысла, исследователь дол­жен избегать ситуаций, когда перегруппировка ведет к тому, что полученная переменная оказывается слишком грубым средством классификации наблюде­ний, не позволяющим выявить существенные для анализа различия. Важно так­же следить за тем, чтобы объединение категорий или числовых градаций пере­менной-признака не привело к искусственному созданию отношений и взаимо­связей, которые в действительности отсутствуют в данных.

    Независимо от того, какие статистические методы и модели собирается исполь­зовать исследователь, первым шагом в анализе данных всегда является постро­ение частотных распределений для каждой изучавшейся переменной. Полу­ченные результаты принято представлять в виде таблицы частотного распреде­ления (или просто — таблицы распределения) для каждой существенной переменной. Примером табличного представления может служить приведен­ная ниже таблица 8.1, в которой представлены гипотетические данные выбо­рочного опроса 500 владельцев домашних телефонов.

    Таблица 8.1


    Частотное распределение ежемесячных расходов на международные телефонные переговоры


    Интервал класса (расходы в руб.)

    Абсолютная частота,

    чел.

    Относительная частота,

    %

    до 3000

    51

    11,0

    3000—5999

    40

    8,6

    6000—8999

    135

    29,0

    9000—11999

    80

    17,2

    12000—14999

    65

    14,0

    15000—19999

    49

    10,5

    20000—23999

    37

    8,0

    свыше 24000

    8

    1,7

    Всего

    N = 465

    100% (= 465)

    не ответили

    35

    (35)


    Иногда в таблице распределения указывают лишь относительные частоты, опус­кая абсолютные. Но и в этом случае в правом нижнем углу таблицы должны быть указаны абсолютное число ответивших (база для вычисления процентов) и число неответивших.

    Помимо табличного представления частотных распределений обычно исполь­зуют и различные методы графического представления. Самый распространен­ный метод графического представления одномерных распределений это гис­тограмма, или столбиковая диаграмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой дан­ного интервала. Высота столбика отражает частоту (абсолютную или относи­тельную) попадания наблюдавшихся значений переменной в определенный интервал. При построении гистограмм часто приходится использовать некото­рые конвенции, основанные на сугубо практических соображениях. Так, используя при группировке значений переменной неравные интервалы либо ос­тавляя крайние градации открытыми («старше 65 лет», «свыше 24000 рублей» и т. д.), мы все же отображаем эти интервалы на гистограмме с помощью столбиков, имеющих одинаковую ширину. Другое практическое правило по­зволяет сделать гистограмму визуально уравновешенной, т. е. более привлека­тельной: масштаб шкалы обычно выбирают так, чтобы общая высота гистог­раммы составляла приблизительно 40—60% ее ширины. Пример гистограммы для данных из таблицы 8.1 приведен на рисунке 14.

    И
    нтервал класса (расходы в рублях)
    Рис. 14. Гистограмма для данных о расходах на

    телефонные переговоры
    Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, мы получим так называемый полигон распределения. Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принци­пе можем представить себе как непрерывные. На рисунке 15 изображен поли­гон распределения для экспертных оценок телегеничности политического лидера (50 экспертов оценивали политика в процентах по отношению к некоторо­му абсолютному эталону телегеничности).
    Р
    ис. 15.
    Полигон распределения для оценок телегеничности политического лидера
    Еще один популярный способ графического представления, обычно используе­мый для качественных данных (т. е. для номинальных или ординальных изме­рений), — это круговая диаграмма. Каждый сектор круговой диаграммы пред­ставляет дискретную категорию переменной. Величина сектора пропорциональ­на частоте категории для данной выборки. На рисунке 16 приведена круговая диаграмма, иллюстрирующая распределение подростков, страдающих вялоте­кущей формой шизофрении, по возрасту на момент начала («дебюта») заболевания1.




    Рис. 16. Заболеваемость вялотекущей формой шизофрении

    у подростков муж­ского пола по возрастам, %
    Какую бы форму представления данных мы ни избрали, полученное частотное распределение все еще содержит «слишком много» деталей, не отвечая при этом на весьма важные для содержательного анализа вопросы о самых типичных значениях признака и диапазоне разброса отдельных наблюдений. Для облегчения работы с частотными распределениями, а также для обобщенного пред­ставления их характеристик, обычно используют определенные числовые зна­чения — статистики. Дело в том, что специалисты по статистике используют последний термин в двух значениях: как название своей дисциплины и как обо­значение какой-либо числовой функции, описывающей результаты наблюдений. Наибольшее практическое значение имеют две группы статистик: меры цент­ральной тенденции и меры изменчивости (разброса).

    Меры центральной тенденции указывают на расположение среднего, или ти­пичного, значения признака, вокруг которого сгруппированы остальные наблю­дения. Понятие среднего, центрального, значения в статистике, как и в повсед­невной жизни, подразумевает нечто «ожидаемое», «обычное», «типичное». Способность среднего значения давать некую обобщенную информацию о рас­пределении вытекает из того соотношения, которое связывает среднее значе­ние с другими «особыми» точками распределения — минимумом и максиму­мом: зная среднее значение, мы можем утверждать, что наименьшее наблюдае­мое значение полученного распределения — например, распределения веса или интеллекта — было не больше среднего, а наибольшее зафиксированное значе­ние— не меньше среднего.

    Отличие статистической трактовки среднего значения (или, точнее, мер цент­ральной тенденции) от его «житейской» трактовки заключается прежде всего в том, что в статистике, в отличие от повседневной жизни, понятие среднего зна­чения может быть строго задано лишь для одномерного распределения пере­менной-признака. Мы можем, например, указать на семью со средним душе­вым доходом, но при этом не следует ожидать, что данная семья будет средней или типичной в каких-то других отношениях, т. е. будет иметь средний размер, среднюю жилплощадь и т. п. В повседневном общении мы приписываем поня­тию среднего куда более широкий и менее точный смысл. В этом нет большой беды, пока мы не смешиваем «житейскую» и «статистическую» интерпрета­ции. Мы действительно получаем полезную информацию, узнав, что окружаю­щие говорят о ком-то как о «человеке средних способностей», но будет ошиб­кой заключить, что некто X, имеющий средний показатель интеллекта, наверняка имеет средние успехи в учебе или посредственно сочиняет стихи. Именно поэтому популярные газетные образы «среднего российского подростка» или «среднего читателя», в сущности, лежат за пределами корректного использова­ния статистики.

    Самой простой из мер центральной тенденции является мода (Мо). Для номи­нальных переменных мода — это единственный способ указать наиболее ти­пичное, распространенное значение. Разумеется, исследователь может пользо­ваться модальным значением и для характеристики распределения переменных, измеренных на более высоком уровне, если для этого существуют содержатель­ные основания (например, описывая распределение ответов на вопрос о коли­честве подписываемых журналов). Мода — это такое значение в совокупнос­ти наблюдений, которое встречается чаще всего. Например, если в выборке содержится 60% православных, 30% мусульман и 10% представителей других конфессий, то модальным значением будет «православный». У моды как меры центральной тенденции есть определенные недостатки, ограничивающие ее интерпретацию. Во-первых, в распределении могут быть две и более моды (со­ответственно оно является бимодальным или мультимодальным). Скажем, если в группе из десяти человек четверо не имеют автомобиля (0), четверо имеют один автомобиль, один человек имеет две машины и еще один — три, то нам придется указать два модальных значения — 0 и 1. Кроме того, мода чрезвы­чайно чувствительна к избранному способу группировки значений переменной. Объединяя категории ответа, мы резко увеличиваем число наблюдений в от­дельных категориях. Это открывает широкий простор для манипулирования данными (не всегда добросовестного). Поэтому «правилом хорошего тона» при вычислении модального значения для сгруппированных количественных дан­ных является выравнивание ширины для всех интервалов класса. Еще одно важное правило касается случаев, когда частоты для всех наблюдаемых значений почти равны. Здесь лучше воздержаться от вычисления моды, так как в этом случае она просто не может быть интерпретирована как мера центральной тен­денции. Если, скажем, 48% болельщиков поддерживают сборную Италии, а 49% — сборную Бразилии, модальное значение «поддерживает бразильцев» будет не очень модальным. И все же во многих случаях вычисление моды и необходимо, и полезно. Например, для архитектора, занимающегося планиро­ванием жилых домов, знание модального значения для размера семьи в данной местности, может оказаться весьма важным.

    Другая мера центральной тенденции — медиана — обычно используется для ординальных переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим. Пример вычисления меди­аны рассматривался нами в главе 6. Напомним, что медиана (Md) — это зна­чение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — боль­ше. Иными словами, медиана — это 50-й процентиль распределения. Как мы уже видели, при работе с большим массивом данных удобнее всего ис­кать медиану, построив на основании частотного распределения распреде­ление накопленных частот (или построив распределение накопленных про­центов на основании распределения процентов). Для того чтобы найти ме­дианное значение для маленького массива наблюдений, достаточно упорядочить наблюдения от меньших значений переменной к большим: то значение, которое окажется в середине, и будет медианным. Например, для ряда: 17 баллов, 18 баллов, 20 баллов, 21 балл, 22 балла, медианой будет значение 20 баллов. Если число значений в группе наблюдений четное, то медианой будет среднее двух центральных значений. Медиану иногда назы­вают «позиционным средним», так как она указывает именно среднюю по­зицию в упорядоченном ряду наблюдений. Медиана может совпадать или не совпадать с модой. При этом медиана лучше всего соответствует нашему интуитивному представлению о середине упорядоченной последовательно­сти чисел. Некоторые исследователи даже полагают, что медиана — лучше и «справедливее» среднеарифметического при описании таких величин, как, скажем, доход семьи. Ведь семьи, имеющие доход ниже среднего, могут со­ставить и 60, и 70% населения. Когда же мы говорим, например, что медиан­ный доход составил 10 млн. рублей в год, то не более 50% семей окажутся «ниже среднего уровня». На медиану не влияют величины «крайних» очень больших или малых значений.

    И все же для количественных переменных самой важной и распространен­ной является другая мера центральной тенденции — среднее арифметическое, которое чаще всего называют просто средним(и обозначают как ).Процедура определения среднего общеизвестна: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений. В общем случае:


    где Х1 ... Xiнаблюдаемые значения,

    n — число наблюдений,

     — знак арифметической суммы.

    В таблице 8.2 показано, как вычислить средний возраст для выборки из 20 по­сетителей библиотеки. Заметьте, что каждое значение просто умножается на свою абсолютную частоту.

    Приведенный нами пример (см. табл. 8.2) показывает, насколько среднее уязвимо для «крайних» значений. Фактически для нашей небольшой выбор­ки молодых людей прибавление одного — восьмидесятилетнего — читате­ля заметно увеличило средний возраст. Следует, однако, помнить о том, что степень «возмущения» среднего под влиянием единичных очень больших или малых значений уменьшается в прямом соответствии с ростом объема выборки. Заметим также, что при расчете среднего для сгруппированных, данных частоты умножаются на значение, соответствующее середине интер­вала группировки.

    Таблица 8.2
    Вычисление среднего возраста посетителей библиотеки




    Возраст


    абсолютная частота, fi

    Xi x fi



    18


    5


    90




    (где i = 1...7 — число различных значений)

    19

    2

    38




    21

    4

    84




    22

    6

    132




    30

    1

    30




    35

    1

    35




    80

    1

    80







    Всего









    Среднее обладает рядом важных свойств. В частности, если сложить все значения отклонений от среднего значения, т. е. разности между Xи X1X2 ... Xi(которые могут быть и положительными, и отрицательными), то сумма отклонений будет равна нулю. Кроме того, сумма квадратов отклонений наблюдаемых значений от их арифметического среднего меньше суммы квадратов отклонений от любой другой точки1. Эти свойства среднего определяют его уникальную роль в решении ряда статистических задач, о кото­рых мы будем говорить ниже. Сейчас достаточно отметить то обстоятельство, что при использовании среднего в качестве «представителя» (т. е. статистичес­кой оценки) каждого из наблюдаемых значений, ошибка, определяемая как сумма квадратов отклонений, будет минимальной. Не стоит, однако, забывать о том, что и минимальная ошибка может быть достаточно большой. Так, для малых выборок, имеющих более чем одну моду, любая мера центральной тенденции, включая среднее, будет недостаточно хороша. Центральной тенденции в таком распределении просто не существует.

    Выбирая меру центральной тенденции, нужно руководствоваться знанием ее свойств, общей формой распределения и, наконец, здравым смыслом. Если при взгляде на гистограмму исследователь обнаруживает, что имеет дело сунимо­дальным симметричным распределением (половины гистограммы слева и справа от модального значения зеркально совпадают), то среднее, медиана и мода бу­дут равны между собой. Если речь идет о выборке из большой совокупности, где интересующая исследователя переменная-признак распределена нормаль­но (т.е. большие и малые крайние значения встречаются редко, а средние — часто), наилучшим показателем будет среднее. Если в унимодальном распреде­лении встречаются крайние значения, могущие значительно повлиять на сред­нее (см. пример с возрастом, табл. 8.2), нужно отдать предпочтение медиане.

    Вопрос о сравнимости средних значений не так тривиален, как это может пока­заться. Сравнение значений средних показателей для различных выборок или для одной и той же выборки в разные моменты времени — весьма распростра­ненный способ анализа результатов. Не только в научных журналах, но и в газе­тах мы постоянно находим сведения о сравнительной величине душевого дохо­да в разных регионах, о различиях в среднем числе автомобилей, приходящих­ся на одну семью и т. п. Следует, однако, помнить о том, что заведомо некорректны сравнения различных мер центральной тенденции, например ме­дианы и среднего. Причина здесь в том, что различные меры описывают раз­ные характеристики распределения: медиана — среднее положение, мода — са­мое часто встречающееся значение и т. д. Кроме того, даже две одинаковые меры центральной тенденции не всегда сравнимы. Средние двух распределе­ний имеет смысл сравнивать лишь в том случае, если во всех других отношени­ях распределения одинаковы, имеют сходную форму. Если исследователь говорит о равенстве средних значений, забыв упомянуть о том, что одно распреде­ление симметрично, а другое — скошено вправо или влево из-за присутствия очень больших либо очень малых значений в его «хвостовых» частях, то он подталкивает читателя к заведомо неверному выводу о том, что анализируемая переменная распределена в двух выборках совершенно одинаково. Среднее рас­пределения с очень длинным правым «хвостом» может оказаться равным сред­нему распределения, скошенного влево, где встречаются крайне малые значе­ния признака. Но этим сходство будет исчерпываться: что общего (кроме вели­чины среднего) у группы, включающей много людей с очень низким доходом, коэффициентом интеллекта и т. п., с другой группой, включающей много на­блюдений с очень высокими значениями переменной-признака?

    Очевидно, важно не только знать, что типично для выборки наблюдений, но и установить, насколько выражены отклонения от типичных значений. Чтобы определить, насколько хорошо та или иная мера центральной тенденции опи­сывает распределение, нужно воспользоваться какой-либо мерой изменчивос­ти, разброса.

    Самая грубая мера изменчивости — размах (диапазон) значений. Эта мера не учитывает индивидуальные отклонения значений, описывая лишь диапазон их изменчивости. Под размахом понимают разность между максимальным и ми­нимальным наблюдаемым значением. Если количество карманных денег в груп­пе из десяти субъектов варьирует от 100 рубл. (1 человек) до 100000 рубл. (2 человека), размах будет равен 100000-100 = 99900.

    Еще одна грубая мера разброса значений — это коэффициент вариации (V), который определяется просто как процент наблюдений, лежащих вне модаль­ного интервала, т. е. процент (доля) наблюдений, не совпадающих с модальным значением. Если от модального отличаются 60% значений, то V= 60% (или V= 0,6).

    Рассказывая о процедуре построения шкалы Терстоуна, мы описали, как вычислить междуквартилъный размах — очень удобный показа­тель разброса значений для ординальной переменной. Напомним, что нижний, первый, квартиль (Q1) отсекает 25% наблюдений, а ниже третьего квартиля (Q3) лежат уже 75% случаев. Полумеждуквартилъный размах равен половине рас­стояния между третьим и первым квартилями:



    Если распределение приблизительно симметрично, то можно считать, что полумеждуквартильный размах указывает границы, в которых лежит 50% дан­ных по обе стороны медианы или среднего.

    Все эти меры изменчивости, как уже говорилось, можно считать скорее грубы­ми и приблизительными. Ни одна из них не уделяет должного внимания инфор­мации об отклонениях каждого отдельного наблюдаемого значения от средне­го, хотя эта информация в большинстве случаев может быть получена из анали­за распределения. Информацию о вариации некоторой совокупности значений относительно среднего несут значения отклонений от среднего, о которых мы уже говорили. Однако, просуммировав все значения отклонения (), мы получим нуль. Положительные и отрицательные отклонения будут взаимоуничтожаться. Если же мы возведем в квадрат каждое отклонение и просуммируем квадраты отклонений, то мы получим хорошую меру рассеяния, которая будет маленькой, когда данные однородны, и большой, когда данные неоднородны. Чтобы суммы квадратов отклонений для выборок разного размера можно было сравнивать, нужно поделить каждую из них на N, где N— объем выборки1.



    Рис. 17.Распределение, скошенное вправо
    Именно так и получают важнейшую меру рассеяния — дисперсию (s2). Если среднее, X1, Х2... Хпиндивидуальные значения измеряемой переменной Xв данной совокупности, а N — объем выборки2:


    Для того чтобы вычислить значение дисперсии, нужно вычесть из каждого наблюдаемого значения среднее, возвести в квадрат все полученные откло­нения, сложить квадраты отклонений и разделить полученную сумму на объем выборки.


    1   ...   16   17   18   19   20   21   22   23   ...   28


    написать администратору сайта