Главная страница
Навигация по странице:

  • Таблица 2.1.

  • Рис. 2.3.

  • Рис. 2.4.

  • Глантз. Книга Primer of biostatistics fourth edition


    Скачать 6.07 Mb.
    НазваниеКнига Primer of biostatistics fourth edition
    АнкорГлантз
    Дата30.04.2023
    Размер6.07 Mb.
    Формат файлаpdf
    Имя файлаglantz.pdf
    ТипКнига
    #1099022
    страница3 из 37
    1   2   3   4   5   6   7   8   9   ...   37
    Рис. 2.1. Распределение марсиан по росту. Каждому марсианину соответствует кружок.
    Обратите внимание, что марсиан среднего роста (около 40 см) больше всего и что высо- корослых столько же, сколько коротышек — распределение симметрично.
    30
    35 40
    50
    45
    Марсиане
    N = 200
    ГЛАВА 2

    29
    который умещается рост всех марсиан шире, чем соответству- ющий интервал для венерианцев. Ширина интервала, в кото- рый попадают почти все марсиане (194 из 200) — 20 см (от 30
    до 50 см). Рост большинства венерианцев (144 из 150) умещает- ся в интервал от 10 до 20 см, то есть имеет ширину всего лишь
    10 см. Несмотря на эти различия между двумя совокупностями инопланетян имеется и существенное сходство. В обоих рост любого члена скорее близок к середине распределения, нежели заметно от нее удален и одинаково вероятно может быть как выше, так и ниже середины. Распределения на рис. 2.1 и 2.2
    имеют схожую форму и приближенно определяются одной и той же формулой.
    Раз существует множество похожих распределений, значит,
    для характеристики одного из них достаточно указать чем оно отличается от других ему подобных, то есть всю собранную ин- формацию мы можем свести к нескольким числам, которые на-
    зываются параметрами распределения. Это среднее значение и стандартное отклонение.
    Рис. 2.2. Распределение венерианцев по росту. Венерианцы ниже марсиан, разброс зна- чений меньше. Однако по форме распределения, напоминающей колокол, венерианцы и марсиане схожи друг с другом.
    1 0
    1 5 2 0
    • •• •• • • • • •
    N = 1 5 0
    • • ••, ••
    КАК ОПИСАТЬ ДАННЫЕ

    30
    Расположив мысленно распределения марсиан и венерианцев на одной шкале роста, мы увидим, что распределение венери- анцев находится ниже, чем распределение марсиан. Характери- стика положения распределения на числовой оси называется средним. Среднее по совокупности обозначают греческой бук- вой µ (читается "мю") и вычисляют по формуле:
    Сумма значений признака для всех членов совокупности
    Среднее по совокупности =
    Число членов совокупности
    Эквивалентное математическое выражение имеет вид
    X
    N
    µ =

    ,
    где X — значение признака, N — число членов совокупности.
    Как всегда, большая греческая буква
    Σ (читается «сигма») обо- значает сумму. Подставив в формулу добытые нами данные,
    получим ценное дополнение к научному отчету: средний рост марсиан 40 см, а венерианцев — 15 см.
    СТАНДАРТНОЕ ОТКЛОНЕНИЕ
    Еще на Венере мы заметили, что тамошние жители более одно- родны по росту, нежели марсиане. Хотелось бы и это впечатле- ние оформить количественно, то есть иметь показатель разбро- са значений относительно среднего. Ясно, что для характерис- тики разброса все равно, в какую сторону отклоняется значение
    — в большую или меньшую. Иными словами, отрицательные и положительные отклонения должны вносить равный вклад в ха- рактеристику разброса. Воспользуемся тем, что квадраты двух равных по абсолютной величине чисел равны между собой, и вычислим средний квадрат отклонения от среднего. Этот пока- затель носит название дисперсии и обозначается
    σ
    2
    . Чем боль- ше разброс значений, тем больше дисперсия. Дисперсию вы- числяют по формуле:
    ГЛАВА 2

    31
    (
    )
    2 2
    X
    N
    µ
    σ

    =

    Как видно из формулы, дисперсия измеряется в единицах,
    равных квадрату единицы измерения соответствующей величи- ны. Например, дисперсия измеряемого в сантиметрах роста сама измеряется в квадратных сантиметрах. Это довольно неудобно.
    Поэтому чаще используют квадратный корень из дисперсии —
    стандартное отклонение
    σ (маленькая греческая буква «сиг- ма»):
    (
    )
    2 2
    X
    N
    µ
    σ
    σ

    =
    =

    Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев — 2,5 см.
    НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
    Таблица 2.1 сжато представляет то, что мы узнали о марсианах и венерианцах. Таблица очень информативна, из нее можно уз- нать об объеме совокупности, о среднем росте и о том, насколь- ко велик разброс относительно среднего.
    Вновь обратившись к рис. 2.1 и 2.2, мы обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от
    среднего не более чем на одно стандартное отклонение и при-
    мерно 95% — на два стандартных отклонения. Подобные рас- пределения встречаются очень часто. Можно сказать, что это про- исходит всегда, когда некая величина отклоняется от средней под действием множества слабых, независимых друг от друга факто-
    Таблица 2.1. Параметры распределения марсиан и венериан- цев по росту
    Объем
    Стандартное совокупности Среднее, см отклонение, см
    Марсиане
    200 40 5
    Венерианцы 150 15 2,5
    КАК ОПИСАТЬ ДАННЫЕ

    32
    ров. Распределение такого рода называется нормальным (или гауссовым) и описывается формулой:
    ( )
    (
    )
    2 2
    1 2
    1 2
    X
    f X
    e
    µ
    σ
    σ π

    =
    Заметим, что нормальное распределение полностью опреде- ляется средней
    µ и стандартным отклонением σ. Поэтому све- дения в табл. 2.1 — это не просто удачное представление дан- ных.
    МЕДИАНА И ПРОЦЕНТИЛИ
    И снова в путь! Обогатившись теоретическими познаниями, мы отправляемся на Юпитер. Здесь мы не только измеряем всех до одного юпитериан, но также подсчитываем среднее и стандарт- ное отклонение роста для всей их совокупности. Оказывается средний рост юпитериан — 37,6 см, а его стандартное отклоне- ние — 4,5 см. Можно заключить, что юпитериане очень похожи на марсиан, ведь близки оба параметра определяющие нормаль- ное распределение — среднее и стандартное отклонение.
    Однако если взглянуть на исходные данные по юпитерианам
    (рис. 2.ЗА), то обнаружится совершенно иная картина. На са- мом деле типичный юпитерианин довольно приземист — око- ло 35 см, то есть на добрых 5 см ниже марсианина. И только небольшая группа долговязых смещает значения стандартного отклонения и среднего вводя ученых в заблуждение.
    Итак, рост произвольно выбранного юпитерианина вовсе не равновероятно может оказаться выше или ниже среднего, то есть распределение юпитериан по росту асимметрично. В такой си- туации полагаться на среднее и стандартное отклонение нельзя.
    На рис. 2.ЗБ изображено нормальное распределение для совокуп- ности с теми же самыми значениями среднего и стандартного отклонения, что и на рис. 2.ЗА. Оно ничуть не похоже на распре- деление юпитериан. Таким образом, доверившись среднему и стандартному отклонению, мы получим превратное представ-
    ГЛАВА 2

    33
    ление о совокупности, не подчиняющейся нормальному распре- делению.
    Для описания таких данных лучше подходит не среднее, а
    медиана. Медиана — это значение, которое делит распределе- ние пополам половина значений больше медианы половина —
    меньше (точнее не больше). Из рис. 2.4А видно, что ровно по- ловина юпитериан выше 36 см. Стало быть 36 см — это медиа- на роста юпитериан.
    Для характеристики разброса роста юпитериан найдем зна- чения, не выше которых оказались 25 и 75% результатов измере-
    Рис. 2.3. Если распределение асимметрично полагаться на среднее и стандартное от- клонение нельзя. А. Распределение юпитериан по росту. Б. Нормальное распределение с теми же средним и стандартным отклонением, не смотря на тождественность пара- метров, оно ничуть не похоже на реальное распределение юпитериан.
    КАК ОПИСАТЬ ДАННЫЕ

    34
    Рис. 2.4. Для описания асимметричного распределения следует использовать медиану и процентили. Медиана — это значение, которое делит распределение пополам. А. Ме- диана роста юпитериан — 36 см. Б. 25-й и 75-й процентили отсекают четверть самых низких и четверть самых высоких юпитериан 25-й процентиль ближе к медиане, чем
    75-й — это говорит об асимметричности распределения.
    35
    30
    Рост, см
    40 45 50
    Б
    А
    25-й процентиль 75-й процентиль
    Медиана (50-й процентиль)
    ГЛАВА 2

    35
    ния. Эти величины называются 25-м и 75-м процентилями. Если медиана делит распределение пополам, то 25-й и 75-й процен- тили отсекают от него по четвертушке. (Саму медиану, кстати,
    можно считать 50-м процентилем). Для юпитериан, как видно из рис. 2.4Б, 25-й и 75-й процентили равны соответственно 34
    см и 40 см. Конечно, медиана и процентили, в отличие от сред- него и стандартного отклонения, не дают полного описания рас- пределения. Однако между 25 м и 75-м процентилями находит- ся половина значений, – значит, мы можем судить, каков ростом средний юпитерианин. По положению медианы относительно
    25-го и 75-го процентилей можно судить о том, насколько асим- метрично распределение. И наконец, теперь мы примерно зна- ем, кто на Юпитере считается высоким (выше 75-го проценти- ля), а кто ростом не вышел (ниже 25-го процентиля).
    Для описания распределения чаще всего применяют 25-й и
    75-й процентили. Однако можно рассчитывать любые другие процентили. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.
    Вычисление процентилей — хороший способ разобраться в том, насколько распределение близко к нормальному. Напом- ним, что для нормального распределения 95% значений заклю- чено в пределах двух стандартных отклонений от среднего и
    68% — в пределах одного стандартного отклонения, медиана совпадает со средним. Соответствие между процентилями и числом стандартных отклонений от среднего таково (см. также рис. 2.5):
    Если соответствие между процентилями и отклонениями от среднего не слишком отличается от приведенного, то распреде- ление близко к нормальному и его можно описать при помощи среднего и стандартного отклонения.
    Процентили
    Отклонения от среднего
    2,5
    µ – 2σ
    16
    µ – σ
    50
    µ
    84
    µ + σ
    97,5
    µ + 2σ
    КАК ОПИСАТЬ ДАННЫЕ

    36
    Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, в частности рассматриваемые в гл. 2, 4 и 9, основаны на предположении что распределение близко к нормальному. Только в этом случае эти методы будут надежны. (Методы, не требующие нормальности распределе- ния, изложены в гл. 10)
    ВЫБОРОЧНЫЕ ОЦЕНКИ
    До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения сред- него, дисперсии и стандартного отклонения. На самом деле об- следовать все объекты совокупности удается редко: обычно до- вольствуются изучением выборки, полагая, что эта выборка от- ражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выбор- кой, мы, конечно, не узнаем точных значений среднего и стан-
    ГЛАВА 2
    Рис. 2.5. Нормальное распределение, соответствие между числом стандартных откло- нений от среднего и процентилями.

    37
    дартного отклонения, но можем оценить их. Опенка среднего,
    вычисленная по выборке называется выборочным средним. Вы- борочное среднее обозначают X и вычисляют по формуле:
    X
    X
    n
    =

    где n – объем выборки.
    Оценка стандартного отклонения называется выборочным стан-
    дартным отклонением (s) и определяется следующим образом:
    (
    )
    2 1
    X
    X
    s
    n

    =


    Эта формула отличается от формулы для стандартного от- клонения по совокупности. Во-первых, среднее
    µ заменяется его выборочной оценкой — X . Во-вторых, в знаменателе из числа членов выборки вычитается единица. Строгое обоснова- ние последнего требует основательной математической подго- товки, поэтому ограничимся следующим объяснением. Разброс значений в пределах выборки никогда не бывает столь большим,
    как во всей совокупности, и деление не на n, а на n – 1 компенси- рует возникающее занижение оценки стандартного отклонения.
    Подытожим. Если известно, что выборка скорее всего при- надлежит к совокупности с нормальным распределением, луч- ше всего использовать выборочное среднее и выборочное стан- дартное отклонение. Если есть основания полагать, что распре- деление в совокупности отличается от нормального, следует ис- пользовать медиану, 25-й и 75-й процентили.
    НАСКОЛЬКО ТОЧНЫ ВЫБОРОЧНЫЕ ОЦЕНКИ
    Выборочное среднее и выборочное стандартное отклонение есть оценки среднего и стандартного отклонения для совокупности,
    вычисленные по случайной выборке. Понятно, что разные выбор- ки дадут разные оценки. Для характеристики точности выбороч- ных оценок используют стандартную ошибку. Стандартную ошиб- ку можно подсчитать для любого показателя, но сейчас мы остановимся на стандартной ошибке среднего, — она позволяет
    КАК ОПИСАТЬ ДАННЫЕ

    38
    оценить точность, с которой выборочное среднее характеризу- ет значение среднего по всей совокупности.
    На рис. 2.6А представлено уже знакомое нам распределение марсиан по росту. Мы уже знаем рост каждого марсианина. По- смотрим, что получится, если оценивать средний рост по вы- борке объемом, скажем, 10 марсиан.
    Из 200 обитателей Марса наугад выберем 10 и пометим их черными кружками (рис. 2.6А). На рис. 2.6Б эта выборка изобра- жена в виде, принятом в журнальных публикациях. Точка и два
    Рис. 2.6. Три случайные выборки из одной совокупности дают три разных оценки сред- него и стандартного отклонения.
    ГЛАВА 2

    39
    отрезка по бокам от нее изображают выборочное среднее (X =
    41,5 см) и выборочное стандартное отклонение (s = 3,8 см). Эти значения близки, но не равны среднему по совокупности
    (
    µ = 40 см) и стандартному отклонению (σ = 5 см).
    Извлечем еще одну случайную выборку того же объема. Ре- зультат показан на рис. 2.6В. На рис. 2.6А попавшие в эту вы- борку марсиане изображены заштрихованными кружками. Вы- борочное среднее (36 см) по-прежнему близко к среднему по совокупности, хотя и отличается от него; что касается выбороч- ного стандартного отклонения (5 см), то на этот раз оно совпало со стандартным отклонением по совокупности.
    На рис. 2.6Г представлена третья выборка. Попавшие в нее марсиане на рис. 2.6А изображены кружками с точками. Сред- нее и стандартное отклонение для этой выборки составляют со- ответственно 40 и 5 см.
    Теперь пора поставить добычу случайных выборок на про- мышленную основу. Рассмотрим совокупность средних для каж-
    дой из возможных выборок по 10 марсиан. Общее число таких выборок превышает 10 16
    . Три из них мы уже обследовали. Сред- ние по этим выборкам представлены на рис. 2.7 в виде заполнен- ных кружков. Пустые кружки — это средние еще для 22 выборок.
    Итак, теперь каждому выборочному среднему соответствует кружок,
    Рис. 2.7. Такое распределение мы получим, выбрав 25 раз по 10 марсиан из совокупно- сти представленной на рис 2 6А, и рассчитав среднее для каждой выборки (средние для трех выборок с рис. 2.6 показаны заполненными кружками). Если построить распpeделе- ние средних для всех возможных выборок, оно окажется нормальным. Среднее этого распределения будет равно среднему той совокупности, из которой извлекаются вы- борки. Стандартное отклонение этого распределения называется стандартной ошибкой среднего.
    30
    35
    40
    45
    50
    КАК ОПИСАТЬ ДАННЫЕ

    40
    точно так же, как до сих пор кружки соответствовали отдельно- му объекту.
    Посмотрим на рис. 2.7. Набор из 25 выборочных средних имеет колоколообразное распределение похожее на нормальное.
    Это не случайно. Можно доказать, что если переменная пред- ставляет собой сумму большого числа независимых перемен- ных, то ее распределение стремится к нормальному, какими бы ни были распределения переменных, образующих сумму. Так как выборочное среднее определяется именно такой суммой, его распределение стремится к нормальному, причем чем больше объем выборок, тем точнее приближение. (Если выборки при- надлежат совокупности с нормальным распределением, распре- деление выборочных средних будет нормальным независимо от объема выборок).
    Поскольку распределение на рис. 2.7 нормальное, его можно описать с помощью среднего и стандартного отклонения.
    Так как среднее значение для рассматриваемых 25 точек есть среднее величин, которые сами являются средними значения- ми, обозначим его
    X
    X
    . Аналогично, стандартное отклонение обозначим
    X
    s
    . По формулам для среднего и стандартного откло- нения находим
    X
    X
    = 40 см и
    X
    s = 1,6см.
    Среднее выборочных средних
    X
    X оказалось равно среднему
    µ всей совокупности из 200 марсиан. Ничего неожиданного в этом нет. Действительно, если бы мы провели исследования всех возможных выборок, то каждый из 200 марсиан был бы выбран равное число раз. Итак, среднее выборочных средних совпадет
    со средним по совокупности.
    Интересно, равно ли
    X
    s
    стандартному отклонению,
    σ сово- купности из 200 марсиан? Стандартное отклонение для сово- купности выборочных средних
    X
    s равно 1,6 см, а стандартное отклонение самой совокупности — 5 см. Почему
    X
    s меньше,
    чем
    σ? В общих чертах это можно понять, если учесть, что в случайную выборку редко будут попадать одни только коротыш- ки и одни гиганты. Чаше их будет примерно поровну, и откло- нения роста от среднего будут сглаживаться. Даже в выборке,
    куда попадут 10 самых высоких марсиан, средний рост соста- вит только 50 см, тогда как рост самого высокого марсианина
    — 53 см.
    Подобно тому, как стандартное отклонение исходной выбор-
    ГЛАВА 2

    41
    ки из 10 марсиан s служит оценкой изменчивости роста марси- ан,
    X
    s
    является оценкой изменчивости значений средних для вы- борок по 10 марсиан в каждой. Таким образом, величина
    X
    s слу- жит мерой точности, с которой выборочное среднее X является оценкой среднего по совокупности
    µ. Поэтому
    X
    s
    носит назва- ние стандартной ошибки среднего.
    Чем больше выборка, тем точнее оценка среднего и тем мень- ше его стандартная ошибка. Чем больше изменчивость исход- ной совокупности, тем больше изменчивость выборочных сред- них, поэтому стандартная ошибка среднего возрастает с увели- чением стандартного отклонения совокупности.
    Истинная стандартная ошибка среднего по выборкам объе- мом n, извлеченным из совокупности, имеющей стандартное отклонение
    σ, равна*:
    X
    n
    σ
    σ =
    Собственно стандартная ошибка — это наилучшая оценка величины
    X
    σ по одной выборке:
    X
    s
    s
    n
    =
    ,
    где s — выборочное стандартное отклонение.
    Так как возможные значения выборочного среднего стремятся к нормальному распределению, истинное среднее по совокуп- ности примерно в 95% случаев лежит в пределах 2 стандартных ошибок выборочного среднего.
    Как уже говорилось, распределение выборочных средних приближенно всегда следует нормальному распределению не- зависимо от распределения совокупности, из которой извлече- ны выборки. В этом и состоит суть утверждения, называемого
    центральной предельной теоремой. Эта теорема гласит следу- ющее.
    • Выборочные средние имеют приближенно нормальное рас- пределение независимо от распределения исходной совокуп- ности, из которой были извлечены выборки.
    * Вывод этой формулы приведен в гл. 4.
    КАК ОПИСАТЬ ДАННЫЕ

    42
    • Среднее значение всех возможных выборочных средних рав- но среднему исходной совокупности.
    • Стандартное отклонение всех возможных средних по выбор- кам данного объема, называемое стандартной ошибкой сред- него, зависит как от стандартного отклонения совокупнос- ти, так и от объема выборки.
    На рис. 2.8 показано, как связаны между собой выборочное среднее, выборочное стандартное отклонение и стандартная ошибка среднего и как они изменяются в зависимости от объе- ма выборки*. По мере того как мы увеличиваем объем выбор- ки, выборочное среднее X и стандартное отклонение s дают все более точные оценки среднего
    µ и стандартного отклонения σ
    по совокупности. Увеличение точности оценки среднего отра- жается в уменьшении стандартной ошибки среднего
    X
    σ . На- брав достаточное количество марсиан, можно сделать стандар- тную ошибку среднего сколь угодно малой. В отличие от стан- дартного отклонения стандартная ошибка среднего ничего не говорит о разбросе данных, — она лишь показывает точность выборочной оценки среднего.
    Хотя разница между стандартным отклонением и стандарт- ной ошибкой среднего совершенно очевидна, их часто путают.
    Большинство исследователей приводят в публикациях значение стандартной ошибки среднего, которая заведомо меньше стан- дартного отклонения. Авторам кажется, что в таком виде их дан- ные внушают больше доверия. Может быть, так оно и есть, од- нако беда в том, что стандартная ошибка среднего измеряет именно точность оценки среднего, но никак не разброс данных,
    который и интересен читателю. Мораль состоит в том, что, опи- сывая совокупность, всегда нужно приводить значение стандар- тного отклонения.
    * Рис. 2.8 получился следующим образом. Из совокупности марсиан (рис.
    2.1) взяли наугад двух марсиан. По этой выборке вычислили X , s и
    X
    s .
    Потом опять же наугад выбрали еще одного марсианина и добавив его к выборке снова рассчитали эти показатели. Добавляя каждый раз по одно- му случайно выбранному марсианину, объем выборки довели до 100. Если бы мы повторили эксперимент, очередность извлечения марсиан была бы иной, и рисунок выглядел бы немного иначе.
    ГЛАВА 2

    43
    Рассмотрим пример, позволяющий почувствовать различие между стандартным отклонением и стандартной ошибкой сред- него, а также уяснить, почему не следует пренебрегать стандар- тным отклонением. Положим, исследователь, обследовав выборку из 20 человек, пишет в статье, что средний сердечный выброс составлял 5,0 л/мин со стандартным отклонением 1 л/мин. Мы знаем, что 95% нормально распределенной совокупности попа- дает в интервал среднее плюс–минус два стандартных отклоне-
    1   2   3   4   5   6   7   8   9   ...   37


    написать администратору сайта