Биометрия верстка_. Учебнометодическое объединение по медицинскому и фармацевтическому образованию вузов России биометрия
Скачать 0.93 Mb.
|
2.6. Правило "трех сигм" Разобьём площадь под кривой Гаусса вертикальными прямыми на отдельные участки (рис 2.7). Рис. 2.6 Сначала рассмотрим участок, соответствующий интервалу от М до М. Как показывают расчеты, вероятность попадания значения X в этот интервал равна + − = σ σ M M dx x f p ) ( = 0,683 Аналогичные вычисления показывают, что вероятность попадания значения X вин- тервал (M-2σ ,M+2σ) равна 0,954 , а в интервал (M-3σ), (M+3σ) - 0,997, то есть практически равна 1. Поэтому на практике можно полагать , что фактически все значения случайной величины находятся в пределах интервала ее изменения на ±3σ относительно математического ожидания. Эта закономерность известна как "правило трех сигм". Интервал значений параметров жизнедеятельности человека М в медицине принимается за предел нормы. Рис Задачи для самостоятельного решения 1. Принимая вероятности рождения мальчика и девочки одинаковыми (p=0,5), найдите вероятность того, что среди 10 новорожденных - 6 мальчиков. Найдите математическое ожидание, дисперсию и среднее квадратическое отклонение (0,205; 5; 2,5; 1,58). 2. Вероятность выиграть по одному билету лотереи - 1/17. Какова вероятность, имея 6 билетов, выиграть потрем билетам По двум билетам (0,0034; 0,04). 3. Вероятность всхожести в партии семян 0,3. Определите вероятность того, что из 10 семян взошли 6. ( З. При эпидемии гриппа заболеваемость составила в среднем 20 больных на 1000 жителей. Какова при этом вероятность того, что в группе из 20 студентов заболеют а) 5 человек б) никто не заболеет. (6*10 -5 ; 0,7) Конкурс в вуз 3 человека на место. Для группы из 50 абитуриентов определить а) наиболее вероятное число поступивших б) вероятность того, что поступит половина абитуриентов. Раздел III. ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ При измерении одной и той же величины (параметра) у однотипных объектов или при многократных измерениях некоторой величины (параметра) у одного итого же объекта получаются близкие, но различные значения измеряемой величины (измеряемого параметра. Это связано стем, что значения величины варьируются в некоторых пределах у разных однотипных объектов а при многократных измерениях одной и той же величины на результат измерения влияет большое число факторов, учесть которые практически невозможно. Таким образом, результаты измерений (опытов) оказываются случайными величинами, которые могут принимать различные значения при одних и тех же условиях насколько эти условия можно проконтролировать. Учитывая случайный характер результатов измерений (опытов, математическая статистика разрабатывает свои методы получения, описания и обработки опытных данных, основываясь на теории случайных величин. Особенно необходимы методы математической статистики при обработке результатов биологических и медицинских исследований. Ввиду сложности биологических систем, многие факторы, влияющие на процессы в этих системах, не поддаются контролю и учету. Только методами математической статистики можно извлечь информацию из результатов таких исследований и оценить надежность полученных данных. 3.1 Генеральная совокупность. Выборочная совокупность (выборка) Прежде чем говорить о методах статистической обработки опытных данных, введем некоторые понятия. Всякое множество однотипных объектов, подлежащих обследованию, называется совокупностью. Каждый объект совокупности называется членом или единицей совокупности. Число объектов (членов, единиц) совокупности называется объемом совокупности. Совокупности могут составлять не только сами объекты, но и признаки, параметры, характеристики объектов в этих случаях говорят о совокупностях признаков, совокупностях параметров, совокупностях характеристик. При многократных измерениях какого-либо параметра некоторого объекта можно говорить о совокупности значений этого параметра. Полная совокупность некоторых объектов (признаков, параметров, характеристик, значений параметров) называется генеральной совокупностью. Генеральная совокупность, как правило, имеет весьма большое число членов (единиц теоретически число членов генеральной совокупности можно мыслить бесконечным. Например При изучении некоторого заболевания человека генеральную совокупность будет составлять все население земного шара. Учитывая большой объем генеральной совокупности, на практике не представляется возможным обследовать все члены этой совокупности, даже если число их конечно. Это требует больших материальных затрат и времени. Поэтому при обследовании из генеральной совокупности выбирается некоторое ограниченное число членов. Это ограниченное число членов называется выборочной совокупностью или просто выборкой. Изданной генеральной совокупности можно сформировать большое число выборочных совокупностей, отличающихся как самими членами, таки числом членов. Результаты обследования этих выборочных совокупностей будут отличаться как между собой, таки от результата обследования генеральной совокупности, если бы его удалось провести. Значения, полученные в результате обследования выборочных сово- купностей, являются случайными величина m i , зависящими от состава выборочной совокупности и от числа членов в ней. Возникает вопрос о правомочности распространения результатов обследования выборочной совокупности на всю генеральную совокупность. Для того, чтобы результаты, полученные при обследовании выборочной совокупности, можно было распространить на всю генеральную совокупность, выборочная совокупность должнa быть представительной. Представительность выборочной совокупности зависит от числа членов совокупности и от способа выбора этих членов число членов выборочной совокупности должно быть достаточно большим, асами члены должны выбираться случайным образом. Вопрос о том, какое число членов выборочной совокупности можно считать достаточным, является одним из основных вопросов, решаемых математической статистикой, и будет рассмотрен ниже. 3.2 Способы представления опытных данных. Статистический ряд. Вариационный ряд. Гистограммы При изучении некоторых параметров (характеристик) объекта, производится измерение этих параметров у разных объектов или многократное измерение этого параметра у одного итого же объекта. Каждый отдельный результат измерения (опыта, каждый член совокупности) называется вариантой. Результаты измерений (опытов) обычно представляются в виде таблицы, состоящей из двух строк впервой строке указывается номер измерения , а во второй строке - соответствующее значение результата измерения. i 1 2 3 n X i X 1 X 2 X 3 ....................... Такую таблицу называют статистическим рядом. Статистический ряд представляет собой первичную форму записи результатов измерений. Однако по такому ряду трудно сделать какие-либо выводы о поведении изучаемой величины. Первичная обработка статистического материала заключается в том, что на основании статистического ряда строятся вариационные ряды. Простой вариационный ряд также состоит из двух строк впервой строке записываются результаты отдельных измерений в порядке их возрастания (или убывания, а во второй строке - числа, указывающие сколько раз при измерении было получено соответствующее значение исследуемого параметра (эти числа называются частотами. X i X 1 X 2 X 3 ........ X k m i m 1 m 2 m 3 ........ m k При большом числе измерений простой вариационный ряд оказывается длинными плохо обозримым. В этом случае из результатов измерений формируется интервальный вариационный ряд. В интервальном вариационном ряду результаты измерений объединяют в классы или группы. Ряд также состоит из двух строк впервой строке указываются интервалы классов или группа во второй строке - числа (частоты, показывающие сколько значений исследуемого параметра попало в соответствующий класс или группу. Интервалы классов X 1 - X 2 X 3 - X 4 ........ X k-1 - X k m i m 1 m 2 ........ m k Интервалы классов или групп, как правило, берут одинаковой величины (хотя можно брать и разной сами величины интервалов тоже можно выбирать произвольными. Однако для удобства сравнения результатов разных исследований, величины интервалов рассчитывают по формуле Стерджеса: n Lg X X X ∗ + − = Δ 32 , 3 1 min max . (3.1) Часто вариационные ряды дополняют значениями относительных частот. Относительная частота определяется по формуле ν i = m i /n. где m i - число наблюдений одинаковых значений параметра или число попаданий значений параметра в данный интервал (класса n - общее число измерений данного параметра. Вариационные ряды, дополненные относительными частотами, называются статистическими совокупностями. Для того, чтобы наглядно представить закономерности распределения результатов измерений, вариационные ряды могут быть отображены графически в виде полигонов распределений ив виде гистограмм. Простые вариационные ряды отображаются в виде полигона распределений при этом по оси абсцисс откладываются значения результатов измерений, а по оси ординат - относительные частоты каждого результата. В точках значений результатов измерений восстанавливаются перпендикуляры, длины которых пропорциональны относительным частотам. Соединяя верхние концы перпендикуляров ломаной линией, получают геометрическую фигуру, называемую полигоном распределения частот. Ломаная линия, соединяющая концы перпендикуляров, называется вариационной линией (кривой) или кривой распределения относительных частот (рис. 3.1). ν i 0.2 0.1 0 X i 0 2 4 6 8 Рис. 3.1 Интервальные вариационные ряды отображаются в виде гистограмм. При отображении интервальных вариационных рядов по оси абсцисс откладываются границы классов или группа по оси ординат - относительные частоты попадания результатов опыта в класс (группу на классовых интервалах, как на основаниях, строятся прямоугольники, высоты которых равны относительным частотам. В результате получается ступенчатая фигура, называемая гистограммой. Если соединить середины верхних сторон прямоугольников линией, то получится кривая распределения относительных частот см. Рис. 3.2 Для интервального вариационного ряда можно построить и полигон распределений для этого по оси абсцисс откладывают срединные значения классов, а по оси ординат - соответствующие им относительные частоты. ν i 0.5 0.25 0 2 3 4 5 6 Рис. 3.2 Полигон распределений и гистограмма наглядно показывают, как часто встречаются те или иные значения исследуемого параметра, те или иные значения результатов опытов. Рассмотрим на примерах построение полигона распределений и гистограммы. Пример 3.1. При измерении некоторого параметра были получены следующие результаты (число измерений n = 20) : i 1 2 3 4 5 6 7 8 9 10 X i 6 9 5 7 10 8 9 10 11 8 i 11 12 13 14 15 16 17 18 19 20 X i 9 12 9 8 10 11 9 8 10 7 Составим простой вариационный ряд, расположив результаты измерений в порядке их возрастания X i 5 6 7 8 9 10 11 12 m i 1 1 2 4 5 4 2 1 Дополнив вариационный ряд относительными частотами, получим статистическое распределение результатов измерений данного параметра, причем = = n i i 1 00 1 ν X i 5 6 7 8 9 10 11 12 m 1 1 2 4 5 4 2 1 ν i 0,05 0,05 0,10 0,20 0,25 0,20 0,10 0,05 По полученному распределению построим полигон распределений и проведем вариационную кривую (рис. 3.3). ν i 0.2 0.1 0 4 6 8 10 12 Рис. 3.3 Пример 3.2. При измерении концентрации кальция в сыворотке крови получены следующие значения концентрации (число измерений n = 50): 8,6 6,7 9,7 5,9 8,1 6,2 6,6 6,4 6,9 5,3 7,9 5,8 5,4 7,1 5,9 8,5 7,4 5,9 7,7 5,8 7,3 4,4 6,6 4,2 8,0 5,1 6,9 7,7 6,0 6,7 4,9 5,9 6,7 5,7 6,1 9,0 6,4 8,8 7,6 7,1 7,7 5,2 7,1 6,5 8,5 5,0 7,8 8,2 5,0 8,8 Сгруппируем результаты измерений в интервальный вариационный ряд. Вычислим величину классового интервала по формуле Стерджеса: 8 , 0 83 , 0 50 32 , 3 1 2 , 4 7 , 9 32 , 3 1 min Нижнюю границу первого класса обычно задают меньше, чем Сна половину классового интервала, те 8 , 3 2 8 , 0 2 , 4 Для того, чтобы исключить попадание некоторых результатов одновременно в два соседних класса, верхнюю границу каждого класса уменьшают на величину, равную точности измерения исследуемого параметра. Учитывая сказанное, получим следующие значения классовых интервалов 3,8-4,5 4,6-5,3 5,4-6,1 6,2-6,9 7,0-7,7 7,8-8,5 8,6-9,3 9,4-10,1. Разнеся результаты измерений по классам, получим интервальный вариационный ряд С 3,8-4,5 4,6-5,3 5,4-6,1 6,2-6,9 7,0-7,7 m i 2 6 10 11 9 С 7,8-8,5 8,6-9,3 9,4-10,1 m i 7 4 1 Рассчитав относительные частоты и дополнив ими вариационный ряд, получаем статистическое распределение результатов измерений концентрации кальция. С 3,8-4,5 4,6-5,3 5,4-6,1 6,2-6,9 7,0-7,7 m i 2 6 10 11 9 ν i 0,04 0,12 0,20 0,22 0,18 С 7,8-8,5 8,6-9,3 9,4-10,1 m i 7 4 1 ν i 0,14 0,08 0,02 По этим данным строим гистограмму и проводим вариационную кривую. (Рис) ν i 0.3 0.2 0.1 0 3 4 5 6 7 8 9 10 Рис. 3.4 Кроме полигона распределений и гистограмм для наглядного представления статистического распределения используют еще два вида кривых кумуляты и огивы. При построении кумуляты по оси абсцисс откладываются срединные значения классовых интервалов, а по оси ординат - так называемые, накопленные частоты (суммы частот предыдущих классов, начиная с первого. Построим кумуляту, используя данные примера 3.2. Найдем накопленные частоты и занесем их в таблицу. С 4,2 5,0 5,8 6,6 7,4 8,2 9,0 9,8 νi 0,04 0,16 0,36 0,58 0,76 0,90 0,98 1,0 По полученным данным построим кумуляту (рис. 3.5) Рис. 3.5 Кумуляты используются при определении значений исследуемой величины, соответствующих накопленной частоте ν i = 0,5; те. центру распределения. Эти значения определяют, например, дозу лекарственных препаратов, вызывающих эффекту более чем 50% подопытных индивидов. Если поменять местами оси координат накопленные частоты отложить на оси абсцисса срединные значения классов - по оси ординат, то получится кривая, называемая огива. Огива, соответствующая результатам измерения концентрации кальция (пример 3.2), приведена на рис. 3.6. Огивы позволяют сравнивать между собой несколько статистических распределений разного объема, так как при любом объеме выборки сумма накопленных частот равна единице. Рис. 3.6 37 3.3 Числовые характеристики результатов измерений (опытов. Результаты измерений (опытов, являясь случайными величинами, могут быть описаны соответствующими числовыми характеристиками. Однако при обработке результатов измерений всегда имеют дело с выборочными значениями этих случайных величин (с ее реализациями. Известны лишь некоторые из возможных значений случайной величины и совершенно неизвестны вероятности этих значений, поэтому числовые характеристики результатов измерений вычислить по обычным формулам нельзя. Для описания результатов измерений (опытов) вводятся особые числовые характеристики (выборочные характеристики. Аналогом математического ожидания случайной величины является среднее арифметическое результатов измерений, которое часто называют средним выборочным = ∗ = + ⋅ ⋅ ⋅ + + + = n i i n X n n X X X X X 1 3 2 1 1 (3.2) где X i - результаты измерений (опытов n - общее число измерений (опытов. При большом числе измерений (опытов) среднее арифметическое приближается (сходится по вероятности) к математическому ожиданию и может быть принято равным ему. Однако, эти величины неравны друг другу, те Аналогом дисперсии случайной величины является статистическая или выборочная дисперсия = − ∗ = = n i i x M X n x x D 1 2 2 )) ( ( 1 ) ( ) ( σ (3.3) где X i - результаты измерений (опытов M(x) - математическое ожидание результатов измерений n - общее число измерений . Так как математическое ожидание результатов измерений (опытов) обычно неизвестно, то вместо него в формулу подставляют среднее арифметическое X . Однако, как показано в теории, при этом получается заниженное значение дисперсии такая дисперсия называется смещенной дисперсией = ∗ − ∗ = n i i X X n x D 1 2 ) ( 1 ) ( (3.3') Смещенную дисперсию можно "подправить, умножив ее на величину 1/(n-1), и получить более точное несмещенное значение дисперсии = − ∗ − = n i i X X n x D 1 2 ) ( 1 1 ) ( (3.3") Среднее арифметическое и статистическая дисперсия отличаются от математического ожидания и дисперсии, так как зависят от числа измерений и самих результатов измерений при вычислении их по разным сериям измерений они будут получаться разными. В этом смысле они называются оценками математического ожидания и дисперсии. Зная значения смещенной и несмещенной дисперсий можно вычислить по обычной формуле среднее квадратическое отклонение. Обычно среднее квадратиче- ское отклонение вычисляют по несмещенной дисперсии ) ( 1 1 ) ( ) ( 1 2 = − ∗ − = = n i i X X n x D x σ (3.4) Используя среднее арифметическое, статистическую дисперсию и среднее квад- ратическое отклонение можно сравнивать между собой результаты исследований разных исполнителей или результаты разных серий исследований. Кроме формул (для расчета числовых характеристик (оценок) результатов измерений часто используются более удобные формулы, производные от исходных. Так в случае, когда результаты измерений представлены в виде статистических совокупностей, среднее арифметическое и статистическую дисперсию можно вычислить по формулам ) ( ) ( 1 1 1 = = ∗ = ∗ ∗ = n i i n i i i i X m X n X ν (3.5) i n i n i i i i X X n n m X X n X D ν ∗ − ∗ − = ∗ − ∗ − = = = ∗ 2 1 1 2 ) ( 1 ) ( 1 1 ) ( . (3.6) где Xi – i - результат измерения m i - частоты результатов измерений ν i – относительная частота i - ого результата измерения ; Среднее арифметическое, вычисленное по формуле (часто называется взвешенным средним арифметическим. Если результаты измерений представлены в виде интервального вариационного ряда, то среднее арифметическое и дисперсию можно вычислить по формулам = = ∗ = ∗ ∗ = n i i cp i i cp i n i X m X n X 1 1 ) ( 1 ν (3.5') i n i n i icp i ср i X X n n m X X n x D ν = = ∗ − − = ∗ − ∗ − = 1 1 2 2 ) ( 1 ) ( 1 1 ) ( . (3.6') где X iср -срединные значения классов (групп m i - частоты классов (групп ν i - относительные частоты этих классов (групп. Вычислять средние арифметические и дисперсии можно, используя понятие условной средней -A. Обычно в качестве такой средней выбираются либо один из результатов измерений, либо его округленное значение, такое, чтобы разности между условной средней и другими результатами измерений были достаточно малы. Тогда числовые оценки можно вычислить последующим формулам 39 = − ∗ − + = n i i A X n A X 1 ) ( 1 1 (3.5") } ) ( ) ( { 1 1 ) ( 2 1 2 A X n A x n x D n i i − ∗ − − ∗ − = − (3.6") Приведем еще одну формулу для вычисления дисперсии, которая оказывается удобной при расчетах на программируемых микрокалькуляторах или ПЭВМ = ∗ − ∗ − = n i i X n X n x D 1 2 2 ) ( 1 Часто на практике возникает необходимость сравнить между собой результаты измерений параметров, имеющих разные размерности. Для оценки разноразмерных параметров в статистике используется величина, называемая коэффициентом вариации. Коэффициент вариации определяется как отношение среднего квадратиче- ского отклонения к среднему арифметическому и выражается в процентах 100 ) ( ∗ = X x C σ % . (3,7) Рассмотрим на примерах вычисление числовых характеристик результатов измерений. Пример 3.3 При определении содержания азота в сыворотке крови подопытных животных были получены следующие результаты (число измерений n = 9) i 1 2 3 4 5 6 7 8 9 X i 20,7 21,2 20,5 20,6 20,4 21,1 20,7 21,1 20,9 Вычислим среднее арифметическое по формуле 8 , 20 9 9 , 20 1 , 21 7 , 20 1 , 21 4 , 20 6 , 20 5 , 20 2 , 21 7 , 20 3 2 Для удобства вычисления статистической дисперсии дополним статистический ряд еще двумя строками разностями (и квадратами эти разностей (Xi- X ) 2 и заполним его, используя полученное значение среднего арифметического. i 1 2 3 4 5 6 7 8 9 X i 20,7 21,2 20,5 20,6 20,4 21,1 20,7 21,1 20,9 X i - X 0,1 0,4 0,3 0,2 0,4 0,3 0,1 0,3 0,1 2 ) ( X X i − 0,01 0,16 0,09 0,04 0,16 0,09 0,01 0,09 0,01 Используя четвертую строку ряда вычислим статистическую дисперсию и среднее квадратическое отклонение по формулам = ≅ = + + + + + = − ∗ − = n i i X X n x D 1 2 08 0 082 0 8 01 0 09 0 01 0 09 0 16 0 01 0 ) ( 1 1 ) ( ) ( ) ( x D x = σ |