практикум часть 1. Практикум по медицинской и биологической физике учебное пособие для самостоятельной работы
Скачать 34.72 Mb.
|
Тема занятия Изучение нормального закона распределения 2.1.1. Цели работы Приобретение студентами навыков обработки выборочных совокупностей, изучение этапов статистической обработки, определять числовые характеристи- ки выборки, строить гистограмму, вычислять доверительный интервал, сделать оценку достоверности и объема выборки. Экспериментально получить выборочную совокупность путем измерения ряда сопротивлений. Нормировать полученный ряд. Определить статистические параметры и характеристики выборки. Построить гистограмму и оценить репре- зентативность выборки. 2.1.2. Приборы и принадлежности Измерительный макет из сорока сопротивлений одного номинала, соедини- тельные провода, многопредельные цифровые мультимеры типа DT- 838. 2.1.3. Вопросы к занятию 1. Что такое закон распределения случайных величин? Каковы формы за- дания закона распределения? 2. Что такое случайная величина? Дискретная и непрерывная случайная величина. (Ответ поясните примерами) 3. Что такое вероятность случайного события? (Определение, формула). Чему равна вероятность достоверного, невозможного и случайного со- бытия? (Ответ поясните примерами) 4. Закон сложения вероятностей случайных величин. Когда применим этот закон? (Приведите пример) 5. Закон умножения вероятностей случайных величин, когда применим этот закон? (Приведите пример). 23 6. Плотность вероятности. Напишите формулу плотности вероятности, нари- суйте график плотности в зависимости от величины среднеквадратичного отклонения, сделайте пояснения. 7. Приведите формулу функции нормального распределения случайной ве- личины и сделайте пояснения. 8. Что такое нормальный закон распределения случайных величин? (Ответ поясните графиком и примерами) 9. Что такое точечная оценка распределения? (Определение). Приведите формулы числовых характеристик выборочной совокупности. 10. Какова надежность полученного результата, если расчетное значение критерия Стьюдента tpac.=2.3 при объеме выборки n=20? Что нужно сде- лать для того, чтобы повысить надежность результата? 11. Что такое интервальная оценка распределения? Когда применяется ин- тервальная оценка? Доверительный интервал. (Определение, формула) 12. Приведите числовые характеристики выборочной совокупности. (Фор- мулы, сделайте пояснения). 13. Что такое выборка? Основные требования к выборке, способы отбора. (Сделайте пояснения) 14. Что такое доверительная вероятность? Как с заданной надежностью оце- нить значение генеральной средней по показателям выборки? (Приведите формулы и сделайте пояснения). 15. Что такое распределение Стьюдента? Приведите формулы для расчета выборочной средней и среднеквадратического отклонения, сделайте по- яснения. 16. Функция распределения. Основные свойства функции. Графическое изображение функции распределения. 17. Что такое гистограмма? Каковы правила ее построения? 18. Коэффициент Стьюдента. (Определение, формула). Зависимость коэф- фициента Стьюдента от надежности и объема выборки. 2.1.4. Теоретическое введение Для анализа статистических характеристик некоторой генеральной сово- купности, мы пользуемся, как правило, информацией о выборке. Когда врач хочет получить представление о составе и состоянии крови пациента, он проводит анализ небольшой выборки крови. Любое значение искомого параметра, вычисленное на основе ограниченного числа опытов, всегда будет содержать элемент случайности. Работники здравоохранения пос- тоянно имеют дело с информацией, базирующейся на ограниченных выбор- ках. Поэтому они должны хорошо представлять себе границы надежности анализа информации на основе выборочных данных. В биологической и медицинской статистике часто приходится исследовать распределение того или иного признака для весьма большой совокупности ин- дивидуумов, образующих статистический коллектив (таким признаком может 24 быть, например, содержание белка в зерне пшеницы, вес новорожденного ре- бенка, период колебаний маятника и т.д.). Данный признак является случайной величиной, значение которой от индивидуума к индивидууму меняется. Однако, для того чтобы составить представление о распределении этой случайной вели- чины или о ее важнейших характеристиках, нет необходимости обследовать каждый объект данной обширной (генеральной) совокупности, а можно обследо- вать некоторую выборку достаточно большого объема для того, чтобы в ней были выявлены существенные черты изучаемого распределения. Статистическая совокупность представляет собой множество объектов, однородных относительно признака, характеризующего эти объекты. Генеральной совокупностью называется совокупность, состоящая из всех объектов, которые могут быть охарактеризованы некоторой величиной X. Теоретически это бесконечно большая или приближающаяся к бесконечно- сти совокупность. Число объектов генеральной совокупности называют ее объемом и обозначают N. Выборочной совокупностью или выборкой называется множество объ- ектов, случайно отобранных из генеральной совокупности. Число объектов выборки называют ее объемом и обозначают n Для того чтобы свойства выборки достаточно хорошо отражали свой- ства генеральной совокупности, выборка должна быть осуществлена случай- но, то есть все объекты должны иметь одинаковую вероятность попасть в вы- борку. Поскольку на практике приходится иметь дело с ограниченным количе- ством экспериментальных данных, то результаты наблюдений и их обработки содержат больший или меньший элемент случайности. Характеристики статистического распределения выборки применяются для оценки неизвестных параметров теоретического распределения вероят- ностей. Различают точечные оценки случайной величины (одним числом) и интер- вальные (оценивание параметра совокупности в виде интервала). Введем некоторые понятия. , (1) Генеральная средняя равна математическому ожиданию случайной ве- личины: (2) Выборочная средняя в — среднее арифметическое значение признака вы- борочной совокупности X 1 X 2 , ..., Х n Генеральная средняя г — среднее арифметическое значение признака X 1 , Х 2 , ..., Х n генеральной совокупности. Выборочная средняя Х в — среднее арифметическое значение признака вы- 25 борочной совокупности X 1 X 2 , ..., Х n , то есть Генеральная средняя Х г — среднее арифметическое значение признака X 1 , Х 2 , ..., Х n генеральной совокупности, т.е. Генеральная дисперсия: (3) Выборочная дисперсия: (4) Точечные оценки. За оценку неизвестного значения μ измеряемой величи- ны принимается выборочная средняя: (5) За оценку генеральной дисперсии D принимается (при малом обьеме вы- борки n<30 n берется как число степеней свободы (n-1)) значение исправленной выборочной дисперсии σ 2 в: в x D В 2 ) ( 2 1 ) ( 1 1 Xв Xi n n i (6) Интервальная оценка математического ожидания (доверительный интервал для математического ожидания случайной величины, распределенной по нор- мальному закону, при неизвестном σ ). Пусть случайная величина X имеет нормальное распределение, причем не- известны μ и σ. В ряде задач требуется не только найти для параметра μ подходящее чис- ленное значение, но и оценить его точность. Требуется знать, к каким ошибкам может привести замена параметра μ его точечной оценкой Х в , и с какой степе- нью уверенности можно ожидать, что эти ошибки не выйдут за известные пре- делы. Такого рода задачи особенно актуальны при малом числе наблюдений, ко- гда точечная оценка в значительной мере случайна и приближенная замена мо- жет привести к серьезным ошибкам. Чтобы дать представление о точности и надежности в математической ста- 26 тистике пользуются так называемыми доверительным интервалом и доверитель- ной вероятностью. Разные выборки дадут разные оценки. Пусть для параметра μ получена из некоторого опыта точечная оценка Х в . При этом, заменяя μ на Х в , мы совершаем некоторую ошибку. В теории математической статистики показывается, что с заданной вероят- ностью γ неизвестное значение μ случайной величины попадает в определенный интервал: или Вероятность γ принято называть доверительной вероятностью. С такой вероятностью мы «доверяем» результату. Величина γ выбирается самим исследова- телем самостоятельно, например, γ = 0,95; 0,99 и т.п. Иногда говорят, что с заданной вероятностью, а доверительный интервал накрывает точку μ. Величина Х — полуширина доверительного интервала. Точки Х в + Х и Х в — Х — границы доверительного интервала. Величины Х в и Х вычисляются на основе экспериментальных данных. Допустим, случайная величина подчиняется нормальному закону распре- деления. В эксперименте получены ее значения: X 1, X 2 , ... Х n Если объем выборки невелик, (n < 30), то полуширина доверительного ин- тервала для оценки неизвестного математического ожидания в этом случае вы- числяется по формуле: (7) где t γ n — коэффициент Стьюдента, значение которого зависит от довери- тельной вероятности γ и от объема выборки n. Его значения приведены в спе- циальной таблице (приложение). Тогда доверительный интервал для μ можно представить как: (8) Таким образом, математическое ожидание μ находится в доверительном интервале: 27 с заданной доверительной вероятностью γ. (9) Чем выше мы задаем вероятность γ, тем шире становится доверительный интервал. И, наоборот, чем меньше γ, тем уже интервал. При увеличении объема выборки ширина интервала уменьшается. Построение гистограммы в медицинских исследованиях Нормальный закон распределения (закон Гаусса) Значительное число случайных явлений, встречающихся в природе, может быть описано с помощью нормального закона распределения (закона Гаусса). Закон Гаусса: (10) где х — любое значение изучаемой величины; μ — математическое ожидание; σ — среднее квадратическое отклонение. (11) График функции (х) нормально распределенной случайной величины пред- ставляет собой колоколообразную кривую (рис.3,4), симметричную относительно оси, проходящей через точку х = μпараллельно ординате. Максимальное значение кривая достигает в точке х = μ . Функция имеет точки перегиба при х = μ ± σ, ось абсцисс служит для нее асимптотой при х Если изменить значение μ, а σоставить постоянным, то кривая будет перемещаться вдоль оси ОХ (рис. 3), сохраняя свою форму. Если изменить σ— среднее квадратическое отклонение, a μ оставить неизменным, то изменяется форма кривой (рис.4). Параметр σ характеризует форму кривой распределения. Это есть характеристика рассеяния всех значе- ний случайной величины относительно ее математического ожидания. При увеличении σмаксимальная ордината уменьшается. Так как площадь под кри- 28 вой распределения всегда должна оставаться равной единице, то при увеличе- нии, α кривая становится более плоской (пологой). Наоборот, при уменьше- нии, σкривая распределения вытягивается вверх. Вероятность попадания случайной величины А в интервал значений х, заключенный между числами х 1 и х 2 , определяется формулой: (12) т. е. это площадь криволинейной трапеции, ограниченной сверху функцией f(х), снизу — осью х, слева и справа — ординатами, проходящими через точки х 1 , и х 2 Раздвинем границы отрезка [х,, х 2 ]: тогда, то есть площадь под всей кривой (х) должна оставаться постоянной и равной 1. Рис.3. Зависимость формы распределения от μ Рис. 4. Зависимость формы распределения от σ 29 Правило 3-х сигм Расчетами показано, что вероятность попадания нормально рас- пределенной случайной величины в интервал значений составляет: Таким образом, вероятность того, что отклонение значений нормально распределенной случайной величины превысит 3σ, чрезвычайно мала, примерно 0,0028. Такое событие можно считать практически невозможным. Поэтому гра- ницы μ +3σ и μ -3σ принимаются за границы практически возможных значе- ний нормально распределенной случайной величины. Это позволяет, зная среднее квадратическое отклонение и математическое ожидание случайной ве- личины, ориентировочно указать интервал ее практически возможных значений. Такой способ оценки диапазона возможных значений случайной величины изве- стен в математической статистике под названием «правило трех сигм». Рис.5. Оценки диапазона возможных значений случайной величины по пра- вилу под названием «правило трех сигм» На рис.6 приведены графики нормального закона распределения темпера- туры тела человека в норме и при патологии. Рис. 6. Закон Гаусса (изменения μ и σ ) 30 Графическое изображение статистического распределения. Гистограмма. Для оценки вида функции распределения вероятностей по экспери- ментальным данным часто используют графический метод, связанный с построе- нием гистограммы. Он состоит в следующем. Пусть проведено n измерений непре- рывной случайной величины А. Обозначим минимальное значение случайной величины х мин. , максимальное — х макс. Разобьем интервал, содержащий полученные значения величины А, на К интервалов одинаковой ширины х. Подсчитаем количество значений случайной величины (частоту), попав- ших в каждый интервал x i (m = 1, 2, ..., к). Получим частоты встречаемости всех значений случайной величины, попадающих в интервал с номером i m i (i = 1, 2, ..., к), каждую частоту поделим на ширину интервала х. Величина называется плотностью частоты. Затем на каждом интер- вале х, следует построить прямоугольник с основанием х и высотой (или высотой плотностью относительной частоты Р * i =m i /n ) Полученную ступенчатую фигуру, состоящую из прямоугольников, называют гистограммой. (Гистограмма — от греческих слов «histos» — столб и «gramma» — запись). Задача. В 20 экспериментах непрерывная случайная величина А принимает значения: 21, 11, 17, 23, 28, 14, 19, 22, 24, 33, 16, 21, 18, 29, 23, 22, 31, 24, 27, 26. Построить гистограмму частот и гистограмму относительных частот. Решение. Находим среди данных минимальное и максимальное значения случайной величины: Самым простым было бы разделить разность Хmax --Хmin на равное число частей. Но часто эта разность не делится нацело на требуемое число частей. В таком случае весь интервал несколько рас- ширяется как в сторону меньших, так и в сторону больших значений. В рассмат- риваемой задаче удобно выбрать х = 5. Тогда логично рассмотреть интервал (10, 35). Получаем, что в первый интервал (10—15) попадают всего два значения переменной х, равные 11, 14, то есть частота m 1 = 2. Во второй интервал (15— 20) попадают значения переменной, равные 17,19,16,18, из чего следует m 2 = 4. Продолжая аналогичные рассуждения, составим таблицу, содержащую после- довательность интервалов и соответствующих им частот — статистический ин- тервальный ряд распределения: В общем виде статистический интервальный ряд распределения имеет вид таблицы: 31 Зная частоты и величину х, найдем плотности частот m i / х и плотно- сти относительных частот Например, для 1-го интервала плотность частоты плотность относительной частоты Данные обработки результатов представлены в таблице: Замечание. Гистограммы на рис. 7 и 8 имеют один и тот же вид, что и следовало ожидать, исходя из метода обработки экспериментальных данных. Поэтому с точки зрения вида гистограммы не имеет значения, представлять ли данные в виде гистограммы плотности частот или гистограммы плотно- сти относительных частот. Однако для установления вида функции плотно- сти распределения вероятностей (ПРВ) необходимо пользоваться гистограм- мой плотности относительных частот. Это можно пояснить, рассматривая пре- дельный случай, когда объем совокупности очень большой, а интервал разби- ения х — мал. Прямоугольники гистограмм будут узкими, и число их будет велико. Ступенчатая линия гистограммы станет мало отличаться от плавной кривой, которая и будет являться функцией У = f(Х)указывающей чему равна ордината у, соответствующая заданной абсциссе х. Приближенно предполага- емый вид функции ПРВ показан на рис.6 пунктирной линией. Кроме этого, представление экспериментальных данных именно в виде гистограммы плот- ности относительных частот необходимо, если ставится задача, например, сравнения вида распределений двух или нескольких совокупностей. В этом случае необходимо совмещение различных гистограмм, а это возможно толь- ко, если рассматриваются плотности относительных частот, что позволяет исключить зависимость от объема выборки и ширины интервала. Так, в кли- нической практике часто приходится сравнивать разные группы пациентов, например: здоровые и больные, принимающие лекарство и не принимающие и т.п.; количество пациентов в сравниваемых группах, как правило, не оди- наково (48 здоровых и 21 больной). В этом случае для сравнения можно пользо- ваться только гистограммой плотности относительных частот. Если же взять 32 гистограммы плотности частот, то высота столбцов для здоровых (48) и боль- ных (21) будет заведомо не одинакова. При построении гистограммы весьма важно правильно выбрать ширину интервала ∆ х. Если число интервалов к будет мало (ширина интервала х — велика), следует ожидать, что частично информация о случайной величине может быть потеряна. С другой стороны, если К будет слишком велико ( х — мало), обработка результатов измерений будет излишне трудоемкой, не давая при этом существенного выигрыша в информации. Рис. 7. Гистограмма плотности частот Рис. 8. Гистограмма плотности относительных частот Практика показывает, что рационален выбор числа интервалов Кв зави- симости от объема выборки с помощью таблицы: 33 Использование гистограмм для оценки состояния сердечно-сосудистой системы Рис. 9. Изменение параметров гистограммы (давление крови) Для более наглядного сравнения нескольких гистограмм (например, при сравнении физиологических данных в норме и при патологии) их необходимо строить одну под другой в одном масштабе, как по горизонтальной, так и по вер- тикальной оси. На рис.9 представлены для сравнения гистограммы, пост- роенные на основании измеренных значений артериального давления у женщин в норме и с диагнозом «гипертоническая болезнь». Видно, что сме- щается значение μ, в то время как почти не изменяется. 34 Работа №1 ТИТУЛЬНЫЙ ЛИСТ. ГОУВПО «СМОЛЕНСКАЯ ГОСУДАРСТВЕННАЯ МЕДИЦИНСКАЯ АКАДЕМИЯ РОСЗДРАВА» ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ЗДРАВООХРАНЕНИЮ И СОЦИ- АЛЬНОМУ РАЗВИТИЮ» Кафедра медицинской и биологической физики Тема: Теория вероятностей. Статистические параметры и характеристики выборки Лабораторная работа 21 Изучение нормального закона распределения Студент:_________________________ Группа: _________________________ Преподаватель:___________________ Дата:____________________________ Смоленск 35 1.2 Цели и задачи Приобретение студентами навыков обработки выборочных совокупностей, изучение этапов статистической обработки, определять числовые характеристи- ки выборки, строить гистограмму, вычислять доверительный интервал, сделать оценку достоверности и объема выборки. Экспериментально получить выборочную совокупность путем измерения ряда сопротивлений. Нормировать полученный ряд. Определить статистические параметры и характеристики выборки. Построить гистограмму и оценить репре- зентативность выборки. Основные понятия 1. Случайные величины. Распределение случайных дискретных и непре- рывных величин. 2. Числовые характеристики дискретных случайных величин. 3. Элементы математической статистики. Статистические оценки парамет- ров распределения. t-распределение Стьюдента. 4. Методы построения гистограммы и оценки репрезентативности выборки. Приборы и принадлежности Измерительный макет из сорока сопротивлений одного номинала, соедини- тельные провода, многопредельные цифровые мультимеры типа DT- 838, рис.1. Рис. 1. Лабораторная установка для снятия выборки сопротивлений 36 1.3 Краткое теоретическое введение Включает ключевые определения и формулировки определений; зарисовки, чертежи, схемы лабораторных установок и устройств; основные теоретические формулы и выражения; наглядные теоретические графики и характеристики. 1.4 Практическая часть Задание 1. Построение простого статистического ряда. Для составления простого ряда проведем измерение сорока резисторов од- ного номинала и одной партии. Предприятие—изготовитель нормирует для од- ного типа номинала некоторый разброс (в нашем случае 5%). Резисторы разме- щены на лабораторном стенде. Полученные значения сопротивлений резисторов (40) представляют некоторый ряд, который называется выборкой. Все измерения проводятся под руководством преподавателя. Результаты полученных измерений сводятся в таблицу 1 . Таб. 1. Значения сопротивлений резисторов № n xi № n xi № n xi № n xi 1 2 3 4 5 6 7 8 9 1 0 11. 37 38 39 40 Полученную выборку необходимо нормировать (выстроить значения рези- сторов в порядке возрастания) это облегчит дальнейшую ее статистическую об- работку. Полученная форма представления выборки называется табличной это один из законов распределения случайной величины. 1.5 Обработка результатов эксперимента Здание 2. Определение закона распределения случайной величины. * Пользуясь таблицей (таб.1), определим максимальное (Х мах) и мини- 37 мальное (Х мин) значения случайной величины. * Определим ширину интервала ( ) или шаг разбиения: ( Х мах - Х мин ) /К, где К—количество интервалов разбиения (таб.2). К=5, n=40. Полученный статистический ряд разбиваем на 5 интервалов, при этом конец левого интервала является началом правого интервала. Полученные результаты сведем в таблицу (таб.2). Данные таблицы будут использованы при построении гистограммы. Таб. 2 Простой статистический ряд Интер- вал/ параметр Границы интервалов Хмин-Х мин + 1 2 3 4 5 5 1 m 40 Pi 1 i ----- Pi* i М В = m / Х ------ (X i -М В ) 2 * *Р i D В = Где, m—частота попаданий случайной величины в интервал. Pi=m/n—вероятность попаданий случайной величины в интервал. n —объем выборки. i — среднее значение случайной величины в интервале. m / Х—плотность частоты попаданий. Pi* i —математическое ожидание в интервале. М В — математическое ожидание выборки. 38 Задание 3. Определение числовых (точечных) характеристик выборки. М В = n 1 Pi* i ; (1) Dв = n 1 (X i -М В ) 2 *Р i ; (2) в = D B . Где в -- среднее квадратическое отклонение выбор- ки . D В —дисперсия выборки. Задание 4. Определение доверительного интервала при заданной дове- рительной вероятности (надежности) γ= 0,95 . 1. Определение коэффициента Стьюдента (t γ n ) при γ= 0,95 и n = 40 по таблице (приложение). t γ n — коэффициент Стьюдента, значение которого зависит от до верительной вероятности γ и от объема выборки n. 2. Определение ошибки среднего m * = в / n . (3) 3. Определение предельной ошибки среднего ( ): = t γ n * m (4) 4. Определение доверительного интервала: М В - ≤ М Г ≤ М В + , (5) где М Г -- математическое ожидание генеральной совокупности. Задание 5. Построение гистограммы (m / Х = f(X i )). 1. Согласно принятого количества интервалов К = 5 откла- дываем их по оси ОХ. 2. Как на основаниях строим прямоугольники высотой рав- ной плотность частоты попаданий или вероятности (Pi) попаданий случайной величины в данный интервал. 3. Сделать вывод о нормальности распределения случайных величин и достаточности объема выборки. 39 m/ Х,(Р i ) X i Рис.2. Гистограмма 1.6 Выводы по работе Вопросы для самоконтроля 1. Этапы обработки информации статистическим методом. 2. Как построить закон распределения случайной величины? 3. Что называется точечными (числовыми) характеристиками выборки и как их вычислить? 4. Что называется доверительным интервалом и как его вычислить? 5. Что называется гистограммой, как она строится? 6. Сделать вывод о репрезентативности выборки. Основная литература 1. Антонов В.Ф., Черныш А.М., Козлова Е.К., Коржуев А.В. Физика и био- физика. Практикум : Учебное пособие. — М.: ГЭОТАР – Медиа, 2008. — 336 с. : ил. 2. Андронов А. М., Копытов Е. А., Гринглаз Л. Я. Теория вероятностей и ма- тематическая статистика: Учебник для вузов. – 1-е, 2004. – 464 С. 3. Ремизов А.Н. Медицинская и биологическая физика, изд. 3-е, испр. М.: Высшая школа, 1999. 4. Ремизов А.Н. Медицинская и биологическая физика, изд. 3-е, исп. М.: Высшая школа, 1987. -- 643с. Дополнительная литература 1. Владимиров Ю.А., Рощупкин Д.И., Потапенко А.Я., Деев А.И. Биофи- зика. М.: Медицина, 1983. – 194с. 2. Рубин А.Б. Биофизика. М.: Высшая школа, 1999.—284с. 40 3. С Гланц. Медико-биологическая статистика. Перевод с английского. – М., Практика, 1998.-459С. 4. Лакин Г.Ф. Биометрия. – М.,»Высшая школа», 1968, 287С. 5. Кремер Н.Ш. Теория вероятности и математическая статистика: Учеб- ник для вузов.-2е изд., перераб. и доп. – М., ЮНИТИДАНА, 2004, - 573С. 6. Адамов П.Г. Основы теории вероятностей, математической статистики и информатики (учебное пособие для студентов первого курса СГМА) -- Смоленск: ФГУ «Смоленский ЦНТИ» 2007,-- 87с. Работа №2 Лабораторная работа 2а 30> |