Биофиз.РЕМИЗОВ. Механика. Акустика глава 4 Некоторые вопросы биомеханики
Скачать 9.74 Mb.
|
§ 3.1. Основные понятия математической статистики В главе 2 были рассмотрены некоторые понятия и закономерности, которым подчинены массовые случайные явления. Одной из практических задач, связанных с этим, является создание методов отбора данных (статистические данные) из большой совокупности и их обработки. Такие вопросы рассматриваются в математической статистике. Математическая статистика — наука о математических методах систематизации и использования статистических данных для решения научных и практических задач. Математическая статистика тесно примыкает к теории вероятностей и базируется на ее понятиях. Однако главным в математической статистике является не распределение случайных величин, а анализ статистических данных и выяснение, какому распределению они соответствуют. Предположим, что необходимо изучить множество объектов по какому-либо признаку. Это возможно сделать, либо проведя сплошное наблюдение (исследование, измерение), либо не сплошное, выборочное. Выборочное, т. е. неполное, обследование может оказаться предпочтительнее по следующим причинам. Во-первых, естественно, что обследование части менее трудоемко, чем обследование целого; следовательно, одна из причин — экономическая. Во-вторых, может оказаться и так, что сплошное обследование просто нереально. Для того чтобы его провести, возможно, нужно уничтожить всю исследуемую технику или загубить все исследуемые биологические объекты. Так, например, врач, имплантирующий электроды в улитку для кохлеарного протезирования (см. § 6.5), должен иметь вероятностные представления о расположении улитки слухового аппарата. Казалось бы, наиболее достоверно такие сведения можно было получить при сплошном патологоанатомическом вскрытии всех умерших с производством соответствующих замеров. Однако достаточно собрать нужные сведения при выборочных измерениях. Большая статистическая совокупность, из которой отбирается часть объектов для исследования, называется генеральной совокупностью, а множество объектов, отобранных из нее, — выборочной совокупностью, или выборкой. Свойство объектов выборки должно соответствовать свойству объектов генеральной совокупности, или, как принято говорить, выборка должна быть представительной (репрезентативной). Так, например, если целью является изучение состояния здоровья населения большого города, то нельзя воспользоваться выборкой населения, проживающего в одном из районов города. Условия проживания в разных районах могут отличаться (различная влажность, наличие предприятий, жилищных строений и т. п.) и таким образом, влиять на состояние здоровья. Поэтому выборка должна представлять случайно отобранные объекты. Если записать в последовательности измерений все значения величины х в выборке, то получим простой статистический ряд. Например, рост мужчин (см): 171, 172, 172, 168, 170, 169, ... . Такой ряд неудобен для анализа, так как в нем нет последовательности возрастания (или убывания) значений, встречаются и повторяющиеся величины. Поэтому целесообразно ранжировать ряд, например, в возрастающем порядке значений и указать их повторяемость. Тогда статистическое распределение выборки: Здесь xi— наблюдаемые значения признака (варианта); ni— Число наблюдений варианты xi (частота); рi* — относительная Частота. Общее число объектов в выборке (объем выборки) всегo kвариант. Статистическое распределение — это совокупность вариант и соответствующих им частот (или относительных растет), т. е. это совокупность данных 1-й и 2-й строки или 1-й и 3-й строки в (3.1). В медицинской литературе статистическое распределение, состоящее из вариант и соответствующих им частот, получило название вариационного ряда. Наряду с дискретным (точечным) статистическим распределением, которое было описано, используют непрерывное (интервальное) статистическое распределение: Здесь xl_ 1, xi— 1-й интервал, в котором заключено количественное значение признака; ni— сумма частот вариант, попавших в этот интервал; р* — сумма относительных частот. В качестве примера дискретного статистического распределения укажем массы новорожденных мальчиков (кг) и частоты (табл. 5). Таблица 5
Общее количество мальчиков (объем выборки) Можно это распределение представить и как непрерывное (интервальное) (табл. 6). Таблица 6
Для наглядности статистические распределения изображают графически в виде полигона и гистограммы. Полигон частот — ломаная линия, отрезки которой соединяют точки с координатами (х1; п1), (х2; п2), ... или для полигона относительных частот — с координатами (x1; р*), (х2; р*), ... (рис. 3.1). Рис. 3.1 относится к распределению, представленному в табл. 5. Гистограмма частот — совокупность смежных прямоугольников, построенных на одной прямой линии (рис. 3.2), основания прямоугольников одинаковы и равны а, а высоты равны отношению частоты (или относительной частоты) к а: Таким образом, площадь каждого прямоугольника равна соответственно Следовательно, площадь гистограммы частот и площадь гистограммы относительных частот Наиболее распространенными характеристиками статистического распределения являются средние величины: мода, медиана и средняя арифметическая, или выборочная средняя. Мода (Мо) равна варианте, которой соответствует наибольшая частота. В распределении массы новорожденных (см. табл. 5) Мо = 3,3кг. Медиана (Me) равна варианте, которая расположена в середине статистического распределения. Она делит статистический (вариационный) ряд на две равные части. При четном числе вариант за медиану принимают среднее значение из двух центральных вариант. В рассмотренном распределении (см. табл. 5) Me= 3,4 кг. Выборочная средняя (хв) определяется как среднее арифметическое значение вариант статистического ряда: Для примера (см. табл. 5) Для характеристики рассеяния вариант вокруг своего среднего значения хввводят характеристику, называемую выборочной дисперсией, — среднее арифметическое квадратов отклонения вариант от их среднего значения: Квадратный корень из выборочной дисперсии называют выборочный средним квадратическим отклонением: Для примера (см. табл. 5) § 3.2. Оценка параметров генеральной совокупности по ее выборке Предположим, что генеральная совокупность является нормальным распределением (здесь вместо вероятности следует использовать относительную частоту). Нормальное распределение полностью определено математическим ожиданием (средним значением) и средним квадратическим отклонением. Поэтому если по выборке можно оценить, т. е. приближенно найти, эти параметры, то будет решена одна из задач математической статистики — определение параметров большого массива по исследованию его части. Как и для выборки, для генеральной совокупности можно определить генеральную среднюю хr— среднее арифметическое значение всех величин, составляющих эту совокупность. Учитывая большой объем этой совокупности, можно полагать, что генеральная средняя равна математическому ожиданию: где X— общая запись случайной величины (значения изучаемого признака) генеральной совокупности. Рассеяние значений изучаемого признака генеральной совокупности от их генеральной средней оценивают генеральной дисперсией (N— объем генеральной совокупности) или генеральным средним квадратическим отклонением Точечная оценка. Предположим, что из генеральной совокупности производятся разные выборки; делают это так, чтобы вся генеральная совокупность сохранялась неизменной. Для определенности будем считать объемы этих выборок одинаковыми и равными п. Их выборочные средние х1, х2, ..., xi., ... являются случайными величинами, которые распределены по нормальному закону (см. конец § 2.3), а их математическое ожидание равно математическому ожиданию генеральной совокупности, т. е.генеральной средней: На практике иногда при достаточно большой выборке за генеральную среднюю приближенно принимают выборочную среднюю.Для дисперсий положение получается несколько иным. Математическое ожидание дисперсий различных выборок [M(Dвi)], составленных из генеральной совокупности, отличается от генеральной дисперсии: При большом п получаем Для генерального среднего квадратического отклонения соответственно из (3.14) и (3.14а) получаем: На практике иногда при достаточно большой выборке выборочное среднее квадратическое отклонение приближенно принимают за генеральное среднее квадратическое отклонение. Так, если считать, что статистическое распределение (см. табл. 5) является выборкой из некоторой генеральной совокупности, то на основании (3.6) и (3.9) можно заключить, что для этой генеральной совокупности xr ≈ 3,468 кг и σг ≈ 0,3896 кг. Такого рода оценка параметров генеральной совокупности или каких-либо измерений определенными числами называется точечной оценкой. Интервальная оценка генеральной средней. Точечная оценка, особенно при малой выборке, может значительно отличаться от истинных параметров генеральной совокупности. Поэтому при небольшом объеме выборки пользуются интервальными оценками. В этом случае указывается интервал (доверительный интервал, или доверительные границы), в котором с определенной (доверительной) вероятностью р находится генеральная средняя. Иначе говоря, р определяет вероятность, с которой осуществляются следующие неравенства: зуя функцию (3.18). Пределы интегрирования необходимо взять из выражения (3.19): где положительное число е характеризует точность оценки. Кроме доверительной вероятности используют «противоположное» понятие — уровень значимости который выражает вероятность непопадания генеральной средней в доверительный интервал. Доверительную вероятность не следует выбирать слишком маленькой (не следует ее обесценивать). Наиболее часто р принимают равной 0,95; 0,99; 0,999. Чем больше р, тем шире интервал, т. е. тем больше е. Чтобы установить количественную связь между этими величинами, необходимо найти выражение для доверительной вероятности. Это можно сделать, используя (2.17), однако нужно понять, что при этом следует взять за функцию распределения вероятностей и какие принять пределы интегрирования. Рассмотрим этот вопрос. Итак, генеральная совокупность распределена по нормальному закону с математическим ожиданием (средним значением) хГи дисперсией DT. Если из этой генеральной совокупности брать разные выборки с одинаковым объемом п, то можно для каждой выборки получить среднее значение хв. Эти средние значения сами являются случайными величинами. Их распределение, т. е. распределение средних значений разных выборок, полученных из одной генеральной совокупности, будет нормальным со средним значением, равным среднему значению генеральной совокупности хт, дисперсией — и средним квадратическим отклонением (см. конец § 2.2). Таким образом, хвуже выступает как случайная величина, для нее можно записать следующую функцию распределения вероятностей [см. (2.22)]: Из (3.16) можно записать для хвследующие неравенства: Вероятность того, что хв попадает в этот интервал (доверительную вероятность), можно найти по общей формуле нахождения р по х или т по р можно воспользоваться таол. ( или таблицей функции Ф (см. [2]). Результаты интегрирования (3.20) найдем, используя функцию Ф (см. § 2.3). По формуле (2.25) получим Обозначая и учитывая (см. § 2.3), что Ф(-τ) = 1 - Ф(τ), получим из (3.21): Таблица 7
Хотя неравенства (3.16) и (3.19) по существу идентичны, но для практических целей важнее запись (3.16), так как она позволяет решить главную задачу — при заданной доверительной вероятности и найденной выборочной средней найти доверительный интервал, в который попадает генеральная средняя. Запишем неравенство (3.16), подставив в него выражение εиз формулы (3.22): Практически при нахождении доверительного интервала по формуле (3.24) берут выборочную среднюю некоторой конкретной выборки (объем п > 30), а вместо генеральной средней квадратичной используют выборочную среднюю квадратичную этой же выборки. Поясним это некоторым примером. Вновь обратимся к данным таблиц, считая их выборкой. Найдем доверительный интервал для генеральной средней, из которой эта выборка получена, считая доверительную вероятность равной р = 0,95. Из (3.23) для такой доверительной вероятности получаем: Ф(τ) = 0,975. В табл. 7 левый вертикальный столбец содержит значения с точностью до десятых долей, а верхняя горизонтальная строчка дает сотые доли т, поэтому для Ф(х) = 0,975 имеем х = 1,9 + 0,06 = = 1,96. Подставляя это значение τ, выборочную среднюю (3.6), выборочное среднее квадратическое отклонение (3.9) и объем выборки (п = 100) в выражение (3.24), или Интервальная оценка генеральной средней при малой выборке. При достаточно большом объеме выборки можно сделать вполне надежные заключения о генеральной средней. Однако на практике часто имеют дело с выборками небольшого объема (п < 30). В этом случае в выражении доверительного интервала (3.16) точность оценки определяется по следующей формуле: где t— параметр, называемый коэффициентом Стьюдента (его находят из распределения Стьюдента; оно здесь не рассматривается), который зависит не только от доверительной вероятности р, но и от объема выборки п. Коэффициент Стьюдента. Запишем неравенство (3.16), подставив в него выражение из формулы (3.26): 4п - 1 Поясним использование формулы (3.26) следующим примером. Предположим, что из генеральной совокупности, которую использовали при составлении выборки (см. табл. 5), взяли 10 случайных данных и получили следующее распределение (табл. 9): Таблица 9
Отсюда можно вычислить хв = 3,54 кг, DB = 0,19156 кг2 и св = 0,43767 кг. Задав доверительную вероятностью = 0,95, находим для объема выборки п — 10 параметр t= 2,26. Подставляя эти данные в (3.26), получаем для доверительного интервала [см. (3.27)]: Полезно сопоставить соотношения, полученные для большой (3.25) и малой (3.28) выборок. Интервальная оценка истинного значения измеряемой величины. Интервальная оценка генеральной средней может быть использована для оценки истинного значения измеряемой величины. Пусть несколько раз измеряют одну и ту же физическую величину. При этом по разным случайным причинам, вообще говоря, получают разные значения: x1x2, х3, ... . Будем считать, что нет преобладающего влияния какого-либо фактора на эти измерения. Истинное значение измеряемой величины (xист) совершенно точно измерить невозможно хотя бы по причине несовершенства измерительных приборов. Однако можно дать интервальную оценку для этого значения. Если значения x1x2, х3, ... рассматривать как варианты выборки, а истинное значение измеряемой величины хист как аналог генеральной средней, то можно по описанным выше правилам найти доверительный интервал, в который с доверительной вероятностью р попадает истинное значение измеряемой величины. Применительно к малому числу измерений (п < 30) из (3.27) получим: где х — среднее арифметическое значение из полученных измерений, а σ — соответствующее им среднее квадратическое отклонение, t— коэффициент Стьюдента. Более подробно и разносторонне оценка результатов измерений рассматривается в практикуме (см. [1]). |