Симуляция № 1. Преподаватель Баяшова Айгерим
Скачать 443.76 Kb.
|
Симуляция №1. Статистический ряд распределения и его числовые характеристики. Нормальное распределение.Преподаватель:Баяшова АйгеримЗКВМК биостатистикаПлан занятия1. Вариационный ряд. 2. Числовые характеристики дискретного статистического распределения: выборочное среднее, выборочная дисперсия, среднее квадратическое отклонение, мода, медиана. 3. Графическое представление данных. 4. Вариационный коэффициент. 5. Решение ситуационной задачи. 6. Основная гипотеза о проверке нормальности распределения. Кривая Гаусса. 7. Правило 3-х сигм. 8. Тестовый контроль. Биостатистика=мед. статистикаДля того чтобы понять биостатистику давайте зададимся вопросами: Зачем в медицине что-либо считать? Как это считать? Что делать с данными ? Какие данные собирать? Что такое переменные? Вы можете написать отдельно мне на листке WORD все интересующие Вас вопросы касательно этапов исследований. Еще очень много вопросов можно сюда перечислять, НО главное что должно стоять в начале пути исследовательский вопрос? Например Ваш вопрос звучит так:Какая зарплата у медицинских работников? Для ответа Вам необходимы некоторые методы описания из биостатистики, т.е. биостатистика нужна для того чтобы ответить на интересующие вопросы. Как вы опишите зарплату??? И что нужно для этого? Во-первых данные которые Вы собираете могут быть:Качественные : что относится к качественным ? Количественные что относится к количественным? Данные которые вы собираете могут быть: Качественные-могут определять какое либо качество Альтернативная (номинальная) шкала (пол) Шкала рангов (порядковая) (стадии болезни) Количественные-выражаются в числах Интервальные (шкала Цельсия) Относительные шкалы (наличие нулевой точки) К какому типу данных относится наш пример с зарплатой?А если мы захотели еще узнать у кого больше зп у мужчин или у женщин ? Это к какому типу данных относится?Ответ: ЗП относится к количественным данным. Пол к категориям Но что делать если мы собираем 2 типа данных?С числовыми понятно, мы их можем описать а пол? В исследованиях все категории нужно перекодировать в числовой формат Например:1 Мужчина0 женщинаСредние величиныВот вы собрали интересующие Вас данные: качественные или количественные Если это какие то качественные данные переводим их в количественный вариант Что с ними делать дальше Для измерения и описание характеристик данных используют: это обобщающий показатель статистической совокупности, который показывает индивидуальные различия значений статистических величин, позволяя сравнивать разные совокупности между собой. Средняя величина – Вариационный ряд (frequency table)- ранжированный ряд распределения по величине какого-либо признака. Этот признак носит название варьирующего, а его отдельные числовые значения называются вариантами и обозначаются через “v". Число, показывающее, сколько раз данная варианта встречается в вариационном ряду, называется частотой и обозначается через "р" Измерения средних величинОпределения
Медиана Срединная точка в ряде упорядоченных чисел Среднее значение Результат деления арифметической суммы чисел на количество чисел Расчет модыЕжегодная зарплата
Посмотрите на данные о заработной плате. Какая зарплата появлялась чаще всего? 4,3,2,8 или 7? 3000 $ - это модальная зарплата для этой выборки. Она появляется чаще, чем другие зарплаты. Режим указывает на наиболее часто встречающееся наблюдение Инкубационный период у 6 инфицированных гепатитом больных 29, 31, 24, 29, 30, 25 Вычисление модыДля вычисления моды необходимо:Распределить данные в возрастающем порядке Подсчитать количество повторений каждого числа Наиболее часто повторяющееся значение и есть Мода Обнаружение МодыЕжегодная зарплата
24, 25, 29, 29, 30, 31
Обнаружение МедианыКакое значение зарплаты является медианой? Вычисление Медианы
Подсчитайте количество значений (определите n) если n нечётное число, то медиана = (n+1) / 2ое наблюдение Например, рассмотрите результаты наблюдений8 ,25 ,7 ,5 ,8 ,3 ,10 ,12 ,9Распределенные по порядку, наблюдения выглядят так3 ,5 ,7 ,8 ,8 ,9 ,10 ,12 ,25В этом случае, n=9 ( нечетное число); отсюда, медиана (9+1)/2=5ое наблюдениеЕсли n – четное число, тогда медиана = среднее значение между n / 2 ым и (n /2)+1 ым наблюдениями Вычисление медианы (нечетное количество наблюдений)
3 , 5 , 7 , 8 , 8 , 9 , 10 , 12 , 45В этом случае, n=9 ( нечётное число); отсюда, медиана:
Вычисление медианы (четное количество наблюдений)
Среднее число между 3 и 4м наблюдениями = (10+11)/2= 10.5Вычисление среднего значенияДля данной простой задачи, вы сможете вычислить среднее значение с карандашом и бумагой, складывая значения зарплат в колонке и разделяя на “n” (10). Метод вычисления среднего значенияДля вычисления среднего необходимо:
Вычислить сумму значений, сложив их Разделить сумму на “n” Например, рассмотрите наблюдения 8 , 25 , 7 , 5 , 8 , 3 , 10 , 12 , 9 В этом случае, n=9 и сумма=87; отсюда, среднее = 87 / 9= 9.678 , 45 , 7 , 5 , 8 , 3 , 10 , 12 , 9В этом случае, n=9 и сумма=107; отсюда, среднее = 107 / 9= 11.89Среднее и срединное (медиана)Обратили ли вы внимание, что медиана была одинаковой и равна 5 в обоих случаях? С другой стороны, среднее значение варьировало с 9.67 до 11.89 с резким изменением значения с 25 до 45. Резкая разница в значениях в наборе данных больше влияет на среднее значение нежели на срединное (медиану). Измерения вариабельности данныхОпределенияДиапазон
Определите диапазон следующих данных: 29 , 31 , 24 , 29 , 30 , 25
24 , 25 , 29 , 29 , 30 , 31Выберите минимальную и максимальную величины
Подсчитайте диапазон Max-Min = 31-24 = 7 Измерения вариабельности данныхИнтерквартильные диапазоны
Распределите наблюдения в возрастающем порядке Найдите позицию Q1 и Q3 Определите показатели и интерквартильный диапазон = Q3- Q1 Пример 29 , 31 , 24 , 29 , 30 , 25
Q1 = 24+0.75 = 24.75 Q3 = значение (n+1)*3/4=5.2 Q3 = 30+0.2 = 30.2 Q3 – Q3 = 30.2 – 24.75 Вариационный ряд можно разбивать на отдельные (по возможности равные) части, которые называются квантилями (quantile). Минимальное значение 1ый квартиль медиана 3ий квартиль Максимальное значение Интерквартильный диапазон Средняя половина наблюдений распределения частот находится в интерквартильном диапазоне Кривая нормального распределения Нормальное (гауссово, симметричное, колоколообразное) распределение – описывает совместное воздействие на изучаемое явление случайно сочетающихся факторов, число которых неограничено велико. Характеризует распределение непрерывных случайных величин. Р Х х – значения случайной величины; р – вероятность появления данного значения в совокупности. Ассиметричное распределениеИзмерения вариабельности данныхСтандартное отклонение (SD)
Вычисление стандартного отклоненияСтандартное отклонение = квадратный корень(сумма квадратных отклонений/ (n-1) = квадратный корень (320.01/(9-1)) = квадратный корень (40) = 6.32Сумма кв.отклонений= 320.01 Нормальная кривая: характеристики и использованиеНормальная кривая как Гистограмма Математики-астрономы Пьер-Симон Лаплас и Карл Фридрих Гаусс создали математическую основу для нормального распределения. Нормальная кривая по шкале стандартного отклоненияx-координат указывает значения данных в стандартном формате. Обратите внимание на нуль в центре графы. Эта точка отражает среднее значение. Точки по оси х, +1 и -1, отражают значения данных на одно стандартное отклонение выше или ниже среднего, соответственно. Математики-астрономы Пьер-Симон Лаплас и Карл Фридрих Гаусс создали математическую основу для нормального распределения. Рассмотрим теперь, что очень большое количество точек данных используется для построения графика гистограммы. Эта создает непрерывную кривую, подобную приведенной выше. Это нормальная кривая - теоретический вклад профессора Гаусса, который служит основой многих статистических процедур. Область означает пропорцию выборкиОбратите внимание на область под кривой на рисунке справа. Тридцать четыре процента наблюдений приходится на промежуток между средней точкой, где z=0, и точкой на одно стандартное отклонение выше среднего (z=+1). Область под КривойОбратите внимание на область под кривой на рисунке. Она показывает, что 47.5 % наблюдений выпали между средними точками, где z=0, и точка выше среднего почти на два стандартных отклонения (z=+1.96). Область под кривой и Z-вкладыХарактеристика нормальной кривой полезна для вычисления z-вклада, показатель расстояния от среднего в единицах стандартного отклонения. z-вклад = (средний вклад) / стандартное отклонение 68,3 % всех вариант отклоняются от своей средней не более, чем на σ 95,4% вариант находятся в пределах X ± 2σ 99,7% вариант находятся в пределах X ± 3σ. Отклонение параметра от его средней арифметической в пределах σ расценивается как норма, субнормальным считается отклонение в пределах ± 2σ и патологическим - сверх этого предела, т.е. > ± 2σ» Правило «трех сигм» Правило 3х сигм Значения и Нормальная КриваяСтандартная ошибка среднегосреднее
Стандартное отклонение Показатель вариабельности данных около среднего z-вклад Расстояние от среднего в единицах стандартного отклонения z = (x-mean)/sd нормальная кривая Парабола - подобная кривая, которая устанавливает связь между вероятностью и z-вкладом Стандартная ошибка среднегосреднее
Стандартное отклонение Показатель вариабельности данных около среднего z-вклад Расстояние от среднего в единицах стандартного отклонения z = (x-mean)/sd нормальная кривая Парабола - подобная кривая, которая устанавливает связь между вероятностью и z-вкладом Среднее выборкиВ типичной ситуации, может быть проведена выборка и вычислено среднее и стандартное отклонение. Из этих данных, хочется прийти к выводу, что значения популяций идентичны или, по крайней мере, похожи. Другими словами, надеяться, что данные выборки отражают данные популяции. Теперь, измените своё мышление от единичной выборки, и представьте ситуацию, где у вас много выборок и вам необходимо определить среднее и стандартное отклонение для каждой выборки. Полученные средние значения будут распределены в таком же нормальном распределении, как исходные значения. Средние Множественных ВыборокРаспределение средних значений выборкиМожно получить стандартное отклонение средних значений выборки, которое описало бы вариабельность или разброс средних значений выборки вокруг среднего истиной популяции. Тем не менее, в практической ситуации, существует только одно среднее значение. Остается только надеяться, что это среднее близко к среднему реальной популяции. Неправда ли, было бы хорошо иметь эстимату стандартного отклонения средних значений выборки, которая показывает разброс средних значений выборки? Стандартная ошибка (SE)среднегоРазделите стандартное отклонение на корень квадратный из количества наблюдений.
= стандартное отклонение /корень квадратный(n)Полученное число стандартного отклонения среднего значения выборки называется стандартной ошибкой и может быть объяснено так же, как и стандартное отклонение исходных значений. Например, вероятность получения среднего значения выборки, которое находилось бы вне -1.96 до +1.96 диапазона равна 5 из 100 Применение Стандартной ОшибкиПредположим, что среднее популяции мужчин, в сыворотке которых уровень мочевой кислоты 5.4 мг на 100 мл и стандартное отклонение равны 1. если вы возьмете 100 выборок по 25 мужчин в каждой выборке, сколько таких средних вы думаете попадет в диапазон от 5.4-1.96*1 до 5.4+1.96*1? Ответ 95. Если вы отобрали выборку и обнаружили, что среднее мочевой кислоты 8.2, то вы можете предположить, что это значение «значительно» отличается от среднего для популяции? Да, так как это среднее могло оказаться в менее 5 из 100 случаев. Коэффициент вариацииотношение среднего квадратического отклонения к средней величине Хср. Выражается в процентах. V= Коэффициент вариацииградации степени разнообразия признака: - слабое — до 10 % - среднее — 10 - 20 % - сильное — более 20 % Совокупность считается однородной, если коэффициент вариации не превышает 33%
Состав работников промышленного предприятия Ваше домашнее задание тестовый контрольЯ приложу в формате ВОРД Спасибо за внимание ! |