Лекция1-СППП-ФЗО. Живицкая елена петровна
Скачать 3.57 Mb.
|
ПАКЕТЫ ПРИКЛАДНЫХ ПРОГРАММ И ИХ ВОЗМОЖНОСТИ ДЛЯ БИОМЕДИЦИНСКИХ ИССЛЕДОВАНИЙ Ст. преподаватель ЖИВИЦКАЯ ЕЛЕНА ПЕТРОВНА Виды статистических пакетов Универсальные пакеты - отсутствие прямой ориентации на специфическую предметную область, предлагают широкий диапазон статистических методов (SPSS, Statistica, пакет анализа в Excel) Специализированные пакеты - обычно содержат методы из одного-двух разделов статистики или методы, используемые в конкретной предметной области (WinSTAT, Statit, STADIA) Требования:
СППП имеют следующую структуру: - Блок описательной статистики и разведочного анализа исходных данных - Блок статистического исследования динамики и зависимостей - Блок классификации и снижения размерности - Блок методов статистического анализа нечисловых данных и экспертых оценок
- Блок вспомогательных программ MS Excel Самой часто упоминаемой (и используемой) в отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint. В состав Microsoft Excel входит набор средств анализа данных (пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Microsoft Excel относится к весьма популярным и распространенным электронным таблицам, работающий в среде Windows. Microsoft Office Excel В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде. Примеры вывода результатов анализа данных SPSS (Statistical Package for Social Science)
Кодирование переменных STATISTICA - это универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях . Система обладает следующими общепризнанными достоинствами:
Вид электронной таблицы - Spreadsheet РАБОТА С ПАКЕТОМ
Этапы анализа данных ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ Совокупность – это всякое множество отдельных объектов, отличающихся друг от друга и в то же время сходных по некоторым существенным признакам. Генеральная совокупность – теоретически бесконечно большая совокупность всех единиц, которые могут быть к ней отнесены. Выборочная совокупность – относительно небольшая выборка из генеральной совокупности, которая подвергается изучению. Объем совокупности – число единиц совокупности. Генеральная совокупность Выборочная совокупность Репрезентативность - свойство выборочной совокупности отражать основные, важные для исследования, характеристики генеральной совокупности. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана. Типы данных Количественные Качественные Дискретные Непрерывные Номинальные Порядковые Дихотомические Типы данных
Типы данных
Типы данных Для различных переменных и шкал применяются разные методы статистического анализа !!! Основные формы представления выборки из генеральной совокупности 1. Представление выборки в несгрупированном виде, путём обычного перечисления вариант - x: х1, х2, x3,..., xn.
1 1 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 7 7
m=p/n, где n – объем выборки Способы графического изображения данных Гистограмма Полигон распределения Первым этапом анализа количественных данных является анализ вида их распределения Кривая нормального распределения
Проверка соответствия распределения нормальному закону
Статистические критерии для проверки нормальности распределения
Как часто встречается нормальное распределение???
Статистические методы
Способы описания данных Точечные характеристики • Мода • Медиана • Средняя Характеристики вариации • Размах колебаний • Дисперсия • Стандартное отклонение Точечные характеристики (меры центральной тенденции)
Характеристики вариации (меры рассеяния) Стандартное отклонение (σ) – величина, отражающая вариабельность данных относительно средней арифметической Межквартильный размах (для медианы) – показывает значения 25-го и 75 процентилей, т.е. тот интервал, который включает в себя 50% данных в выборке Пример описания: Ме (25%÷75% процентили) = 70 (35÷89) Интерпроцентильный размах – значения процентилей распределения данных (например, интервал между 10-м и 90-м процентилями) Размах – разность максимального и минимального значений данных Описание данных Описание данных зависит от их типа (качественные или количественные) и способа их распределения ! Описание данных в зависимости от их типа Количественные Для описания используется среднее или медиана Качественные (номинальные) Для описания используется мода Качественные (порядковые) Для описания используется медиана Какую среднюю величину использовать?Нормальноеилиненормальное распределение ?Методы описания данных
Виды критериев Непараметрические т.е. не включающие в формулу расчета параметров распределения, основанные на оперировании частотами или рангами. Достоинства:
Недостатки: Виды критериев Параметрические т.е. основанные на расчете параметрв генеральной совокупности (X, σ2). Достоинства:
Трудности:
Сравнение группt-критерий Стьюдента - общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. Применение t-критерия Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности». При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно. Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными. Критерий Стьюдента применяется, если нужно сравнить только две группы количественных признаков с нормальным распределением (частный случай дисперсионного анализа). Примечание: этим критерием нельзя пользоваться, сравнивая попарно несколько групп, в этом случае необходимо применять дисперсионный анализ. Критерий Вилкоксона - вычисляются разности между индивидуальными значениями показателя после проведения эксперимента и до него. Алгоритм проверки:
КОРРЕЛЯЦИОННЫЙ и РЕГРЕССИОННЫЙ АНАЛИЗЕсли из множества значений аргумента Х одному значению соответствуют множество значений Y на конечном интервале значений, то такая взаимосвязь называется корреляционной.Обратная положительная корреляция, при которой уменьшение причинного фактора вызывает увеличение следственного фактора; например, уменьшение длины дистанции приводит к увеличению скорости бега.Обратная отрицательная корреляция, при которой увеличение причинного фактора вызывает уменьшение следственного; например, увеличение силы мышц может привести к уменьшению скорости их сокращения.Коэффициент корреляцииКоэффициент корреляции (r)– показатель тесноты взаимосвязи между парой показателей, получивший широкое применение в практике.Количественную меру коэффициента корреляции принято различать по нескольким уровням:Слабая связь – при /r/ < /0,30/Средняя связь – при /0,31/ < /r/ < /0,69/Сильная связь – при /0,70/ < /r/ < /0,99/Качественный анализ коэффициента корреляции принято различать по характеру взаимосвязи:Отрицательная связь – при r < 0Положительная связь – 0 < rПри r=0 – взаимосвязь отсутствует.Результат вычисления коэффициента корреляции позволяет отвечать на три вопроса:Имеется ли взаимосвязь между двумя величинами?Какова направленность этой взаимосвязи (прямо или обратно пропорциональная)?Какова теснота взаимосвязи?Цель корреляционного анализа – установить, можно ли значения одного показателя предсказывать по значениям другого.Задачи корреляционного анализа:Установить, надёжны ли исходные данные при оценке корреляции.Установить, имеет ли она практическое значение.Если величина коэффициента корреляции по модулю больше или ровна 0,7 , то говорят, что корреляция, имеет практическое значение, если значение меньше 0,7 , то корреляция не имеет практического значения.Корреляция
ТЕОРИЯ КОРРЕЛЯЦИИ ЗАДАЧИ Установить ФОРМУ корреляционной связи Установить ТЕСНОТУ корреляционной связи решает регрессионный анализ решает корреляционный анализ Регрессионный анализЗадачей регрессионного анализа является нахождение функциональной зависимости между зависимой у и независимой х переменными y = f(x), которую называют регрессией (или функцией регрессии). График функции называют линией или кривой регрессии.Hа практике x задается, а y - это наблюдение какой-либо величины на опыте, в эксперименте.В ходе регрессионного анализа определяется аналитическое выражение связи зависимой случайной величины Y (результативный признак) с независимыми случайными величинами Х1, Х2, …Хm (факторами). Практически речь идёт о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключённую в этом множестве закономерность, тенденцию – линию регрессии.1.В зависимости от числа явлений– простой (регрессия между двумя переменными); – множественной (регрессия между зависимой переменной Y и несколькими независимыми переменными (X1, X2, …, Xn)). – линейной (отображается линейной функцией, а между изучаемыми явлениями существуют линейные отношения); – нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер). х у у х 2.В зависимости от формы 3. По характеру связи между включенными в рассмотрение переменными– положительной (увеличение значения независимой переменной приводит к увеличению значения зависимой переменной и наоборот); – отрицательной (с увеличением значения независимой переменной значение зависимой переменной уменьшается). х у у х Основные задачи1. Определение формы зависимости. 2. Отыскание подходящих значений неизвестных параметров. 3. Оценка неизвестных значений зависимой переменной. Линейную регрессию можно отразить уравнением прямой линии:Y = а · X + в, где:Y – значения признака по линии регрессии, т. е. теоретические значения,а – угловой коэффициент регрессии,X – значения признака-фактора (предиктора),в – свободный член, константа.Если независимая переменная одна, то регрессия называется парной.Простейшая парная регрессионная модель – линейная.Нелинейная регрессия
Определение коэффициента детерминацииДля анализа общего качества уравнения линейной многофакторной регрессии используют множественный коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции Rи определяют долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.Коэффициент детерминацииСвойства: а) 0RI1; б) Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость данных; в) В случае линейной регрессии https://docs.google.com/forms/d/e/1FAIpQLScrjGHqkpDnFFk8jxoHM3jNj3tao9_hginhnR7Y321IMtL7kg/viewform |