Главная страница

Лекция1-СППП-ФЗО. Живицкая елена петровна


Скачать 3.57 Mb.
НазваниеЖивицкая елена петровна
Дата05.06.2022
Размер3.57 Mb.
Формат файлаpptx
Имя файлаЛекция1-СППП-ФЗО.pptx
ТипДокументы
#570777

ПАКЕТЫ ПРИКЛАДНЫХ ПРОГРАММ И ИХ ВОЗМОЖНОСТИ

ДЛЯ БИОМЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

Ст. преподаватель

ЖИВИЦКАЯ ЕЛЕНА ПЕТРОВНА

Виды статистических пакетов Универсальные пакеты - отсутствие прямой ориентации на специфическую предметную область, предлагают широкий диапазон статистических методов (SPSS, Statistica, пакет анализа в Excel) Специализированные пакеты - обычно содержат методы из одного-двух разделов статистики или методы, используемые в конкретной предметной области (WinSTAT, Statit, STADIA)

Требования:
  • достаточно полный набор стандартных статистических методов;
  • достаточно прост для быстрого освоения и использования;
  • высокие требования к вводу, преобразованиям и организации хранения данных;
  • широкий набор средств графического представления данных и результатов обработки;
  • удобные возможности для включения в отчеты таблиц исходных данных, графиков, промежуточных и окончательных результатов обработки;
  • подробная документация, доступная для начинающих и информативная для специалистов-статистиков.

СППП имеют следующую структуру:

- Блок описательной статистики и разведочного анализа исходных данных

- Блок статистического исследования динамики и зависимостей

- Блок классификации и снижения размерности

- Блок методов статистического анализа нечисловых данных и экспертых оценок
  • Блок планирования эксперимента и выборочных исследований

  • - Блок вспомогательных программ

MS Excel

Самой часто упоминаемой (и используемой) в отечественных статьях является приложение MS Excel из пакета офисных программ компании Microsoft MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint.

В состав Microsoft Excel входит набор средств анализа данных (пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Microsoft Excel относится к весьма популярным и распространенным электронным таблицам, работающий в среде Windows.

Microsoft Office Excel

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Примеры вывода результатов анализа данных

SPSS (Statistical Package for Social Science)
  • отличается гибкостью, мощностью; применим для всех видов статистических расчетов применяемых в биомедицине
  • имеет удобные графические средства (более 50 типов диаграмм), а также развитые средства подготовки отчетов
  • аналитические параметры отображаются на экране в виде простых и понятных меню и диалоговых окон; встроенная база данных

Кодирование переменных

STATISTICA - это универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях .

Система обладает следующими общепризнанными достоинствами:
  • содержит полный набор классических методов анализа данных;
  • отвечает всем стандартам Windows;
  • легка в освоении;
  • данные системы STATISTICA легко конвертировать в различные базы данных и электронные таблицы;
  • поддерживает высококачественную графику, позволяющую эффектно визуализировать данные и проводить графический анализ.

Вид электронной таблицы - Spreadsheet

РАБОТА С ПАКЕТОМ
  • ввод данных в электронную таблицу с исходными данными и их предварительное преобразование перед анализом (структурирование, построение необходимых выборок, ранжирование и т. д.);
  • визуализация данных при помощи того или иного типа графиков;
  • разведочный анализ и определение подходящих методов статистической обработки;
  • применение конкретной процедуры статистической обработки;
  • вывод результатов анализа в виде графиков и электронных таблиц с численной и текстовой информацией;
  • подготовка и печать отчета.

Этапы анализа данных

ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ

Совокупностьэто всякое множество отдельных объектов, отличающихся друг от друга и в то же время сходных по некоторым существенным признакам.

Генеральная совокупность – теоретически бесконечно большая совокупность всех единиц, которые могут быть к ней отнесены.

Выборочная совокупностьотносительно небольшая выборка из генеральной совокупности, которая подвергается изучению.

Объем совокупностичисло единиц совокупности.

Генеральная совокупность

Выборочная совокупность

Репрезентативность - свойство выборочной совокупности отражать основные, важные для исследования, характеристики генеральной совокупности.

Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Типы данных

Количественные

Качественные

Дискретные

Непрерывные

Номинальные

Порядковые

Дихотомические

Типы данных
  • Количественные
    • Различия равновелики
    • Непрерывные (напр., кровяное давление, масса тела, рост, возраст, биохимические показатели крови)
    • Дискретные (напр., кол-во беременностей, кол-во детей и др.; выражаются только целыми числами)

Типы данных
  • Качественные Порядковые (отражают условную степень выраженности признака)
    • Можно ранжировать, но различия между категориями не обязательно равновелики
      • Напр., маленький/средний/большой, или состояние тяжести пациента
  • Качественные Номинальные (отражают условные коды неизмеряемых категорий)
    • Коды диагнозов
    • Коды пола: мужской, женский
    • Раса: белая, черная, желтая
    • Семейное положение
    • Дихотомические: только 2 категории (да/нет, т.е. заболел/не заболел, умер/жив)

Типы данных

Для различных переменных и шкал применяются

разные методы статистического анализа !!!

Основные формы представления выборки

из генеральной совокупности

1. Представление выборки в несгрупированном виде, путём обычного перечисления вариант - x:

х1, х2, x3,..., xn.
  • Представление выборки в упорядоченном виде: расположение вариант либо в порядке возрастания (чаще всего) либо в порядке убывания.

  • 1 1 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 7 7

Значения

х1

х2



xn

Частоты

p1

p2



pn

Относительные

частоты

m1

m2



mn
  • Представление выборки в сгруппированном виде, когда вместе с вариантами указываются числа (называемые частотами), равными числу повторений данной варианты в выборке.

  • m=p/n, где n – объем выборки

Способы графического изображения данных

Гистограмма Полигон распределения

Первым этапом анализа количественных данных является анализ вида их распределения

Кривая нормального распределения
  • 68% всех наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95% значений
  • Числовые характеристики мода, медиана и среднее совпадают, распределение симметрично

Проверка соответствия распределения нормальному закону
  • выборочные среднее, медиана и мода должны быть близки по значению и находиться примерно посередине между 25 и 75 процентилями;
  • интервал среднее ± два стандартных отклонения должен включать примерно 95% значений выборки и не должен содержать значений, которых не может быть в данном распределении (например, отрицательных).

Статистические критерии для проверки нормальности распределения

  • Критерий согласия 2 Пирсона (Pearson).
  • Критерий Колмогорова-Смирнова (Kolmogorov-Smirnov). Применяется, если среднее значение и стандартное отклонение признака известны априори. (для больших выборок)
  • Критерий Лиллиефорса (Lilliefors). Применяется, если среднее значение и стандартное отклонение признака неизвестны и вычисляются по выборке.
  • Критерий Шапиро-Уилка (Shapiro–Wilk). Также применяется при априори неизвестных параметрах, является наиболее мощным, универсальным и строгим. (для малых выборок)

Как часто встречается нормальное распределение???
  • Можно сказать, что из всех распределений в природе чаще всего встречается именно нормальное распределение – отсюда и произошло его название.
  • Но для данных биомедицинских исследований это не всегда верно. Нормальное распределение встречается в биомедицинских признаках примерно в 20-25%.
  • До тех пор пока выборка достаточно большая (например, 30 (100) или больше наблюдений), можно считать, что выборочное распределение нормально.

Статистические методы
  • Описание данных
  • Оценка статистической значимости результатов исследования (проверка гипотез)

Способы описания данных

Точечные характеристики

Мода

• Медиана

• Средняя

Характеристики вариации

Размах колебаний

• Дисперсия

• Стандартное отклонение

Точечные характеристики

(меры центральной тенденции)
  • Среднее арифметическое (среднее)
  • Медиана (Ме) - это средняя (центральная) варианта, делящая ряд распределения пополам, на две равные части. Применяется только для ранжированного (упорядоченного по убыванию или возрастанию) ряда значений признака.
  • Мода (Мо) - наиболее часто встречающаяся в ряду распределения варианта

Характеристики вариации (меры рассеяния)

Стандартное отклонение (σ) – величина, отражающая вариабельность данных относительно средней арифметической

Межквартильный размах (для медианы) – показывает значения 25-го и 75 процентилей, т.е. тот интервал, который включает в себя 50% данных в выборке

Пример описания: Ме (25%÷75% процентили) = 70 (35÷89)



Интерпроцентильный размах – значения процентилей распределения данных (например, интервал между 10-м и 90-м процентилями)

Размах – разность максимального и минимального значений данных

Описание данных

Описание данных зависит от их типа (качественные или количественные) и способа их распределения !

Описание данных в зависимости от их типа

Количественные

Для описания используется среднее или медиана

Качественные (номинальные)

Для описания используется мода

Качественные (порядковые)

Для описания используется медиана

Какую среднюю величину использовать?

Нормальное

или

ненормальное распределение ?

Методы описания данных

  • Параметрический метод: для нормально распределенных количественных данных
    • Для описания используется среднее арифметическое и стандартное отклонение
  • Непараметрический метод: для не нормально распределенных количественных данных и качественных данных
    • Для описания используется медиана и межквартильный размах
    • Медиана менее чувствительна к асимметрии и «выскакивающим» значениям

Виды критериев

Непараметрические т.е. не включающие в формулу расчета параметров распределения, основанные на оперировании частотами или рангами.

Достоинства:
  • просты в расчете;
  • применимы на малых выборках (N<10);
  • не привязаны к характеру распределения.

  • Недостатки:
  • менее мощные (β),
  • имеют табличные ограничения по макс. N

Виды критериев

Параметрические т.е. основанные на расчете параметрв генеральной совокупности (X, σ2).

Достоинства:
  • более мощные и точные.

  • Трудности:
  • требуют измерений по шкале интервалов или равных отношений;
  • только нормальное распределение!;
  • желательный объем выборки N>50

Задача

Параметрические методы

Непараметрические методы

Выполнение описательной статистики

Вычисление среднего, стандартного отклонения

Вычисление медиан и интерквартильных интервалов, долей

Сравнение двух независимых групп по одному признаку

Критерий Стьюдента

Критерии Манна-Уитни, Колмогорова-Смирнова, Вальда-Вольфовица, 2, точный критерий Фишера

Сравнение двух зависимых групп по одному признаку

Критерий Стьюдента для зависимых выборок

Критерий Вилкоксона, критерий знаков, критерий МакНимара

Сравнение трех и более независимых групп по одному признаку

Дисперсионный анализ

Критерий Краскела-Уоллиса, медианный критерий, 2

Сравнение трех и более зависимых групп по одному признаку

Дисперсионный анализ для зависимых выборок

Критерий Фридмана, критерий Кохрена

Анализ взаимосвязи двух признаков

Коэффициент корреляции Пирсона, линейная регрессия

Коэффициенты корреляции Спирмена, Кендалла, гамма, точечно-бисериальный и рангово-бисериальный коэффициенты корреляции, коэффициент сопряженности, логистическая регрессия и др.

Сравнение групп


t-критерий Стьюдента - общее название для класса методов статистической проверки гипотез  (статистических критериев), основанных на распределении Стьюдента.

Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

Применение t-критерия

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая.

В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

Критерий Стьюдента применяется, если нужно сравнить только две группы количественных признаков с нормальным распределением (частный случай дисперсионного анализа).

Примечание: этим критерием нельзя пользоваться, сравнивая попарно несколько групп, в этом случае необходимо применять дисперсионный анализ.

Критерий Вилкоксона - вычисляются разности между индивидуальными значениями показателя после проведения эксперимента и до него.

Алгоритм проверки:
  • Модули разностей ранжируются в порядке возрастания.
  • Отмечаются ранги, соответствующие сдвигам в нетипичном направлении. Например, если в большинстве случаев после проведения эксперимента наблюдалось увеличение измеряемого параметра, то его уменьшение следует считать нетипичным сдвигом.
  • Эмпирическое значение критерия определяется как сумма рангов, соответствующих нетипичным сдвигам.
  • Если критическое значение не превосходит эмпирического, то на данном уровне значимости отсутствуют основания для отклонения нулевой гипотезы о несущественности различий. В противном случае нулевая гипотеза отвергается.

КОРРЕЛЯЦИОННЫЙ и РЕГРЕССИОННЫЙ АНАЛИЗ

Если из множества значений аргумента Х одному значению соответствуют множество значений Y на конечном интервале значений, то такая взаимосвязь называется корреляционной.

Обратная положительная корреляция, при которой уменьшение причинного фактора вызывает увеличение следственного фактора; например, уменьшение длины дистанции приводит к увеличению скорости бега.

Обратная отрицательная корреляция, при которой увеличение причинного фактора вызывает уменьшение следственного; например, увеличение силы мышц может привести к уменьшению скорости их сокращения.

Коэффициент корреляции

Коэффициент корреляции (r)– показатель тесноты взаимосвязи между парой показателей, получивший широкое применение в практике.

Количественную меру коэффициента корреляции принято различать по нескольким уровням:

Слабая связь – при /r/ < /0,30/

Средняя связь – при /0,31/ < /r/ < /0,69/

Сильная связь – при /0,70/ < /r/ < /0,99/

Качественный анализ коэффициента корреляции принято различать по характеру взаимосвязи:

Отрицательная связь – при r < 0

Положительная связь – 0 < r

При r=0 – взаимосвязь отсутствует.

Результат вычисления коэффициента корреляции позволяет отвечать на три вопроса:

Имеется ли взаимосвязь между двумя величинами?

Какова направленность этой взаимосвязи (прямо или обратно пропорциональная)?

Какова теснота взаимосвязи?

Цель корреляционного анализа – установить, можно ли значения одного показателя предсказывать по значениям другого.

Задачи корреляционного анализа:

Установить, надёжны ли исходные данные при оценке корреляции.

Установить, имеет ли она практическое значение.

Если величина коэффициента корреляции по модулю больше или ровна 0,7 , то говорят, что корреляция, имеет практическое значение, если значение меньше 0,7 , то корреляция не имеет практического значения.

Корреляция

  • Корелляция Пирсона (параметрический)
  • Ранговая корреляция Спирмена(непараметрический)

ТЕОРИЯ

КОРРЕЛЯЦИИ

ЗАДАЧИ

Установить

ФОРМУ

корреляционной

связи

Установить

ТЕСНОТУ

корреляционной

связи

решает

регрессионный анализ

решает

корреляционный анализ

Регрессионный анализ

Задачей регрессионного анализа является нахождение функциональной зависимости между зависимой у и независимой х переменными y = f(x), которую называют регрессией (или функцией регрессии). График функции называют линией или кривой регрессии.

Hа практике x задается, а y - это наблюдение какой-либо величины на опыте, в эксперименте.

В ходе регрессионного анализа определяется аналитическое выражение связи зависимой случайной величины Y (результативный признак) с независимыми случайными величинами Х1, Х2, …Хm (факторами). Практически речь идёт о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключённую в этом множестве закономерность, тенденцию – линию регрессии.

1.В зависимости от числа явлений


– простой (регрессия между двумя переменными);

– множественной (регрессия между зависимой переменной Y и несколькими независимыми переменными (X1, X2, …, Xn)).

– линейной (отображается линейной функцией, а между изучаемыми явлениями существуют линейные отношения);

– нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер).

х

у

у

х

2.В зависимости от формы

3. По характеру связи между включенными в рассмотрение переменными


– положительной (увеличение значения независимой переменной приводит к увеличению значения зависимой переменной и наоборот);

– отрицательной (с увеличением значения независимой переменной значение зависимой переменной уменьшается).

х

у

у

х

Основные задачи


1. Определение формы зависимости.

2. Отыскание подходящих значений неизвестных параметров.

3. Оценка неизвестных значений зависимой переменной.

Линейную регрессию можно отразить уравнением прямой линии:

Y = а · X + в, где:

Y – значения признака по линии регрессии, т. е. теоретические значения,

а – угловой коэффициент регрессии,

X – значения признака-фактора (предиктора),

в – свободный член, константа.

Если независимая переменная одна, то регрессия называется парной.

Простейшая парная регрессионная модель – линейная.

Нелинейная регрессия

  • Полиномиальная
  • Гиперболическая
  • Степенная
  • Показательная
  • Экспоненциальная

Определение коэффициента детерминации

Для анализа общего качества уравнения линейной многофакторной регрессии используют множественный коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции R

и определяют долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Коэффициент детерминации


Свойства:

а) 0RI1;

б) Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет» зависимость данных;

в) В случае линейной регрессии

https://docs.google.com/forms/d/e/1FAIpQLScrjGHqkpDnFFk8jxoHM3jNj3tao9_hginhnR7Y321IMtL7kg/viewform


написать администратору сайта