Главная страница

Лабораторная работа_3. Лабораторная работа 3 Обработка результатов пассивного эксперимента. Дисперсионный, корреляционный и регрессионный анализ 2


Скачать 1.29 Mb.
НазваниеЛабораторная работа 3 Обработка результатов пассивного эксперимента. Дисперсионный, корреляционный и регрессионный анализ 2
Дата15.04.2023
Размер1.29 Mb.
Формат файлаpdf
Имя файлаЛабораторная работа_3.pdf
ТипЛабораторная работа
#1063777

Планирование эксперимента,
методы анализа и обработки данных
Лабораторная работа 3
Обработка результатов пассивного эксперимента.
Дисперсионный, корреляционный и регрессионный анализ

2
Цель лабораторной работы:
Получить умения и отработать навыки дисперсионного,
корреляционного и регрессионного .
Задачи лабораторной работы:
1. Провести пассивные эксперименты.
2. Обработать результаты пассивных экспериментов.
3. Оформить отчет по лабораторной работе.

3
Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
Корреляционный анализ – это группа статистических методов, направленная на выявление и математическое представление структурных зависимостей между выборками.
Регрессионный анализ - это статистический метод, устанавливающий количественно форму зависимости двух случайных величин, между которыми существует корреляционная связь.
Регрессионные процедуры позволяют рассчитать модель, описываемую некоторым уравнением и
отражающую
функциональную
зависимость
между
экспериментальными
количественными
переменными, а также проверяют гипотезу об адекватности модели экспериментальным данным. По
полученным результатам можно оценить природу и степень зависимости переменных и предсказать
новые значения зависимой переменной.
Анализ временных рядов применим к одиночным или связанным временным рядам и позволяет выделять различные формы периодичности и
взаимовлияния временных процессов,
а также осуществлять прогнозирование будущего поведения временного ряда.
Кластерный анализ осуществляет разбиение объектов на заданное число удаленных друг от друга классов, а также строит дерево классификаций объектов посредством иерархического объединения их в группы
(кластеры).
Основной задачей факторного анализа является нахождение в многомерном пространстве первичных переменных (значения которых регистрируются в эксперименте), сокращенной системы вторичных переменных (факторов).

4
Дисперсионный анализ – это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. Дисперсионный анализ является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные).
Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак.
Исходным материалом для дисперсионного анализа служат данные исследования выборок, которые могут быть как равными, так и неравными по численности, как связными, так и несвязными.
По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности,
но и их взаимодействие).
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным.

5
Почему дисперсионный анализ называется дисперсионным?
Постановка задачи:
Нулевая гипотеза
:
=
= ⋯ =
, где k - число классов градации и все классы градации имеют одно значение средних.
Альтернативная гипотеза
:

≠ ⋯ ≠
, не все классы градации имеют одно значение средних
(по крайней мере одно среднее значение отличается от остальных).
При дисперсионном анализе исследуется отношение двух дисперсий и определяют удельный вес суммарного воздействия одного или нескольких факторов
Вторая дисперсия (внутригрупповая) – дисперсия
необъясненная, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп
Первая дисперсия (межгрупповая) – дисперсия
объясненная влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных
Отношение этих дисперсий называется фактическим отношением (критерием) Фишера и сравнивается с критическим значением отношения (критерием) Фишера
Если расч
>
табл
, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния
Если расч
<
табл
, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных

6
Однофакторный дисперсионный анализ
Основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:
=
+
,
где
= ∑ ∑

- общая сумма квадратов отклонений;
= ∑

- объясненная влиянием фактора K сумма квадратов отклонений;
= ∑ ∑

- необъясненная сумма квадратов отклонений или сумма квадратов отклонений ошибки;
= ∑
;
=
∑ ∑
= ∑
- общее среднее наблюдений;
=

- среднее наблюдений в каждой градации фактора K
Кроме того:
= ∑ ∑

= ∑ (
− )
=

+

+ ⋯ +

,
где
- дисперсия градации фактора (группы).
Дисперсии рассчитываются следующим образом:
=
⁄ = ⁄
- общая дисперсия;
=
=
- объясненная дисперсия;
=
=
- необъясненная дисперсия (дисперсия ошибки).
расч
=
<
табл
=
;
;

7
Пример 1.
Дано: Для оценки работы трех отрезных станков проведены замеры на соответствия по длине полученных сортиментов установленным требованиям, при этом фиксировалась величина отклонения фактического размера сортимента от номинального размера. Результаты замеров представлены в таблице 7.1.
Таблица 7.1
Найти: Влияние различий в настройках станков на точность работы станков по отрезке сортиментов номинальной длины при уровне значимости α = 0,05.
Решение:
=
10
9
8
7
6
5
4
3
2
1
5
0,4 0,3 0,5 0,5 0,4
Станок 1
1
10
0,4 0,7 0,6 0,7 0,5 0,8 0,6 0,3 0,4 0,5
Станок 2
2
8
0,8 0,5 0,6 0,4 0,5 0,7 0,4 0,6
Станок 3
3
=
10
9
8
7
6
5
4
3
2
1
0,0196 0,0363 0,0211 0,39 0,07 0,46 0,53 0,42
23
5
0,4 0,3 0,5 0,5 0,4
Станок 1
1
0,55
10
0,4 0,7 0,6 0,7 0,5 0,8 0,6 0,3 0,4 0,5
Станок 2
2
0,56
8
0,8 0,5 0,6 0,4 0,5 0,7 0,4 0,6
Станок 3
3
расч
= ,
<
табл
=
,
; ;
=3,49
Вывод: С вероятностью 0,95 можем принять, что настойка станков не влияет на точность их работы.

8

9
Двухфакторный дисперсионный анализ без повторений:
Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов - A и B. Тогда a - число градаций фактора A и b - число градаций фактора B. В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:
=
+
+
,
где
= ∑ ∑

- общая сумма квадратов отклонений;
=


- объясненная влиянием фактора A сумма квадратов отклонений;
=


- объясненная влиянием фактора B сумма квадратов отклонений;
= ∑ ∑


+
- необъясненная сумма квадратов отклонений или сумма квадратов отклонений ошибки;
=
∑ ∑
- общее среднее наблюдений;
= ∑
- среднее наблюдений в каждой градации фактора A;
= ∑
- среднее наблюдений в каждой градации фактора B.
Дисперсии рассчитываются следующим образом:
=
⁄ = ⁄
- общая дисперсия;
=
=
- дисперсия, объясненная влиянием фактора A;
=
=
- дисперсия, объясненная влиянием фактора B;
=
=
(
)(
)
- необъясненная дисперсия (дисперсия ошибки).
расч.
=
<
табл
=
;
;
расч.
=
<
табл
=
;
;

10
Пример 2.
Дано:
Дана информация о
точности движения
РТК
(промышленного робота) в зависимости от типа привода и числа степеней свободы (таблице 10.1).
Найти: Зависит ли точность движения РТК (промышленного робота) от типа привода и числа степеней свободы при уровне значимости α = 0,05.
B – число степеней свободы
5-6
3-4
1-2
0,5 0,3 0,1
электрический
A
-
т
и
п
п
р
и
во
д
а
1,0 0,6 0,2
гидравлический
1,5 0,9 0,3
пневматический
расч.
= ,
<
табл
=
,
; ;
=6,94
B – число степеней
свободы
5-6
3-4
1-2
0,04 0,48 0,27 0,21 0,16 0,96 0,54 1,66 0,3 0,5 0,3 0,1
электрический
A
-
т
и
п
п
р
и
во
д
а
0,6 1,0 0,6 0,2
гидравлический
0,9 1,5 0,9 0,3
пневматический
=0,6 1,0 0,6 0,2
Решение:
Таблица 10.1
расч.
=
,
>
табл
=
,
; ;
=6,94
Вывод: С вероятностью 0,95 можем принять, что тип привода не влияет, а число степеней свободы влияет на точность движения РТК (промышленного робота).

11

12
Двухфакторный дисперсионный анализ с повторениями:
Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов - A и B, но и возможное взаимодействие факторов A и B. Тогда a - число градаций фактора A и b - число градаций фактора B, r - число повторений. В
статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:
=
+
+
+
,
где
= ∑ ∑ ∑

- общая сумма квадратов отклонений;
=


- объясненная влиянием фактора A сумма квадратов отклонений;
=


- объясненная влиянием фактора B сумма квадратов отклонений;
= ∑ ∑


+
- объясненная влиянием взаимодействия факторов A и B сумма квадратов отклонений;
= ∑ ∑ ∑

- необъясненная сумма квадратов отклонений или сумма квадратов отклонений ошибки;
=
∑ ∑ ∑
- общее среднее наблюдений;
=
∑ ∑
- среднее наблюдений в каждой градации фактора A;
=
∑ ∑
- среднее наблюдений в каждой градации фактора B;
= ∑
- среднее число наблюдений в каждой комбинации градаций факторов A и B.

13
Дисперсии рассчитываются следующим образом:
=
⁄ = ⁄
- общая дисперсия;
=
=
- дисперсия, объясненная влиянием фактора A;
=
=
- дисперсия, объясненная влиянием фактора B;
=
=
(
)(
)
- дисперсия, объясненная взаимодействием факторов A и B
=
=
(
)
- необъясненная дисперсия (дисперсия ошибки).
расч.
=
<
табл
=
;
;
расч.
=
<
табл
=
;
;
расч.
=
<
табл
=
;
;

14
Пример 3.
Дано: Выборочные данные о пластичности материала изготовленного на различных предприятиях, в который добавлялся пластификатор
(элемент)
с различным процентным составом и
которые подвергались различным способам химической обработки,
представлены в таблице 14.1.
Найти: При уровне значимости α = 0,05 выяснить,
влияют ли на пластичность материала способы химической обработки.
B – способ химической
обработки
А - вид элемента
Номер
пред-
приятия
Способ 3
Способ 2
Способ 1
17,6
20,9
21,4
Элемент 1
1
16,6 20,3 21,2
2
17,4 19,8 20,1
3
13,3 13,6 12,1
Элемент 2
1
14,1 13,3 14,2
2
13,8 12,6 12,3
3
12,4 14,0 13,5
Элемент 3
1
13,7 15,6 11,9
2
13,1 13,8 13,4
3
Таблица 14.1

15
Решение:
Вывод: с вероятностью 0,95 можем принять, что:
1)
вид пластификатора (элемента) влияет на пластичность материала;
2)
способ химической обработки влияет на пластичность материала;
3)
результативность различных видов пластификаторов (элементов) изменяется в зависимости от способа химической обработки.

16
Задача 1. На химическом заводе разработаны два новых варианта технологического процесса. Чтобы оценить, как изменится дневная производительность при переходе на работу по новым технологиям, завод в течение 10 дней работает по каждому варианту,
включая существующий. Дневная производительность завода (в условных единицах) представлена в таблице
16.1.
При уровне значимости
= 0,05 требуется выяснить,
как зависит дневная производительность от технологического процесса и оценить степень этой зависимости.
Дневная производительность
День
работы
Вариант 2
Вариант 1
Существующая
технология
76
83
119
1
149 128 66
2
97 176 96
3
77 106 174
4
114 96 71
5
197 172 101
6
179 81 135
7
154 163 171
8
112 73 148
9
109 108 84
10
Таблица 16.1

17
Задача 2. В процессе производства получается побочный нежелательный продукт, процентное содержание которого измеряется четырьмя различными катализаторами при трех уровнях температуры. Данные о процентном содержании побочного продукта представлены в таблице 17.1.
Требуется при уровне значимости α = 0,05 определить, что оказывает более значимое влияние на выявление побочного продукта (катализатор или уровень температуры).
Катализатор 4
Катализатор 3
Катализатор 2
Катализатор 1
Уровень температуры
1,18
1,05
1,22
1,31
Высокий
1,24 1,26 1,09 1,13
Средний
1,06 1,14 1,04 1,26
Низкий
Таблица 17.1

18
Задача 3. Оценка уровня качества средств криптографической защиты информации (СКЗИ) осуществлялась методом тестирования на трех предприятиях. Для защиты информации использовались программно- аппаратных средств различных типов. При тестировании оценивался уровень (процент) нарушения безопасности информации при ее обработке СКЗИ (таблица 18.1).
При уровне значимости α = 0,05 выяснить, влияние программных и аппаратных средств на защиту информации.
Техническое средство 3
Техническое средство 2
Техническое средство 1
10
9
10
Программа 1
Предприятие 1
14 12 8
Предприятие 2
8 8
4
Предприятие 3
14 6
9
Программа 2
Предприятие 1
9 14 6
Предприятие 2
8 11 12
Предприятие 3
11 7
18
Программа 3
Предприятие 1
15 12 14
Предприятие 2
6 9
7
Предприятие 3
Таблица 18.1

19
Основными задачами корреляционного анализа являются выявление связи между переменными и оценка тесноты этой связи.
Корреляционная зависимость – это зависимость между одной случайной переменной и условным средним значением другой переменной.
В корреляционном анализе существуют следующие допущения:
1)
переменные и
являются случайными величинами, распределенными по нормальному закону;
2)
некоторому значению можно поставить в соответствие одно или несколько значений ;
3)
по данному нормальному распределению случайных величин и
можно определить выборочное среднее и среднеквадратичное отклонение величин и
Коэффициент корреляции:
=
=

(
)(
)
=

(
)(
)

(
) ∑
(
)
=


=


-
ковариация (или корреляционный момент), которая является совместным центральным второго порядка и определяется как математическое ожидание отклонений произведения отклонений случайных величин.

20
Коэффициент детерминации (
) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными.
=

=

ост где
(
ост
) - условная (по факторам x) дисперсия зависимой переменной (дисперсия ошибки модели).
- дисперсия случайной величины y.
Если использовать выборочную оценку значений соответствующих дисперсий
, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под
):
=

Или (в смысле дисперсионного анализа)
- это доля объяснённой суммы квадратов в общей:
=
- сумма квадратов остатков (отклонений ошибки) ;
- объясненная сумма квадратов отклонений;
- общая сумма квадратов отклонений.

21
Решение:
Вывод: с вероятностью 0,95 можем принять, что:
1)
вид пластификатора
(элемента)
влияет на пластичность материала;
2)
способ химической обработки влияет на пластичность материала;
3)
результативность различных видов пластификаторов
(элементов)
изменяется в
зависимости от способа химической обработки.
4)
выборочный коэффициент детерминации для А:
=
выборка итого
=
223,91 263,32
= 0,85
показывает, что на 85% всей выборочной вариации пластичности материала влияет вид пластификатора.

22
В случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными.
В частности, для модели парной линейной регрессии
=
.
Метод вычисления коэффициента корреляции зависит от вида шкалы
, к которой относятся переменные.
Ранговая корреляция — это взаимосвязь между ранжированием различных порядковых переменных или различными ранжированиями одной и той же переменной, где под «ранжированием» понимается присвоение меток порядка «первый», «второй» и т.д. к различным наблюдениям за конкретной переменной.
Коэффициент ранговой корреляции измеряет степень сходства между двумя рейтингами и может использоваться для оценки значимости связи между ними.
Задача 4. На основе результатов ультразвуковых исследований оценить степень корреляции следующих характеристик:

- величина зондирующего ультразвукового импульса;

- величина отраженного ультразвукового импульса;

- скорость распространения ультразвуковой волны;

- время прихода ультразвукового сигнала;

ℎ - толщина объекта контроля.

23
При изучении статистической зависимости обычно ограничиваются исследованием усредненной зависимости (Как в среднем будет изменяться значение одной величины при изменении другой?). Такая зависимость называется регрессионной.
Более строго, регрессионная зависимость между двумя случайными величинами — это функциональная зависимость между значениями одной из них и условным математическим ожиданием другой.
На практике по экспериментальным данным можно найти только оценку (приближенное выражение)
функции регрессии, т.е. по выборке определяют выборочное (эмпирическое) уравнение регрессии.
Как правило, до проведения эксперимента выбирают вид выборочной функции регрессии с точностью до нескольких параметров, а значения параметров определяют по выборке.
Вид эмпирической функции регрессии определяют исходя из:
1)
теоретических соображений о физической сущности исследуемой зависимости;
2)
опыта предыдущих исследований;
3)
характера расположения точек на корреляционном поле, которое получается, если отметить на плоскости все точки с координатами ( ;
)
, соответствующие наблюдениям.
Наибольший интерес представляет линейное эмпирическое уравнение регрессии, поскольку:
1)
это наиболее простой случай для расчетов и анализа;
2)
при нормальном распределении модельная функция регрессии является линейной.

Спасибо
за внимание!
Федоров Алексей Владимирович avfedorov@itmo.ru


написать администратору сайта