Методические рекомендации по выполнению практических работ по учебной дисциплине
Скачать 1.43 Mb.
|
Задания: По заданной таблице значений xi и yi составьте точечный график и методом наименьших квадратов найдите и уточните приближающую функцию в виде показательной функции. Постройте график показательной функции с учетом поправки. Для найденной функции вычислите сумму квадратов уклонений. Контрольные вопросы 1. В чем сущность метода наименьших квадратов? 2. Какие функции MathCAD реализует линейную аппроксимацию методом наименьших квадратов? 3. Какой диапазон изменения значений коэффициента корреляции? 4. Что такое эмпирическая формула и как ее подобрать? 5. Перечислите типовые функции регрессии. Практические задания Практическая работа №9 Дробно-линейная функция. Цель: Овладение практическими навыками построения эмпирических формул методом наименьших квадратов для дробно-линейных функций. Основные теоретические положения Пусть в результате измерений в процессе опыта получена таблица
Нужно найти формулу, выражающую эту зависимость аналитически. Можно, разумеется, применить метод интерполяции: построить интерполяционный многочлен, значения которого в точках x1, x2, … xn будут совпадать с соответствующими значениями f(x) из таблицы. Однако совпадение значений в узлах иногда может вовсе не значить совпадения характеров поведения исходной и интерполирующей функций. Требование неукоснительного совпадения значений в узлах выглядит тем более неоправданным, если значения функции f(x) получены в результате измерений и являются приближенными. Поставим задачу так, чтобы с самого начала учитывался характер исходной функции: найти функцию заданного вида y=F(x), которая в точках x1, x2, … xn принимает значения, как можно более близкие к табличным значениям y1, y2,… yn .(уточнение выражения «более близкие» будет приведено ниже) Практически вид приближающей функции F можно определить следующим образом. По данным таблицы строится точечный график функции, а затем как на рисунке проводится плавная кривая, по возможности наилучшим образом отражающая характер расположения точек. По полученной таким образом кривой устанавливается вид приближающей функции( обычно из числа простых по виду аналитических функций) Следует заметить, что строгая функциональная зависимость для экспериментально полученной таблицы наблюдается редко, так как каждая из участвующих величин может зависеть от многих случайных факторов. Приближающая функция( ее называют эмпирической формулой, или уравнением регрессии y на x) интересна тем, что позволяет находить значения функции f(x) для нетабличных значений x, «сглаживая» результаты измерений величины y. Оправданность такого подхода определяется, в конечном счете, практически полезностью полученной формулы. Рассмотрим один из распространенных способов нахождения эмпирической формулы. Предположим, что приближающая функция F в точках x1, x2, .. xn имеет значения (1) Требование близости табличных значений y1, y2,… yn .и значений (1) можно истолковать следующим образом. Будем рассматривать совокупность значений функции f(x) из таблицы как координаты двух точек n- мерного пространства. С учетом этого задача приближения функции f может быть переформулирована следующим образом: найти такую функцию F заданного вида, чтобы расстояние между точками M(y1, y2,… yn) и было наименьшим. Если воспользоваться метрикой евклидова пространства, то это условие сводится к требованию, чтобы величина была наименьшей. Легко видеть, что это требование равносильно следующему: чтобы была наименьшей сумма квадратов (2) Итак, задача приближения функции f теперь формулируется следующим образом: для функции f, заданной таблицей, найти функцию F определенного вида, чтобы сумма квадратов (2) был наименьшей Эта задача носит название задачи приближения функции методом наименьших квадратов. В качестве приближающих функций в зависимости от характера точечного графика функции f часто используют следующие функции: 1) 2) 3) 4) 5) 6) 7) 8) Здесь a, b, c,m – параметры. Когда вид приближающей функции установлен, задача сводится только к отысканию значений параметров. Рассмотрим метод нахождения параметров приближающей функции в общем виде на примере приближающей функции с тремя параметрами (3) Итак, имеем i=1,2, …, n Сумма квадратов разностей соответствующих значений функций f и F будет иметь вид Эта сумма является функцией трех переменных(параметров a, b и c) Задача сводится к отысканию минимума этой функции. Используем необходимое условие экстремума функции трех переменных: которое в данном случае примет вид: (4) Решив эту систему из трех уравнений с тремя неизвестными относительно параметров a, b и с, мы получим конкретный вид искомый функции F(x, a, b, c). Как видно из рассмотренного примера, изменение параметров не приведет к сущности самого подхода, а выразится лишь в изменении количество уравнений в системе (4) Естественно ожидать, что значения найденной функции F(x, a, b, c) в точках будут отличатся от табличных значений Значения разностей (i=1, 2, …, n) (5) называются отклонениями( или уклонениями) измеренных значений y от вычисленных по формуле (3) Для эмпирической формулы (3) в соответствии с исходной таблицей можно найти сумму квадратов отклонений , которая в соответствии с принципов наименьших квадратов для заданного вида приближающей функции( и найденных значений параметров) должна быть наименьшей. Из двух приближений одной и той же табличной функции, согласно принципу наименьших квадратов, лучшим является то, для которого σ имеет наименьшее значение Покажем, как нахождение приближающей функции с двумя параметрами F(x, a, b) в виде различных элементарных функций может быть сведено к нахождению параметров линейной функции Будем искать приближающую функцию в виде (5) Равенство (5) перепишем следующим образом: Из последнего равенства следует, что для нахождения значений параметров a и b по заданной таблице нужно составить новую таблицу, в которой значения аргумента оставить прежними, а значения функции заменить обратными числами. После этого для полученной таблицы найти приближающую функцию вида ax+b. Найденные значения параметров a и b подставить в формулу (5) Практические задания Построить приближающую функцию методом наименьших квадратов для зависимости, заданной таблицей.
Контрольные вопросы 1. В чем сущность метода наименьших квадратов? 2. Какие функции MathCAD реализует линейную аппроксимацию методом наименьших квадратов? 3. Какой диапазон изменения значений коэффициента корреляции? 4. Что такое эмпирическая формула и как ее подобрать? 5. Перечислите типовые функции регрессии. Практическая работа №10 Критерии значимости. Цель: Овладение практическими навыками проверки гипотез. Теоретические сведения Различные статистические оценки выборки являются выборочными оценками соответствующих характеристик случайной величины. Выборочное среднее (обозначается как М или ) является оценкой математического ожидания и определяется как среднее арифметическое всех элементов выборки: M = . Выборочное среднее можно также выразить через частоты различных элементов выборки: M = p1x1 + … + pnxn , где в суммировании участвуют только различные значения хі. Выборочное среднее обладает тем свойством, что сумма отклонений всех наблюдений от этого числа равна 0, т. е. наблюдения превышающие среднее, уравновешиваются наблюдениями, значения которых ниже среднего. Пример 1. Для выборки, состоящей из 8 значений: 1, 1, 3, 4, 8, 9, 10, 12 среднее равно (1 + 1+ 3 + 4 + 8 + 9+10+ 12)/8 = 48/8 = 6. Важную роль при анализе связей между переменными играет сумма квадратов отклонений наблюдений от среднего (обозначается как SS): SS = (x1 –M)2 + …+ (xn – M)2 В практических расчетах удобно пользоваться другим выражением суммы квадратов (получаемым из исходного путем тождественных преобразований): SS = (x12 – 2M x1 M2) + … + (xn2- 2M xn M2) = (x12 + … + xn2) – 2M (x1 + … + xn) + nM2 = = (x12 + … + xn2) - nM2. Выборочной оценкой дисперсии (обозначается как S2, σ2) является сумма квадратов отклонений, деленная на число наблюдений за вычетом 1: S2 = . Эта оценка дисперсии является несмещенной (т. е. ее математическое ожидание совпадает с истинным значением дисперсии случайной величины). Иногда в качестве выборочной оценки дисперсии используют величину SS /п. В теории статистического оценивания доказывается, что эта оценка является смещенной, поэтому предпочтительнее пользоваться оценкой, приведенной выше. В различных компьютерных системах анализа данных, начиная от калькуляторов со встроенными статистическими функциями, реализованы различные варианты оценки дисперсии — смещенная или несмещенная (в некоторых случаях обе), на что следует обращать внимание. Среднеквадратичное (стандартное) отклонение среднего (обозначается как S, σ) определяется как квадратный корень из дисперсии: S = . Пример 2. Для выборки из примера 1. SS = (1 – 6)2 + (1 - 6)2 + (3 – 6)2 + (4 – 6)2 + (8 – 6)2 + (9 – 6)2 + (10 – 6)2 + (12 – 6)2 = = (-5)2 + (-5)2 + (-3)2 +22 + 22 +32 + 42 + 62 = 128, S2 = SS/7 = 18,29 S = = 4,28 Выборочное среднее чувствительно к «экстремальным» значениям, сильно отклоняющимся от остальных значений выборки. Тем более чувствительны к появлению нетипичных для выборки значений оценки, характеризующие рассеяние относительно среднего. Пример 3. Если бы в вариационном ряду из примера 5 последнее значение составляло не 12, а 42, то выборочное среднее равнялось бы 9,75 (т.е. увеличилось бы на 22%), а стандартное отклонение — 13,5 (увеличение более чем в 3 раза). Вышеупомянутая ситуация иллюстрирует тот факт, что на практике всегда полезно внимательно относиться к первичным данным и прежде чем использовать математические алгоритмы статистического анализа, оценивать визуально их качество, наличие «экстремальных» отклонений, возможность возникновения артефактов и в соответствии с этим принимать решение о том, стоит ли осуществлять статистическую обработку или, может быть, повторить эксперимент. Иногда в таких случаях отбрасываются крайние значения выборки и дальнейший анализ производится без них, но это решение должно быть осознанным и обоснованным. При описании экспериментальных данных в литературе нередко приводится такая характеристика, как стандартная ошибка среднего (обычно обозначается как т, а диапазон значений среднего с учетом ошибки указывается в виде М±т). Стандартная ошибка среднего определяется как стандартное отклонение, деленное на корень квадратный из числа наблюдений: M = . Эта величина, в отличие от всех других рассматриваемых в данном пункте оценок, не является оценкой какого-либо из параметров распределения случайной величины, но характеризует точность оценки среднего по имеющимся данным. Стандартная ошибка среднего зависит от числа наблюдений: с увеличением числа испытаний она уменьшается (до сколь угодно малых величин при достаточно больших п). Приведенная выше формула для оценки стандартной ошибки среднего справедлива только для нормального распределения. Доверительный интервал. Исключение грубых ошибок измерений. Теоретические сведения Если в процессе эксперимента для статистики получено некоторое значение, то значит оно принадлежит области I, вероятность которой близка к 1. Эту вероятность называют доверительной вероятностью. Её обозначают . По ней строят интервал, накрывающий значение оцениваемого параметра с вероятностью . Его и называют доверительным интервалом с уровнем доверия . Область I и доверительный интервал по ней строятся в соответствии с распределением вероятностей используемой статистики. Величина уровня доверия влияет на величину интервала: чем больше уровень доверия, тем шире интервал. Уровень доверия выбирается из соображений допустимого риска. Формула для доверительного интервала для математического ожидания нормального распределения с уровнем доверия для случая, когда известно среднеквадратическое отклонение распределения : (1) Формула для доверительного интервала для математического ожидания нормального распределения с уровнем доверия для случая, когда среднеквадратическое отклонение распределения неизвестно: (2) Пример. Для проверки фасовочной установки были отобраны и взвешены 20 упаковок. Получены следующие результаты (в граммах):
Найти доверительный интервал для математического ожидания с надёжностью 0,95, предполагая, что измеряемая величина распределена нормально. Решение. Находим точечные оценки a и : Определяем по таблице распределения Стьюдента для доверительной вероятности =0,95 и числу степеней свободы (n-1)=19 соответствующее значение t=2,093 и по формуле находим искомый интервал: или 251,27 а 254,69. Статистические критерии. Критерий Колмогорова. Пусть –эмпирическая функция распределения случайной величины , представленной выборкой : Для проверки нулевой гипотезы , где –полностью определенная (с точностью до параметров) теоретическая функция распределения, рассматривается расстояние между эмпирической и теоретической функциями распределения Здесь –точные верхняя и нижняя границы соответствующих разностей. Для практического применения используются формулы Предельное распределение статистики (при )[3]. Если верна гипотеза , то независимо от функции , случайная величина имеет распределение Колмогорова [5]: Смирнов развил результаты Колмогорова на случай статистик . Между критическими значениями существует соотношение . В качестве первого приближения можно использовать соотношение Если , гипотеза согласия ( ) отклоняется на уровне значимости . При полезна аппроксимация Распределение которой удовлетворительно описывается распределением хи-квадрат с степенями свободы. При необходимо использовать более точное приближение где для , при и . Наиболее просты в приложениях результаты Стефенса, который предложил преобразования статистик устанавливающие зависимость их процентных точек от объема выборки : Первые две аппроксимации используются соответственно для нижних и верхних процентных точек. Критические значения статистик Стефенса приведены в таблице 1. Таблица 1 – Процентные точки статистик
|