Главная страница
Навигация по странице:

  • Два замечания

  • Проверка статистических гипотез

  • Лекция № 9

  • Графическое представление данных

  • лекции. Поволжский государственный технологический университет волжский филиал


    Скачать 1.61 Mb.
    НазваниеПоволжский государственный технологический университет волжский филиал
    Анкорлекции
    Дата20.09.2021
    Размер1.61 Mb.
    Формат файлаpdf
    Имя файла12_ONI.pdf
    ТипЛекция
    #234377
    страница5 из 10
    1   2   3   4   5   6   7   8   9   10
    Лекция №8(2часа)
    Использование статистических расчетов в практических задачах
    Рассмотрение таких задач позволяет получить представление о диапазоне статистических решений и дополняет основные представления. В частности, данные текущих испытаний выборки, используют для оценки соответствия всей партии требованиям стандарта.

    34
    При организации статистического (выборочного) приемочного контроля используют несколько типов планов. Наиболее распространен план однократной выборки. Из партии с числом изделий т назначают объем выборки п для испытания, а также приемочное число с. Если число обнаруженных в выборке дефектных изделии оказалось меньшим или равным с, то вся партия принимается, если же больше, то партия бракуется. Естественно, что при такой системе нельзя дать гарантии невозможности ошибочных решений. Ошибки могут быть совершены в обе стороны: забракована хорошая партия (ошибка первого рода) или принята плохая (ошибка второго рода). На вероятность ошибки первого и второго рода влияют выбором приемочного числа с. В варианте, когда партия должна браковаться, иногда назначают дополнительные испытания выборки с числом изделий 2п, но приемочное число составляют без изменений.
    Используют также методику оценки качества с определением процента вероятного брака в данной партии Сущность ее состоит в сравнении среднего арифметического значения показателя у, найденного при испытании выборки из п
    образцов, со стандартным значением показателя у ст
    . Предположим, что показатель стандартизован с односторонним ограничением, в частности, показатель прочности не менее у ст
    Рис.5. Кривые нормального распределения, построенные по данным испытания выборок из трех партий и требование стандарта на данную продукцию у ст
    (
    рассматривается условие у > у
    ст
    ).
    На рис. 5 приведены три варианта кривых нормального распределения, построенных по
    k
    y
    и s
    к
    . Ясно, что вариант 1 не имеет брака: вся совокупность показателей лежит вправо от у ст
    . В варианте 2, несмотря на то, что
    2 1
    y
    y

    , имеются изделия (образцы), не соответствующие стандарту. Доля таких образцов от общего числа может быть найдена как заштрихованная площадь под кривой нормального распределения. Методика заключается в определении показателя качества и нахождении соответствующей площади при решении интеграла вероятностей Ф (t)
    или по таблице площади под кривой нормального распределения
    (табл. 1 приложения). Для удобства значения выражают в процентах.

    35
    K
    CT
    K
    Ê
    s
    y
    y
    Ï


    (16).
    Два замечания. Если брака более 50%, расчет лишен смысла. Если из сравниваемых вариантов у з
    >y
    1
    то этого еще недостаточно для суждений в пользу варианта 3. Действительно, из рисунка и по расчету мы убеждаемся в преимуществах варианта 1.
    Подобная оценка позволяет подразделить выпускаемую продукцию по сортам.
    Ясно, что чем меньше s
    К
    тем, следовательно, однороднее процесс, а это позволяет минимизировать себестоимость продукции.
    Следующая задача связана с определением вероятности штрафа, в частности, органами надзора за охраной окружающей среды. Например, содержание отхода в сточных водах не должно превышать 7,1 мг/м
    3
    , Заводская лаборатория установила у i
    6; 7; 5; 4; 7; 0. Превысят ли результаты арбитражного анализа допустимое значение?
    Если да, то с какой вероятностью?
    Решение связано с нахождением одностороннего доверительного интервала. Если у=5,8 мг/м
    3
    , s=1,37 мг/м
    3
    , то
    6 37
    ,
    1 8
    ,
    5




    n
    s
    t
    y

    Воспользовавшись табл. 3 приложения, для f=n-1=6-1=5 найдем что
    7, 1 < 5,8 +0,561 при t≤2,32, то есть с вероятностью 0,93, возможно получить значение, превышающее допустимое. Иными словами, если число анализов превысит 15, то руководство предприятия ожидает штраф. При меньшем числе испытаний, вероятно, что в отдельных определениях не окажется значения, превышающего критическое.
    Проверка статистических гипотез
    После того как обработаны данные, относящиеся к точечному определению, можно переходить к обработке данных, характеризующих изучаемое явление в целом. Промежуточным этапом может оказаться сравнение двух рядом лежащих точек, если их сравнительные значения являются существенными для характера устанавливаемой закономерности, В основе сравнения лежит вероятностный характер данных, в определенной мере распространяющийся и на среднее арифметическое значение выборки.
    Поясним это на примере. Экспериментальные данные(средние из шести) нанесены на график, показанный на рис.6. Перед тем как проводить плавную кривую, нам необходимо выяснить, является ли зависимость экстремальной, либо превышение значения показателя прочности в точке 2 над значением в точке 1 является случайным и ход кривой должен иметь монотонный характер. Общая оценка ситуации, когда в зависимости от количества образцов прочность снижается, предлагает нам принять гипотезу о монотонном характере кривой. Чтобы проверить гипотезу такого рода, сравним
    У
    1
    и у
    2
    (перейдем от конкретного показателя к записи в общем виде). Для сравнения предполагаем, что дисперсии ошибок в обеих сериях определений одинаковы, например, определения производились в одних и тех же условиях; на одном и том же приборе и т. д. Тогда подсчитаем отношение:
    2 1
    1 2
    1 1
    n
    n
    s
    y
    y
    t
    P



    (17),

    36 и
    2 1
    2 2
    2 1
    2 1
    2
    f
    f
    f
    s
    f
    s
    s



    (18), где
    1
    f
    и
    2
    f
    - число степеней свободы первой и второй выборки (f=n-1).
    Рис.6.Изменение прочности модифицированных образцов в зависимости от продолжительности термообработки
    Далее задаем желаемую вероятность вывода Р и по табл. 3 приложения находим значение критерия Стъюдента для f=n
    1
    +n
    2
    -2. Еслиt
    Р
    превосходит найденное значение t, то расхождение средних значений у
    1
    и у
    2
    можно считать не случайным
    (значимым) с надежностью вывода Р. В этом случае зависимость оказывается экстремальной (сплошная линия). Если
    t
    t
    P

    - расхождение случайно, зависимость оказывайся монотонной, через точки проводим пунктирную линию.
    В реальном эксперименте было установлено, что модификация образцов приводит к тому, что нагревание в течение 30 мин углубляет взаимодействие модифицирующей добавки с древесным комплексом, повышает прочность образцов, но при дальнейшем нагревании из-за процессов деструкции прочность падает.
    Поводом для углубленных исследований послужил статистически надежный вывод, полученный с использованием вышеприведенной формулы. В противном случае соединяющая точки линия проходила бы так, как это показано на рисунке пунктиром.
    В общем случае статистическая гипотеза есть некоторое предположение относительно свойств совокупности, сделанное на основе выборки. Проверка гипотезы - это правило, по которому гипотеза принимается или отвергается. В рассмотренном случае использовали оценку значимости различия выборочных средних (или средних арифметических значении) по t-критерию. Рассмотрим еще один пример проверки статистической гипотезы.
    В цехе декоративного бумажно-слоистого пластика фиксировали срок службы глянцевых прокладочных листов, получаемых с двух предприятий. Оказалось, что листы первого предприятия пригодны для 960 запрессовок, листы второго - для
    1020. Было выдвинуто предположение о более высоком качестве листов второго предприятия, поскольку
    y
    y

    2
    . Однако, данные были получены по ограниченному количеству листов, и расхождение между ними могло оказаться незначимым. Было выдвинуто второе предположение о том, что у
    1
    и у
    2
    являются оценками одного и

    37 того же математического ожидания μ. Второе предположение является нулевой гипотезой относительно двух выборочных средних. Принять эту гипотезу, значит отклонить первое предположение.
    Для проверки нулевой гипотезы относительно у
    1
    и у
    2
    необходимо, чтобы выборочные дисперсии были однородны. Проверка производится по критерию
    Фишера.
    В числителе берется большее значение. По табл. 4 приложения при данном значении
    Р находим значение критерия Фишера. Если Fр ≤ F, то выборочные дисперсии однородны и являются оценками одной и той же дисперсии
    σ
    2
    . В противном случае сравнение невозможно.
    Дальнейший расчет производим, как в приведенном ранее примере. Определяем s и t
    Р
    . В случае, если t р
    < t принимаем гипотезу о том, что у
    1
    и у
    2
    есть оценки одного и того же математического ожидания
    μ . В этом случае принимается нулевая гипотеза и, в частности, делается вывод об одинаковом качестве прокладных листов
    Лекция № 9(4часа)
    Линейная корреляция
    Графическое представление данных преследует цель установить связь между переменными.
    Характер зависимости определяется видом функции.
    Функциональная зависимость - необязательно причинно-следственная, поэтому говорят: функции - это законы, управляющие соответствиями переменных. Однако если мы попытаемся экспериментально проверить простой закон линейного расширения тел при нагревании l = + кТ, то окажется, что равным в пределах точности измерения значениям Тсоответствует разное l. Из-за погрешности измерения, влияния случайных факторов функциональная зависимость проявляется как статистическая.
    Наиболее простой случай статистической связи представляет линейная корреляция двух факторов. Наглядное представление о такой связи дает рис, 7. На нем изображено поле корреляции жесткости сульфатной целлюлозы и расхода активной щелочи на единицу абсолютно сухой целлюлозы. Здесь обнаруживается

    38 довольно тесная корреляция, свидетельствующая о том, что в значительной мере обусловлено влиянием расхода активной щелочи.
    Равномерное распределение точек вокруг некоторого геометрического центра привело бы нас к выводу об отсутствии корреляции между двумя переменными.
    Такие переменные не связаны друг с другом. Их изменение обусловлено влиянием не выявленных факторов.
    Для выявления зависимости между переменными определяют коэффициент корреляции. Он характеризует корреляционную зависимость изменения среднего значения одной величины с изменением среднего значения другой. Примером корреляционной зависимости, кроме рассмотренного, является связь между плотностью и прочностью картона, динамическим модулем сдвига и прочностью на разрыв бумаги и др.
    Пусть имеется выборка из N пар значений двух величин
    i
    x
    и
    i
    y
    .Степень линейной связи между ними может быть определена эмпирическим коэффициентом корреляции r:






    )
    )(
    (
    1 1
    1
    y
    y
    x
    x
    N
    s
    s
    r
    i
    i
    Y
    X
    (19), где y
    x, - средние значения переменных х
    i и у
    i
    ;
    Y
    X
    s
    s ,
    - их средние квадратичные отклонения;
    N - число пар точек.
    Коэффициент линейной корреляции по своей величине может изменяться от -
    1 до +1. Значение r = 0 указывает на отсутствие линейной корреляции между случайными величинами, значение же r = ±1 указывает на строгую функциональную линейную связь.
    Вывод о наличии корреляционной зависимости важен для исключения того или иного фактора при исследовании. Для ответа на вопрос, указывает ли найденное значение г на какую-либо корреляцию между случайными величинами, применяют t-распределение Стъюдента.
    Сначала выдвигаем гипотезу, что случайные величины х и у являются некоррелированными. Затем по формуле находим значение t
    Р
    с числом степеней свободы f=N-2.
    2 1



    N
    r
    r
    t
    P
    (20).
    Если
    t
    t
    P

    , найденное из табл. 3 приложения, то гипотеза некоррелированности случайных величин - необоснованная . В расчете используем абсолютную величину эмпирического коэффициента корреляции. Знак коэффициента указывает на характер связи: если с возрастанием одной величины возрастает и вторая, то знак положительный, в противном случае - отрицательный .
    Если r значим, то между переменными можно установить зависимость в виде эмпирической прямой регрессии. Примем у в качестве зависимой переменной, х - в качестве независимой. Тогда прямая регрессия у на х имеет уравнение
    )
    (
    x
    x
    s
    s
    r
    y
    y
    x
    y




    (21), или

    39
    ).
    (
    x
    x
    s
    s
    r
    y
    y
    x
    y




    (22).
    В уравнение подставляют r с тем знаком, который получился при расчете. После подстановки соответствующих значений у, х,
    r
    s
    s
    x
    y
    ,
    ,
    получим уравнение прямой
    kx
    b
    y


    , в котором k не имеет смысла r. Поэтому в конечных результатах следует указать как степень коррелированности величин (r), так и уравнение линии регрессии, графически изображающее функцию регрессии.
    Отметим, что параметры найденного уравнения удовлетворяют принципу
    наименьших квадратов по
    y
    :сумма квадратов отклонений у
    i
    от рассчитанных по уравнению прямой регрессии меньше, чем сумма квадратов отклонений их от любой другой прямой.
    Средняя ошибка уравнения определяется по формуле
    1 2
    r
    s
    m
    y
    yx


    (23).
    Это значит, что значение у, найденное по уравнению, будет колебаться в пределах
    yx
    m
    y

    в 68,3 случаях из 100, в пределах у±2т
    ух
    в 95,4 случаях из 100. '
    Прямая регрессии х на у имеет уравнение
    )
    (
    y
    y
    s
    s
    r
    x
    x
    y
    x




    . (24).
    Средняя ошибка уравнения
    2 1 r
    s
    m
    x
    xy


    . (25).
    Степень влияния переменных друг на друга может изменяться в зависимости от их значении. Такая связь называется нелинейной. Выбор уравнения нелинейности регрессии достаточно сложен.
    Графическое представление данных
    Графиком называют геометрическое изображение функциональной зависимости на координатной плоскости. С легкой руки Декарта точки соединяют непрерывной линией («природа не терпит разрывов»). График служит не только для наглядного изображения, обеспечивающего концентрацию информации на минимальном пространстве, его используют для быстрого нахождения значений функции по значениям аргумента без установления самого вида функции.
    Развитие графического представления результатов эксперимента относится к хорошо организованным системам, в которых можно было выявить явления одной физической природы. Предполагалось, что исследователь мог (не только мог, но должен был обязательно это сделать) стабилизировать все независимые переменные изучаемой системы. Затем, варьируя поочередно некоторые из них, установить интересующие его зависимости. Последние представлялись функциональными связями и им приписывалась роль законов. Графики, как «продукт» исследования, получили распространение, благодаря возможности представить данные в наглядной форме при минимальной их обработке.
    Графический метод широко применяется для представления не только детерминированных, но также и случайных явлений. Результаты изучения благодаря

    40 этому легче интерпретировать и воспринять. Вместо функциональной зависимости на координатной плоскости может быть нанесена линия регрессии.
    Будем полагать, что техника построения графиков известна из предыдущих курсов. Она включает разметку шкал, выбор интервала между делениями шкалы с целью обеспечения равноточности, оформление надписей на трафике, проверку плавности соединяющей точки кривой и другие. Эти аспекты отрабатываются на лабораторных занятиях, начиная с первого курса. Особое внимание им уделяется при оформлении отчетов по лабораторным работам, выполняемым в рамках настоящего курса. Рассмотрим научные вопросы графического анализа: нормирование данных, исключение резко отклоняющихся значений, построение удобных графиков и наилучшей прямой.
    Данные перед нанесением на график обрабатывают с целью исключения выскакивающих значений, нахождения среднего арифметического
    K
    y
    и доверительного интервала. Однако непосредственная связь между у и х может не вскрывать сущности явления.
    Например, на рис.8 (кривая 1) приведены данные по количеству автомобильных аварий п, зафиксированных при различных значениях скорости их движения v на некотором участке. Интерпретировать эти данные можно и так: чем выше скорость, тем безопаснее движение. Это ошибочный вывод. Следует нормировать данные, отнеся их к тому количеству автомобилей, которые двигались на участке с данной скоростью. Кривая 2 показывает «уровень опасности движения» при различной скорости и существенно отличается от кривой 1, а вывод носит противоположный характер.
    При модифицировании целлюлозных материалов повышают их прочность путем введения специальных добавок. Стремление удешевить продукцию или утилизировать отходы производства приводит к использованию для этих целей

    41 малоактивных и неактивных добавок. В частности, на рис. 9 приведены данные по влиянию модифицированного лигнина, введенного в различном количестве в древесные волокна при изготовлении древесноволокнистых плит, на их прочность.
    Кривая 1 указывает на некоторый рост прочности и приводит к выводу о существовании активного взаимодействия между добавкой и волокнами, а вывод предопределяет направление углубленных исследований по выявлению влияния добавок на рост энергии этого взаимодействия. Дальнейшее рассмотрение данных показало, что с введением добавки растет также и плотность образцов. Тогда правильнее вместо прочности анализировать изменение удельной прочности, проведя нормирование данных путем отнесения их к соответствующей плотности плит. Полученная кривая 2 приводит к другому выводу, согласно которому кажущийся рост прочности плит связан с увеличением массы, а это обусловлено увеличением поверхности контакта частиц, хотя энергия возникающих при этом связей между частицами снижается. Теперь, естественно, исследователь предпримет углубленное изучение в ином, более верном направлении.
    Ранее мы рассмотрели правило исключения «выскакивающих» значений при обработке результатов параллельных испытаний, полагая при этом, что причина связана с грубой ошибкой. При построении графиков нам приходится встречаться с резко отклоняющимися точками, которые также подозреваются как ошибочные.
    Например, на рис. 10 точка А имеет большое отклонение и, возможно, ее следует исключить, воспользовавшись статистическим критерием. Исключать точку можно только в том случае, если она находится в средней части графика. Точка Д возможно, представляет собой начало нового участка и, исключив ее, можем потерять ценную информацию. Даже точка С может оказаться точным значением, по крайней мере, необходимы дополнительные точки в области малых значений х.
    Исключение точки таит в себе риск потерять ценную информацию, но даже одно ошибочное значение, если его сохранить как достоверное, может привести к

    42 ошибочным окончательным результатам. Основанием для исключения резко отклоняющихся точек может служить неудовлетворительный контроль. Например, имело место кратковременное увеличение напряжения в сети, падение температуры в реакционной смеси или несоблюдение других параметров. Если последние несколько точек, полученные в определенный день или в определенной серии испытаний, резко отклоняются от общей тенденции, то можно ожидать явной неисправности прибора. При подтверждении этого точки необходимо исключить.
    Существуют статистические критерии, в частности критерий Шовене. Какой- либо отсчет (например точка А (рис. 10) из ряда отсчетов можно исключить В том случае, если отношение максимально допустимого отклонения к среднему квадратичному отклонению s превышает критериальное. Значения критерия при различном числе данных следующие:
    Число данных 4 5 6 10 15
    Критерий Шовене 1,54 1,63 1,73 1,96 2,13
    Критерием пользуются при числе точек не менее 4, применяют это правило только один раз. Если же точки имеют настолько большой разброс (в пределах одной и той же закономерности), что необходимо массовое исключение данных, тогда необходима переоценка эксперимента, новое его приборное оснащение.
    Предположим, что точки нанесены на график. Можно ожидать прямо пропорциональной зависимости. Как в этом случае провести наилучшую прямую?
    Наилучшей называют линию, проходящую через множество точек таким образом, что она занимает положение, при котором сумма квадратов отклонений точек от этой линии минимальна. Это правило объясняет происхождение, термина «метод наименьших квадратов».

    43
    Быстрый графический метод построения прямой разработал Асковиц для случая, когда интервалы между значениями переменной одинаковы. Соединим точки 1 и 2 отрезком пунктирной прямой, отложим на нем расстояние, равное 2/3 s (рис.11).
    Полученную точку соединим с точкой 3. Двигаясь в сторону точки 3, снова проходим расстояние, равное 2/3 s, и делаем новую отметку. Повторяем эту процедуру, пока не будет получена последняя точка. Эта последняя точка лежит на прямой наименьших квадратов. Теперь начинаем построение с другого конца и повторяем весь процесс, двигаясь в противоположном направлении. Находим вторую точку, лежащую на прямой. Чтобы не усложнять чертеж, на рисунке показано нахождение только одной из двух точек.
    При построении предполагается, что только переменная у может иметь ошибку, а все подлежащие обработке данные получены с одинаковой точностью. Если требуется дать оценку точности, тогда находим величину отклонения точек от прямой как разницу экспериментальных и расчетных значении
    )
    (
    ý
    i
    p
    i
    y
    y

    и вычисляем среднее квадратичное отклонение:





    N
    i
    p
    i
    i
    y
    y
    N
    1
    ý
    2
    ).
    (
    1 1
    s
    В этом случае, если одна точка известна заранее (это может быть начало координат), то ошибку могут иметь как y, так и х. Применяют метод группировки, позволяющий найти лишь угловой коэффициент прямой. Для нахождения используют координаты т точек, сгруппированных в одной части графика (у и х), и координаты такого же числа точек в другой части графика (
    y

    и
    x

    ):
     
     





    x
    x
    y
    y
    b
    Средние точки опускают. Данные, приведенные на рис.11, сгруппируем для двух последних и двух первых точек. Точку 3 опустим. Тогда
    3
    ,
    3
    )
    3 2
    (
    )
    6 5
    (
    )
    5
    ,
    7 0
    ,
    5
    (
    )
    0
    ,
    20 5
    ,
    12
    (








    b
    Метод пригоден даже тогда, когда интервалы между значениями х не являются одинаковыми. Этот метод относится к приближенным.
    1   2   3   4   5   6   7   8   9   10


    написать администратору сайта