Главная страница
Навигация по странице:

  • 3.3. Гипотезы о числовых значениях параметров исследуемой гене- ральной совокупности

  • Вопросы для самопроверки

  • ЛЕКЦИЯ 11 РЕГРЕССИОННЫЙ АНАЛИЗ И МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

  • 1. Общая постановка задачи восстановления зависимостей на основе метода наименьших квадратов.

  • 2. Простейшая модель линейной регрессии.

  • 3. Линейная регрессия с несколькими переменными: Матричная фор- ма Модель регрессии допускает обобщение на случай m

  • ЛЕКЦИЯ 12 ОСНОВЫ ТЕОРИИ КЛАССИФИКАЦИИ И РАСПОЗНАВАНИЯ ОБРАЗОВ 1. Классификация. Формализованная постановка.

  • Интеллектуальный анализ данных


    Скачать 7.76 Mb.
    НазваниеИнтеллектуальный анализ данных
    Дата11.10.2022
    Размер7.76 Mb.
    Формат файлаpdf
    Имя файлаiad_iadl.pdf
    ТипУчебное пособие
    #726651
    страница14 из 23
    1   ...   10   11   12   13   14   15   16   17   ...   23
    3.2. Гипотезы об однородности выборок наблюдений. Предположим, что ОА наблюдался в течении l сеансов (или l дней). Полученные наблюдения имеют вид рядов (X
    1
    , X
    2
    ,..., X
    n
    )
    1
    , (X
    1
    , X
    2
    ,..., X
    n
    )
    2
    ,...,(X
    1
    , X
    2
    ,..., X
    n
    )
    l
    Принятие решение о том, что ОА не изменил своего состояния, сводится к проверке одной из гипотез об однородности данных, имеющих вид:
    H
    o
    : F
    1
    (X
    1
    )=F
    2
    (X
    2
    )=...=F
    l
    (X
    l
    );
    H
    o
    : a
    1
    =a
    2
    =...=a
    l
    ;
    H
    o
    : 
    1
    2
    = 
    2
    2
    =...= 
    l
    2
    .
    В случае отрицательного результата можно с заданным уровнем значи- мости утверждать, что состояние ОА не изменилось. Частный случай этой гипоте- зы при l=2 позволяет осуществить проверку аномальности одного или нескольких резко выделяющихся наблюдений.
    3.3. Гипотезы о числовых значениях параметров исследуемой гене-
    ральной совокупности. Предположим, что в результате длительных наблюде- ний установлено среднее значение какого-то признака x, например, среднее число сообщений в сети a. Значимое отклонение от а означает возможность измене- ния состояния ОА. Для обнаружения этого изменения по наблюдениям
    X
    1,
    X
    2
    ,..., X
    n
    осуществляется проверка статистической значимости гипотезы
    Ho: E{
    ^
    x}=a.
    Аналогично может проверяться значимость других предположений, напри- мер,
    H
    o
    :
    ^
    r{
    ^
    x
    1
    ,
    ^
    x
    2
    }=0,
    где
    ^
    r{
    ^
    x
    1
    ,
    ^
    x
    2
    } - выборочный коэффициент корреляции, построенный по двумерным наблюдениям X
    i
    =(X
    1
    , X
    2
    )
    i
    , i=1,...,n.
    К этому же классу задач относятся задачи проверки гипотез о параметри- ческой стационарности и независимости рядов наблюдений.
    3.4. Гипотезы о типе зависимости между компонентами исследуемого
    разведывательного признака.
    С точки зрения задач управления большой интерес представляет характер зависимости между наблюдениями и параметрами состояния ОА или между раз- личными признаками. Например, необходимо установить, как зависит среднее число самолетов в воздухе от интенсивности трафика авиационной радиосети связи. При этом проверяется гипотеза о виде этой зависимости, например,

    101
    H
    o
    : E{x
    2
    ¦ x
    1
    }=x
    2
    =b
    0
    +b
    1
    x
    1
    ,
    где b
    0
    , b
    1
    - параметры модели.
    Соответствующие статистические критерии называются критериями адек- ватности.
    Заключение
    1.
    Процедура обоснованного сопоставления предположительного утверждения (гипотезы) относительно природы или величины неизвестных параметров анализируемой системы с имеющимися в распоряжении результатами наблюдений осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез.
    2. По своему прикладному содержанию высказываемые в ходе статистиче- ской обработки данных гипотезы подразделяют на следующие типы: об общем виде закона распределения исследуемой случайной величины; об однородности двух или нескольких обрабатываемых выборок; о числовых значениях параметров исследуемой генеральной совокупности; об общем виде зависимости, существующей между компонентами иссле- дуемого многомерного признака; о независимости и стационарности ряда наблюдений.
    3. Все статистические критерии строятся по общей логической схеме. По- строить статистический критерий - это значит: а) определить тип проверяемой гипотезы; б) предложить и обосновать конкретный вид функции от результатов на- блюдения (критической статистики θ
    (n)
    , на основании значений которой прини- мается окончательное решение; в) указать такой способ выделения из области возможных значений крити- ческой статистики θ
    (n)
    области Г
    n
    (H
    1
    ) отклонения проверяемой гипотезы Н
    o
    , чтобы было соблюдено требование к величине ошибочного отклонения гипотезы
    Н 4o 0 (т.е. к уровню значимости критерия ).
    4. "Качество" статистического критерия характеризуется уровнем значимо- сти , мощностью 1- , свойствами несмещенности и состоятельности. В состоя- тельных критериях можно добиваться сколько угодно малых величин ошибок пер- вого и второго рода ( и 7b 0) лишь за счет увеличения объема выборки n, на ос- новании которой принимается решение.
    При фиксированном объеме выборки можно делать сколь угодно малой лишь одну из ошибок (  или ), что сопряжено с неизбежным увеличением дру- гой.
    Вопросы для самопроверки:
    1. Перечислите основные типы гипотез, проверяемых в ходе статистиче- ской обработки измерений;
    2. В чем сущность гипотезы согласия? Гипотезы об однородности выборок наблюдений? Гипотезы о числовых значениях параметров исследуемой гене- ральной совокупности? Гипотезы о типе зависимости между компонентами ис- следуемого признака?
    3. Что определяют уровень значимости и мощность статистических крите- риев?
    4. Сформулируйте критерии проверки гипотез о параметрической стацио- нарности и независимости рядов наблюдений.
    5. Разработайте последовательность проверки гипотезы о равенстве сред-

    102 них H
    o
    : E{X
    1 0}=E{X
    2
    } для альтернатив H
    1
    : E{X
    1
    }>E{X
    2
    } и H
    1
    : E{X
    1
    }2
    }.
    6. Как соотносятся уровень значимости критерия равенства средних  и значение табулированной t-статистики?
    7. В чем состоит содержание гипотезы согласия?
    8. В чем состоит содержание гипотезы об однородности выборок наблю- дений?
    9. В чем состоит содержание гипотезы о числовых значениях параметров исследуемой генеральной совокупности?
    10. В чем состоит содержание гипотезы о типе зависимости между компо- нентами исследуемого признака?

    103
    ЛЕКЦИЯ 11
    РЕГРЕССИОННЫЙ АНАЛИЗ И МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
    Вопросы:
    1. Постановка задачи;
    2.Простейшая модель линейной регрессии;
    3. Линейная регрессия с несколькими переменными: Матричная форма
    1. Общая постановка задачи восстановления зависимостей на основе
    метода наименьших квадратов. Предположим, что между двумя взаимосвя- занными переменными которыми существует неизвестная исследователю не- прерывная зависимость вида
    0
    C
    )
    a
    ,
    X
    (
    f
    Y


    ,
    Которую необходимо определить по результатам совокупности наблюде- ний n
    ,...,
    1
    i
    },
    v
    Y
    Z
    ,
    X
    {
    i i
    i i



    Здесь a – вектор параметров искомой зависимости, n
    ,...,
    1
    i
    },
    v
    {
    i

    - вектор погрешностей измерений,
    0
    C
    - класс непрерывных функций.
    В частности, если независимая переменная представляет собой время, то имеем задачу определения движения
    )
    a
    ,
    T
    (
    f
    Y 
    Предположим, что с помощью какого-то метода удалось восстановить эту зависимость, т.е. получить ее оценку
    )

    ,
    X
    (

    Y
    ˆ 
    Найденную зависимость можно рассматривать, как модель исходной взаи- мосвязи. Естественно, желательно получить такую оценку, для которой априори выбранная метрика рассогласования между ней и исходной зависимостью была бы минимальной, т.е. min
    )}

    ,
    X
    (

    ),
    a
    ,
    X
    (
    f
    {
    )
    Y
    ˆ
    ,
    Y
    (




    Однако, поскольку истинные значения зависимости неизвестны, вместо них используются значения наблюдаемых измерений min
    )}

    ,
    X
    (

    ,
    Z
    {
    )
    Y
    ˆ
    ,
    Z
    (




    Если в качестве метрики рассогласования выбрать сумму квадратов раз- ностей между наблюдениями и значениями модели, то получим метод наи-
    меньших квадратов (МНК): min
    )
    Y
    ˆ
    Z
    (
    :
    )

    ,
    X
    (

    n
    1
    i
    2
    i i




    МНК был независимо разработан французским математиком Лежандром и немецким математиком К.Ф. Гауссом. Впервые Гаусс использовал МНК в 1799г. для определения движения астероида. Термин «регрессия» введен Френсисом
    Гальтоном для объяснения одного биологического процесса. Отсюда задача вос- становления зависимостей по результатам наблюдений получила наименование регрессионного анализа.

    104
    Заметим, что выбор иной меры подобия приведет к другим вычислитель- ным методам. Так, например, если в качестве меры подобия использовать сумму модулей min
    |
    Y
    ˆ
    Z
    \
    :
    )

    ,
    X
    (

    n
    1
    i i
    i




    то получим метод наименьших модулей.
    Задача оценки зависимости (или задача построения математической мо- дели зависимости) при выбранном критерии близости обычно решается итера- ционно в два этапа (рис. 1).
    На первом этапе, исходя из общих представлений выбирается структура мо- дели. Например, если процесс носит сезон- ный характер, то в качестве структуры вы- бирают синусоидальную функцию или ряд
    Фурье
    При наличии апериодических про- цессов часто используют полиномиальные ряды и т.п.
    Заметим, что полиномиальные ряды обладают очень высоким уровнем общности. В частности, в соответствии с аппроксимационной теоремой Вейер-
    штрасса для любой непрерывной функции
    0
    C
    )
    x
    (
    f

    на
    ]
    b
    ,
    a
    [
    x 
    отрезке можно подобрать последовательность многочленов
    n
    P
    , равномерно сходящихся к этой функции на отрезке, т.е.
    )
    x
    (
    f
    )
    x
    (
    P
    n n

     



    На втором этапе осуществляется оптимизационная оценка вектора пара- метров модели a в соответствии с выбранным критерием подобия. В частности, при использовании МНК, искомый вектор параметров определяется из условия min
    ))

    ,
    X
    (

    Z
    (
    :

    n
    1
    i
    2
    i i




    В случае, если и для оптимальных по выбранному критерию значений па- раметров найденная модель не удовлетворяет пользователя, осуществляется повторный выбор структуры модели и реализуется новая итерация.
    В отношении погрешностей (или шумов) наблюдений n
    ,...,
    1
    i
    },
    v
    {
    i

    обыч- но вводятся дополнительные ограничения:
    1. Шумы наблюдений образуют независимую случайную последователь- ность
    ;
    j i
    ,
    n
    ,...,
    1
    j
    ,
    i
    ,
    0
    }
    v
    ,
    v cov{
    j i




    2. Наблюдения являются несмещенными, т.е. n
    ,...,
    1
    i
    ,
    Y
    }
    Z
    {
    E
    i i



    ;
    3. Независимые переменные не являются случайными величинами, т.е. n
    ,...,
    1
    i
    ,
    0
    }
    v
    ,
    X
    cov{
    i i



    ;
    4. Для ряда наблюдений выполняется условие гомоскедастичности, т.е.

    }
    v
    ,
    v cov{
    i i
    n
    ,...,
    1
    i
    ,
    }
    Z
    {
    2
    i
    2





    Выбор структуры модели
    Оценка параметров модели
    Проверка качества модели
    Рис. 1. Этапы решения задачи восстановления зависимости
    )
    X
    w cos(
    b
    )
    X
    w sin(
    a
    (
    2
    c
    Y
    n
    1
    i i
    i i
    i
    0





    i n
    1
    i i
    0
    n x
    a a
    )
    a
    ,
    X
    (
    P
    )
    a
    ,
    X
    (
    Y






    105
    Во многих практических случаях в качестве дополнительного предположе- ния используется гипотеза о гауссовском распределении погрешностей измере- ний, т.е.
    }.
    ,
    0
    {
    N
    v
    2


    В соответствие с теоремой Гаусса, выполнение перечисленных ограниче- ний делает оценки по МНК наилучшими в классе всех линейных оценок.
    2. Простейшая модель линейной регрессии. В рамках перечисленных выше ограничений рассмотрим простейший вариант задачи линейной регрессии с моделью наблюдений вида n
    ,...,
    1
    i
    ,
    v
    X
    a a
    Z
    i i
    1 0
    i




    В соответствии с МНК ищем оценки параметров
    ,
    ˆ
    ,
    ˆ
    1
    0
    a
    a
    , минимизирующих величину
    S =



    n
    1
    i
    2
    i v




    n
    1
    i
    2
    i i
    )
    Y
    ˆ
    Z
    (


    n
    i 1 2
    i
    1 0
    i
    )
    X


    Z
    (


    Находим экстремум.
    0
    )
    X


    Z
    (
    X
    2

    S
    i
    1 0
    i i
    n
    1
    i
    1









    После приведения подобных членов получаем систему нормальных урав- нений:




    i
    1 0
    i
    X


    n
    Z
    ;
    X

    X

    Z
    X
    2
    i
    1
    i
    0
    i i





    В матричной форме имеем
    Z
    X
    Z


    X
    X
    X
    n i
    i i
    1 0
    2
    i i
    i

























    Соответствующее решение имеет вид:

























    XZ
    Y
    X
    X
    X
    n aˆ

    1 2
    1 0
    . (1)
    Заметим, что










    1 2
    X
    X
    X
    n
    2 2
    )
    X
    (
    X
    n
    1



    ,
    n
    X
    X
    X
    2











    отсюда







    1 0


    2 2
    )
    X
    (
    X
    n
    1














    n
    X
    X
    X
    2
    XZ
    Z








    Следовательно,
    ;
    0
    )
    X


    Z
    (
    2

    S
    i
    1 0
    i n
    1
    i
    0










    106
    ;
    )
    X
    (
    X
    n
    XZ
    X
    Z
    X

    2 2
    2 0


     





    )
    X
    (
    X
    n
    XZ
    X
    XZ
    n aˆ
    2 2
    1








    (2)
    Введя соотношения центрирования:
    2 2
    )
    X
    X
    (
    x




    )
    Z
    Z
    )(
    X
    X
    (
    xz





    , где






    n
    1
    i i
    n
    1
    i i
    Z
    n
    1
    Z
    ,
    X
    n
    1
    X
    - выборочные средние, можно привести последние соотношения к виду:
    2 1
    x xz aˆ



    , (3)
    X

    Z

    1 0


    . (4)
    3. Линейная регрессия с несколькими переменными: Матричная фор-
    ма
    Модель регрессии допускает обобщение на случай m независимых пере- менных: i
    Z = a
    0
    +a
    1
    X
    1i
    +a
    2
    X
    2i
    +…+a m
    X
    1m
    + v i
    , i=1,…,n.
    В случае одного единственного наблюдения (подобные ситуации часто бывают в экономике), последнее выражения сводится к виду i
    Z = a
    0
    +a
    1
    X
    1i
    +a
    2
    X
    2i
    +…+a
    m
    X
    mi
    + v
    i
    , i=1,…,n.
    Соответственно,
    E{
    i
    Y }= =a
    0
    +a
    1
    X
    1i
    +a
    2
    X
    2i
    +…+a m
    X
    mi
    , i=1,…,n.
    ]
    ];

    ...,
    ,

    ,

    [
    '

    m
    1 0

    X=












    mn n
    1 2
    m
    21 1
    m
    11
    X
    X
    1
    X
    X
    1
    X
    X
    1
    В соответствии с МНК будем минимизировать сумму квадратов ошибок
    S =




    n
    1
    i
    2
    i
    )

    X
    Z
    (
    )'

    X
    Z
    (
    '





    Раскроем скобки полученной квадратической формы




    n
    1
    i
    2
    i





    X
    '
    X

    Z
    '
    X
    '


    X
    '
    Z
    Z
    '
    Z

    X
    '
    X

    Z
    '
    X
    '

    2
    Z
    '
    Z


    Для минимизации найденного выражения приравняем нулю первые про- изводные






    n
    1
    i
    2
    i aˆ
    0

    X
    '
    X
    2
    Y
    '
    X
    2



    . (33)

    107
    Тогда aˆ
    X
    '
    X
    Y
    '
    X


    Y
    '
    X
    )
    X
    '
    X
    (

    1


    Вопросы для самопроверки:
    1. В чем состоит МНК?
    2. Какие метрики могут использоваться для построения альтернатив к МНК?
    3. Опишите общую схему восстановления зависимости между двумя переменны- ми.
    4. Назовите основные этапы решения задачи восстановления зависимости.
    5. Каким образом формируется непараметрическая структура зависимости?
    6. Что называется линейной регрессией?
    7. Как описывается линейная регрессия с несколькими переменными в скалярной форме?
    8. Приведите матричную форму линейной регрессии с несколькими переменными.
    9. Приведите матричной выражение для оценки коэффициентов линейной регрес- сии.
    10. Кто являются авторами МНК?
    11. Назовите свойства оценок по МНК.
    12. Сформулируйте аппроксимационную теорему Вейерштрасса.
    13. Сформулируйте условие гетероскедастичности.

    108
    ЛЕКЦИЯ 12
    ОСНОВЫ ТЕОРИИ КЛАССИФИКАЦИИ
    И РАСПОЗНАВАНИЯ ОБРАЗОВ
    1. Классификация. Формализованная постановка.
    Исторически первыми в рамках работ по созданию искусственного интел- лекта стали методы классификации, получившие название «распознавания обра- зов» (Pattern Recognition).
    1   ...   10   11   12   13   14   15   16   17   ...   23


    написать администратору сайта