Главная страница
Навигация по странице:

  • 9.1 Первичная статистическая обработка одномерных эмпирических данных

  • 9.2 Первичная статистическая обработка многомерных эмпирических данных.

  • 9.3 Основы построения и оценки регрессионных моделей (регрессионный анализ).

  • Лекция Вероятностностатистические модели сложных систем


    Скачать 351.76 Kb.
    НазваниеЛекция Вероятностностатистические модели сложных систем
    Дата17.02.2019
    Размер351.76 Kb.
    Формат файлаpdf
    Имя файлаL09.pdf
    ТипЛекция
    #67944


    Лекция 9. Вероятностно-статистические модели сложных систем
    .
    Так как экосистемы представляют собой объекты, которые, во-первых, на- блюдаются (контролируются) в основном через нечеткие каналы, и, во-вторых, для них характерны механизмы функционирования, которые носят недетермини- рованный характер, то их математический анализ и моделирование часто должны базироваться на использовании вероятностно-статистических подходов.
    В настоящее время разработано достаточно много вероятностно- статистических методов обработки данных и построения соответствующих моде- лей. Выбор того или иного метода определяется характером решаемой задачи. Вы- делим множество основных задач, к решению которых сводится обработка эмпи- рических данных.
    1.Установление наличия зависимости между наблюдаемыми переменными объекта исследования.
    Здесь количественно оценивается степень взаимного влияния изменчивости одной переменной на изменчивость другой (парная корреляция) или в общем слу- чае оценка влияния изменчивости множества переменных на изменчивость иссле- дуемой переменной (множественная корреляция).
    2. Построение модели и экстраполяция.
    Это вывод уравнения или нескольких уравнений, объясняющих изменчивость исследуемой переменной и характеризующих некоторые инварианты объекта.
    3. Классификация и группировка.
    Это задача распределения объектов по группам. При этом классификация с использованием априорных сведений называется обучением с учителем, а без них - обучением без учителя.
    Кластер анализ рассматривается как «обучение без учителя». Дискриминант- ный анализ, в котором группы устанавливаются заранее, и требуется найти разде- ляющую гиперповерхность между группами, является «классификацией с учите- лем».
    F:\Пособия\Лекция09.rtf

    4. Описание временной динамики переменных.
    Здесь выявляются закономерности изменения значений переменных объекта во времени. Может использоваться как одномерный случай (одна переменная) так и многомерный случай (несколько переменных). Выявляются временные тренды, спектр, автокорреляции и так далее.
    Указанные задачи охватывают основной круг проблем, с которыми сталкива- ется исследователь при проведении обработки эмпирических данных.
    9.1 Первичная статистическая обработка одномерных эмпирических данных.
    Прежде всего, должен быть реализован целый ряд процедур, позволяющих оценить основные первичные вероятностно-статистические свойства отдельных исследуемых переменных. При этом исследуемые переменные должны рассматри- ваться как случайные непрерывные величины, имеющие дискретное представле- ние. Здесь исходными являются понятие вероятности и случайной величины.
    Вероятностью Р(А) события А называется численная мера степени объектив- ной возможности появления этого события. Р(А) равна отношению числа случаев, благоприятствующих событию А, к общему числу случаев. ( 0 =<Р(А)<=1).
    Под случайной величиной X понимается переменная, которая в результате испытания в зависимости от случая принимает одно из возможных своих значе- ний. Если множество значений величины Х непрерывно имеем непрерывную слу- чайную величину, если дискретно, то дискретную.
    Закон распределения и его числовые характеристики.
    Вероятностные свойства переменных, рассматриваемых как случайные вели- чины, полностью определяются законом распределения. Закон распределения это фундаментальное понятие, лежащее в основе всех вероятностно-статистических методов обработки данных.
    Наиболее общей формой закона распределения случайной величины явля- ется так называемая функция распределения.
    X
    Функцией распределения, или интегральным законом распределения, случай- ной величины называется задание вероятности выполнения неравенства
    , рассматриваемой как функция аргумента :
    X
    x
    X
    <
    x

    1
    )
    (
    )
    (
    0
    =<
    <
    =
    <=
    x
    X
    x
    P
    F
    Функция распределения полностью характеризует случайную величину с ве- роятностной точки зрения, это значит, что она является одной из форм закона рас- пределения.
    При этом каждая функция распределения является неотрицательной неубы- вающей функцией, удовлетворяющей условиям
    1
    )
    (
    и
    0
    )
    (
    =
    +∞
    =
    −∞
    F
    F
    Более наглядное представление о характере распределения случайной величи- ны дается функцией называемой плотностью распределения:
    dx
    x
    dF
    x
    f
    )
    (
    )
    (
    =
    Смысл плотности распределения состоит в том, что она указывает на то, как часто появляется случайная величина в некоторой окрестности точки при повторении наблюдений.
    )
    (x
    f
    X
    x
    Из закона распределения следуют некоторые числовые характеристики, оп- ределяющие особенности функции распределения и ее плотности.
    Математическое ожидание .
    Математическое ожидание является характеристикой положения. Оно теоре- тически определяется:

    +∞


    =
    =
    dx
    x
    xf
    X
    M
    m
    x
    )
    (
    ]
    [
    Дисперсия и среднеквадратическое отклонение
    Теоретически дисперсия и среднеквадратичное отклонение определяются сле- дующим образом: и
    ∫ −
    +∞


    =
    =
    dx
    x
    f
    x
    X
    D
    m
    x
    D
    x
    )
    (
    (
    ]
    [
    )
    2
    D
    x
    x
    =
    σ
    . Это меры изменчиво- сти случайных величин.
    Моменты случайной величины.
    В рассмотрение вводятся характеристики называемые начальными и цен- тральными моментами порядка :
    k
    и
    dx
    x
    f
    x
    k
    k
    )
    (

    +∞


    =
    α
    dx
    x
    f
    x
    m
    x
    k
    k
    )
    (
    )
    (
    ∫ −
    +∞


    =
    µ
    При =2 центральный момент представляет собой дисперсию, а при =3 и
    =4 имеем так называемые асимметрию (скошенность)
    k
    k
    k
    σ
    µ
    3 3
    x
    x
    a
    =
    и эксцесс
    (островершинность)
    3 4
    4

    =
    σ
    µ
    x
    x
    c
    Квантили распределения.
    Квантилями распределения уровня называются корень уравнения:
    p
    p
    x
    F
    =
    )
    (
    При =0.5 имеем медиану при =0.75 и =0.25 соответственно верхний и нижний квартиль.
    p
    p
    p
    Таким образом, все числовые характеристики являются следствием закона распределения (приведенные формулы естественно имеют дискретные варианты).
    Теоретически известно довольно много законов распределения, но центральное место среди них занимает нормальный закон. Функция распределения и плотность распределения нормального закона имеют вид:
    dx
    mx
    x
    x
    F
    e
    x
    x
    )
    (
    2 1
    )
    (
    2
    x
    2 2
    σ
    π
    σ

    =




    ;
    e
    mx
    x
    x
    f
    x
    )
    (
    2 1
    )
    (
    2
    x
    2 2
    σ
    π
    σ

    =
    Нормальность случайных величин часто одно из необходимых условий (ог- раничений) для применения многих вероятностно-статистических методов.
    Статистические оценки числовых характеристик закона распределения
    В основе статистического анализа лежит представление о генеральной и вы- борочной совокупности значений случайной величины. Под генеральной совокуп- ностью понимается гипотетическое потенциально возможное множество состоя- ний некоторой переменной, рассматриваемой как случайная величина. Выборка это некоторое подмножество генерального множества состояний, полученное в ре- зультате наблюдения.

    Практически мы можем оценивать закон распределения и его характеристики только на основе выборочной совокупности. При этом, чем ближе объем выборки к объему генеральной совокупности, тем обоснованнее статистическое суждение о свойствах генеральной совокупности.
    На основе выборки объема n для каждой исследуемой переменной вычисля- ются следующие статистические аналоги числовых характеристик закона распре- деления:
    n
    n
    m
    n
    i
    i
    x

    =
    =
    1
    )
    (
    - выборочное среднее (характеристика положения);
    (
    )
    1
    )
    (
    1 2
    2
    )
    (

    =
    ∑ −
    =
    n
    i
    n
    n
    i
    n
    m
    x
    S
    - выборочная дисперсия (характеристика среднего квадрата отклонения от среднего);
    S
    n
    2
    )
    (
    =
    σ
    - выборочное среднеквадратическое отклонение; m(n)
    (n)
    )
    (
    σ
    =
    n
    v
    - коэффициент вариации (характеристика относительной вариатив- ности переменной).
    Здесь n объём выборки, а
    i
    - ое значение полученное при наблюдении неко- торой переменной. Это основные статистические характеристики (параметриче- ские инварианты) исследуемых переменных.
    x
    i
    Доверительные интервалы статистических оценок числовых характеристик распределения.
    Получаемые по выборочным наблюдениям статистические оценки сами должны рассматриваться как случайные величины. Поэтому, введенные выше то- чечные оценки выборочное среднее, выборочная дисперсия и так далее не дают полного представления о их надежности, то есть о том, насколько точно они пред- ставляют генеральную совокупность.
    Для решения этой проблемы вводится понятие доверительных интервалов статистических оценок. Доверительным интервалом генеральной статистической оценки называется интервал значений, в котором она находится с заданной веро- ятностью.

    Рассмотрим задачу построения доверительного интервала для среднего. Пусть имеем
    - выборочная средняя и
    - выборочная дисперсия. Согласно цен- тральной предельной теореме выборочное среднее случайная величина с нормаль- ным законом распределения с характеристиками и
    )
    (n
    m
    )
    (
    2
    n
    S
    m


    n
    S

    2
    . Тогда имеем для задан- ного уровня доверия и при условии нормальности следующее выражение:
    β
    )
    2
    (
    )

    (
    σ
    ε
    β
    m
    Φ
    =
    <

    Ρ
    )
    (n
    m
    )
    (
    ε
    β
    n
    m
    Значение
    )
    (
    2 1
    )
    (
    β
    σ
    ε
    β
    Φ

    =
    n
    m
    , где
    Φ
    - обратная функция Лапласа, а ве- личина
    )
    (
    1
    β

    σ
    )
    (n
    m

    n
    n
    S
    )
    (
    2
    ε
    β
    ±
    )
    (n
    m
    . Следовательно генеральное среднее с уровнем доверия находится в интервале
    β
    9.2 Первичная статистическая обработка многомерных эмпирических данных.
    При эмпирическом анализе процессов в экосистемах приходится иметь дело не с отдельными переменными, а с их совокупностями. Следовательно, следую- щим важным шагом является переход от статистического анализа отдельных пере- менных к анализу системы переменных с целью выявления наличия статистиче- ских зависимостей между переменными. Здесь должен быть реализован целый ряд процедур, позволяющих оценить основные первичные вероятностно- статистические свойства системы исследуемых переменных, рассматриваемых как случайные величины.
    Многомерный закон распределения и его числовые характеристики.
    Совместное рассмотрение нескольких случайных величин приводит к системе случайных величин. С вероятностной точки зрения система случайных величин полностью описывается совместным законом распределения. Рассмотрим закон распределения двух случайных величин. Этот случай легко обобщается на систе- му, состоящую из N переменных.

    Функцией распределения системы двух случайных величин называется функ- ция двух аргументов
    , равная вероятности совместного выполнения двух неравенств то есть:
    )
    ,
    ( y
    x
    F
    y
    Y
    и
    <
    < x
    X
    =
    )
    ,
    ( y
    x
    F
    )
    ,
    (
    y
    Y
    x
    X
    P
    <
    <
    Основные свойства
    )
    ,
    ( y
    x
    F
    1.)
    ; 2.)
    )
    (
    )
    ,
    (
    1
    x
    x
    F
    F
    =
    +∞
    1
    )
    ,
    (
    =
    +∞
    +∞
    F
    3.)
    )
    (
    )
    ,
    (
    2
    y
    y
    F
    F
    =
    +∞
    0
    )
    ,
    (
    )
    ,
    (
    =
    −∞
    =
    −∞
    y
    x
    F
    F
    4.) x
    x
    1 2
    1 2
    если
    ),
    ,
    (
    )
    ,
    (
    >
    >=
    y
    y
    x
    F
    x
    F
    y y
    1 2
    1 2
    если
    ),
    ,
    (
    ,
    (
    >
    >=
    y
    F
    y
    F
    x
    x
    Для системы случайных величин вводится также плотность распределения:
    y
    x
    y
    x
    y
    x
    f
    F



    =
    )
    ,
    (
    )
    ,
    (
    2
    и
    ∫ ∫




    =
    x
    y
    dxdy
    y
    x
    f
    y
    x
    F
    )
    ,
    (
    )
    ,
    (
    Основные свойства
    )
    ,
    ( y
    x
    f
    1.)
    >=0 2.)
    )
    ,
    ( y
    x
    f
    1
    )
    ,
    (
    =
    ∫ ∫






    dxdy
    y
    x
    f
    Определение плотности распределения для каждой переменной, входящей в систему:




    =
    dy
    y
    x
    f
    x
    f
    )
    ,
    (
    )
    (
    1




    =
    dx
    y
    x
    f
    y
    f
    )
    ,
    (
    )
    (
    2
    Для системы случайных величин вводится понятие условных законов распре- деления.
    Распределение одной случайной величины, входящей в систему, найденное при условии, что другая случайная величина, входящая в систему, приняла опре- деленное значение, называется условным законом распределения. Для условного закона распределения имеем теорему умножения законов распределения:
    )
    (
    )
    (
    )
    (
    )
    (
    )
    ,
    (
    2 1
    y
    x
    y
    x
    y
    x
    y
    x
    f
    f
    f
    f
    f
    =
    =
    или





    =
    dx
    y
    x
    f
    y
    x
    f
    y
    x
    f
    )
    ,
    (
    )
    ,
    (
    )
    (




    =
    dy
    y
    x
    f
    y
    x
    f
    x
    y
    f
    )
    ,
    (
    )
    ,
    (
    )
    (
    Для краткого описания условных законов распределения могут использовать- ся различные числовые характеристики, аналогичные тем, которые применяются для одномерных распределений (см. выше).
    Наиболее важной характеристикой является условное математическое ожида- ние:
    dy
    x
    y
    yf
    x
    X
    Y
    M
    )
    (
    ]
    [




    =
    =
    dx
    y
    x
    xf
    y
    Y
    X
    M
    )
    (
    ]
    [




    =
    =
    Подобным образом вводятся условные дисперсии и условные моменты более высоких порядков.
    Видно, что с изменением будет меняться
    y
    ]
    [
    y
    Y
    X
    M
    =
    . Это значит, что можно рассматривать функцию
    =
    )
    y
    (
    m
    x
    ]
    [
    y
    Y
    X
    M
    =
    , которая называется регрессией по
    . Аналогично можно ввести регрессию
    Y
    по .
    X
    Y
    X
    Числовые характеристики системы случайных величин (ковариации и корре- ляции)
    Совместный закон распределения системы случайных величин дает исчерпы- вающую информацию, но часто нет возможности практически получить его.
    Поэтому, в основном используются соответствующие числовые характери- стики, в основу получения которых положено понятие моментов (см. выше).
    Водятся начальные моменты порядка системы
    :
    s
    k
    +
    )
    ,
    (
    Y
    X
    a
    dxdy
    y
    x
    f
    y
    x
    s
    k
    s
    k
    )
    ,
    (
    ,
    ∫ ∫






    =
    На практике используются начальные моменты первого порядка:

    m
    a
    x
    =
    0
    ,
    1
    и
    , которые представляют собой математические ожидания случайных величин входящих в систему.
    m
    a
    y
    =
    1
    ,
    0
    Водятся центральные моменты порядка системы
    (
    :
    s
    k
    +
    )
    ,Y
    X
    dxdy
    y
    x
    f
    y
    x
    m
    y
    m
    x
    s
    k
    s
    k
    )
    ,
    (
    )
    (
    )
    (
    ,
    ∫ ∫








    =
    µ
    На практике наибольшее применение имеют центральные моменты второго порядка.
    Моменты и представляют собой дисперсии ве- личин и
    Y
    D
    x
    =
    µ
    0
    ,
    2
    D
    y
    =
    µ
    2
    ,
    0
    X
    Особую роль при исследовании системы случайных величин играет второй смешанный центральный момент
    , который называется корреляционным мо- ментом (ковариацией). Он обычно обозначается:
    µ
    1
    ,
    1
    k
    dxdy
    y
    x
    f
    y
    x
    m
    m
    y
    x
    y
    x
    )
    ,
    (
    )
    )(
    (
    1
    ,
    1
    ,


    =
    =
    ∫ ∫






    µ
    Этот момент, определяемый как математическое ожидание произведения от- клонений двух случайных величин от их математических ожиданий, характеризу- ет взаимное влияние этих случайных величин. Для оценки степени этого влияния используют коэффициент корреляции случайных величин и
    Y
    :
    X
    σ
    σ
    y
    x
    y
    x
    y
    x
    k
    ,
    ,
    =
    r
    Если случайные величины и независимы, корреляционный момент и ко- эффициент корреляции равны нулю. В общем случае равенство нулю коэффициен- та корреляции является необходимым, но не достаточным условием независимости случайных величин.
    X
    Y
    Если имеется система, состоящая из случайных величин, можно ввести матрицу корреляционных моментов (ковариационную матрицу):
    l












    σ
    σ
    σ
    2 2
    ,
    1
    ,
    ,
    2 2
    2 1
    ,
    2
    ,
    1 2
    ,
    1 2
    1
    l
    l
    l
    l
    l
    k
    k
    k
    k
    k
    k

    Из определения корреляционного момента следует
    , поэтому имеет место треугольная матрица. Если случайные величины некоррелированы, то имеет место диагональная матрица, элементами которой являются соответствующие дис- персии случайных величин.
    k
    k
    i
    j
    j
    i
    ,
    ,
    =
    Если перейти от корреляционных моментов к коэффициентам корреляции, то получается корреляционная матрица:










    1 1
    1
    ,
    2
    ,
    1 2
    ,
    1
    r
    r
    r
    l
    l
    Корреляционная матрица одна из важнейших характеристик, описывающих систему случайных величин. На основе корреляционной матрицы можно получить значение множественного коэффициента корреляции
    , характеризующего ста- тистическую зависимость некоторой переменной от остальных переменных.
    R
    Нормальное распределение системы случайных величин.
    Так же как в одномерном случае важнейшим законом распределения является нормальный многомерный закон распределения. Для которого справедливо сле- дующее положение: если нормально распределенные случайные величины некор- релированы, то они независимы. Кроме того, показано, что для нормально распре- деленных случайных величин уравнения регрессии имеют вид:
    )
    (
    ,
    m
    r
    m
    x
    x
    y
    y
    x
    y
    x
    y

    +
    =
    σ
    σ
    ,
    )
    (
    ,
    m
    r
    m
    y
    y
    x
    y
    x
    x
    y
    x

    +
    =
    σ
    σ
    Приведенные выше теоретические положения определяют условия примени- мости коэффициента корреляции как показателя, позволяющего оценивать тесно- ту связи исследуемых переменных.
    Для корректного использования данного показателя необходимо, чтобы рас- сматриваемые переменные представляли собой систему случайных величин, имеющих нормальный совместный закон распределения. Тогда величина парного и множественного коэффициента корреляции может трактоваться как показатель, характеризующий уровень статистической линейной зависимости случайных ве- личин. Для парного коэффициента корреляции имеем:

    -1 =<
    σ
    σ
    y
    x
    y
    x
    y
    x
    k
    r
    ,
    ,
    =
    =< 1
    При
    =1 переменные связаны прямой линейной зависимостью – при
    =-1 обратной линейной зависимостью. Множественный коэффициент корреляции
    (0- линейная зависимость отсутствует; 1- имеет место функциональная линейная зависимость).
    r
    y
    x,
    1
    r
    y
    x,
    0
    <=
    <=
    R
    Статистические оценки числовых характеристик системы случайных величин.
    При статистическом исследовании по данным, получаемым в результате на- блюдения, часто бывает необходимо оценить числовые характеристики исследуе- мой системы переменных, рассматриваемых как случайные величины. Задача в принципе решается также как и в одномерном варианте.
    Рассмотрим двухмерный случай. Пусть над системой случайных величин произведено в одинаковых условиях независимых опытов. Результаты опытов представлены:
    . Требуется путем обработки опытных данных найти выборочные (приближенные) значения основных числовых характеристик данной системы случайных величин.
    )
    ,
    (
    Y
    X
    n
    ,
    x
    n
    )
    (
    ),........
    ,
    (
    ),
    ,
    (
    2 2
    1 1
    y
    y
    x
    y
    x
    n
    Оценки этих характеристик, отвечающих требованиях состоятельности, эф- фективности и несмещенности, имеют вид:
    n
    n
    n
    i
    i
    x
    x
    m

    =
    =
    1
    )
    (
    ∑ −
    =

    =
    n
    i
    x
    n
    m
    x
    D
    x
    i
    n
    n
    1 2
    ))
    (
    (
    1 1
    )
    (
    n
    n
    n
    i
    i
    y
    y
    m

    =
    =
    1
    )
    (
    ∑ −
    =

    =
    n
    i
    y
    n
    m
    y
    D
    y
    i
    n
    n
    1 2
    ))
    (
    (
    1 1
    )
    (
    ))
    (
    ))(
    (
    (
    1 1
    )
    (
    1
    ,
    n
    n
    n
    n
    m
    y
    m
    x
    k
    y
    i
    x
    n
    i
    i
    y
    x



    =

    =
    ,
    )
    (
    )
    (
    )
    (
    )
    (
    ,
    ,
    n
    n
    n
    n
    D
    D
    k
    r
    y
    x
    y
    x
    y
    x
    =
    Оценка статистической значимости коэффициента корреляции.
    Полученный в результате наблюдения коэффициент корреляции представляет собой выборочную оценку генерального коэффициента корреляции. Для выбороч-
    ного коэффициента необходимо оценить его статистическую надежность. Для вы- борки объёма >100 и <100 среднеквадратичное отклонение выборочного коэф- фициента корреляции соответственно равно:
    n
    n
    1 1
    )
    (
    2


    =
    n
    n
    r
    r
    σ
    ,
    2 1
    )
    (
    2


    =
    n
    n
    r
    r
    σ
    Проверка значимости проводится по величине
    )
    (n
    r
    σ
    r
    n
    r
    t
    )
    (
    =
    2

    n
    . Тогда задаваясь уровнем доверия и числом степеней свободы определяем теорети- ческое значение статистики
    t
    . Если
    , то выборочный коэффициент кор- реляции можно считать значимым. Через парные коэффициенты может оценивать- ся и множественный коэффициент корреляции, для которого также существуют процедуры проверки статистической значимости.
    α

    = 1
    P
    =
    ν
    P
    t
    t
    P
    >=
    Квадрат величины коэффициента корреляции является оценкой в долях еди- ницы той части варьирования одного признака, которая линейно связана с варьи- рованием другого признака. Часто величину называют коэффициентом де- терминации. Можно дать некоторую интерпретацию значений коэффициента де- терминации. Если
    >0,75- переменные имеют сильную корреляционную ли- нейную связь, 0,5 <
    <0,75- среднюю связь и
    r
    <0,5 – слабую связь.
    )
    (
    2
    n
    r
    )
    (
    2
    n
    r
    )
    (
    2
    n
    r
    )
    (
    2
    n
    Таким образом, нами рассмотрены основные задачи статистического анализа, позволяющие оценить наличие линейной корреляционной связи между исследуе- мыми переменными. Основным результатом статистического анализа здесь явля- ется получение ковариационной или корреляционной матрицы, которая служит исходным материалом для проведения более глубокого и тонкого статистического анализа.
    9.3 Основы построения и оценки регрессионных моделей (регрессионный
    анализ).

    Построение регрессионных моделей при эмпирическом исследовании являет- ся центральным моментом, обуславливающим его теоретическую и практическую ценность. Рассмотренные выше статистические процедуры, во многом носят под- готовительный характер, определяя условия, в которых может применяться тот или иной вариант построения регрессионных моделей исследуемых явлений.
    Можно выделить три основных типа моделей сложных систем: функциональ- ная модель; модель для управления и модель для предсказания.
    Функциональная модель.
    Если в некоторой задаче известна «истинная» функциональная связь между выходной переменной (откликом) и входными переменными (предикторами), то исследователь в силах понять и предсказать отклик и управлять им. Однако на практике редко встретишь ситуацию, когда можно построить такую модель. Но даже тогда, когда удается получить подобную модель, то использовать её трудно, ибо она отличается сложностью и нелинейностью. Здесь обычно используется ап- парат интегрально-дифференциальных уравнений и некоторые другие сложные аналитические методы, требующие четких каналов наблюдения.
    Модель для управления.
    Функциональная модель, даже если она получена, не всегда пригодна для управления выходной переменной (откликом). Для управления откликом нужна такая модель, которая включает факторы (входные переменные), которые подкон- трольны экспериментатору. Подобную модель можно построить методами множе- ственной регрессии с использованием технологии планирования эксперимента. Но часто имеет место ситуация, когда планирование эксперимента невозможно в этом случае стараются построить предсказывающие модели.
    Модель для предсказания.
    Когда функциональная модель очень сложна и когда возможности для полу- чения независимых оценок эффектов ограничены, часто удается построить линей- ную предсказывающую модель, которая хотя в некотором смысле и нереалистич- на, но, по крайней мере, воспроизводит основные черты поведения изучаемого от- клика (по схеме стимул-реакция). Такая предсказывающая модель весьма полезна
    и при определенных условиях может вести к реальному проникновению в процесс.
    При построении предсказывающих моделей такого типа методы множественной регрессии оказываются наиболее ценными.
    Основные формализмы и методы регрессионного анализа
    В основе построения регрессионных моделей лежит довольно развитая теория
    (Н.Драйпер.,Г.Смит.,1987), позволяющая получать обоснованные варианты моде- лей на базе эффективных вычислительных процедур. Здесь мы приведем только основные идеи и формализмы, обеспечивающие выбор и построение соответст- вующих регрессионных моделей.
    Пусть мы имеем N входных переменных
    }
    {
    x
    x
    x
    x
    x
    N
    i
    ,...,
    ,.,
    ,
    ,
    3 2
    1
    и одну выходную переменную (отклик)
    . В результате измерений получены данные, представ- ляющая собой матрицу:
    x
    0














    =
    x
    x
    x
    x
    x
    x
    x
    x
    x
    d
    L
    N
    N
    N
    L
    L
    ,
    2
    ,
    1
    ,
    ,
    1 2
    ,
    1 1
    ,
    1
    ,
    0 2
    ,
    0 1
    ,
    0
    , где
    - -ое значение -ой переменной.
    x
    l
    n,
    l
    n
    Тогда классическая задача регрессионного анализа состоит в оценивании па- раметров некоторой функции порядка на основе данных представленных матри- цей
    :
    i
    d
    )
    ,
    (
    )
    (
    0
    X
    х
    i
    i
    i
    j
    Α
    =
    ϕ
    , где
    )
    (
    )
    (
    X
    i
    i
    i
    j
    Α
    ϕ
    ,
    - некоторая - ая функция -го поряд- ка;
    j
    i
    =

    X
    N
    X
    i
    }
    {
    x
    x
    x
    x
    x
    N
    i
    ,...,
    ,.,
    ,
    ,
    3 2
    1
    ,
    i
    ;
    N
    <
    {
    }
    a
    a
    a
    i
    i
    i
    1 2
    1
    ,
    ,.....
    ,
    +
    =
    Α
    a
    - вектор оценивае- мых параметров. Вид функции
    )
    X
    i
    ϕ
    ,
    (
    )
    (
    i
    i
    j
    Α
    выбирается исходя из конкретно- предметных соображений. В общем случае она имеет нелинейный вид.
    Коэффициенты функции (регрессионной модели) обычно оцениваются мето- дом наименьших квадратов (МНК) из условия: min
    ,
    0
    ,
    0 1
    2 2
    )
    (

    =


    =
    L
    l
    x
    x
    s
    l
    l
    Качество регрессионной модели оценивается с помощью различных критериев:
    1
    )
    1
    (
    2 2

    +

    =
    i
    L
    s
    ост
    σ
    - остаточная дисперсия;

    σ
    σ
    2 2
    2 0
    1
    x
    ост
    R

    =
    x
    0
    <=1 - коэффициент детерминации, показывающий какую долю вариаций объясняется моделью (если выражается в % , то он называется уровнем адекватности);
    R
    2
    R
    <=1 – корреляционное отношение.
    При
    =1 и
    =1 значения получаемые по модели совпадают с фактиче- скими значениями
    R
    2
    R
    x
    0
    x
    0
    Оценка модели по уровню адекватности должна дополняться оценкой её ста- тистической значимости. Это связано с тем, что оценивание параметров модели осуществляется по ограниченной выборке объёма – L. Статистическая значимость может оцениваться по критерию Фишера(F). Критерий рассчитывается по форму- ле:
    σ
    σ
    2 2
    ост
    фак
    р
    F
    =
    , где
    - дисперсия фактической значений X
    σ
    2
    фак
    0
    ; остаточная дисперсия для модели; Затем оценивается табличное значение критерия Фишера при степенях свободы
    σ
    2
    ост
    F
    Т
    ν
    1
    = L-(i+1)-1 ,
    ν
    2
    =L-1 и уровне значимости =0,05.
    Здесь L-число измерений; i+1- число оцениваемых параметров модели. Если
    >
    , то модель принимается статистически значимой с вероятностью 0,95.
    α
    F
    Р
    F
    Т
    Рассмотренные выше формализмы, относятся к модели, описывающей зави- симость от некоторого -го подмножества входных переменных. На множестве входных переменных
    x
    0
    i
    }
    {
    x
    x
    x
    x
    N
    i
    ,...,
    ,.,
    ,
    ,
    3 1
    x
    2
    может быть построено целое семейство моделей:
    {
    ,....
    ,.....,
    ,
    )
    1
    (
    )
    1
    (
    2
    )
    1
    (
    1
    )
    1
    (
    ϕ
    ϕ
    ϕ
    j
    =
    Φ
    }
    }
    }
    - множество моделей 1-го порядка ( зависимость от одной входной переменной);
    x
    0
    Φ
    - множество моделей 2-го порядка ( зависимость от двух входных переменных) и так далее
    Φ
    - множество моделей
    N-го порядка ( зависимость от всех N входных переменных).
    {
    ,....
    ,.....,
    ,
    )
    2
    (
    )
    2
    (
    2
    )
    2
    (
    1
    )
    2
    (
    ϕ
    ϕ
    ϕ
    j
    =
    x
    0
    x
    0
    {
    ϕ
    )
    (
    1
    )
    (
    N
    N
    =

    Общее число моделей определенного типа составляет
    , где
    - число сочетаний из N по . Поэто- му, возникает задача выбора среди моделей наилучшей (то есть выбор наи- лучшего подмножества входных переменных). В качестве критериев используются
    , и производные от них статистики, например
    - критерий Маллоуза. Раз- работано достаточно много алгоритмов решения этой задачи: метод всех возмож- ных регрессий, метод исключения, гребневая (ридж) регрессия, ”пресс” процедура и другие (Н.Драйпер.,Г.Смит.,1987).
    С
    С
    С
    С
    С
    М
    N
    N
    i
    N
    N
    N
    N
    3 2
    1
    +
    +
    +
    +
    +
    =
    s
    2
    R
    2
    C
    i
    N
    i
    М
    С
    р
    При выборе порядка моделей, включаемых в анализ, необходимо иметь ввиду, что число измерений (объём выборки) должен как минимум в 5-6 раз превосходить число оцениваемых параметров модели.
    Изложенные выше идеи и формализмы регрессионного анализа могут исполь- зоваться для выбора и построения моделей, описывающих систему взаимосвязей в экосистемах.


    написать администратору сайта