Главная страница
Навигация по странице:

  • 4. Проверка независимости факторов с помощью критерия

  • 5. Проверка существенности связи между переменными с помощью однофакторного дисперсионного анализа

  • Сервис ® Анализ данных

  • Группирование: по столбцам и Метки в первой строке

  • 6. Процедура расчёта энтропии, снимаемой с переменной информацией о значении другой переменной

  • 7. Некоторые полезные статистические функции табличного процессора Microsoft Excel

  • 8. Численное интегрирование

  • Практикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике


    Скачать 0.65 Mb.
    НазваниеПрактикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике
    Дата23.12.2022
    Размер0.65 Mb.
    Формат файлаpdf
    Имя файлаtssa2.pdf
    ТипПрактикум
    #861229
    страница6 из 6
    1   2   3   4   5   6
    3. Проверка статистических гипотез относительно
    многовершинных распределений
    Многовершинность эмпирического распределения обычно свиде- тельствует о смешении совокупностей с разными качественными характе- ристиками. Строгий подход к исследованию таких совокупностей состоит в отыскании критерия, по которому наблюдения можно отнести к каждой из качественно различных совокупностей, которые затем исследуются от- дельно. В частности, для каждой из них формулируется и проверяется от- дельная гипотеза о распределении вероятностей значений исследуемых пе- ременных.
    Распределения наблюдений по качественно различающимся сово- купностям необходимо выполнять всегда, когда имеется возможность для этого.
    На этапе системного анализа часто отсутствуют данные, необходи- мые для выполнения такой процедуры. Возможны две ситуации: либо от- сутствуют данные о показателях, необходимых для построения критерия отнесения наблюдения к различным совокупностям, либо наблюдений слишком мало, так что после классификации они вообще не будут подда- ваться анализу.
    В подобных случаях совокупность разбивают в точках минимума между вершинами, после чего для получившихся совокупностей выдвига- ют гипотезы о распределениях, не подвергая их проверке. В результате получают функции распределения F
    1
    (x), F
    2
    (x) и т.д.

    65
    Далее формулируют функцию вида
    1 1
    ( ),
    n
    i i
    k
    N F x
    N
    =
    å
    где N — число наблюдений всего, N
    i
    — число наблюдений в совокупно- сти i, n — число совокупностей (на одну меньше числа вершин).
    Затем выдвигается гипотеза, что исследуемая случайная величина имеет данную функцию распределения. Затем она проверяется в обычном порядке по критерию c
    2
    , только для определения теоретических частот вместо обычной F(x), соответствующей одному из известных распределе- ний, используется данная функция, а при расчёте числа степеней свободы учитывается общее количество параметров, определённых на основе эмпи- рического распределения для всех F
    i
    (x).
    4. Проверка независимости факторов с помощью
    критерия
    c
    2
    Критерий c
    2
    очень удобен для проверки независимости двух дис- кретных переменных. Если имеется набор наблюдений, в каждом из кото- рых зафиксировано значение двух дискретных переменных, такой, что ка- ждой паре значений дискретных переменных
    теоретическая частота, со- ставляющая не менее 6-8 наблюдений, то с помощью данного критерия можно, не привлекая никаких других теоретических соображений, сделать заключение о том, проявляется ли
    какая-либо зависимость между этими переменными в имеющихся результатах наблюдений.
    При достаточной численности наблюдений данный критерий наи- лучшим образом соответствует целям практического задания к теме 3 при проверке независимости переменных. Если гипотеза о независимости двух факторов отвергается, один из них должен быть исключён из модели и за- менён другим. Если гипотеза о независимости результата от фактора не отвергается, фактор также следует исключить из модели, заменив его дру- гим.
    Процедура проверки предполагает следующие этапы:
    ¨ подсчёт числа наблюдений, для каждого сочетания значений двух переменных;
    ¨ подсчёт теоретической частоты n'
    ij
    для каждого сочетания значе- ний двух переменных, составляющей n
    1
    i
    ·n
    2
    j
    /N, где n
    1
    i
    — число наблюдений
    66
    i-го значения первой переменной, n
    2
    j
    — число наблюдений j-го значения второй переменной;
    ¨ расчёт значения критерия c
    2
    по формуле
    1 2
    2 1
    1
    (
    )
    ,
    k
    k
    ij
    ij
    i
    j
    ij
    n
    n
    n
    =
    =
    ¢
    -
    ¢
    åå
    где k
    1
    — число значений первой переменной; k
    2
    число значений второй переменной; n
    ij
    — фактическое число наблюдений, при которых первая переменная принимала значение i, а вторая — значение j; остальные обо- значения прежние;
    ¨ определение критического уровня c
    2
    для заданной доверительной вероятности и числа степеней свободы (k
    1
    –1)·(k
    2
    –1) — например, с помо- щью формулы Excel
    =ХИ2ОБР(1-УровеньДоверия;(_k1-1)*(_k2-1)), где в ячейке УровеньДоверия содержится требуемая доверительная ве- роятность (выраженная в долях, а не в процентах), в ячейках _k1 и _k2
    — число значений соответствующих дискретных переменных. В MathCad аналогичный расчёт выполняется с помощью формулы qchisq(1-УровеньДоверия;(k1-1)*(k2-1));
    ¨ сравнение фактического и критического значений c
    2
    и заключе- ние о том, следует ли отвергнуть предложенную теоретическую модель распределения случайной величины.
    Если значение c
    2
    превышает критическое, гипотезу о независимости факторов
    отвергают с выбранным уровнем доверия. В противном случае гипотеза
    не отвергается (что, разумеется, не означает её безусловной истинности: быть может, этот результат случаен).
    Расчёты по проверке независимости факторов рекомендуется вы- полнять в таблице, строки которой (кроме итоговой) соответствуют ком- бинациям значений двух исследуемых переменных, а столбцы — этапам вычислений. В частности, в ней должны быть представлены величины n
    ij
    ,
    n'
    ij
    и (n
    ij
    n'
    ij
    )
    2
    /n'
    ij

    67
    5. Проверка существенности связи между
    переменными с помощью однофакторного
    дисперсионного анализа
    Однофакторный дисперсионный анализ проверяет гипотезу о равен- стве дисперсий некоторой
    нормально распределённой переменной в не- скольких выборках. Отклонение этой гипотезы указывает, что различие между выборками заведомо не случайно, и тем самым выявляет существо- вание зависимости между признаком, по которому осуществлялись выбор- ки, и данной переменной.
    Таким образом, он может быть использован для проверки наличия существенной связи между двумя переменными, из которых по крайней мере одна дискретна, а другая подчиняется нормальному закону распреде- ления. Практически приемлемые результаты достигаются также для слу- чая гамма-распределения: доверять им можно тем в большей степени, чем меньше его асимметрия.
    Для выполнения однофакторного дисперсионного анализа в Excel следует расположить значения нормально распределённой переменной
    (она может быть как непрерывной, так и дискретной, но, разумеется, чи- словой; следовательно, процедуру можно проводить как до, так и после дискретизации переменной, выступающей в качестве зависимой), соответ- ствующие разным значениям дискретного влияющего фактора (он может быть как числовым, так и нечисловым), в соседних столбцах. Число зна- чений переменной в разных столбцах может быть различным. Над каждым столбцом указывают соответствующее значение влияющего фактора.
    Далее следует подключить надстройку «Анализ данных» (если она не подключена) и дать команду Сервис ® Анализ данных либо Дан-
    ные
    ® Анализ данных, смотря по версии программы. В качестве вход- ного нужно указать интервал, охватывающий все ячейки со значениями нормально распределённой переменной и притом не содержащий никаких других текстовых или числовых данных, кроме меток влияющего фактора в его первой строке. Переключатели Группирование: по столбцам и
    Метки в первой строке
    должны быть включены. Выходной интервал указывается таким образом, чтобы выводимые в него данные не перезапи- сали уже имеющиеся (рекомендуется выводить результаты на новый лист).
    68
    Если по результатам анализа p-значение (уровень значимости) ока- залось ниже величины
    1
    , дополняющей желаемый уровень доверия до еди- ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере- менной при разных значениях влияющего фактора отвергается, что озна- чает наличие связи между ним и нормально распределённой зависимой переменной.
    Применяя дисперсионный анализ в целях практикума, следует иметь в виду, что в качестве влияющей переменной всегда выбирается входная, а в качестве зависимой (нормально распределённой) может быть использована как входная, так и выходная переменная. Основаниями для исключения входной переменной из модели могут быть:
    ¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы- ходной переменной при разных значениях данной входной переменной
    2
    ;
    ¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе- ременной при разных значениях другой.
    В процедурах системного анализа, выполняемого по данной методи- ке, нет необходимости использовать многофакторный дисперсионный ана- лиз, более требовательный к числу наблюдений, так как формализм ус- ловных вероятностей требует независимости входных переменных. При данных обстоятельствах процедура однофакторного дисперсионного анали- за даёт достаточные основания для принятия решения о наборе перемен- ных, включаемых в модель.
    6. Процедура расчёта энтропии, снимаемой с
    переменной информацией о значении другой
    переменной
    Полная энтропия зависимой дискретной переменной на основе имеющихся эмпирических данных рассчитывается следующим образом:
    ¨ если исходные данные по переменной дискретны — по формуле
    1
    Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П.
    Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.:
    Питер, 2006. — С. 171-172.
    2
    При большом числе входных переменных влияние каждой из них может быть весьма слабым. В этом случае при использовании однофакторного дисперсионного ана- лиза в целях определения набора входных переменных, включаемых в модель, следует использовать уровни доверия, очень близкие к единице.

    69 2
    1
    (
    log
    ),
    k
    i
    i
    i
    H
    p
    p
    =
    =
    -
    å
    где p
    i
    = (n
    i
    +1)/(N+k) — оценка вероятности i-го дискретного значения за- висимой переменной; k — число дискретных значений зависимой пере- менной; n
    i
    — число наблюдений i-го дискретного значения зависимой пе- ременной; N — общее число наблюдений;
    ¨ если проводилась дискретизация переменной путём разбиения на квантили — по формуле log
    2
    k, где k — число квантилей.
    Остаточная энтропия зависимой дискретной переменной при посту- плении информации о j-м состоянии влияющей дискретной переменной вычисляется по формуле
    2 1
    (
    log
    ),
    k
    j
    ij
    ij
    i
    H
    p
    p
    =
    =
    -
    å
    где p
    ij
    = (n
    ij
    +1)/(N
    j
    +k) — оценка вероятности i-го дискретного значения зависимой переменной при j-м значении влияющей переменной; k — число дискретных значений зависимой переменной; n
    ij
    — число наблюдений i-го дискретного значения зависимой переменной при j-м значении влияющей переменной; N
    j
    — число наблюдений j-го значения влияющей переменной.
    Средняя информативность влияющей переменной относительно данной за- висимой переменной составляет
    1
    ,
    l
    j
    j
    j
    I
    H
    p
    H
    =
    =
    -
    å
    где p
    j
    — оценка вероятности j-го дискретного значения влияющей пере- менной, получаемая аналогично оценке для зависимой переменной.
    Решение об исключени входной переменной из модели принимают в сле- дующих случаях:
    ¨ если в качестве зависимой переменной принимается выходная — если величина I/H меньше величины a/Q, где Q — число входных пере-
    70 менных, а параметр надёжности a, не превышающий 1, выбирается субъ- ективно
    1
    . Чем больше его значение, тем труднее выполнить требования к переменной, включаемой в модель;
    ¨ если в качестве зависимой переменной принимается входная — если величина I/H больше a.
    7. Некоторые полезные статистические функции
    табличного процессора Microsoft Excel
    =ДИСП(Ряд)
    Вычисляет дисперсию выборочных данных, содержащихся в интер- вале Ряд.
    =ДИСПР(Ряд)
    Вычисляет дисперсию генеральной совокупности данных, содержа- щейся в интервале Ряд.
    =ДОВЕРИТ(Значимость;СтандОткл;ЧислоНаблюдений)
    Вычисляет одностороннюю предельную ошибку среднего для нор- мально распределённой совокупности данных для уровня доверия, равного
    (1–Значимость), при заданных среднеквадратичном отклонении Стан- дОткл и численности наблюдений ЧислоНаблюдений.
    =КОРРЕЛ(Ряд1;Ряд2)
    Вычисляет коэффициент парной линейной корреляции по Пирсону для двух совокупностей данных, содержащихся в интервалах Ряд1 и
    Ряд2. Число ячеек в обоих рядах должно быть одинаковым. Все они должны содержать числовые данные (пустые ячейки не допускаются).
    =МАКС(Ряд)
    Находит наибольшее значение среди данных, содержащихся в ин- тервале Ряд.
    =МЕДИАНА(Ряд)
    Находит медиану совокупности данных, содержащихся в интервале
    Ряд.
    =МИН(Ряд)
    Находит наименьшее значение среди данных, содержащихся в ин- тервале Ряд.
    1
    Для целей данного практикума можно принять его равным 0,3.

    71
    =МОДА(Ряд)
    Находит модальное значение совокупности данных, содержащихся в интервале Ряд, если таковое существует.
    =НАИБОЛЬШИЙ(Ряд;Ранг)
    Находит среди данных в интервале Ряд значение, имеющее поряд- ковый номер Ранг, если значения пронумеровать в порядке убывания.
    =НАИМЕНЬШИЙ(Ряд;Ранг)
    Находит среди данных в интервале Ряд значение, имеющее поряд- ковый номер Ранг, если значения пронумеровать в порядке возрастания.
    =ПЕРСЕНТИЛЬ(Ряд;Персентиль)
    Находит значение, которое вместе с другими не превышающими его значениями образует требуемую Персентиль (указываемую в долях) со- вокупности данных в интервале Ряд.
    =РАНГ(Число;Ряд;Порядок)
    Определяет ранг значения Число в совокупности данных, содержа- щейся в интервале Ряд, по возрастанию (если значение Порядок равно нулю либо опущено) или по убыванию (если значение Порядок указано и не равно нулю). Значение Число обязательно должно присутствовать в интервале Ряд.
    =СКОС(Ряд)
    Вычисляет коэффициент асимметрии для эмпирического распреде- ления, представленного данными в интервале Ряд.
    =СРЗНАЧ(Ряд)
    Вычисляет среднее арифметическое по данным интервала Ряд.
    =СРЗНАЧЕСЛИ(Ряд,Условие)
    Вычисляет среднее арифметическое для данных интервала Ряд, от- вечающих критерию Условие. Критерий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным, либо ссылку на ячейку, содержащую формулу, результатом вычисления которой явля- ется подобное текстовое значение.
    =СРЗНАЧЕСЛИМН(Ряд,Условия)
    Вычисляет среднее арифметическое для данных интервала Ряд, от- вечающих одновременно всем критериям, хранящимся в интервале Усло- вия. Каждый критерий представляет собой текст вида ">2", "<-
    3,14159", где число может быть произвольным. Поддерживается не все- ми версиями Excel.
    72
    =СТАНДОТКЛОН(Ряд)
    Вычисляет среднеквадратическое отклонение выборочных данных, содержащихся в интервале Ряд.
    =СТАНДОТКЛОНП(Ряд)
    Вычисляет среднеквадратическое отклонение данных генеральной совокупности, содержащейся в интервале Ряд.
    =СЧЁТ(Ряд)
    Определяет число значений в интервале Ряд.
    =СЧЁТЕСЛИ(Ряд;Условие)
    Определяет число значений в интервале Ряд, отвечающих критерию
    Условие. Критерий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным, либо ссылку на ячейку, содержащую формулу, результатом вычисления которой является подобное текстовое значение.
    =СЧЁТЕСЛИМН(Ряд;Условия)
    Определяет число значений в интервале Ряд, отвечающих одновре- менно всем критериям, хранящимся в интервале Условия. Каждый крите- рий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным. Поддерживается не всеми версиями Excel.
    =ЧАСТОТА(РядДанных;Границы)
    Вычисляет массив значений, каждое из которых означает число на- блюдений из интервала РядДанных, относящихся к классу, задаваемому данными в интервале Границы.
    Для использования функции следует выделить на одну ячейку больше, чем содержится их в интервале Границы, набрать содержащую её формулу и нажать сочетание клавиш [Ctrl]+[Shift]+[Enter]. В первой ячей- ке выделенного интервала отобразится число значений, которые не больше первого значения в интервале Границы; во второй — число значений ме- жду первым и вторым значениями в интервале Границы (исключая ниж- нюю границу и включая верхнюю) и т.д.; в последнем — значения, пре- вышающие наибольшее значение в интервале Границы.
    Значения в интервале Границы должны быть упорядочены по воз- растанию. Пустые ячейки и текстовые значения игнорируются.

    73
    =ЭКСЦЕСС(Ряд)
    Вычисляет коэффициент эксцесса для эмпирического распределе- ния, представленного данными в интервале Ряд.
    8. Численное интегрирование
    Необходимость вычисления определённых интегралов при решении задач системного анализа по методике, положенной в основу настоящего практикума, возникает, например, при определении ошибки оценки веро- ятности события по результатам наблюдений, при отыскании квантилей либо (в некоторых случаях) при проверке гипотезы о законе распределе- ния случайной величины.
    Для вычисления определённых интегралов в MathCad достаточно ввести требуемый интеграл в виде формулы. Чтобы ввести знак интеграла, следует нажать клавишу [&]. Например, вычисление формулы

    ò
    10
    dnorm(x,5,2)dx даст тот же результат, что и формулы pnorm(10,5,2), а именно 0,99379.
    Excel не имеет встроенных возможностей численного интегрирова- ния. Если лабораторные работы выполняются в Excel, вычисление опреде- лённых интегралов можно осуществлять любым известным методом, на- пример, методом трапеций или методом Симпсона. Описание соответст- вующих алгоритмов можно найти в сети Интернет либо в учебной литера- туре по численным методам
    1 1
    Численные методы / Н.С. Бахвалов, Н.П. Жидков, Г.М. Кобельков. 4-е изд.
    М.: БИНОМ. Лаборатория знаний, 2006.
    74
    СОДЕРЖАНИЕ
    Введение ........................................................................................................ 3
    методические указания преподавателю ......................................................... 5
    Постановка задачи ......................................................................................... 8
    Теоретическая часть ............................................................................... 8
    Задание ................................................................................................. 12
    Варианты заданий для лабораторного практикума .............................. 13
    Тема 1. Спецификация первого уровня аграрной производственной системы .................................................................................................... 14
    Теоретическая часть ............................................................................. 14
    Практическая часть .............................................................................. 18
    Тема 2. Приведение числовых переменных к дискретной форме ............... 21
    Теоретическая часть ............................................................................. 21
    Практическая часть .............................................................................. 23
    Тема 3. Представление знаний о структуре системы в форме условных вероятностей. Проверка существенности и независимости переменных ...................................................................... 25
    Теоретическая часть ............................................................................. 25
    Практическая часть .............................................................................. 29
    Тема 4. Спецификация второго уровня аграрной производственной системы .................................................................................................... 33
    Теоретическая часть ............................................................................. 33
    Практическая часть .............................................................................. 35
    Тема 5. Тестирование двухуровневой модели ............................................. 38
    Теоретическая часть ............................................................................. 38
    Практическая часть .............................................................................. 41
    ПРИЛОЖЕНИЯ ........................................................................................... 45 1. Основные статистические распределения ........................................ 45 2. Проверка согласованности эмпирического и теоретического распределений с помощью критерия c2 ........................................... 60 3. Проверка статистических гипотез относительно многовершинных распределений ...................................................... 64 4. Проверка независимости факторов с помощью критерия c2........... 65

    75 5. Проверка существенности связи между переменными с помощью однофакторного дисперсионного анализа ......................... 67 6. Процедура расчёта энтропии, снимаемой с переменной информацией о значении другой переменной ................................... 68 7. Некоторые полезные статистические функции табличного процессора Microsoft Excel ............................................................... 70 8. Численное интегрирование............................................................... 73
    1   2   3   4   5   6


    написать администратору сайта