Практикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике
Скачать 0.65 Mb.
|
3. Проверка статистических гипотез относительно многовершинных распределений Многовершинность эмпирического распределения обычно свиде- тельствует о смешении совокупностей с разными качественными характе- ристиками. Строгий подход к исследованию таких совокупностей состоит в отыскании критерия, по которому наблюдения можно отнести к каждой из качественно различных совокупностей, которые затем исследуются от- дельно. В частности, для каждой из них формулируется и проверяется от- дельная гипотеза о распределении вероятностей значений исследуемых пе- ременных. Распределения наблюдений по качественно различающимся сово- купностям необходимо выполнять всегда, когда имеется возможность для этого. На этапе системного анализа часто отсутствуют данные, необходи- мые для выполнения такой процедуры. Возможны две ситуации: либо от- сутствуют данные о показателях, необходимых для построения критерия отнесения наблюдения к различным совокупностям, либо наблюдений слишком мало, так что после классификации они вообще не будут подда- ваться анализу. В подобных случаях совокупность разбивают в точках минимума между вершинами, после чего для получившихся совокупностей выдвига- ют гипотезы о распределениях, не подвергая их проверке. В результате получают функции распределения F 1 (x), F 2 (x) и т.д. 65 Далее формулируют функцию вида 1 1 ( ), n i i k N F x N = å где N — число наблюдений всего, N i — число наблюдений в совокупно- сти i, n — число совокупностей (на одну меньше числа вершин). Затем выдвигается гипотеза, что исследуемая случайная величина имеет данную функцию распределения. Затем она проверяется в обычном порядке по критерию c 2 , только для определения теоретических частот вместо обычной F(x), соответствующей одному из известных распределе- ний, используется данная функция, а при расчёте числа степеней свободы учитывается общее количество параметров, определённых на основе эмпи- рического распределения для всех F i (x). 4. Проверка независимости факторов с помощью критерия c 2 Критерий c 2 очень удобен для проверки независимости двух дис- кретных переменных. Если имеется набор наблюдений, в каждом из кото- рых зафиксировано значение двух дискретных переменных, такой, что ка- ждой паре значений дискретных переменных теоретическая частота, со- ставляющая не менее 6-8 наблюдений, то с помощью данного критерия можно, не привлекая никаких других теоретических соображений, сделать заключение о том, проявляется ли какая-либо зависимость между этими переменными в имеющихся результатах наблюдений. При достаточной численности наблюдений данный критерий наи- лучшим образом соответствует целям практического задания к теме 3 при проверке независимости переменных. Если гипотеза о независимости двух факторов отвергается, один из них должен быть исключён из модели и за- менён другим. Если гипотеза о независимости результата от фактора не отвергается, фактор также следует исключить из модели, заменив его дру- гим. Процедура проверки предполагает следующие этапы: ¨ подсчёт числа наблюдений, для каждого сочетания значений двух переменных; ¨ подсчёт теоретической частоты n' ij для каждого сочетания значе- ний двух переменных, составляющей n 1 i ·n 2 j /N, где n 1 i — число наблюдений 66 i-го значения первой переменной, n 2 j — число наблюдений j-го значения второй переменной; ¨ расчёт значения критерия c 2 по формуле 1 2 2 1 1 ( ) , k k ij ij i j ij n n n = = ¢ - ¢ åå где k 1 — число значений первой переменной; k 2 — число значений второй переменной; n ij — фактическое число наблюдений, при которых первая переменная принимала значение i, а вторая — значение j; остальные обо- значения прежние; ¨ определение критического уровня c 2 для заданной доверительной вероятности и числа степеней свободы (k 1 –1)·(k 2 –1) — например, с помо- щью формулы Excel =ХИ2ОБР(1-УровеньДоверия;(_k1-1)*(_k2-1)), где в ячейке УровеньДоверия содержится требуемая доверительная ве- роятность (выраженная в долях, а не в процентах), в ячейках _k1 и _k2 — число значений соответствующих дискретных переменных. В MathCad аналогичный расчёт выполняется с помощью формулы qchisq(1-УровеньДоверия;(k1-1)*(k2-1)); ¨ сравнение фактического и критического значений c 2 и заключе- ние о том, следует ли отвергнуть предложенную теоретическую модель распределения случайной величины. Если значение c 2 превышает критическое, гипотезу о независимости факторов отвергают с выбранным уровнем доверия. В противном случае гипотеза не отвергается (что, разумеется, не означает её безусловной истинности: быть может, этот результат случаен). Расчёты по проверке независимости факторов рекомендуется вы- полнять в таблице, строки которой (кроме итоговой) соответствуют ком- бинациям значений двух исследуемых переменных, а столбцы — этапам вычислений. В частности, в ней должны быть представлены величины n ij , n' ij и (n ij – n' ij ) 2 /n' ij 67 5. Проверка существенности связи между переменными с помощью однофакторного дисперсионного анализа Однофакторный дисперсионный анализ проверяет гипотезу о равен- стве дисперсий некоторой нормально распределённой переменной в не- скольких выборках. Отклонение этой гипотезы указывает, что различие между выборками заведомо не случайно, и тем самым выявляет существо- вание зависимости между признаком, по которому осуществлялись выбор- ки, и данной переменной. Таким образом, он может быть использован для проверки наличия существенной связи между двумя переменными, из которых по крайней мере одна дискретна, а другая подчиняется нормальному закону распреде- ления. Практически приемлемые результаты достигаются также для слу- чая гамма-распределения: доверять им можно тем в большей степени, чем меньше его асимметрия. Для выполнения однофакторного дисперсионного анализа в Excel следует расположить значения нормально распределённой переменной (она может быть как непрерывной, так и дискретной, но, разумеется, чи- словой; следовательно, процедуру можно проводить как до, так и после дискретизации переменной, выступающей в качестве зависимой), соответ- ствующие разным значениям дискретного влияющего фактора (он может быть как числовым, так и нечисловым), в соседних столбцах. Число зна- чений переменной в разных столбцах может быть различным. Над каждым столбцом указывают соответствующее значение влияющего фактора. Далее следует подключить надстройку «Анализ данных» (если она не подключена) и дать команду Сервис ® Анализ данных либо Дан- ные ® Анализ данных, смотря по версии программы. В качестве вход- ного нужно указать интервал, охватывающий все ячейки со значениями нормально распределённой переменной и притом не содержащий никаких других текстовых или числовых данных, кроме меток влияющего фактора в его первой строке. Переключатели Группирование: по столбцам и Метки в первой строке должны быть включены. Выходной интервал указывается таким образом, чтобы выводимые в него данные не перезапи- сали уже имеющиеся (рекомендуется выводить результаты на новый лист). 68 Если по результатам анализа p-значение (уровень значимости) ока- залось ниже величины 1 , дополняющей желаемый уровень доверия до еди- ницы (например, меньше 0,05), то гипотеза о равенстве дисперсий пере- менной при разных значениях влияющего фактора отвергается, что озна- чает наличие связи между ним и нормально распределённой зависимой переменной. Применяя дисперсионный анализ в целях практикума, следует иметь в виду, что в качестве влияющей переменной всегда выбирается входная, а в качестве зависимой (нормально распределённой) может быть использована как входная, так и выходная переменная. Основаниями для исключения входной переменной из модели могут быть: ¨ невозможность отвергнуть гипотезу о равенстве дисперсий вы- ходной переменной при разных значениях данной входной переменной 2 ; ¨ отвергнутая гипотеза о равенстве дисперсий одной входной пе- ременной при разных значениях другой. В процедурах системного анализа, выполняемого по данной методи- ке, нет необходимости использовать многофакторный дисперсионный ана- лиз, более требовательный к числу наблюдений, так как формализм ус- ловных вероятностей требует независимости входных переменных. При данных обстоятельствах процедура однофакторного дисперсионного анали- за даёт достаточные основания для принятия решения о наборе перемен- ных, включаемых в модель. 6. Процедура расчёта энтропии, снимаемой с переменной информацией о значении другой переменной Полная энтропия зависимой дискретной переменной на основе имеющихся эмпирических данных рассчитывается следующим образом: ¨ если исходные данные по переменной дискретны — по формуле 1 Алгоритм расчёта приведён, например, в издании: Красс М.С., Чупрынов Б.П. Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.: Питер, 2006. — С. 171-172. 2 При большом числе входных переменных влияние каждой из них может быть весьма слабым. В этом случае при использовании однофакторного дисперсионного ана- лиза в целях определения набора входных переменных, включаемых в модель, следует использовать уровни доверия, очень близкие к единице. 69 2 1 ( log ), k i i i H p p = = - å где p i = (n i +1)/(N+k) — оценка вероятности i-го дискретного значения за- висимой переменной; k — число дискретных значений зависимой пере- менной; n i — число наблюдений i-го дискретного значения зависимой пе- ременной; N — общее число наблюдений; ¨ если проводилась дискретизация переменной путём разбиения на квантили — по формуле log 2 k, где k — число квантилей. Остаточная энтропия зависимой дискретной переменной при посту- плении информации о j-м состоянии влияющей дискретной переменной вычисляется по формуле 2 1 ( log ), k j ij ij i H p p = = - å где p ij = (n ij +1)/(N j +k) — оценка вероятности i-го дискретного значения зависимой переменной при j-м значении влияющей переменной; k — число дискретных значений зависимой переменной; n ij — число наблюдений i-го дискретного значения зависимой переменной при j-м значении влияющей переменной; N j — число наблюдений j-го значения влияющей переменной. Средняя информативность влияющей переменной относительно данной за- висимой переменной составляет 1 , l j j j I H p H = = - å где p j — оценка вероятности j-го дискретного значения влияющей пере- менной, получаемая аналогично оценке для зависимой переменной. Решение об исключени входной переменной из модели принимают в сле- дующих случаях: ¨ если в качестве зависимой переменной принимается выходная — если величина I/H меньше величины a/Q, где Q — число входных пере- 70 менных, а параметр надёжности a, не превышающий 1, выбирается субъ- ективно 1 . Чем больше его значение, тем труднее выполнить требования к переменной, включаемой в модель; ¨ если в качестве зависимой переменной принимается входная — если величина I/H больше a. 7. Некоторые полезные статистические функции табличного процессора Microsoft Excel =ДИСП(Ряд) Вычисляет дисперсию выборочных данных, содержащихся в интер- вале Ряд. =ДИСПР(Ряд) Вычисляет дисперсию генеральной совокупности данных, содержа- щейся в интервале Ряд. =ДОВЕРИТ(Значимость;СтандОткл;ЧислоНаблюдений) Вычисляет одностороннюю предельную ошибку среднего для нор- мально распределённой совокупности данных для уровня доверия, равного (1–Значимость), при заданных среднеквадратичном отклонении Стан- дОткл и численности наблюдений ЧислоНаблюдений. =КОРРЕЛ(Ряд1;Ряд2) Вычисляет коэффициент парной линейной корреляции по Пирсону для двух совокупностей данных, содержащихся в интервалах Ряд1 и Ряд2. Число ячеек в обоих рядах должно быть одинаковым. Все они должны содержать числовые данные (пустые ячейки не допускаются). =МАКС(Ряд) Находит наибольшее значение среди данных, содержащихся в ин- тервале Ряд. =МЕДИАНА(Ряд) Находит медиану совокупности данных, содержащихся в интервале Ряд. =МИН(Ряд) Находит наименьшее значение среди данных, содержащихся в ин- тервале Ряд. 1 Для целей данного практикума можно принять его равным 0,3. 71 =МОДА(Ряд) Находит модальное значение совокупности данных, содержащихся в интервале Ряд, если таковое существует. =НАИБОЛЬШИЙ(Ряд;Ранг) Находит среди данных в интервале Ряд значение, имеющее поряд- ковый номер Ранг, если значения пронумеровать в порядке убывания. =НАИМЕНЬШИЙ(Ряд;Ранг) Находит среди данных в интервале Ряд значение, имеющее поряд- ковый номер Ранг, если значения пронумеровать в порядке возрастания. =ПЕРСЕНТИЛЬ(Ряд;Персентиль) Находит значение, которое вместе с другими не превышающими его значениями образует требуемую Персентиль (указываемую в долях) со- вокупности данных в интервале Ряд. =РАНГ(Число;Ряд;Порядок) Определяет ранг значения Число в совокупности данных, содержа- щейся в интервале Ряд, по возрастанию (если значение Порядок равно нулю либо опущено) или по убыванию (если значение Порядок указано и не равно нулю). Значение Число обязательно должно присутствовать в интервале Ряд. =СКОС(Ряд) Вычисляет коэффициент асимметрии для эмпирического распреде- ления, представленного данными в интервале Ряд. =СРЗНАЧ(Ряд) Вычисляет среднее арифметическое по данным интервала Ряд. =СРЗНАЧЕСЛИ(Ряд,Условие) Вычисляет среднее арифметическое для данных интервала Ряд, от- вечающих критерию Условие. Критерий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным, либо ссылку на ячейку, содержащую формулу, результатом вычисления которой явля- ется подобное текстовое значение. =СРЗНАЧЕСЛИМН(Ряд,Условия) Вычисляет среднее арифметическое для данных интервала Ряд, от- вечающих одновременно всем критериям, хранящимся в интервале Усло- вия. Каждый критерий представляет собой текст вида ">2", "<- 3,14159", где число может быть произвольным. Поддерживается не все- ми версиями Excel. 72 =СТАНДОТКЛОН(Ряд) Вычисляет среднеквадратическое отклонение выборочных данных, содержащихся в интервале Ряд. =СТАНДОТКЛОНП(Ряд) Вычисляет среднеквадратическое отклонение данных генеральной совокупности, содержащейся в интервале Ряд. =СЧЁТ(Ряд) Определяет число значений в интервале Ряд. =СЧЁТЕСЛИ(Ряд;Условие) Определяет число значений в интервале Ряд, отвечающих критерию Условие. Критерий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным, либо ссылку на ячейку, содержащую формулу, результатом вычисления которой является подобное текстовое значение. =СЧЁТЕСЛИМН(Ряд;Условия) Определяет число значений в интервале Ряд, отвечающих одновре- менно всем критериям, хранящимся в интервале Условия. Каждый крите- рий представляет собой текст вида ">2", "<-3,14159", где число может быть произвольным. Поддерживается не всеми версиями Excel. =ЧАСТОТА(РядДанных;Границы) Вычисляет массив значений, каждое из которых означает число на- блюдений из интервала РядДанных, относящихся к классу, задаваемому данными в интервале Границы. Для использования функции следует выделить на одну ячейку больше, чем содержится их в интервале Границы, набрать содержащую её формулу и нажать сочетание клавиш [Ctrl]+[Shift]+[Enter]. В первой ячей- ке выделенного интервала отобразится число значений, которые не больше первого значения в интервале Границы; во второй — число значений ме- жду первым и вторым значениями в интервале Границы (исключая ниж- нюю границу и включая верхнюю) и т.д.; в последнем — значения, пре- вышающие наибольшее значение в интервале Границы. Значения в интервале Границы должны быть упорядочены по воз- растанию. Пустые ячейки и текстовые значения игнорируются. 73 =ЭКСЦЕСС(Ряд) Вычисляет коэффициент эксцесса для эмпирического распределе- ния, представленного данными в интервале Ряд. 8. Численное интегрирование Необходимость вычисления определённых интегралов при решении задач системного анализа по методике, положенной в основу настоящего практикума, возникает, например, при определении ошибки оценки веро- ятности события по результатам наблюдений, при отыскании квантилей либо (в некоторых случаях) при проверке гипотезы о законе распределе- ния случайной величины. Для вычисления определённых интегралов в MathCad достаточно ввести требуемый интеграл в виде формулы. Чтобы ввести знак интеграла, следует нажать клавишу [&]. Например, вычисление формулы -¥ ò 10 dnorm(x,5,2)dx даст тот же результат, что и формулы pnorm(10,5,2), а именно 0,99379. Excel не имеет встроенных возможностей численного интегрирова- ния. Если лабораторные работы выполняются в Excel, вычисление опреде- лённых интегралов можно осуществлять любым известным методом, на- пример, методом трапеций или методом Симпсона. Описание соответст- вующих алгоритмов можно найти в сети Интернет либо в учебной литера- туре по численным методам 1 1 Численные методы / Н.С. Бахвалов, Н.П. Жидков, Г.М. Кобельков. 4-е изд. М.: БИНОМ. Лаборатория знаний, 2006. 74 СОДЕРЖАНИЕ Введение ........................................................................................................ 3 методические указания преподавателю ......................................................... 5 Постановка задачи ......................................................................................... 8 Теоретическая часть ............................................................................... 8 Задание ................................................................................................. 12 Варианты заданий для лабораторного практикума .............................. 13 Тема 1. Спецификация первого уровня аграрной производственной системы .................................................................................................... 14 Теоретическая часть ............................................................................. 14 Практическая часть .............................................................................. 18 Тема 2. Приведение числовых переменных к дискретной форме ............... 21 Теоретическая часть ............................................................................. 21 Практическая часть .............................................................................. 23 Тема 3. Представление знаний о структуре системы в форме условных вероятностей. Проверка существенности и независимости переменных ...................................................................... 25 Теоретическая часть ............................................................................. 25 Практическая часть .............................................................................. 29 Тема 4. Спецификация второго уровня аграрной производственной системы .................................................................................................... 33 Теоретическая часть ............................................................................. 33 Практическая часть .............................................................................. 35 Тема 5. Тестирование двухуровневой модели ............................................. 38 Теоретическая часть ............................................................................. 38 Практическая часть .............................................................................. 41 ПРИЛОЖЕНИЯ ........................................................................................... 45 1. Основные статистические распределения ........................................ 45 2. Проверка согласованности эмпирического и теоретического распределений с помощью критерия c2 ........................................... 60 3. Проверка статистических гипотез относительно многовершинных распределений ...................................................... 64 4. Проверка независимости факторов с помощью критерия c2........... 65 75 5. Проверка существенности связи между переменными с помощью однофакторного дисперсионного анализа ......................... 67 6. Процедура расчёта энтропии, снимаемой с переменной информацией о значении другой переменной ................................... 68 7. Некоторые полезные статистические функции табличного процессора Microsoft Excel ............................................................... 70 8. Численное интегрирование............................................................... 73 |