Практикум по теории систем и системному анализу для студентов бакалавриата по направлениям Прикладная информатика в экономике
Скачать 0.65 Mb.
|
ТЕМА 3. ПРЕДСТАВЛЕНИЕ ЗНАНИЙ О СТРУКТУРЕ СИСТЕМЫ В ФОРМЕ УСЛОВНЫХ ВЕРОЯТНОСТЕЙ. ПРОВЕРКА СУЩЕСТВЕННОСТИ И НЕЗАВИСИМОСТИ ПЕРЕМЕННЫХ Теоретическая часть Проверка существенности и независимости переменных Входные переменные подсистем изучаемой производственной сис- темы должны обладать свойствами независимости и существенности. Свойство независимости состоит в том, что все входные перемен- ные должны быть взаимно независимы либо связь между ними должна быть достаточно слабой, чтобы её можно было игнорировать. Свойство существенности — в том, что выходная переменная должна зависеть от каждой из входных, причём после получения инфор- мации о значениях всех входных переменных энтропия выходной перемен- ной должна быть как можно меньше. О наличии этих свойств у переменных, включённых в модель, судят на основе статистических показателей тесноты связей, проверки статисти- ческих гипотез о независимости переменных, доли энтропии (относитель- ной информативности) переменной, снимаемой информацией о значении другой переменной. Выбирая методы оценки тесноты связи, следует учи- тывать особенности их содержания. В частности: ¨ критерий χ 2 может быть использован применительно к дискрет- ным переменным для проверки гипотез о независимости двух дискретных переменных на основании имеющихся наблюдений (см. Приложение 4), а также о том, не противоречит ли предполагаемая форма связи между пе- ременными имеющимся данным; ¨ однофакторный дисперсионный анализ имеет целью проверку ги- потезы о существовании статистически достоверной зависимости непре- рывной нормально распределённой переменной 1 от дискретной (или приве- дённой к дискретной форме) переменной (см. Приложение 5); 1 При гамма-распределении результаты оценки тесноты связи при посредстве дисперсионного анализа содержат ошибку, величина которой, однако, для большинства практических приложений не слишком велика. 26 ¨ метод относительной информативности (см. Приложение 6) по- зволяет определить, какая доля энтропии одной дискретной переменной снимается другой дискретной переменной. Проверку тесноты связи по этому методу делают после построения таблиц условных вероятностей (см. ниже); ¨ корреляционный анализ оценивает тесноту связи между пере- менными непрерывными при условии, что связь между ними предполагает- ся линейной. Если величина 2 2 1 , r N r - - где N — число наблюдений, а r — коэффициент парной корреляции по Пирсону, оказывается за преде- лами соответствующего выбранному уровню доверия квантиля распреде- ления Стьюдента для числа степеней свободы N–2, гипотеза о независи- мости переменных отвергается 1 . Соответствующие вычисления можно вы- полнить по формуле Excel =СТЬЮДРАСП(ABS(КоэфКор)/КОРЕНЬ(1-КоэфКор^2)* КОРЕНЬ(СЧЁТ(Ряд1)-2);СЧЁТ(Ряд1)-2;2). Здесь КоэфКор — имя ячейки, содержащей коэффициент парной корреля- ции по Пирсону, вычисляемый по формуле =ПИРСОН(Ряд1;Ряд2), Ряд1 и Ряд2 — имена диапазонов ячеек, содержащих наблюдаемые зна- чения переменных, связь между которыми исследуется. В обоих рядах должно быть одинаковое количество ячеек, нечисловых значений и пустых ячеек быть не должно. В программе MathCad соответстствующие вычис- ления выглядят следующим образом: , æ ö × = ç ÷ ç ÷ è ø 2 corr(Ряд1;Ряд2) length(Ряд1)-2 dt ;length(Ряд1)-2 1-corr(Ряд1;Ряд2) 1 Если наблюдений больше 30 — можно использовать нормальное распределе- ние, которое является пределом распределения Стьюдента при бесконечном числе на- блюдений. 27 где Ряд1 и Ряд2 — имена векторов, содержащих наблюдения исследуе- мых переменных. При исследовании систем принимают во внимание, что независи- мость некоторой переменной x 1 от каждой из остальных (x 2 ...x n ) ещё не оз- начает, что x 1 не зависит от некоторой функции f(x 2 ...x n ). Входную (факторную) переменную исключают из модели в следую- щих случаях: ¨ отсутствие её связи с выходной переменной статистически дос- товерно; ¨ она тесно коррелирует с другой входной переменной, не исклю- чаемой из модели, либо снимает существенную часть её энтропии. Представление знаний о структуре системы в форме условных вероятностей Числовая модель производственной системы в данном случае пред- ставляет собой систему количественных зависимостей выходных перемен- ных от входных. В данном случае в каждой подсистеме входные переменные предпо- лагаются независимыми, сами переменные — дискретными, а связи между выходными и входными переменными — вероятностными. Следовательно, связи могут быть количественно охарактеризованы математическим ожи- данием вероятностью значений входных переменных при заданном значе- нии выходной переменной. Такая количественная характеристика связей может быть построена на основе наблюдений моделируемых систем даже при полном отсутствии какого-либо априорного знания о характере связей. Однако её достовер- ность зависит от количества имеющихся наблюдений моделируемых сис- тем и от точности выполнения условий применимости формализма услов- ных вероятностей. Часто наличие априорного знания позволяет получить значительно более точные и достоверные количественные характеристики связей. В этом случае создание числовой модели требует более мощных формализмов для представления знаний о связях. На основе наблюдений за поведением изучаемой системы нельзя сделать полностью достоверное заключение о вероятностях её состояний. Например, если 18 раз бросить игральную кость, то из того, что единица выпала шесть раз, не следует, что вероятность её выпадания равна 1 3 Наблюдаемая частота некоторого значения переменной может быть обусловлена различной действительной вероятностью этого значения. Од- 28 нако при разных действительных вероятностях шансы на то, чтобы наблю- дать именно такую частоту, различны. Располагая только ограниченным количеством наблюдений изучае- мой дискретной переменной, исследователь не имеет никакой более обос- нованной оценки вероятности её значений, нежели средняя взвешенная вероятностей данного значения, которые могли вызвать его реализацию n раз из N наблюдений. Эта величина называется наиболее правдоподоб- ной оценкой вероятности. Можно доказать, что наиболее правдоподобная оценка вероятно- стей, которые могли вызвать наблюдение некоторого значения дискретной переменной n раз из N наблюдений, равна n + 1 N + k , где k — число возмож- ных значений. Чем больше число наблюдений, тем меньше эта величина отличается от n N . Для полной характеристики стохастических связей дискретной вы- ходной переменной от дискретных взаимно независимых входных пере- менных достаточно определить: ¨ оценки вероятности каждого значения всех переменных; ¨ оценки условной вероятности каждого значения всех входных переменных при заданном значении выходной переменной. При отсутствии какой-либо другой информации математические ожидания условной вероятности рассчитываются на основе комбинацион- ных таблиц (таблиц сопряжённости), включающих выходную и одну из входных переменных. Столбцы такой таблицы соответствуют дискретным значениям входной, а строки — выходной переменной. В клетках таблицы помещается число наблюдений, в которых наблюдались соответствующих значения обеих переменных. При этом: ¨ вероятность выходной переменной оценивается по вышеприве- дённой формуле (в при выполнении заданий данного практикума этот спо- соб применяется редко: см. ниже!); ¨ условные вероятности значений входной переменной при извест- ных значениях выходной переменной (именно эти вероятности потребуют- ся нам для модели) — по формуле 1 , ij j n n Q + + 29 где n ij — число наблюдений, при которых выходная переменная имела значение i, а входная — j; n j — общее число наблюдений j-го значения входной переменной; Q — число квантилей выходной переменной. При правильном вычислении сумма всех условных вероятностей, имеющих одинаковый индекс j, должна быть равна единице. Для вероятностей значений числовых переменных, приведённых к дискретной форме путём разбиения интервала вариации на Q квантилей, возможна лучшая оценка, чем вышеприведённая, поскольку, кроме дан- ных, можно использовать знание закона распределения случайной величи- ны, основанное на теоретическом представлении о причинах её вариации. В этом случае вместо оценки вероятности по вышеприведённой формуле используется оценка, равная 1/Q. Эта оценка надёжнее матема- тического ожидания вероятности: ведь при выдвижении гипотезы о рас- пределении вероятности значений данной переменной мы опирались не только на результаты наблюдения, но и на другие знания: экономическое содержание данной переменной, диапазон вариации, аналогию с другими экономическими переменными и др. Библиографический список Гатаулин А.М. Система прикладных статистико-математических ме- тодов обработки экспериментальных данных в сельском хозяйстве. М., 1992. Искусственный интеллект: Справочник: в 3 книгах / Под ред. Э.В. Попова. М., 1990. Красс М.С., Чупрынов Б.П. Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.: Питер, 2006. Нейлор К. Экспертные системы: принципы работы и примеры. М., 1987. Орлов А.И. Теория принятия решений: Учеб. пособие. М.: Изд-во «Март», 2004. Светлов Н.М. Обоснование весовых коэффициентов исходов в сто- хастических моделях сельскохозяйственного производства // Доклады ТСХА. М., 1995, вып. 266, с. 190-195. Практическая часть Аудиторные занятия: 2 часа. Самостоятельная работа: 1 час. 30 Цель работы Приобрести навыки количественного описания зависимостей между дискретными переменными средствами формализма условных вероятно- стей. Научиться обосновывать взаимную независимость входных пере- менных системы и исследовать существенность их влияния на выходную. Закрепить теоретические знания по вопросам «формы представле- ния систем», «свойства систем», «метод системного анализа» и «связь тео- рии систем с другими науками». Приборы и материалы Компьютерный класс с доступом к сети Internet; программное обес- печение, реализующее вычислительные процедуры проверки существенно- сти и независимости переменных (рекомендуется MathCad; в его отстутст- вие задача может быть решена средствами Excel); информационный сайт Продовольственной и сельскохозяйственной организации ООН (FAO): http: // faostat.fao.org / DesktopDefault.aspx?PageID=567&lang=ru Задание 1. Проверить соответствие подсистемы первого уровня требованиям существенности и независимости входных переменных. 2. При необходимости пересмотреть набор входных переменных. Числовые переменные, вновь включённые в модель, привести к дискретной форме. Для каждой переменной, включённой в модель, рассчитать табли- цы условных вероятностей. 3. Определить математические ожидания условной вероятности возможных значений каждой входной переменной при заданном значении выходной и построить таблицы условных вероятностей. Замечание. Если для проверки существенности и независимости некоторых входных переменных рабочая группа решила применять метод относительной информативности, то для данных переменных последова- тельность выполнения задания меняется: сначала выполняется п.3, затем пп.1 и 2. Методические указания по выполнению задания При решении задач практического уровня сложности по мере воз- можности исследуются многофакторные зависимости. Для достижения це- 31 лей изучения данной темы с учётом естественных ограничений по времени и сложности выполнения задания достаточно исследовать только парные зависимости между переменными. Для обеспечения достоверности анализа рекомендуется использо- вать не менее двух методов оценки тесноты связи для каждой пары пере- менных. Если преподавателем не указано иначе, используйте следующие критерии исключения входной переменной из модели: отсутствие статистически достоверной связи с выходной перемен- ной при α = 0,1 по подходящему статистическому критерию независимо- сти; снятие более 15% энтропии какой-либо выходной переменной, не исключаемой из модели, либо отклонение гипотезы об их независимости по подходящему статистическому критерию при α = 0,05. Исключённые переменные заменяют новыми переменными из ран- жированного ряда, составленного при выполнении задания к теме 1, отда- вая предпочтение переменным с наиболее высоким рангом. Для новых пе- ременных повторяют процедуру проверки их существенности и независи- мости. Если по результатам проверки существенности и независимости пе- ременных не удаётся выбрать достаточное количество переменных для включения в модель, а также в случае возникновения сомнений относи- тельно того, следует ли вносить изменения в модель подсистемы первого уровня, необходимо обратиться к преподавателю. Требования к отчёту Отчёт о выполнении практического задания состоит из коллектив- ной и индивидуальных частей. Объём коллективной части — не более 2 страниц, индивидуальной — до 8 страниц (не считая приложений). В коллективной части указываются переменные подсистемы первого уровня, исключённые из модели, и переменные, предложенные для вклю- чения в модель вместо исключённых. Изменения в модели должны быть обоснованы. В каждой индивидуальной части должны быть приведены: ¨ комбинационные таблицы, построенные составителем; ¨ математические ожидания вероятности, рассчитанные составите- лем; 32 ¨ использованные составителем методы анализа связей для каждой пары показателей, исследованной составителем отчёта; ¨ количественная оценка тесноты связей; ¨ заключение о тесноте связей; ¨ предложения по совершенствованию модели; ¨ результаты проверки гипотез о распределении вероятностей, гра- ницы квантилей и таблицы условных вероятностей для исследованных со- ставителем отчёта переменных, введённых в модель взамен не отвечающих условиям существенности и независимости; ¨ список литературы, использованной при подготовке к практиче- скому занятию. 33 ТЕМА 4. СПЕЦИФИКАЦИЯ ВТОРОГО УРОВНЯ АГРАРНОЙ ПРОИЗВОДСТВЕННОЙ СИСТЕМЫ Теоретическая часть При использовании формализма условных вероятностей модели второго уровня требуются в том случае, если данные о значении сооветст- вующей входной переменной первого уровня отсутствуют. Хотя данный формализм позволяет получить оценки распределения вероятностей вы- ходной переменной, наилучшим образом согласующиеся с поступившей информацией о значениях входных переменных даже в тех случаях, когда значения некоторых переменных не поступили вовсе или известны лишь с некоторой вероятностью, необходимо принимать меры по получению ин- формации о возможно большем количестве входных переменных, так как чем больше данных поступило, тем меньше неопределённость результата, обусловленная неопределённостью значений некоторых переменных. Если наблюдать некоторые входные переменные первого уровня всё же не удаётся, имеется возможность оценить распределение вероятностей их значений, опираясь на наблюдения тех переменных, от которых они за- висят, то есть входных переменных моделей второго уровня. Процедура спецификации второго уровня аграрной производствен- ной системы и используемые при её реализации методики отличаются от рассмотренных в предыдущих трёх темах лишь в деталях. В целом опреде- ление набора входных переменных второго уровня требует выполнения всё тех же этапов: ¨ предварительного отбора входных переменных второго уровня при посредстве построенного с помощью экспертных процедур ранжиро- ванного ряда переменных, влияющих на выходную переменную второго уровня (одновременно являющуюся входной переменной первого уровня); ¨ их дискретизации (если они непрерывные); ¨ проверки их существенности и независимости и, при необходи- мости, корректировки модели; ¨ формирования таблиц условных вероятностей. Отличия состоят в том, что на практике спецификация систем вто- рого уровня обыкновенно сталкивается с ещё большим недостатком эмпи- рических данных, чем это наблюдается при работе с первым уровнем. Ча- 34 ще остаются неизвестными формы распределений вероятностей перемен- ных второго уровня, и потому дискретизация чаще выполняется непосред- ственно по эмпирическим данным, а не по теоретическому распределению. Чаще используются переменные, значения которых для каждого наблюде- ния получены не путём статистического наблюдения или постановки опы- та, а посредством экспертных оценок. При практическом использовании формализма условных вероятно- стей для разработки интеллектуальных информационных систем часто ис- пользуется подход, отличающийся от рассматриваемого в данном практи- куме. Именно, входные переменные второго и нижележащих уровней вы- бираются по такой же или схожей процедуре, но таблицы условных веро- ятностей строятся для вероятностей значений входной переменной второ- го (или более низкого) уровня при условии заданного значения выходной переменной первого уровня. При этом, во избежание смещённой оценки выходной переменной из-за зависимости факторов, одновременно исполь- зуемых в расчётах (ведь входные переменные первого уровня заведомо за- висят от соответствующих входных переменных второго уровня, что обес- печивается процедурой их отбора), данные о значениях факторов низших уровней обрабатываются только при отсутствии данных о соответствую- щей переменной более высокого уровня. Такой подход упрощает алгоритм работы формализма и сокращает объём вычислений, но у него есть существенный недостаток: не всегда существуют наблюдения, в которых зафиксированы значения выходной переменной первого уровня вместе со значениями входных переменных низших уровней. Многоуровневая модель даёт возможность использовать независимые источники данных для построения таблиц условных вероят- ностей для разных подсистем. В случае, если все таблицы условных веро- ятностей связывают входные переменные разных уровней с выходной пе- ременной первого уровня, требуется, чтобы значения всех этих перемен- ных фиксировались в одних и тех же наблюдениях. Теоретически входная переменная некоторой подсистемы второго уровня не может одновременно быть входной переменной другой подсис- темы второго уровня: если бы такое имело место, две выходных перемен- ных второго уровня оказались бы зависимыми. То же касается и более низких уровней. На практике смещение оценки выходной переменной пер- вого уровня, обусловленное подобными зависимостями, может оказаться неизбежным, так как полную независимость факторов обеспечить удаётся далеко не всегда. При недостатке данных с подобными явлениями прихо- 35 дится мириться, а в дальнейшем, по мере накопления опытных данных, возникающие в связи с этим проблемы неадекватности модели решаются либо путём замены парных таблиц условных вероятностей таблицами большей размерности (трёх- или четырёхмерными), либо обращением к более мощным формализмам. Поэтому на практике включение одной и той же входной переменной в две подсистемы второго уровня в исключитель- ных случаях допускается. При этом связь её с соответствующими выход- ными переменными должна быть существенной, но слабой. Библиографический список Теория систем: Учеб. пособие / В.Н. Волкова, А.А. Денисов. М.: Высшая школа, 2006. Франс Дж., Торнли Дж. Математические модели в сельском хозяй- стве / Пер. с англ. М.: Агропромиздат, 1987. Практическая часть Аудиторные занятия: 4 часа. Самостоятельная работа: 4 часа. Цель работы Приобрести навыки спецификации подсистем производственной системы. Научиться решать задачи системного анализа в условиях ограни- ченной информационной базы, пользуясь экспертными оценками, карто- графическим материалом, справочными изданиями и другими источниками информации. Закрепить теоретические знания по теме «структура систем». Приборы и материалы Компьютерный класс с доступом к сети Internet; программное обес- печение, автоматизирующее рутинные операции по ранжированию факто- ров, реализующее аналитическую группировку, проверку статистических гипотез о характере распределения случайной величины, численные мето- ды решения интегральных уравнений, вычислительных процедур проверки существенности и независимости переменных (рекомендуются Excel и MathCad; в отстутствие MathCad задача может быть решена средствами Excel и VBA); информационный сайт Продовольственной и сельскохозяй- 36 ственной организации ООН (FAO): http: // faostat.fao.org / DesktopDefault.aspx?PageID=567&lang=ru Задание 1. Специфицировать входные переменные всех подсистем второго уровня исследуемой производственной системы. 2. Построить таблицы условных вероятностей для подсистем второ- го уровня. 3. Проверить соответствие переменных подсистем второго уровня требованиям независимости и существенности; при необходимости пере- смотреть спецификацию подсистем. Методические указания по выполнению задания Для достижения целей практического задания общее число входных переменных подсистем второго уровня должно составить 7…10, из них не менее 5 числовых. Существенность и независимость переменных проверя- ются только одним методом, по возможности наименее трудоёмким. С разрешения преподавателя для некоторых переменных эту проверку можно опустить. Учитывая ограниченность информационной базы, доступной для вы- полнения практического задания, замену входных переменных, для кото- рых не выполняются требования существенности и независимости, произ- водить не обязательно (в практических приложениях это делать необходи- мо!). В процессе решения задачи предполагается использование элек- тронных таблиц, алгоритмов и программ, разработанных при выполнении предыдущих заданий. Требования к отчёту Отчёт о выполнении практического задания включает коллективную и индивидуальные части. Объём коллективного раздела не должен превы- шать 1 страницы, индивидуального — 6 страниц (не считая приложений). Коллективный раздел должен содержать схему модели производст- венной системы, отражающую все её переменные и связи между ними. В индивидуальных разделах должны присутствовать: ¨ сведения о виде распределения и границах квантилей, а также таблицы условных вероятностей для каждой переменной, исследованной составителем отчёта; |