Интеллектуальный анализ данных
Скачать 7.76 Mb.
|
3.2. Гипотезы об однородности выборок наблюдений. Предположим, что ОА наблюдался в течении l сеансов (или l дней). Полученные наблюдения имеют вид рядов (X 1 , X 2 ,..., X n ) 1 , (X 1 , X 2 ,..., X n ) 2 ,...,(X 1 , X 2 ,..., X n ) l Принятие решение о том, что ОА не изменил своего состояния, сводится к проверке одной из гипотез об однородности данных, имеющих вид: H o : F 1 (X 1 )=F 2 (X 2 )=...=F l (X l ); H o : a 1 =a 2 =...=a l ; H o : 1 2 = 2 2 =...= l 2 . В случае отрицательного результата можно с заданным уровнем значи- мости утверждать, что состояние ОА не изменилось. Частный случай этой гипоте- зы при l=2 позволяет осуществить проверку аномальности одного или нескольких резко выделяющихся наблюдений. 3.3. Гипотезы о числовых значениях параметров исследуемой гене- ральной совокупности. Предположим, что в результате длительных наблюде- ний установлено среднее значение какого-то признака x, например, среднее число сообщений в сети a. Значимое отклонение от а означает возможность измене- ния состояния ОА. Для обнаружения этого изменения по наблюдениям X 1, X 2 ,..., X n осуществляется проверка статистической значимости гипотезы Ho: E{ ^ x}=a. Аналогично может проверяться значимость других предположений, напри- мер, H o : ^ r{ ^ x 1 , ^ x 2 }=0, где ^ r{ ^ x 1 , ^ x 2 } - выборочный коэффициент корреляции, построенный по двумерным наблюдениям X i =(X 1 , X 2 ) i , i=1,...,n. К этому же классу задач относятся задачи проверки гипотез о параметри- ческой стационарности и независимости рядов наблюдений. 3.4. Гипотезы о типе зависимости между компонентами исследуемого разведывательного признака. С точки зрения задач управления большой интерес представляет характер зависимости между наблюдениями и параметрами состояния ОА или между раз- личными признаками. Например, необходимо установить, как зависит среднее число самолетов в воздухе от интенсивности трафика авиационной радиосети связи. При этом проверяется гипотеза о виде этой зависимости, например, 101 H o : E{x 2 ¦ x 1 }=x 2 =b 0 +b 1 x 1 , где b 0 , b 1 - параметры модели. Соответствующие статистические критерии называются критериями адек- ватности. Заключение 1. Процедура обоснованного сопоставления предположительного утверждения (гипотезы) относительно природы или величины неизвестных параметров анализируемой системы с имеющимися в распоряжении результатами наблюдений осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез. 2. По своему прикладному содержанию высказываемые в ходе статистиче- ской обработки данных гипотезы подразделяют на следующие типы: об общем виде закона распределения исследуемой случайной величины; об однородности двух или нескольких обрабатываемых выборок; о числовых значениях параметров исследуемой генеральной совокупности; об общем виде зависимости, существующей между компонентами иссле- дуемого многомерного признака; о независимости и стационарности ряда наблюдений. 3. Все статистические критерии строятся по общей логической схеме. По- строить статистический критерий - это значит: а) определить тип проверяемой гипотезы; б) предложить и обосновать конкретный вид функции от результатов на- блюдения (критической статистики θ (n) , на основании значений которой прини- мается окончательное решение; в) указать такой способ выделения из области возможных значений крити- ческой статистики θ (n) области Г n (H 1 ) отклонения проверяемой гипотезы Н o , чтобы было соблюдено требование к величине ошибочного отклонения гипотезы Н 4o 0 (т.е. к уровню значимости критерия ). 4. "Качество" статистического критерия характеризуется уровнем значимо- сти , мощностью 1- , свойствами несмещенности и состоятельности. В состоя- тельных критериях можно добиваться сколько угодно малых величин ошибок пер- вого и второго рода ( и 7b 0) лишь за счет увеличения объема выборки n, на ос- новании которой принимается решение. При фиксированном объеме выборки можно делать сколь угодно малой лишь одну из ошибок ( или ), что сопряжено с неизбежным увеличением дру- гой. Вопросы для самопроверки: 1. Перечислите основные типы гипотез, проверяемых в ходе статистиче- ской обработки измерений; 2. В чем сущность гипотезы согласия? Гипотезы об однородности выборок наблюдений? Гипотезы о числовых значениях параметров исследуемой гене- ральной совокупности? Гипотезы о типе зависимости между компонентами ис- следуемого признака? 3. Что определяют уровень значимости и мощность статистических крите- риев? 4. Сформулируйте критерии проверки гипотез о параметрической стацио- нарности и независимости рядов наблюдений. 5. Разработайте последовательность проверки гипотезы о равенстве сред- 102 них H o : E{X 1 0}=E{X 2 } для альтернатив H 1 : E{X 1 }>E{X 2 } и H 1 : E{X 1 } }. 6. Как соотносятся уровень значимости критерия равенства средних и значение табулированной t-статистики? 7. В чем состоит содержание гипотезы согласия? 8. В чем состоит содержание гипотезы об однородности выборок наблю- дений? 9. В чем состоит содержание гипотезы о числовых значениях параметров исследуемой генеральной совокупности? 10. В чем состоит содержание гипотезы о типе зависимости между компо- нентами исследуемого признака? 103 ЛЕКЦИЯ 11 РЕГРЕССИОННЫЙ АНАЛИЗ И МЕТОД НАИМЕНЬШИХ КВАДРАТОВ Вопросы: 1. Постановка задачи; 2.Простейшая модель линейной регрессии; 3. Линейная регрессия с несколькими переменными: Матричная форма 1. Общая постановка задачи восстановления зависимостей на основе метода наименьших квадратов. Предположим, что между двумя взаимосвя- занными переменными которыми существует неизвестная исследователю не- прерывная зависимость вида 0 C ) a , X ( f Y , Которую необходимо определить по результатам совокупности наблюде- ний n ,..., 1 i }, v Y Z , X { i i i i Здесь a – вектор параметров искомой зависимости, n ,..., 1 i }, v { i - вектор погрешностей измерений, 0 C - класс непрерывных функций. В частности, если независимая переменная представляет собой время, то имеем задачу определения движения ) a , T ( f Y Предположим, что с помощью какого-то метода удалось восстановить эту зависимость, т.е. получить ее оценку ) aˆ , X ( fˆ Y ˆ Найденную зависимость можно рассматривать, как модель исходной взаи- мосвязи. Естественно, желательно получить такую оценку, для которой априори выбранная метрика рассогласования между ней и исходной зависимостью была бы минимальной, т.е. min )} aˆ , X ( fˆ ), a , X ( f { ) Y ˆ , Y ( Однако, поскольку истинные значения зависимости неизвестны, вместо них используются значения наблюдаемых измерений min )} aˆ , X ( fˆ , Z { ) Y ˆ , Z ( Если в качестве метрики рассогласования выбрать сумму квадратов раз- ностей между наблюдениями и значениями модели, то получим метод наи- меньших квадратов (МНК): min ) Y ˆ Z ( : ) aˆ , X ( fˆ n 1 i 2 i i МНК был независимо разработан французским математиком Лежандром и немецким математиком К.Ф. Гауссом. Впервые Гаусс использовал МНК в 1799г. для определения движения астероида. Термин «регрессия» введен Френсисом Гальтоном для объяснения одного биологического процесса. Отсюда задача вос- становления зависимостей по результатам наблюдений получила наименование регрессионного анализа. 104 Заметим, что выбор иной меры подобия приведет к другим вычислитель- ным методам. Так, например, если в качестве меры подобия использовать сумму модулей min | Y ˆ Z \ : ) aˆ , X ( fˆ n 1 i i i то получим метод наименьших модулей. Задача оценки зависимости (или задача построения математической мо- дели зависимости) при выбранном критерии близости обычно решается итера- ционно в два этапа (рис. 1). На первом этапе, исходя из общих представлений выбирается структура мо- дели. Например, если процесс носит сезон- ный характер, то в качестве структуры вы- бирают синусоидальную функцию или ряд Фурье При наличии апериодических про- цессов часто используют полиномиальные ряды и т.п. Заметим, что полиномиальные ряды обладают очень высоким уровнем общности. В частности, в соответствии с аппроксимационной теоремой Вейер- штрасса для любой непрерывной функции 0 C ) x ( f на ] b , a [ x отрезке можно подобрать последовательность многочленов n P , равномерно сходящихся к этой функции на отрезке, т.е. ) x ( f ) x ( P n n На втором этапе осуществляется оптимизационная оценка вектора пара- метров модели a в соответствии с выбранным критерием подобия. В частности, при использовании МНК, искомый вектор параметров определяется из условия min )) aˆ , X ( fˆ Z ( : aˆ n 1 i 2 i i В случае, если и для оптимальных по выбранному критерию значений па- раметров найденная модель не удовлетворяет пользователя, осуществляется повторный выбор структуры модели и реализуется новая итерация. В отношении погрешностей (или шумов) наблюдений n ,..., 1 i }, v { i обыч- но вводятся дополнительные ограничения: 1. Шумы наблюдений образуют независимую случайную последователь- ность ; j i , n ,..., 1 j , i , 0 } v , v cov{ j i 2. Наблюдения являются несмещенными, т.е. n ,..., 1 i , Y } Z { E i i ; 3. Независимые переменные не являются случайными величинами, т.е. n ,..., 1 i , 0 } v , X cov{ i i ; 4. Для ряда наблюдений выполняется условие гомоскедастичности, т.е. } v , v cov{ i i n ,..., 1 i , } Z { 2 i 2 Выбор структуры модели Оценка параметров модели Проверка качества модели Рис. 1. Этапы решения задачи восстановления зависимости ) X w cos( b ) X w sin( a ( 2 c Y n 1 i i i i i 0 i n 1 i i 0 n x a a ) a , X ( P ) a , X ( Y 105 Во многих практических случаях в качестве дополнительного предположе- ния используется гипотеза о гауссовском распределении погрешностей измере- ний, т.е. }. , 0 { N v 2 В соответствие с теоремой Гаусса, выполнение перечисленных ограниче- ний делает оценки по МНК наилучшими в классе всех линейных оценок. 2. Простейшая модель линейной регрессии. В рамках перечисленных выше ограничений рассмотрим простейший вариант задачи линейной регрессии с моделью наблюдений вида n ,..., 1 i , v X a a Z i i 1 0 i В соответствии с МНК ищем оценки параметров , ˆ , ˆ 1 0 a a , минимизирующих величину S = n 1 i 2 i v n 1 i 2 i i ) Y ˆ Z ( n i 1 2 i 1 0 i ) X aˆ aˆ Z ( Находим экстремум. 0 ) X aˆ aˆ Z ( X 2 aˆ S i 1 0 i i n 1 i 1 После приведения подобных членов получаем систему нормальных урав- нений: i 1 0 i X aˆ aˆ n Z ; X aˆ X aˆ Z X 2 i 1 i 0 i i В матричной форме имеем Z X Z aˆ aˆ X X X n i i i 1 0 2 i i i Соответствующее решение имеет вид: XZ Y X X X n aˆ aˆ 1 2 1 0 . (1) Заметим, что 1 2 X X X n 2 2 ) X ( X n 1 , n X X X 2 отсюда 1 0 aˆ aˆ 2 2 ) X ( X n 1 n X X X 2 XZ Z Следовательно, ; 0 ) X aˆ aˆ Z ( 2 aˆ S i 1 0 i n 1 i 0 106 ; ) X ( X n XZ X Z X aˆ 2 2 2 0 ) X ( X n XZ X XZ n aˆ 2 2 1 (2) Введя соотношения центрирования: 2 2 ) X X ( x ) Z Z )( X X ( xz , где n 1 i i n 1 i i Z n 1 Z , X n 1 X - выборочные средние, можно привести последние соотношения к виду: 2 1 x xz aˆ , (3) X aˆ Z aˆ 1 0 . (4) 3. Линейная регрессия с несколькими переменными: Матричная фор- ма Модель регрессии допускает обобщение на случай m независимых пере- менных: i Z = a 0 +a 1 X 1i +a 2 X 2i +…+a m X 1m + v i , i=1,…,n. В случае одного единственного наблюдения (подобные ситуации часто бывают в экономике), последнее выражения сводится к виду i Z = a 0 +a 1 X 1i +a 2 X 2i +…+a m X mi + v i , i=1,…,n. Соответственно, E{ i Y }= =a 0 +a 1 X 1i +a 2 X 2i +…+a m X mi , i=1,…,n. ] ]; aˆ ..., , aˆ , aˆ [ ' aˆ m 1 0 X= mn n 1 2 m 21 1 m 11 X X 1 X X 1 X X 1 В соответствии с МНК будем минимизировать сумму квадратов ошибок S = n 1 i 2 i ) aˆ X Z ( )' aˆ X Z ( ' Раскроем скобки полученной квадратической формы n 1 i 2 i aˆ X ' X aˆ Z ' X ' aˆ aˆ X ' Z Z ' Z aˆ X ' X aˆ Z ' X ' aˆ 2 Z ' Z Для минимизации найденного выражения приравняем нулю первые про- изводные n 1 i 2 i aˆ 0 aˆ X ' X 2 Y ' X 2 . (33) 107 Тогда aˆ X ' X Y ' X Y ' X ) X ' X ( aˆ 1 Вопросы для самопроверки: 1. В чем состоит МНК? 2. Какие метрики могут использоваться для построения альтернатив к МНК? 3. Опишите общую схему восстановления зависимости между двумя переменны- ми. 4. Назовите основные этапы решения задачи восстановления зависимости. 5. Каким образом формируется непараметрическая структура зависимости? 6. Что называется линейной регрессией? 7. Как описывается линейная регрессия с несколькими переменными в скалярной форме? 8. Приведите матричную форму линейной регрессии с несколькими переменными. 9. Приведите матричной выражение для оценки коэффициентов линейной регрес- сии. 10. Кто являются авторами МНК? 11. Назовите свойства оценок по МНК. 12. Сформулируйте аппроксимационную теорему Вейерштрасса. 13. Сформулируйте условие гетероскедастичности. 108 ЛЕКЦИЯ 12 ОСНОВЫ ТЕОРИИ КЛАССИФИКАЦИИ И РАСПОЗНАВАНИЯ ОБРАЗОВ 1. Классификация. Формализованная постановка. Исторически первыми в рамках работ по созданию искусственного интел- лекта стали методы классификации, получившие название «распознавания обра- зов» (Pattern Recognition). |