Интеллектуальный анализ данных
Скачать 7.76 Mb.
|
Первичная обработка результатов. Пусть интересующая нас дискрет- ная случайная величина Х принимает в выборке значение х 1 m 1 раз, х 2 – m 2 раз, …, х к – m к раз, причем k i k n m 1 , где n – объем выборки. Тогда наблюдаемые значения случайной величины х 1 , х 2 ,…, х к называют наблюдениями или вариан- тами, а m 1 , m 2 ,…, m к – частотами. Если разделить каждую частоту на объем выборки n, то получим отно- сительные частоты n m w i i Определение. Перечень наблюдений и соответствующих им частот или относительных частот называют статистическим рядом: x i x 1 x 2 … x k n i m 1 m 2 … m k w i w 1 w 2 … w k Пример. При проведении 20 бросков игральной кости число выпадений очков оказалось равным 2, 2, 5, 1, 2, 3, 2, 3, 3, 1, 5, 4, 4, 2, 1, 3, 2, 3, 6, 4. Статисти- ческий ряд для абсолютных и относительных частот имеет вид: x i 1 2 3 4 5 6 m i 3 6 5 3 2 1 w i 0,15 0,3 0,25 0,15 0,1 0,05 Определение. Последовательность наблюдений, записанных в порядке возрастания или убывания х (1), х (2) ,…, х (к) : х (1) <= х (2) <=… <= х (к) или убывания х (1), х (2) ,…, х (к) : х (1) >= х (2) >=… >= х (к) называют вариационным рядом. 83 Пример. Используем данные предыдущего примера: 1, 1, 4, 0, 1, 2, 1, 2, 2, 0, 5, 3, 3, 1, 0, 2, 2, 3, 4, 1. Соответствующий вариационный ряд имеет вид: 0, 1, 2, 3, 4, 5. Определение.Наблюдения, образующие вариационный ряд х (1), х (2) , …, х (k) называются порядковыми статистиками. Определение. Номера порядковых статистик в вариационном ряду на- зываются их рангами. 2. Группированные данные В случае, когда значения признака являются непрерывными, удобно ис- пользовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые зна- чения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала n i – сумму частот наблюдений, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом: Номера интервалов 1 2 … k Границы интервалов (a, a+h) (a+h, a+2h) … (b–h, b) Сумма частот наблюдений, попавших в интервал m 1 m 2 … m k Для наглядного представления о поведении исследуемой случайной величи- ны в выборке можно строить различные графики. Один из них – полигон частот: ло- маная, отрезки которой соединяют точки с координатами (x 1 , m 1 ), (x 2 , m 2 ), …, (x k , m k ), где x i откладываются на оси абсцисс, а m i – на оси ординат. Если на оси ординат откладывать не абсолютные (m i ), а относительные (w i ) частоты, то получим полигон относительных частот (рис.1). 3. Выборочная функция распределения и гистограмма По аналогии с функцией распределения случайной величины можно за- дать относительную частоту события X < x. Определение. Выборочной (эмпирической) функцией распределения на- зывают функцию F*(x), определяющую для каждого значения х относительную частоту события X m ) x ( * F x , Рис. 1. Полигон частот 84 где m х – число наблюдений, меньших х, n – объем выборки. Замечание. В отличие от эмпирической функции распределения, найден- ной опытным путем, функцию распределения F(x) генеральной совокупности на- зывают теоретической функцией распределения. F(x) определяет вероятность события X Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F(x), а именно: 1. 0 ≤ F*(x) ≤ 1. 2. F*(x) – неубывающая функция. 3. Если х 1 – наименьшее наблюдение, то F*(x) = 0 при х≤ х 1 ; если х к – наибольшее наблюдение, то F*(x) = 1 при х > х к . Для непрерывного признака графической иллюстрацией служит гис- тограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основа- ниями которых служат локальные ин- тервалы длиной h, а высотами – отрезки длиной n i /h (гистограмма частот) или w i /h (гистограмма относительных час- тот). В первом случае площадь гисто- граммы равна объему выборки, во вто- ром – единице (рис.2). 4. Оценки параметра положения: выборочное среднее, оценки моды и медианы Одна из задач математической статистики: по имеющейся выборке оце- нить значения числовых характеристик исследуемой случайной величины. Определение. Выборочным среднимназывается среднее арифметиче- ское значений случайной величины, принимаемых в выборке: n x n n x n x n x n п х х х х k 1 i i i k k 2 2 1 1 п 2 1 В , (1) где x i – наблюдения, n i - частоты. Замечание. Выборочное среднее служит для оценки математического ожидания исследуемой случайной величины. В дальнейшем будет рассмотрен вопрос, насколько точной является такая оценка. Другими характеристиками статистического ряда являются: - мода Mod – наблюдение, имеющая наибольшую частоту: ) p ,..., p max( m : x Mod n 1 k k * * ; Рис.2. 85 - медиана Med - наблюдение, которая делит вариационный ряд на две части, равные по числу наблюдений: k 2 n , 2 x x ; 1 k 2 n , x Med 1 k k 1 k , т.е., если число наблюдений нечетно (n=2k+1), то Med=x k+1 , а при четном n=2k 2 1 k k x x Med 5. Оценки параметра масштаба: оценки дисперсии, начальных и центральных моментов Определение. Выборочной дисперсией называется n ) x x ( m n ) x x ( D ˆ k 1 i 2 n i i n 1 i 2 n i n , (2) Выборочным средним квадратическим отклонением – D ˆ ˆ n n (3) Так же, как в теории случайных величин, можно доказать, что справедли- ва следующая формула для вычисления выборочной дисперсии: 2 2 ) x ( x D ˆ . (4) Пример. Найдем числовые характеристики выборки, заданной статисти- ческим рядом x i 2 5 7 8 m i 3 8 7 2 83 , 1 3475 , 3 ˆ ; 3475 , 3 55 , 5 20 2 64 7 49 8 25 3 4 D ˆ ; 55 , 5 20 2 8 7 7 8 5 3 2 х n 2 n n ; 5 Mo 6 2 7 5 Me Оценки начальных и центральных моментов (так называемые эмпириче- ские моменты) определяются аналогично соответствующим теоретическим мо- ментам: - начальным эмпирическим моментом порядка k называется n 1 i k i k n x n 1 ˆ . (5) При наличии повторяющихся значений эту формулу можно записать в виде 86 n x m ˆ k i i k n В частности, n i i 1 x n x n ˆ , то есть начальный эмпирический момент первого порядка равен выборочному среднему. - центральным эмпирическим моментом порядка k называется n 1 i k n i k n ) x x ( n 1 ˆ или n ) x x ( m ˆ k n i i k n (6) В частности, n 2 В i i 2 D n ) х x ( n ˆ , то есть центральный эмпириче- ский момент второго порядка равен выборочной дисперсии. 6. Свойства оценок Получив статистические оценки параметров распределения (выборочное среднее, выборочную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближением соответствующих характеристик генеральной со- вокупности. Определим требования, которые должны при этом выполняться. Пусть ˆ - статистическая оценка неизвестного параметра теоретиче- ского распределения. Извлечем из генеральной совокупности k выборок одного и того же объема n и вычислим для каждой из них оценку параметра : . ˆ .., ,. ˆ , ˆ n 2 1 Тогда оценку ˆ можно рассматривать как случайную величину, при- нимающую возможные значения . ˆ .., ,. ˆ , ˆ n 2 1 Если математическое ожидание Θ* не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если ) ˆ ( E , и с недостат- ком, если ) ˆ ( E . Следовательно, необходимым условием отсутствия система- тических ошибок является требование E(ˆ ) = Θ. Определение. Статистическая оценка ˆ называется несмещенной, если ее математическое ожидание равно оцениваемому параметру при любом объ- еме выборки: ) ˆ ( E Смещенной называют оценку, математическое ожидание которой не рав- но оцениваемому параметру. Несмещенность не является достаточным условием хорошего приближе- ния к истинному значению оцениваемого параметра. Если при этом возможные значения ˆ могут значительно отклоняться от среднего значения, то есть диспер- сия ˆ велика, то значение, найденное по данным одной выборки, может значи- тельно отличаться от оцениваемого параметра. Следовательно, требуется нало- жить ограничения на дисперсию. Определение. Статистическая оценка называется эффективной, если она при заданном объеме выборки n имеет наименьшую возможную дисперсию . min ) ˆ ( D 87 При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности. Определение. Состоятельной называется статистическая оценка, ко- торая при n стремится по вероятности к оцениваемому параметру: n P n ˆ Заметим, что если оценка несмещенная, то она будет состоятельной, ес- ли при n ее дисперсия стремится к 0. Убедимся, что n х представляет собой несмещенную оценку математиче- ского ожидания ) ( x E . Будем рассматривать n х как случайную величину, а n x x x ..., , , 2 1 , то есть значения исследуемой случайной величины, составляющие выборку, – как реали- зации независимых, одинаково распределенных случайные величин n X X X ..., , , 2 1 , имеющих одинаковое математическое ожидание а. Из свойств ма- тематического ожидания следует, что . ) ( 1 ... ) ( 1 2 1 а n na X E n п Х Х Х E Х E n i i п n Но, поскольку каждая из величин Х 1 , Х 2 ,…, Х п имеет такое же распреде- ление, что и генеральная совокупность, а = E(Х), то есть E( n Х ) = E(Х), что и тре- бовалось доказать. Выборочное среднее является не только несмещенной, но и состоятель- ной оценкой математического ожидания. Если предположить, что n X X X ..., , , 2 1 имеют ограниченные дисперсии, то из теоремы Чебышева следует, что их сред- нее арифметическое, то есть n Х , при увеличении n стремится по вероятности к математическому ожиданию каждой их величин, то есть к ) ( x E . Следовательно, выборочное среднее есть состоятельная оценка математического ожидания. В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что D n 1 n ) D ˆ ( E n , где D – истинное значение дисперсии генеральной совокупности. Можно предложить другую оценку дисперсии – исправленную дисперсию s², вычисляемую по формуле 1 ) ( ˆ 1 1 2 2 n x x D n n s n i n i n или 1 ) ( ˆ 1 1 2 2 n x x n D n n s k |