Эконометрика, лекции. 1 Составитель Е. А. Парышева Введение
Скачать 1.28 Mb.
|
2.2. Способы представления и обработки экономических данных Задачей статистического описания выборки является получение такого её представления, которое позволяет наглядно выявить вероятностные характеристики. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 15 Различают следующие способы упорядочения данных по возрастанию, по совпадающим значениям, по интервалами т.п. Разность между максимальными минимальным значениями выборки называется размахом выборки min max Пусть объём выборки равен n, а число различных значений k ( n). Тогда значениях называются вариантами. Если значение х встретилось в выборке i n раз, то число i n называют частотой значения i х Отношение частоты i n к объёму выборки n называется относительной частотой n n Тогда наблюдаемые значения можно сгруппировать в статистический ряд Х 1 х 2 х … х i n 1 n 2 n … k n i 1 2 … k k i i n n 1 , k i i 1 Статистический ряд наглядно можно представить в виде полигона частот (или полигона относительных частот) – ломаной линии, отрезки которой соединяют ( i х n ) (или ( i х. Пример 1. Анализируется прибыль Х предприятий отрасли. Обследованы 100 предприятий. Данные представлены в виде статистического ряда Х 5 10 15 20 25 i n 5 20 40 25 10 i 0,05 0,2 0,4 0,25 0,1 Построить полигон частот. Решение. 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 25 прибыль предприятия частота По статистическому ряду можно строить эмпирическую функцию распределения F*(x). n n x F x ) ( * , где x n - число значений СВ Х х, n - объём выборки. Свойства F*(x): 1. 0 ≤ ) ( * x F ≤ 1. 2. ) ( * x F - неубывающая функция, те. ) ( * ) ( * 2 1 2 1 x F x F x x 3. k x x x x Эмпирическая функция распределения является оценкой функции распределения ) ( ) ( x X P x F , которая называется теоретической функцией распределения. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 16 При большом объёме выборки (или в случае непрерывного признака) её элементы могут быть сгруппированы в интервальный статистический ряд. Для этого все n наблюдаемых значений выборки разбиваются на k непересекающихся интервалов длиной h (- шаг разбиения. И находят для каждого частичного интервала i n - количество наблюдаемых значений СВ Х, попавших в й интервал. n n i i - относительная частота попадания СВ Х в й интервал. Тогда интервальный статистический ряд имеет вид ) , [ 1 i х x ) , [ 1 х x ) , [ 2 х x … ] , [ 1 k х x i n 1 n 2 n … k n i 1 2 … Интервальный статистический ряд наглядно может быть представлен в виде гистограммы частот – столбиковой диаграммы, состоящей из прямоугольников, основаниями которых служат подынтервалы, а высота равна h n i (плотность частоты. Площадь го прямоугольника равна i n , а площадь всей гистограммы частот равна сумме всех частот, те. объёму выборки Для построения гистограммы относительных частот основание прямоугольника также равно h, а высота h h n n i i . Площадь каждого столбика равна i . Площадь всей гистограммы относительных частот равна k i i 1 На основании гистограммы обычно выдвигается предположение о виде закона распределения исследуемой величины. Пример 2. Анализируется доход населения. Извлечена выборка объёма 300 единиц. По уровню дохода население подразделяется на 6 групп. Данные сгруппированы в интервальный статистический ряд ) , [ 1 i х x ) 20 ; 0 [ ) 40 ; 20 [ ) 60 ; 40 [ ) 80 ; 60 [ ) 100 ; 80 [ ) 120 ; 100 [ i n 10 50 80 100 40 20 i 30 1 30 5 30 8 30 10 30 4 30 Построить гистограмму относительных частот. Решение. Шаг h = 20. Разделив относительные частоты на шаг разбиения, получим высоту столбиков. Форма гистограммы в наибольшей степени соответствует нормальному распределению. h i 600 10 600 8 600 5 600 1 0 20 40 60 80 100 120 x Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 17 2.3. Статистические оценки параметров распределения Статистической оценкой неизвестного параметра теоретического распределения (те. количественного признака генеральной совокупности) называют функцию от наблюдаемых случайных величин. Для того чтобы оценки давали хорошие приближения оцениваемых параметров, они должны удовлетворять определённым требованиям – быть несмещёнными, состоятельными и эффективными. Оценка генеральной средней по выборочной средней Генеральной средней Г х называется среднее арифметическое значений признака генеральной совокупности х х х х Г Если значения k x x x ,..., , 2 1 имеют частоты k N N N ,..., , 2 1 ( N N N N k 2 1 ), то N N x N N х N х N х х i i i k Г 2 2 Выборочной средней х называется среднее арифметическое значений признака выборочной совокупности n x х х х х i i n B 1 2 1 Если значения k x x x ,..., , 2 1 имеют частоты k n n n ,..., , 2 1 ( n n n n k 2 1 ), то х n n x k i i Пусть из генеральной совокупности извлечена повторная выборка объёма n со значениями. Пусть Г х неизвестна и требуется оценить (те. приближённо найти) её значение поданным выборки. Тогда в качестве оценки генеральной средней Г х принимают выборочную среднюю B х То же и для бесповторной выборки. Оценка генеральной дисперсии по исправленной выборочной Генеральной дисперсией Г называется среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения Г х : N x x N x х х х D N i Г i Г N Г Г Г 1 2 2 2 2 2 1 ) ( ) ( ) ( ) ( или N N x x D k i i Г i Г 1 2 ) ( (Если значения имеют частоты k N N N ,..., , 2 1 ( N N N N k 2 1 )). Генеральное среднее квадратическое отклонение Г Г D Выборочной дисперсией В называется среднее арифметическое квадратов отклонений наблюдаемых значений признака от их среднего значениях i В i В 1 2 ) ( n n x x k В 2 ) ( В В D 2 2 2 2 ) ( n x n х х х D В Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 18 Пусть из генеральной совокупности в результате n независимых наблюдений над количественным признаком Х извлечена выборка объёма n. ( k x x x ,..., , 2 1 имеют частоты k n n n ,..., , 2 1 ( n n n n k 2 1 )). Требуется поданным выборки оценить неизвестную генеральную дисперсию Г D В качестве оценки генеральной дисперсии Г принимают исправленную дисперсию B D n n S 1 2 1 ) ( 1 2 n n x x k i i В i Для оценки среднего квадратического отклонения генеральной совокупности используют исправленное среднее квадратическое отклонение (стандартное отклонение 2 S S Выше рассмотренные оценки – точечные. Они определяются одним числом. Свойства, выполнение которых желательно для того, чтобы оценка была признана удовлетворительной. Несмещенность. Оценка В называется несмещённой оценкой параметра , если её математическое ожидание равно оцениваемому параметру МВ. Многократное осуществление выборок одинакового объёма обеспечивает совпадение средненго значения оценки по всем выборкам с истинным значением параметра. Разность МВ) – называется смещением или систематической ошибкой оценивания. Для несмещённых оценок систематическая ошибка равна нулю. 2. Эффективность. Оценка параметра называется эффективной, если она имеет наименьшую дисперсию из любой другой альтернативной оценки при фиксированном объёме выборки. Оценка называется асимптотически эффективной, если с увеличением объёма выборки её дисперсия стремится к нулю. 3. Состоятельность. Оценка называется состоятельной, если она даёт истинное значение при достаточно большом объёме выборки. При небольшом объёме выборки точечная оценка может значительно отличаться от оцениваемого параметра, те. приводить к грубым ошибкам. В этом случае следует пользовать интервальной оценкой. Интервальной называют оценку, которая определяется 2 числами – концами интервала. Она позволяет установить точность и надёжность оценок. Пусть найденная поданным выборки статистическая характеристика В оценка неизвестного параметра (=const). В тем точнее определяет , чем меньше модуль разности В, те. 0 и В, следовательно, чем меньше , тем оценка точнее. То. положительное число характеризует точность оценок. Однако статистические методы не позволяют утверждать, что В удовлетворяет неравенству. Надёжностью (доверительной вероятностью) оценки по В называется вероятность q, с которой осуществляется неравенство В Обычно надёжность задаётся заранее, как правило q = 0,95; 0,99 близкое к 1). Чем ближе доверительная вероятность к 1, тем надежнее оценка. Доверительным называют интервал В В ; , который покрывает неизвестный параметр с заданной надёжностью q. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 19 2.4. Статистическая проверка гипотез Статистической называют гипотезу о виде закона распределения или о параметрах известного распределения. В первом случае гипотеза непараметрическая, во втором – параметрическая. Гипотеза Н, подлежащая проверке, называется нулевой (основной. Наряду с нулевой рассматривают гипотезуН 1 , которая будет приниматься, если отклоняется Н. Такая гипотеза называется альтернативной (конкурирующей. Например, если проверяется гипотеза о равенстве параметра Θ некоторому значению Θ 0 , те. Н Θ= Θ 0 , тов качестве альтернативной могут рассматриваться следующие гипотезы Н Н Н ) ( : 0 1 1 ) 4 ( 1 Н Выбор альтернативной гипотезы определяется конкретной формулировкой задачи. Гипотезу называют простой, если она содержит одно конкретное предположение. Гипотезу называют сложной, если она состоит из конечного или бесконечного числа простых гипотез (Н Н Н. Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются или нет данные наблюдений и выдвинутая гипотеза. Эта задача решается с помощью специальных методов математической статистики – методов статической проверки гипотез. При проверке гипотезы выборочные данные могут противоречить гипотезе Но. Тогда она отклоняется. Если же статистические данные согласуются с выдвинутой гипотезой, то она не отклоняется. В последнем случае часто говорят, что нулевая гипотеза принимается (такая формулировка не совсем точна, однако она широко распространена. Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза. Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза. Возможные результаты статистических выводов представлены следующей таблицей Возможные состояния гипотезы Результаты проверки гипотезы верна Но верна Н 1 Гипотеза Но отклоняется Ошибка первого рода Правильный вывод Гипотеза Ноне отклоняется Правильный вывод Ошибка второго рода Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая - к неоправданному риску. Что лучше или хуже - зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если Но состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны сточки зрения имиджа фирмы и ее долгосрочных перспектив. Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения вероятности ошибок состоит в увеличении объема выборки. Вероятность совершить ошибку первого рода принято обозначать буквой α, и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают β. Тогда вероятность не совершить ошибку второго рода (1 - β) называется мощностью критерия. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 20 Обычно значения α задают заранее, круглыми числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если α = 0,05, то это означает, что исследователь не хочет совершить ошибку первого рода более чем в 5 случаях из 100. Проверку статистической гипотезы осуществляют на основании данных выборки. Для этого используют специально подобранную СВ (статистику, критерий, точное или приближенное значение которой известно. Эту величину обозначают U (или Z) - если она имеет стандартизированное нормальное распределение T - если она распределена по закону Стьюдента; 2 - если она распределена по закону 2 ; F - если она имеет распределение Фишера. В целях общности будем обозначать такую СВ через К. Таким образом, статистическим критерием называют СВ К, которая служит для проверки нулевой гипотезы. После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества одно из них содержит значения критерия, при которых нулевая гипотеза отклоняется, другое - при которых она не отклоняется. Совокупность значений критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Совокупность значений критерия, при которых нулевую гипотезу не отклоняют, называют областью принятия гипотезы. Основной принцип проверки статистических гипотез можно сформулировать так если наблюдаемое значение критерия К (вычисленное по выборке) принадлежит критической области, то нулевую гипотезу отклоняют. Если же наблюдаемое значение критерия К принадлежит области принятия гипотезы, то нулевую гипотезу не отклоняют (принимают. Точки, разделяющие критическую область и область принятия гипотезы, называют критическими. Перейдем к определению критических точек, а следовательно, и критической области. В основу этого определения положен принцип практической невозможности маловероятных событий (принцип практической уверенности если вероятность события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие Ане произойдёт, ив практической деятельности вести себя так, как будто событие А вообще невозможно. Этот принцип не может быть доказан математически, но подтверждается всем практическим опытом человеческой деятельности. Например, отправляясь в путешествие самолётом, мы не рассчитываем погибнуть в авиационной катастрофе, хотя некоторая (весьма малая) вероятность такого события существует. Заметим, что принцип сформулирован лишь при однократном выполнении испытания. При многократном повторении испытаний мы уже не можем считать маловероятное событие А практически невозможным. Пусть для проверки нулевой гипотезы Но служит критерий К. Тогда вероятность того, что СВ К попадет в произвольный интервал ) , ( 2 2 1 k k ), можно найти по формуле 1 ) ( 2 2 1 k K k P , а ) ( ) (( 2 2 1 k K k K P 3ададим вероятность α настолько малой (0,05; 0,01), чтобы попадание СВ К за пределы интервала можно было бы считать маловероятным событием. Тогда, исходя из принципа практической невозможности маловероятных событий, можно считать, что если Но справедлива, то при ее проверке с помощью критерия К поданным одной выборки наблюдаемое значение К должно наверняка попасть в интервал ) , ( 2 2 1 k k . Если же наблюдаемое значение К попадает за пределы указанного интервала, то произойдет маловероятное, практически невозможное событие. Это дает основание считать, что с вероятностью 1 - α нулевая гипотеза Н несправедлива. Точки 2 2 1 , k k являются критическими. Generated by Foxit PDF Creator © Foxit Software http://www.foxitsoftware.com For evaluation only. 21 Область принятия гипотезы Критическая область ) ; ( ) ; ( 2 2 1 k k называется двусторонней критической областью. Она определяется в случае, когда альтернативная гипотеза имеет вид 0 1 : Н Кроме двусторонней, рассматривают также односторонние критические области - правостороннюю и левостороннюю. Правосторонней называют критическую область, определяемую из соотношения |