Расчетная_1. Теория вероятностей и математическая статистика Задание на расчетную работу 1 Основы статистики
Скачать 283.86 Kb.
|
Теория вероятностей и математическая статистика Задание на расчетную работу №1 «Основы статистики» 1.Группировка по отдельным значениям признака 1 2.Вычисление числовых характеристик выборки 2 3.Предварительная проверка на нормальность 4 4.Графическое представление выборочного распределения 4 5.Задание 6 6.Пример выполнения 6 Группировка по отдельным значениям признакаПусть — выборка объема из некоторой генеральной совокупности. По этой выборке можно оценить основные числовые характеристики генеральной совокупности. Различные элементы выборки называются вариантами. Ряд вариант, расположенных в порядке возрастания их значений называется вариационным рядом. Им пользуются, в основном, при малых . Если велико, то ряд преобразуют в группировки по отдельным значениям признака (дискретная группировка) или по интервалам изменения признака (интервальная группировка), для чего разбивают диапазон изменения признака , называемый размахом на равных интервалов. Для определения количества интервалов рекомендуется правило , где . Можно пользоваться и другими эмпирическими формулами, например, формулой Стерджеса , но они дают приблизительно одинаковый результат. Последовательность значений , полученных в результате наблюдения некоторого процесса, мы будем рассматривать как совокупность значений одинаково распределенных независимых случайных величин , Представляющих собой экземпляров одной и той же случайной величины . Эта последовательность значений называется выборкой. В этом случае говорят, что выборка взята из генеральной совокупности случайной величины . Если величина следует закону распределения , то мы будем говорить. что генеральная совокупность распределена по закону . Варианты, попадающие на границу интервала, отнесены к левому интервалу (можно отнести их и к правому интервалу, а в том случае, если на границу попадает много вариант, можно их поделить пополам между соседними интервалами). Результат группировки представляют рядом вариант или интервалов вариант, расположенных в порядке их возрастания и рядом соответствующих частот. Под частотой признака или интервала понимают число членов выборки с заданной вариантой или число членов выборки, варианты которых лежат в -м интервале. Относительной частотой называется отношение частоты к объему всей выборки . Таким образом, если проведена группировка, то значению или -му интервалу будут отвечать частоты и относительные частоты , при этом и , а все выборочные значения, попавшие в -й интервал, заменяются серединой интервала . Вычисление числовых характеристик выборкиПусть – выборка объема из генеральной совокупности, имеющей функцию распределения . Числовые характеристики выборки называются выборочными (эмпирическими) числовыми характеристиками. Основные числовые характеристики: среднее арифметическое (выборочное среднее): выборочная дисперсия: стандартное (среднее квадратическое) отклонение является корнем из выборочной дисперсии: коэффициент вариации: выборочные начальные и центральные моменты порядка определяются по формулам: оценка коэффициента асимметрии характеризует симметричность распределения относительно среднего , и определяется по формуле: оценка эксцесса – меры островершинности распределения по сравнению с нормальным распределением: выборочная мода : Для дискретного вариационного ряда (дискретная группировка) мода определяется как значение варианты с наибольшей частотой, если выборка достаточно большая. При интервальной группировке выбирается интервал, которому соответствует наибольшая частота. Пусть это k-й интервал , его частота равна , а ширина , тогда выборочная медиана : Определяется, как значение признака, относительно которого выборка делится на две равные по объему части. Если выборка объема представлена вариационным рядом, то При интервальной группировке (интервальный вариационный ряд) сначала находят так называемый медианный интервал , номер которого определяют из неравенств: где – сумма частот всех интервалов левее медианного, – сумма частот, включающая частоту медианного интервала. Медиану оценивают с помощью следующей интерполяционной формулы: Предварительная проверка на нормальностьС помощью вычисленных числовых характеристик можно определить, является ли выборочное распределение близким к нормальному закону. Если выборочное распределение близко к нормальному закону (или является таковым), то: 1) в интервалы , и должны попадать соответственно приблизительно 68%, 95% и 100% выборочных значений; 2) Оценка эксцесса и коэффициента асимметрии ‚ должны быть близки к нулю; 3) . Графическое представление выборочного распределенияНаиболее распространенными способами графического представления эмпирических данных (выборки) являются гистограмма, полигон частот и эмпирическая функция распределения (накопленные относительные частоты). Пусть и — соответственно наименьшее и наибольшее значения варнант выборки. Величина называется размахом выборки. Размах делится на число интервалов (интервальная группировка), которое можно вычислить по одной из следующих формул: округлив до целого числа. Обычно предполагают, что количество интервалов должно удовлетворять условию . Ширина каждого интервала вычисляется по формуле . После разбиения на интервалы определяют: абсолютные частоты , , где - количество элементов выборки, попавших в — й интервал (элемент, попавший на границу интервала, относят к какому-нибудь выбранному интервалу, например, левому, или правому; если на границу интервала попадает много элементов выборки, то их делят пополам между левым и правым интервалами); относительные частоты ; относительные накопленные частоты середины интервалов . Все полученные результаты сводятся в таблицу.
При этом Гистограмма строится следующим образом. На оси абсцисс откладываются интервалы, и на каждом из них строится прямоугольник, площадь которого равна относительной частоте, соответствующей этому интервалу, т.е. высота прямоугольника (ордината) равна , так что полная площадь гистограммы равна 1. Таким образом, гистограмма является эмпирическим аналогом плотности распределения. Так как множители можно рассматривать как масштабные, то по оси ординат можно откладывать частоты или , (правда, в этом случае площадь всех прямоугольников будет равна ). Полигон частот - ломаная линия, которая получается, если из середины каждого интервала восстановить перпендикуляр высотой (или ) и соединить вершины этих перпендикуляров. Полигон частот чаще используют при дискретной группировке. ЗаданиеВыполнить группировку исходных данных своего варианта по значению признака. Вычислить основные числовые характеристики: Выборочное среднее. Выборочную дисперсию. Стандартное отклонение. Коэффициент вариации. Оценка коэффициента асимметрии. Оценка эксцесса. Выборочная мода. Выборочная медиана. Выполнить предварительную проверку на нормальность. Построить гистограмму и полигон частот. Пример выполненияДля выполнения задания будем использовать выборку объемом 15 элементов: Выполним группировку исходных данных по значению признака. Для этого упорядочим выборку по возрастанию, и, используя формулы =МИН() и =МАКС() найдем минимальное и максимальное значения выборки: Далее посчитаем частоты, для этого разобьем выборку на пять интервалов одинаковой длины. Для того, чтобы узнать шаг , воспользуемся формулой: Для подсчета частот построим таблицу: В этой таблице в шапке указаны границы интервалов, от минимального до максимального значений выборки с шагом , в нижней строке укажем количество значений, попавших в каждый интервал: Для удобства, значения, попавшие в одинаковый интервал, выделены одним цветом. Найдем относительные частоты: Выполним контроль: сумма частот должна быть равна объему выборки, а сумма относительных частот единице: Используя формулы, вычислим выборочное среднее: В диапазоне ячеек B1:P1 находится выборка. Выборочную дисперсию: Ячейка D8 – это значение выборочного среднего. Среднее квадратическое отклонение: D9 – ссылка на ячейку, в которой находится значение дисперсии. Далее вычислим коэффициент вариации, разделив среднее квадратическое отклонение на выборочное среднее: Для расчета значений коэффициентов асимметрии и эксцесса нам потребуются значения центральных моментов второго, третьего и четвертого порядков. Для этого для каждого элемента выборки найдем его разность с выборочным средним: В ячейке D8 находится выборочное среднее. Затем возведем каждую разность во вторую, в третью и в четвертую степени: Найдем сумму значений в каждой строке и разделим на объем выборки: Полученные значения и есть центральные моменты второго, третьего и четвертого порядка: . Вычислим асимметрию: Здесь в ячейке Q20 – значение центрального момента третьего порядка, а в ячейке Q19 – значение центрального момента второго порядка. Для оценки эксцесса наберем формулу: В ячейке Q21 значение центрального момента четвертого порядка. Далее вычислим моду и медиану. Для расчета моды потребуется интервал с максимальной частотой. В нашем случае =4, тогда =7, = 0,312, =3, =2. Наберем формулу: Наконец, для расчета медианы определим интервал, удовлетворяющий условиям: то есть, нужно найти такой интервал, в котором сумма частот превышает половину объема выборки. В нашем случае номер такого интервала =4, так как на третьем интервале сумма частот меньше половины объема выборки: , а на четвертом интервале . Тогда =0,312, =7, =1+2+3=6, =15/2=7,5, =0,774. Наберем формулу: Окончательно получим значения основных числовых характеристик: Выполним предварительную проверку на нормальность. 1. Рассчитаем границы интервалов , и : В ячейке D8 находится значение выборочного среднего, в ячейке D10 значение среднего квадратического отклонения. Посчитаем, сколько значений выборки попадает в образованные интервалы: В последнем столбце указаны процентные соотношения полученных значений от объема выборки. Полученные значения позволяют говорить о том, что по первому критерию выборка является нормальной. 2. Оценка эксцесса и коэффициента асимметрии ‚ должны быть близки к нулю; Значение эксцесса =0,134, значение коэффициента асимметрии =-0,665. Эти значения достаточно малы, чтобы принять их незначимо отличными от нуля. 3. , в нашем случае . Учитывая все три критерия, можно говорить о том, что выборка является нормальной. Наконец, используя средства построения графиков Excel, построим гистограмму и полигон частот:
|