Лабораторная работа по статистике Построение вариационных рядов. ЛР1Статистика. Лабораторная работа 1 Построение вариационных рядов. Расчет числовых характеристик Иркутск 2022 Лабораторная работа 1
Скачать 78.07 Kb.
|
Министерство науки и образования Российской Федерации ИРКУТСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Институт Заочно-вечернего обучения МЕТОДЫ И АЛГОРИТМЫ ОБРАБОТКИ СТАТИСТИЧЕСКИХ ДАННЫХ Лабораторная работа №1 «Построение вариационных рядов. Расчет числовых характеристик» Выполнил: Иркутск 2022 Лабораторная работа №1. Построение вариационных рядов. Расчет числовых характеристик Цель работы: овладение способами построения рядов распределения и методами расчета числовых характеристик. Вариант № 2. Имеются данные о пропускной способности 50 участков эталонного газопровода (м3 /сут.): 19,8 19,1 19,3 18,8 20,2 20,8 20,7 19,7 19,6 19,2 20,9 20,9 20,2 19,6 20,4 20,4 20,2 20,4 18,9 19,7 19,8 20,6 20,7 19,7 20,3 19,8 20,4 20,3 20,6 20,5 20,4 20,5 20,3 20,5 20,2 20,5 20,7 21,0 20,4 20,8 20,5 20,4 20,6 21,0 20,4 20,4 20,3 19,7 19,9 20,1 Построение рядов распределения (интервального и дискретного вариационных рядов). Вариационным рядом (или статистическим распределением) называется ранжированный в порядке возрастания или убывания ряд вариант с соответствующими им частотами (весами). Различают дискретные и непрерывные вариационные ряды. Дискретной называют такую случайную величину, которая принимает конечное или бесконечное счетное множество значений. Таблица №1. Дискретный вариационный ряд
Рис.1. График дискретного вариационного ряда. Непрерывной называют такую случайную величину, которая принимает любые значения из некоторого конечного или бесконечного интервала. Рассчитывая размах варьирования признака по формуле R = xmax – xmin= 21-18,8=2,2; Число интервалов вариационного рассчитываю по формуле: k= , где n-объем выборки; k= =7; Рассчитываю длину h частичных интервалов по формуле h=R/k=2,2/7=0,3 Таблица №2. Интервальный вариационный ряд.
Рис.2. График интервального вариационного ряда. Записываем дискретный вариационный ряд (табл. 3). В качестве вариант xi берем середины интервалов интервального вариационного ряда. Таблица №3. Дискретный вариационный ряд.
Рис.3. Гистограмма и полигон к табл.№3. Строим график накопленных частот — кумуляту (рис. 4) Предварительно составляем расчеты: относительные частоты, wi = Ni/n и накопительные относительные частоты, Wi =Wi – 1+wi; n=50 Таблица №4. Данные накопительных частот.
Рис.4. Кумулятивная кривая Находим эмпирическую функцию распределения. Воспользуемся формулой: Fв (x) = где n — объем выборки, nx — число вариант , меньших х. Таблица №5. Таблица распределения выборки.
Таблица №6. Эмпирическая функция распределения
Рис. 5. График эмпирической функции распределения Вычислить по дискретному и интервальному вариационным рядам и сравнить полученные значения с значениями моды и медианы, вычисленными при помощи функции Excel: а) моду б) медиану. Мода – это величина признака (варианта), который наиболее часто встречается в данной совокупности, т.e. это варианта, имеющая наибольшую частоту. Медианой называется такое значение признака, которое приходится на середину ранжированного ряда, т.е. в ранжированном ряду распределения одна половина ряда имеет значение признака больше медианы, другая – меньше медианы. Для дискретного ряда: модой является значение варьирующего признака, обладающего наибольшей частотой, в данном примере варианта 20,4 встречается наибольшее количество раз (9). Следовательно, модой будет участок с пропускной способностью 20,4 м3/сут.; для определения медианы в дискретном ряду при наличии частот, сначала исчисляется полусумма частот, а затем определяется какое значение варьирующего признака ей соответствует: 50/2=25, если суммировать частоты с 1по 12 варианту получим число 24, 24<25, если рассмотрим сумму с 1го по 13ю, получаем 33 т.к 33>25, то медиана равно числам между 24 и 33. Следовательно, медианой будет участок с пропускной способностью 20,4 м3/сут. Для интервального ряда: Для интервального ряда сначала определяется модальный интервал (т.е. содержащий моду), в случае интервального распределения с равными интервалами определяется по наибольшей частоте; с неравными интервалами – по наибольшей плотности, а определение моды требует проведения расчетов на основе следующих формул: Мо = ХМо + iМо *(fМо – fМо-1 )/((fМо – fМо-1 ) + (fМо – fМо+1 )), где ХМо – минимальная граница модального интервала; iМо – величина модального интервала; fМо – частота модального интервала; fМо-1 – частота интервала, предшествующего модальному; fМо+1 – частота интервала, следующего за модальным. Получаем: Мо=20,3+0,3*(18-5)/(18-5)*(18-8)=20,33 м3/сут. Для нахождения медианы в интервальном вариационном ряду определяем сначала интервал, в котором она находится (медианный интервал). Таким интервалом будет такой, комулятивная частота которого равна или превышает половину суммы частот. Комулятивные частоты образуются путем постепенного суммирования частот, начиная от интервала с наименьшим значением признака. Половина суммы частот у нас равна 25 (50:2). Следовательно, согласно таблицы 7 медианным интервалом будет интервал со значением от 20,3 м3/сут. до 20,6 м3/сут. До этого интервала сумма накопленных частот составила 20. Следовательно, чтобы получить значение медианы, необходимо прибавить еще 5 единиц (25 – 20). Таблица 7. Расчет медианы в интервальном вариационном ряду.
При определении значения медианы предполагают, что значение единиц в границах интервала распределяется равномерно. Следовательно, если 18 единиц, находящихся в этом интервале, распределяются равномерно в интервале, равном 0,3, то 5 единицам будет соответствовать следующая его величина: 0,3 * 5/18 = 0,6 Прибавив полученную величину к минимальной границе медианного интервала, получим искомое значение медианы: Ме = 20,3 +0,6 = 20,9 м3/сут. Формула исчисления медианы для интервального вариационного ряда имеет следующий вид: Ме = ХМе + iМе * (∑f/2 – SМе-1 )/fМе, где ХМе – начальное значение медианного интервала; iМе – величина медианного интервала; ∑f – сумма частот ряда (численность ряда); SМе-1 – сумма накопленных частот в интервалах, предшествующих медианному; Подставляя в эту формулу значения из примера, приведенного выше, получим значение медианы: Ме = 20,3 + 0,3 * (50/2 – 20)/18 = 20,38 м3/сут. Сделав расчеты моды и медианы для дискретного и интервального рядов в программе Excel получаем: мода дискретного ряда, рассчитанная нами равна 20,4 м3/сут. мода рассчитанная программой тоже равна 20,4 м3/сут.; для интервального ряда мода рассчитанная нами равна 20,33 м3/сут. с помощью программы Excel 20,4 м3/сут. Медиана для дискретного ряда рассчитанная самостоятельно равна 20,4 м3/сут. в программе Excel медиана дискретного ряда равна 20,1 м3/сут. для интервального ряда расчеты проведенные самостоятельно и расчеты при помощи программы соответственно равны 20,38 м3/сут. и 20,4 м3/сут. Таким образом, после сравнения результатов можно сказать, что разницу в расчетах можно объяснить погрешность в округлениях результатов. Вычислить числовые характеристики: выборочную среднюю; выборочную дисперсию; выборочное среднее квадратическое отклонение, коэффициент вариации, асимметрию, эксцесс по дискретному вариационному ряду и оценить погрешность вычислений характеристик, используя соответствующие функции Excel. Выборочная средняя: xср= = ((18.8+18.9+19.1+19.2+19.3+19.9+20.1)*1+(19.6+20.8+20.9+21)*2+(19.8+20.6+20.7)*3+(19.7+20.6+20.7)*4+205*5+20.4*9)/50=20.20 используя соответствующие функции Excel выборочная средняя равна 20,2. Погрешность вычислений составила 0%. Выборочная дисперсия: Dв= -xср2 = ((18.82+18.92+19.12+19.22+19.32+19.92+20.12)*1+(19.62+20.82+20.92+212)*2+ +(19.82+20.62+20.72)*3+(19.72+20.62+20.72)*4+20,52*5+20.42*9)/50=408,4 Dв=408,4-20,22=0,36 используя соответствующие функции Excel выборочная дисперсия 0,29. Погрешность вычислений составила *100%=0,2% Выборочное среднее квадратическое отклонение: = =0,6 Используя в Excel функцию =КОРЕНЬ(СРЗНАЧ) выборочное среднее квадратическое отклонение 0,54. Погрешность вычислений составила δ=(0,54-0,6)/0,54*100%=0,1% Коэффициент вариации:V= = =0,02 используя в Excel функцию =СТАНДОТКЛОН.Г /СРЗНАЧ коэффициент вариации составил 0,03% Погрешность вычислений составила δ=(0,03-0,02)/0,03*100%=0,3% Асимметрия: Ав= , mЗ= 3*ni m3= *(18.8-20.2)3+(18.9-20.20)3+(19.1-20.20)3+(19.2-20.20)3+(19.3-20.20)3+(19.9+20.20)3+(20.1-20.2)3+(19.6-20.20)3*2+(20.8-20.2)3*2+(20.9-20.2)3*2+(21-20.2)3*2+(19.8-20.2)3*3+(20.6-20.2)3*3+(20.7-20.2)3*3+(19.7-20.20)3*4+(20.6-20.2)3*4+(20.7-20.2)3*4+(20.5-20.2)3*5=0,02 Ав=0,02/0,63=0.093 используя в Excel функцию =СКОС асимметрия составила -0,9 Погрешность вычислений составила δ=(0,9-0,093)/0,9*100%=0,9% Эксцесс: ЕВ== , m4= 4*ni m4= *(18.8-20.2)4+(18.9-20.20)4+(19.1-20.20)4+(19.2-20.20)4+(19.3-20.20)4+(19.9+20.20)4+(20.1-20.2)4+(19.6-20.20)4*2+(20.8-20.2)4*2+(20.9-20.2)4*2+(21-20.2)4*2+(19.8-20.2)4*3+(20.6-20.2)4*3+(20.7-20.2)4*3+(19.7-20.20)4*4+(20.6-20.2)4*4+(20.7-20.2)4*4+(20.5-20.2)4*5=0.24 Ев=(0,24/0,64)-3=-1,1 используя в Excel функцию =ЭКСЦЕСС получаем 0,27 Погрешность вычислений составила δ=(0,27-(-1,1))/0,27*100%=5% Оценка генеральной средней и генерального среднеквадратического отклонения Оценку генеральной средней F(х)=а и генерального среднеквадратического отклонения по выборочным статистикам и , используя теорию доверительных интервалов для нормального распределения. Доверительный интервал для истинного значения количества деталей с надежностью : S= =0.67 Согласно приложению находим ty при y=0.95 и известном количестве n =50. tγ = 2,009 Записываем доверительный интервал: 20.2- *2.009< a <20.2+ *2.009 20.1 < a < 20.3 Таким образом, средняя пропускной способности по данным выборки должна находиться в промежутке:(20,1:20,3) Запишем доверительный интервал для генерального среднеквадратического отклонения δ=S. При заданных y=0.95 и n=50 по таблице приложения q = 0,21 Так как q<1 , то доверительный интервал записываем в виде: 0.67 ∙ ( 1 ‒ 0,21 ) < σ < 0.67 ∙ ( 1 + 0.21 ) 0.52 < σ < 0.81 Cледовательно, отклонения истинных значений пропускной способности участков не должны выходить за пределы промежутка (0,52:0,81) Вывод: в данной лабораторной работе на основе исходных данных были построены дискретный и интервальный вариационные ряды. Для каждого ряда построен график, кумулята и рассчитана эмперическая функция распределения, мода и медиана. Для дискретного вариационного ряда рассчитаны: выборочная средняя, выборочную дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, асимметрию и эксцесс при помощи функций Excel эти числовые характеристики были пересчитаны и найдена погрешность, которая в среднем составила 1,3%. Рассчитав значения асимметрии и эксцесса, можно предположить близость данной выборки к нормальному распределению. Средняя пропускной способности 50 участков эталонного газопровода по данным выборки должна находиться в промежутке:(20,1:20,3) м3 /сут. Отклонения истинных значений пропускной способности 50 участков эталонного газопровода не должны выходить за пределы промежутка (0,52:0,81) м3 /сут.1> |