диплом. Лабораторный практикум по математической статистике в среде ЭТ E. Практикум по математической статистике в среде эт ms excel учебное пособие Южный федеральный университет
Скачать 1.78 Mb.
|
МИНОБРНАУКИ РОССИИ Федеральное государственное автономное образовательное учреждение высшего образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Филиал ЮФУ в г. Новошахтинске С. Ю. АВЕРЬЯНОВА, Н. В. РАСТЕРЯЕВ ЛАБОРАТОРНЫЙ ПРАКТИКУМ ПО МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ В СРЕДЕ ЭТ MS EXCEL Ростов-на-Дону - 2014 2 УДК [311:004.9](075.8) ББК32.973.26-018.2я73 А 19 Печатается по решению кафедры информатики и математики филиала ЮФУ в г. Новошахтинске протокол №1 от 01.09.2014 г.; учебно-методической комиссии филиала ЮФУ в г. Новошахтинске протокол № 3 от 02.12.2014 г. Рецензенты: доктор технических наук, профессор Галушкин Н.Е.; кандидат технических наук, доцент Байдюк А.П. А 19 Аверьянова С.Ю., Растеряев Н.В. Лабораторный практикум по математической статистике в среде ЭТ MS Excel: учебное пособие; Южный федеральный университет. – Ростов-на-Дону: Издательство Южного федерального университета, 2014. – 64 с. ISBN 978-5-9275-1459-5 Учебное пособие предназначено для проведения лабораторных работ, а также организации управляемой самостоятельной работы студентов. Пособие содержит краткие основные теоретические положения и примеры решения типовых задач статистической обработки выборки. Рассмотрены вопросы графического представления выборки, вычисления ее числовых характеристик и проверки близости эмпирической и теоретической функций распределения. Задачи решаются в среде электронных таблиц MS Excel. Представлены варианты заданий для самостоятельной работы студентов. Пособие предназначено для студентов, обучающихся по направлениям подготовки «Экономика», «Менеджмент», «Бизнес-информатика» и преподавателей высших учебных заведений. Публикуется в авторской редакции ISBN 978-5-9275-1459-5 УДК [311:004.9](075.8) ББК32.973.26-018.2я73 © Южный федеральный университет, 2014 3 СОДЕРЖАНИЕ Предисловие 4 Лабораторная работа №1 ВАРИАЦИОННЫЕ РЯДЫ. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ 5 Лабораторная работа №2 ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ 25 Лабораторная работа №3 ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ СТАНДАРТНЫМИ СРЕДСТВАМИ ЭТ MS EXCEL 36 Лабораторная работа №4 РАСЧЕТ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ВЫБОРКИ С ПОМОЩЬЮ ВСТРОЕННЫХ ФУНКЦИЙ ЭТ MSEXCEL 41 Лабораторная работа №5 НАХОЖДЕНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ВЫБОРКИ СТАНДАРТНЫМИ СРЕДСТВАМИ ЭТ MS EXCEL 56 Список использованных источников 64 4 Предисловие Курс «Теории вероятностей и математической статистики» является одним из важнейших математических курсов для экономических специальностей. Весь комплекс социально- экономических наук простроен и развивается на вероятностно- статистической базе, и без соответствующей подготовки невозможно полноценное изучение этих дисциплин. Математическая статистика использует математический аппарат и выводы теории вероятностей, изучает математические методы систематизации, обработки и использования статистических данных для научных и практических выводов. Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Одной из важных сфер приложения теории вероятностей и математической статистики является экономика, так как при исследовании и прогнозировании экономических показателей используется эконометрика, опирающаяся на теорию вероятностей. Практическое значение вероятностных методов состоит в том, что они позволяют по известным характеристикам простых случайных явлений прогнозировать характеристики более сложных явлений. Знания и практические навыки, приобретенные в ходе изучения данного курса, могут найти применение при изучении дальнейшего цикла специальных финансовых дисциплин, а также в курсовом и дипломном проектировании. Основная цель лабораторного практикума - дать краткие основные теоретические положения, рассмотреть примеры решения типовых задач статистической обработки выборки, вопросы графического представления выборки, вычисления ее числовых характеристик и проверки близости эмпирической и теоретической функций распределения. Рассмотрены способы решения задач в среде электронных таблиц MS Excel. 5 Лабораторная работа №1 ВАРИАЦИОННЫЕ РЯДЫ. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ Цель работы: овладеть навыками составления дискретных и интервальных вариационных рядов выборки, построения выборочной (эмпирической) функции распределения в среде ЭТ MS. Краткая теория Для решения задач, связанных с анализом данных при наличии случайных непредсказуемых воздействий, разработан математический аппарат ‒ математическая статистика, что позволяет выявлять закономерности на основе случайностей, делать на их основе обоснованные выводы и прогнозы. Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки. Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х. Часть отобранных объектов из генеральной совокупности называется выборочной совокупностью, или выборкой. Результаты измерений изучаемого признака n объектов выборочной совокупности порождают n значений х 1 , х 2 , … , х n случайной величины X . Число n называется объемом выборки. Выборку можно рассматривать двояко: а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак; б) как на результаты измерений, т.е. набор nчисел. Случайная величина Х называется дискретной случайной величиной, если она принимает свое значение из некоторого конечного фиксированного набора, например, случайная величина Х ‒ число появления шестерки при двух бросках игрального кубика Х: 0,1,2 . Случайная величина Х называется непрерывной случайной величиной, если она принимает любое значение из некоторого интервала (в том числе ‒ ∞ и +∞), например, рост человека. 6 После получения выборки имеем данные, которые представляют собой множество чисел, расположенных в беспорядке. Анализ таких данных весьма затруднителен, и для изучения скрытых закономерностей их подвергают определенной обработке. Простейшая операция – ранжирование опытных данных, результатом которого являются значения, расположенные в порядке не убывания. Если среди элементов встречаются одинаковые, то они объединяются в одну группу. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения – варьированием. Варианты будем обозначать строчными буквами с соответствующими порядковому номеру группы индексами x (1) , x (2) , ..., x (N) , где N– число групп. При этом x (1) (2) <... (N) Численность отдельной группы сгруппированного ряда данных называется частотой n i , где i– индекс варианта, а отношение частоты данного варианта к общей сумме частот называется частностью (или относительной частотой) и обозначается ω i ,i = 1, ...,N, т.е. ∑ , при этом ∑ ‒ объему выборки. Дискретным вариационным рядом называется ранжированная совокупность вариантов x (i) с соответствующими им частотами n i или частностями ω i . Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд, под которым понимают упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частностями попаданий в каждый из них значений случайной величины. Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину Δ, которая может быть вычислена по следующей формуле ∆ 7 где R – размах варьирования (изменения) случайной величины; x max , x min – наибольшее и наименьшее значения исследуемой случайной величины; N – число частичных интервалов группировки. Некоторые авторы рекомендуют пользоваться следующими эмпирическими формулами для определения числа интервалов: n N ,N = 5 . lg(n) , N = 1 + 3,322 . lg(n) ‒ формула Стерджеса. В рекомендациях по стандартизации Р 50.1.033-2001 "Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат" рекомендует следующие значения N в зависимости от объема выборки n: Объем выборки n Число интервалов группировки N 40 ‒ 100 7 ‒ 9 100 ‒ 500 8 ‒ 12 500 ‒ 1000 10 ‒ 16 1000 ‒ 10000 12 ‒ 22 В теории вероятностей для характеристики распределения случайной величины X служит функция распределения ) ( ) ( x X P x F , определяющую для каждого значения х вероятность того, что случайная величина Х примет значение, меньшее х, т.е. равная вероятности события } { x X А , где x – любое действительное число. Одной из основных характеристик выборки является выборочная (эмпирическая) функция распределения n n x F x n ) ( * , где x n – количество элементов выборки, меньших чем x . Другими словами, ) ( * x F n есть относительная частота появления события } { x X A в n независимых испытаниях. Главное различие между ) (x F и ) ( * x F n состоит в том, что ) (x F определяет вероятность события A, а 8 выборочная функция распределения ) ( * x F n – относительную частоту этого события. Свойства функции ) ( * x F n : 1. * 0 ( ) 1 n F x . 2. ) ( * x F n – неубывающая функция. 3. 1 ) ( ; 0 ) ( * * n n F F Функция ) ( * x F n является "ступенчатой", имеются разрывы в точках, которым соответствуют наблюдаемые значения вариантов. Величина скачка равна относительной частоте варианта. Аналитически ) ( * x F n задается следующим соотношением: ∗ 0 при ; при , 2,3 … , ; 1 при , где – соответствующие относительные частоты; ) (i x – элементы вариационного ряда (варианты). Замечание. В случае интервального вариационного ряда под ) (i x понимается середина i-го частичного интервала. Эмпирическую функцию распределения непрерывной случайной величины так же называют «накопленная частота». Перед вычислением ) ( * x F n полезно построить дискретный или интервальный вариационный ряд. Пример выполнения Постановка задачи 1.На телефонной станции проводились наблюдения над числом неправильных соединений в минуту. Наблюдения в течение 30 минут дали следующие результаты (табл. 1). Таблица 1. 3 0 1 5 1 2 4 5 3 4 2 4 2 0 2 3 1 3 2 1 4 3 0 2 1 0 4 2 3 2 i 9 Требуется найти дискретный вариационный ряд, выборочную (эмпирическую) функцию распределения данной выборки и построить ее график в среде ЭТ MS Excel. Решение. Очевидно, что число X является дискретной случайной величиной, а полученные данные есть значения этой случайной величины. В результате выполнения операций ранжирования и группировки были получены шесть значений случайной величины (варианты): 0; 1; 2; 3; 4; 5. При этом значение 0 в этой группе встречается 4 раза, значение 1 – 5 раз, значение 2 – 8 раз, значение 3 – 6 раз, значение 4 – 5 раз, значение 5 – 2 раза. Вычисленные значения частот и частностей приведены в табл. 2. Таблица 2. Индекс i 1, 2, 3, 4, 5, 6 Вариант ( ) i x 0, 1, 2, 3, 4, 5 Частота i n 4, 5, 8, 6, 5, 2 Частность i 30 2 , 30 5 , 30 6 , 30 8 , 30 5 , 30 4 Используя данный дискретный вариационный ряд (см. табл. 2), вычислим значения ) ( * x F n по формуле, приведенной выше, и занесем их в табл. 3. Таблица 3. x ) ( * 30 x F x 0 0 0 <x 1 30 4 1 1 <x 2 30 9 30 5 30 4 2 1 2 <x 3 30 17 30 8 30 5 30 4 3 2 1 3 <x 4 30 23 30 6 30 8 30 5 30 4 4 3 2 1 4 <x 5 30 28 30 5 30 6 30 8 30 5 30 4 5 4 3 2 1 x>5 1 30 30 30 2 30 28 6 5 4 3 2 1 10 По данным таблицы 3 построим график эмпирической функции распределения. Решение задачи в среде ЭТ MS Excel. Для решения задачи в среде ЭТ MS Excel необходимо выполнить следующие действия: 1. Идентифицируйте свою работу, переименовав Лист1 в Титульный лист и записав номер лабораторной работы, ее название, кто выполнил и проверил. 2. Переименуйте Лист 2 в Дискретный. Наберите массив 30 значений исходных данных выборки. 3. Найдите величины х max , х min , n, используя встроенные функции ExcelМАКС, МИН и СЧЕТ. 11 4. Сформируйте столбец вариант x (i) от 0 до 5 и с помощью функции ЧАСТОТА найдите частоту появления значений случайной величины Х в данном интервале. Синтаксис функции: ЧАСТОТА(массивданных;массивинтервалов). Массив данных ‒ массив или ссылка на множество данных, для которых вычисляются частоты. В нашем случае это диапазон B2:K2.Если массив данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей. Массив интервалов ‒ массив или ссылка на множество интервалов, в которые группируются значения аргумента массив данных. В нашем случае это диапазон F7:F12. Если массив интервалов не содержит значений, то функция ЧАСТОТА возвращает количество элементов в аргументе Массив данных. 12 Функция ЧАСТОТА вводится как формула массива после выделения интервала смежных ячеек, в которые нужно вернуть полученный массив частот. Количество элементов в возвращаемом массиве на единицу больше числа элементов в массиве интервалов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах, т.е. больше 5 в нашем случае. Поскольку данная функция возвращает массив, она должна задаваться в качестве формулы массива и работа с ней завершается трехклавишной комбинацией CTRL+SHIFT+ENTER. Функция ЧАСТОТА игнорирует пустые ячейки и тексты. 13 5. Сформируйте столбец частностей, вычислив значения ω i ,i = 1, ...,6 по формуле 6. Сформируйте столбец значений выборочной функции распределения ) ( * x F n . При этом первое значение в ячейке I7 просто копируется из ячейки Н7. Следующее значение вычисляется как накопленная сумма предыдущего значения ω 1 из ячейки I7 и текущего значения ω 2 из ячейки Н8: =I7+H8 . 14 Затем данная формула копируется автозаполнением в остальные ячейки диапазона, с выходом на значение, равное 1. 7. Построим график эмпирической функции распределения. С использованием штатных средств Мастера диаграмм ЭТ MS Excel построить ступенчатый график функции распределения дискретной случайной величины нельзя. Покажем, как в MS Excel все-таки можно построить такой график. 7.1. Расположим данные полученного дискретного вариационного ряда так, как показано на рисунке ниже. 15 При этом данные копируются из предыдущей таблицы. Используют контекстное меню команды Вставка: Параметры вставки → Значения 7.2. В разреженную таким образом таблицу введем ряд дополнений. В ячейку К7 введем значение -2, а в ячейку К20 значение 7, это границы интервала [-2 ;7] на котором будет построен наш график. В оставшиеся пустые ячейки введем значения, чуть меньшие значений полученных вариант (см. случай а) ниже). Случай а) Случай б) 16 Два первых значения функции F(x) в ячейках L7 и L8 примем равным нулю, т.к. 0 ) ( * x F n при x ≤ x (1) . В оставшиеся пустые ячейки скопируем значения функции, расположенные выше (см. случай б) выше). 7.3. По данным, находящимся в диапазоне ячеек K7:L20, с помощью Мастера диаграмм, построим диаграмму типа Точечная без маркеров. Отформатируем диаграмму, убрав маркеры и задав линию, соединяющую табличные значения. Т.к. функция ) (x F ‒ непрерывна слева в любой точке x, т. е. ) ( ) 0 ( x F x F , то устраним неоднозначность в точках разрыва, 17 “вырезав” соответствующие значения. Для этого построим точечный график по данным первого и последнего столбца полученного дискретного вариационного ряда. 8. Постройте пунктирные линии в вырезанных точках графика. Для этого выделим точки графика и на вкладке Макет в группе Анализ нажмём кнопку Планки погрешностей, а затем выберем строку Дополнительные параметры планок погрешностей … . 18 В диалоговом окне Формат планок погрешностей выполните установки, представленные ниже. Установите радиокнопку – пользовательская и в появившемся окне, в поле ввода Отрицательное значение ошибки введите значения столбца F(x). 19 Получили график функции распределения с пунктирными линиями. 20 9. Сделайте выводы и сохраните работу в вашем каталоге. |