Курсовая работа Моховиков. Обработка эмпирических данных средствами табличных процессоров
Скачать 232.84 Kb.
|
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» (ФГБОУ ВО «ВГТУ», ВГТУ) Факультет энергетики и систем управления Кафедра электропривода, автоматики и управления в технических системах КУРСОВАЯ РАБОТА по дисциплине «Практикум по информатике» Тема: «Обработка эмпирических данных средствами табличных процессоров» Выполнил студент группы УТС-211 __________________ Моховиков Д. В. Руководитель __________________ А. В. Бурковский Защищена ________________ Оценка ____________________ дата Воронеж 2021 МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» (ФГБОУ ВО «ВГТУ», ВГТУ) Факультет энергетики и систем управления Кафедра электропривода, автоматики и управления в технических системах ЗАДАНИЕ на курсовую работу по дисциплине «Практикум по информатике» Тема: «Обработка эмпирических данных средствами табличных процессоров» Студент группы УТС-211 Моховиков Д. В. Номер варианта 17 Содержание работы: требуется реализовать средствами двух табличных процессоров решение двух задач обработки эмпирических данных в соответствии с вариантом задания: задача 1 – построение интервального вариационного ряда и частотной гистограммы; задача 2 – вычисление выборочных характеристик. Руководитель __________________ А. В. Бурковский Содержани КУРСОВАЯ РАБОТА 1 Выполнил студент группы УТС-211 __________________ Моховиков Д. В. 1 1. Теоретическое введение 4 1.1. Типы статистических данных 4 1.2. Формы представления выборки 5 1.3. Выборочные характеристики эмпирических данных 7 2. Построение интервального вариационного ряда и частотной гистограммы 9 2.1 Решение задачи средствами Microsoft Excel 9 2.2 Решение задачи средствами FreeOffice PlanMaker 11 3. Вычисление выборочных характеристик 12 3.1 Решение задачи средствами Microsoft Excel 12 3.2 Решение задачи с помощью FreeOffice PlanMaker 14 Заключение 16 Список информационных ресурсов 17 1. Теоретическое введение 4 1.1. Типы статистических данных 4 1.2. Формы представления выборки 5 1.3. Выборочные характеристики эмпирических данных 7 2. Построение интервального вариационного ряда и частотной гистограммы 9 2.1 Решение задачи средствами Microsoft Excel 9 2.2 Решение задачи средствами FreeOffice PlanMaker 10 3. Вычисление выборочных характеристик 11 3.1 Решение задачи средствами Microsoft Excel 11 3.2 Решение задачи средствами FreeOffice PlanMaker 13 Заключение 15 Список информационных ресурсов 16 1. Теоретическое введениеЭмпирические (статистические) данные формируются путем измерения характеристик одного объекта в разные моменты времени (в разных состояниях) или характеристик множества однородных объектов, подлежащих изучению. Полная совокупность всех возможных измерений, описывающая изучаемый объект (объекты), называется генеральной совокупностью, а их количество – объемом генеральной совокупности. Генеральная совокупность может быть конечной или бесконечной, но в любом случае на практике получение данных по генеральной совокупности недостижимо. Для построения статистической модели производится выборочное измерение изучаемых характеристик, в результате которого формируется выборка (выборочная совокупность) из генеральной совокупности. Объем выборки должен быть достаточно велик для получения адекватной модели, что называется представительностью или репрезентативностью выборки. Принято считать, что объем репрезентативной выборки составляет 60 и более наблюдений, хотя в некоторых случаях, когда объем генеральной совокупности невелик, выборку считают репрезентативной, начиная с 30 наблюдений. В данной работе для выборочной совокупности используются следующие обозначения: X – измеряемая случайная величина; {x1, x2, …, xi, …, xn} – выборочная совокупность, n – объем выборки. 1.1. Типы статистических данныхИзмеряемые характеристики (переменные), формирующие выборку, могут относиться к одному из трех типов: номинальному (категориальному, качественному), ординальному (порядковому, ранговому) или скалярному (количественному, числовому). Качественные переменные могут принимать одно значение из заданного множества категорий, которые никак не упорядочены. Например, переменная «цвет» может принимать значения «красный», «зелёный», «синий» и т.д. К таким данным применимы только операции равенства и неравенства, они не могут упорядочиваться и обрабатываться путем вычислений. Значения ранговых переменных также определяются множеством категорий, но эти категории имеют естественную упорядоченность. К таким переменным относятся различные балльные и экспертные оценки. Например, шкала оценок «отлично», «хорошо», «удовлетворительно», «неудовлетворительно». К таким данным применимы операции равенства, неравенства, ранжирования (больше, меньше), вычисления недопустимы. Числовые переменные измеряются на некоторой интервальной, относительной или абсолютной шкале. Они делятся на дискретные, когда в качестве значений выступают отдельные числа, обычно целые, и непрерывные, задаваемые действительными числами. Например, температура, масса тела – непрерывные величины; численность студентов в группе – дискретная величина. К числовым переменным применимы операции сравнения, ранжирования и любые вычисления. 1.2. Формы представления выборкиНегруппированные данные Это естественная форма представления измерений, в которой каждый элемент выборки представлен определенным значением, при этом значения никак не обрабатываются и не упорядочиваются. Упорядоченные данные (вариационный ряд) В этой форме данные упорядочиваются по возрастанию, и каждый элемент данных получает ранг (порядковый номер). Представление в виде вариационного ряда сохраняет значения каждого элемента, но информация об исходном порядке теряется и устанавливается зависимость между соседними элементами выборки. Группированные данные (интервальный вариационный ряд) В этом случае область задания случайной величины делится на некоторое количество интервалов группирования, после чего подсчитывается количество попаданий значений в границы интервала. Группирование приводит к потере части информации, заключенной в выборке. Для формирования интервального вариационного ряда применяется следующая процедура. 1. Вычисляется размах R варьирования (изменения) величины X: R = xmax – xmin (1) 2. Определяется k – количество частичных интервалов, на которое делится размах R: (2) Примечание: существуют также другие формулы для оценки величины k. 3. Определяется длина h частичных интервалов: (3) Величина h округляется в соответствие с типом данных выборки. В случае, если выборка состоит из целых чисел, то h округляется до целого числа. Если выбора содержит действительные числа определенной точности (количества десятичных знаков), то h округляется до такой же точности. 4. Вычисляются частоты nj, с которыми выборочные значения xi попадают в каждый j-й интервал. Упрощенно, за начало первого интервала можно взять значение xmin. Для визуального представления интервального вариационного ряда используются частотные гистограммы. Частотной гистограммой (гистограммой частот) называется гистограмма (столбчатая диаграмма), отображающая интервалы и частоты вариационного ряда. На оси категорий отображаются интервалы, а на оси значений частоты попадания выборочных значений в каждый из интервалов. Частотные гистограммы используются для дальнейшего статистического анализа. В данной работе реализуется лишь техника их построения. 1.3. Выборочные характеристики эмпирических данныхОпределение выборочных характеристик используются для дальнейшего статистического исследования эмпирических данных. К основным характеристикам выборки относятся нижеприведенные. Выборочное среднее (среднее выборки) Выборочное среднее значение вычисляется как арифметическое среднее всех значений выборки. (4) Медиана выборки Медиана выборки – это значение, которое является серединой множества значений выборки, то есть половина значений выборки больше, чем медиана, а половина значений выборки меньше, чем медиана. Для вычисления медианы значения выборки сортируются. В случае, если выборка содержит четное количество значений, медиана рассчитывается как среднее двух значений, находящихся в середине отсортированной выборки. Мода выборки Мода – это наиболее часто встречающееся значение в выборке. Если выборка не содержит повторяющихся значений, то мода выборки не может быть определена. Также выборка может иметь несколько значений с одинаковой частотой повторения. Тогда все эти значения являются модами выборки. Выборочная дисперсия (дисперсия выборки) Выборочная дисперсия характеризует разброс значений выборки относительно среднего значения. Вычисляется по следующей формуле. (5) 2. Построение интервального вариационного ряда и частотной гистограммы2.1 Решение задачи средствами Microsoft ExcelВвести в электронную таблицу исходные данные для обработки. Вычисление размаха по формуле (1), количества частичных интервалов по формуле (2), длины частичных интервалов по формуле (3). Вычисление значения границ частичных интервалов. Вычисление частоты попадания выборочных значений в каждый из интервалов. Для вычисления использовать функцию СЧЕТЕСЛИ. Для вычисления частот нужно использовать комбинацию двух функций СЧЕТЕСЛИ следующего вида (для примера): =СЧЁТЕСЛИ($A$2:$A$101;">="&E4)-СЧЁТЕСЛИ($A$2:$A$101;">="&E5), где $A$2:$A$101 – диапазон выборки, E4 – нижняя граница интервала, E5 – верхняя граница интервала. Построение частотной гистограммы. Рисунок 1. Задание 1. Microsoft Excel. 2.2 Решение задачи средствами FreeOffice PlanMakerВвести в электронную таблицу исходные данные для обработки. Вычисление размаха по формуле (1), количества частичных интервалов по формуле (2), длины частичных интервалов по формуле (3). Вычисление значения границ частичных интервалов. Вычисление частоты попадания выборочных значений в каждый из интервалов. Для вычисления использовать функцию СЧЕТЕСЛИ. Для вычисления частот нужно использовать комбинацию двух функций СЧЕТЕСЛИ следующего вида (для примера): =СЧЁТЕСЛИ($A$2:$A$101;">="&E4)-СЧЁТЕСЛИ($A$2:$A$101;">="&E5), где $A$2:$A$101 – диапазон выборки, E4 – нижняя граница интервала, E5 – верхняя граница интервала. Построение частотной гистограммы. Рисунок 2. Задание 1. FreeOffice PlanMaker. 3. Вычисление выборочных характеристик3.1 Решение задачи средствами Microsoft ExcelВвести в электронную таблицу исходные данные для обработки. Вычислить выборочное среднее при помощи функции табличного процессора по формуле: = , где A1:A100 – диапазон выборки Вычислить медиану выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений: = - при помощи функции табличного процессора МЕДИАНА: = Сравнить полученные результаты. Вычислить моду (моды) выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений: необходимо найти наиболее часто встречающееся значение в выборке при помощи сортировки по возрастанию (благодаря структурной последовательности чисел можно заметить то, которое встречается часто). Также выборка может иметь несколько значений с одинаковой частотой повторения. Тогда все эти значения являются модами выборки. - при помощи функции табличного процессора МОДА: = Сравнить полученные результаты. Вычислить дисперсию выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений по формуле (5). - при помощи функции табличного процессора ДИСП: = Сравнить полученные результаты. Рисунок 3. Задание 2. Microsoft Excel. 3.2 Решение задачи с помощью FreeOffice PlanMakerВвести в электронную таблицу исходные данные для обработки. Вычислить выборочное среднее при помощи функции табличного процессора по формуле: = , где A1:A100 – диапазон выборки Вычислить медиану выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений: = - при помощи функции табличного процессора МЕДИАНА: = Сравнить полученные результаты. Вычислить моду (моды) выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений: необходимо найти наиболее часто встречающееся значение в выборке при помощи сортировки по возрастанию (благодаря структурной последовательности чисел можно заметить то, которое встречается часто). Также выборка может иметь несколько значений с одинаковой частотой повторения. Тогда все эти значения являются модами выборки. - при помощи функции табличного процессора МОДА: = Сравнить полученные результаты. Вычислить дисперсию выборки двумя способами: - в соответствии с теоретическими сведениями с использованием табличных вычислений по формуле (5). - при помощи функции табличного процессора ДИСП: = Сравнить полученные результаты. Рисунок 4. Задание 2. FreeOffice PlanMaker. ЗаключениеТабличные процессоры позволяют автоматизировать процесс обработки информации, осуществлять сложные вычисления, анализировать их и представлять в наглядном виде (диаграммы, графики). Для решения данных задач подходят оба табличных процессора, т.к. они обладают очень похожим функционалом. Результаты, полученные при использовании функций табличного процессора, практически совпадают с результатами, которые были вычислены по формулам. Например, значения моды «ручным» способом в данных табличных процессорах находятся по-разному. А выполняя ту же операцию с использованием формулы, получаем только одно значение моды, хотя их может быть несколько. Список информационных ресурсов1. Описательные статистики [Электронный ресурс] – Режим доступа: http://statistica.ru/theory/opisatelnye-statistiki/, свободный. 2. Описательная статистика в Excel [Электронный ресурс] – Режим доступа: https://excel2.ru/gruppy-statey/opisatelnaya-statistika/, свободный. 3. Советы и рекомендации: PlanMaker [Электронный ресурс] – Режим доступа: https://www.freeoffice.com/ru/tips-and-tricks-planmaker/, свободный. |