КР Статистический анализ в агрономии. Контрольная работа статистический анализ в агрономии Вопросы 5, 27, 40, 61
Скачать 241.62 Kb.
|
ФГБОУ ВПО «НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ» Агрономический факультет КОНТРОЛЬНАЯ РАБОТА Статистический анализ в агрономии Вопросы № 5, 27, 40, 61 Выполнил (а): ___________________ Направление подготовки: Агрономия Курс: __ Группа: _________ Шифр: Б319АГ005 Проверил (а): ____________________ Новосибирск 2022 СодержаниеСписок использованных источников 22 Вопрос № 5. Графическое изображение вариационного ряда. Полигон и гистограмма Вариационный ряд с дискретным признаком изображают в виде полигона распределения, а с непрерывным признаком – в виде гистограммы распределения и полигона распределения. Для изображения вариационных рядов как с дискретным, так и непрерывным признаками используется также кумулятивная кривая (кумулята распределения) и огива1. Данные графики имеют определенную специфику их построения, которая отражена на рисунке 1. Следует отметить, что на данном этапе анализа вариационного ряда графики могут служить основой для открытия важных свойств вариационного ряда, соотношений и закономерностей. Графическое представление играет значимую роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных. Ценность графического изображения вариационного ряда как аналитического метода заключается в возможности с его помощью не только отобразить распределение эмпирических данных, но и определить основную тенденцию изменчивости признака. При использовании современных технических средств для графического изображения вариационного ряда безусловными положительными качествами графического метода являются также простота его применения и скорость получения результатов. Рисунок 1 – Способы графического изображения вариационного ряда При построении полигона в прямоугольной системе координат на горизонтальной оси (оси абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (оси ординат) значения частот или частостей (рис. 2). На поле графика откладывают точки с координатами значений варьирующего признака и частот (частостей), полученные точки соединяют последовательно отрезками прямой, а из первой и последней точек опускают перпендикуляры на ось абсцисс2. Полученная таким образом замкнутая фигура в виде многоугольника представляет собой распределение совокупности по изучаемому признаку и называется полигоном распределения вариационного ряда. Возможно построение полигона распределения как для вариационного ряда с дискретным признаком, так и для ряда с непрерывным признаком3. Одним из возможных вариантов при выборе значений варьирующего признака на горизонтальной оси (оси абсцисс) при построении полигона для вариационного ряда с непрерывным признаком могут служить середины интервалов этого признака. Рисунок 2 – Общий вид полигона распределения частот Гистограмма распределения применяется для изображения вариационного ряда с непрерывным признаком. Гистограмма (от древнегреч. (ато<; – столб + уращда – черта, буква, написание) – способ графического представления табличных данных. Следовательно, термин следует интерпретировать как некую форму записи, состоящую из столбиков, т.е. вертикально расположенных прямоугольников. Таким образом, гистограмма представляет собой один из вариантов столбиковой диаграммы, в которой столбики располагаются слитно, а не на расстоянии друг от друга, в результате этого имеется возможность зрительно оценить распределение статистических данных, сгруппированных но частоте попадания в установленный интервал. Термин «гистограмма» был введен знаменитым статистиком К. Пирсоном (Karl Pearson) для обозначения «общей формы графического представления». По данным вариационного ряда с непрерывным признаком с равными интервалами для построения гистограммы но оси абсцисс указывают значения границ интервалов и на их основе строят прямоугольники, высота которых пропорциональна частотам (или частостям) (рис. 3). Для вариационного ряда с непрерывным признаком с неравными интервалами на оси ординат откладывают плотности распределения (абсолютную или относительную), так как именно плотность дает представление о наполненности каждого интервала. В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (частостям, плотностям). Таким образом, гистограмма распределения изображает не фактическое изменение плотности распределения, а средние плотности распределения в каждом интервале. В случае построения гистограммы вариационного ряда распределения с непрерывным признаком полигон того же распределения можно получить, соединяя середины верхних сторон прямоугольников прямолинейными отрезками. Рисунок 3 – Общий вид гистограммы распределения Сравнительный анализ полигона распределения частот и гистограммы распределения показывает, что в гистограмме наблюдается большая скачкообразность распределения, а в полигоне обнаруживается постепенность перехода от одной группы к другой. Ломаная линия полигона частично сглаживает скачкообразность гистограммы и является более обобщенным приемом анализа распределения. При увеличении групп признака вариационного ряда с непрерывным признаком и соответственном уменьшении величины его интервалов число сторон полигона распределения будет расти и ломаной линии будет присуща тенденция превращения в пределе в кривую, называемую кривой распределения (рис. 4). В ней происходит наибольшее освобождение данных от влияния случайных факторов. Она выявляет и показывает в максимально обобщенном виде характер вариации, закономерность распределения частот внутри однокачественной совокупности явлений4. Также можно сказать, что кривая распределения в отличие от полигона и гистограммы распределения отражает основной закон данного распределения. Рисунок 4 – Общий вид кривой распределения Различают следующие виды кривых распределения: – одновершинные (симметричные, умеренно асимметричные, сильно асимметричные); – многовершинные. Одновершинные распределения характерны для однородных совокупностей, а многовершинные свидетельствуют о неоднородности изучаемой статистической совокупности. Построение кривой распределения в сочетании с анализом сущности явления позволяет построить научную гипотезу о наиболее вероятном типе теоретической кривой распределения5. Распределение признака в вариационном ряду по накопленным частотам (частостям) изображается с помощью кумуляты. Для построения кумуляты предварительно необходимо рассчитать накопленные частоты (накопленные частости). Они определяются путем последовательного суммирования частот (частостей) предшествующих интервалов. Накопленные частоты показывают, сколько единиц статистической совокупности имеют значение признака не больше чем рассматриваемое. При построении точек кумуляты на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости. Полученные точки соединяют прямолинейными отрезками, в результате образуется ломаная линия, которая и называется кумулятой (рис. 5). Кумулята служит для графического представления вариационного ряда как с дискретным, так и с непрерывным признаками. Рисунок 5 – Общий вид кумуляты распределения Рассмотрим пример построения кумулятивной кривой для вариационного ряда с дискретным признаком на основе информации о распределении клиентов туристической фирмы (табл. 1). Таблица 1 – Распределение клиентов по числу посещений туристической фирмы
Построение кумуляты для вариационного ряда с дискретным признаком осуществим на основе ряда накопленных частот: по оси абсцисс откладываем значения признака – количества посещений, по оси ординат – накопленные частоты (рис. 6). Рассмотрим построение кумуляты для вариационного ряда с непрерывным признаком на примере информации о распределении путевок в туристической фирме в зависимости от затрат времени на поездку (табл. 2). Рисунок 6 – Кумулята распределения клиентов по числу посещений туристической фирмы Таблица 2 – Распределение путевок в зависимости от затрат времени на поездку
Построение кумуляты для вариационного ряда с непрерывным признаком осуществим на основе ряда накопленных частот: по оси абсцисс откладываем значения нижней границы признака - затраты времени в пути до турбазы, по оси ординат – накопленные частоты (рис. 7). Разновидностью кумуляты является график Лоренца (кривая концентрации). Для построения кривой концентрации на обе оси прямоугольной системы координат наносится масштабная шкала в процентах от 0 до 100. При этом на оси абсцисс указывают накопленные частости, характеризующие распределение единиц совокупности, а на оси ординат – накопленные значения доли (в процентах) по объему признака. Равномерному распределению признака соответствует на графике диагональ квадрата. Рисунок 7 – Кумулята распределения путевок в зависимости от затрат времени на поездку При неравномерном распределении график представляет собой вогнутую кривую в зависимости от уровня концентрации признака. Огива строится аналогично кумуляте распределения с той лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения признака – на оси ординат (рис. 8). Огиву также называют «графиком Гальтона» в честь английского ученого Френсиса Гальтона (1822-1911), впервые предложившего график кумулятивного распределения. С помощью огивы Гальтона определяют характер изменения концентрации изучаемого признака6. Рисунок 8 – Огива распределения Возможности графического изображения статистических данных не ограничиваются воспроизведением изучаемого вариационного ряда в наглядном, свободно воспринимаемом виде. На следующем этапе анализа вариационных рядов осуществляют расчет характеристик ряда, которыми являются: – показатели, характеризующие центр и структуру распределения; – показатели степени вариации; – показатели, характеризующие тип распределения («скошенность» и «крутость»). Вопрос № 27. Понятие о нелинейной регрессии Нелинейная регрессия (nonlinear regression) – регрессионная модель зависимости результативной переменной от одной или нескольких объясняющих переменных, выражаемая в виде нелинейной функции. Все нелинейные модели регрессии могут быть разделены, как и линейные модели, на парные и множественные. По целям и решаемым задачам нелинейная регрессия аналогичная классической линейной регрессии. Отличие только в форме связи и методах оценки параметров. Выбор формы связи нелинейной зависимости осуществляется по следующим критериями7: – исходя из содержательного анализа исследуемого явления; – на основе результатов анализа взаимосвязи между переменными, например, с помощью графического метода. Для оценки параметров нелинейных регрессий могут использоваться два подхода: – линеаризация уравнения с помощью подходящих преобразований и оценка его параметров с помощью метода наименьших квадратов; – оценка параметров на основе метода максимального правдоподобия и применение итеративных процедур методов оптимизации. Различают два класса нелинейных регрессий: – нелинейные регрессии по включаемым в них предикторам, но линейные по параметрам; – нелинейные регрессии по включаемым в них предикторам и по оцениваемым параметрам. Функции, нелинейные по объясняющим переменным, можно свести к линейным с помощью замены переменных. Функции, нелинейные по оцениваемым параметрам и переменным-факторам, сводят к линейным моделям с помощью логарифмирования и замены переменных. В случае невозможности подбора линеаризующего преобразования для оценки параметров используют методы нелинейной оптимизации на основе исходных данных. На практике наилучшую нелинейную модель выбирают обычно на основе наименьшей остаточной стандартной ошибки, рассчитанной для различных моделей. При сопоставимой точности нескольких нелинейных моделей выбирать всегда следует более простую модель8. Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: гиперболы у = a + b/x + , параболы у = а + b x + c x2 + и др. Различают два класса нелинейных регрессий: – регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам; – регрессии, нелинейные по оцениваемым параметрам. Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: – полиномы разных степеней: у = а + b x + c x2 + ; у = а + b x + c x2 + d x3 + – равносторонняя гипербола: у = a + b/x + . К нелинейным регрессиям по оцениваемым параметрам относятся функции: – степенная у = a xb ; – показательная у = a bx ; – экспоненциальная у = ea + b x . Нелинейная регрессия по включенным переменным не имеет никаких сложностей для оценки ее параметров. Они определяются, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в параболе второй степени у = а0 + a1 x + a2 x2 + , заменив переменные x = x1, x2 = x2, получим двухфакторное уравнение линейной регрессии: у = а0 + a1 x1 + a2 x2 + , для оценки параметров которого используется МНК. Соответственно для полинома третьего порядка у = а0 + a1 x + a2 x2 + a3 x3 + при замене x = x1, x2 = x2, xЗ = x3 получим трехфакторную модель линейной регрессии у = а0 + a1 x + a2 x2 + a3 x3 + , а для полинома k-го порядка у = а0 + a1 x + a2 x2 + … ak xk+ получим линейную модель множественной регрессии с k объясняющими переменными: у = а0 + a1 x + a2 x2 + … ak xk + . Следовательно, полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез. Как показывает опыт большинства исследователей, среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка. Ограничения в применении полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно меньше однородность совокупности по результативному признаку. Модели регрессии, нелинейные по оцениваемым параметрам, подразделяются на внутренне линейные и внутренне нелинейные. Если нелинейная модель внутренне линейна, то с помощью соответствующих преобразований она может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Например, в эконометрических исследованиях при изучении эластичности спроса от цены широко используется степенная функция: , где y – спрос (количество); x – цена; – случайная ошибка. Данная модель нелинейна относительно оцениваемых параметров, ибо включает параметры a и b неаддитивно. Однако её можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию e приводит его к линейному виду: ln y = ln a + b ln x + ln Соответственно оценки параметров a и b могут быть найдены методом наименьших квадратов. В рассматриваемой степенной функции предполагается, что случайная ошибка мультипликативно связана с объясняющей переменной x. Если же модель представить в виде , то она становится внутренне нелинейной, ибо её невозможно превратить в линейный вид. Внутренне нелинейной будет и модель вида , или модель , потому что эти уравнения не могут быть преобразованы в уравнения, линейные по коэффициентам. В специальных исследованиях по регрессионному анализу к нелинейным часто относят модели, только внутренне нелинейные по оцениваемым параметрам, а все другие модели, которые внешне нелинейны, но путем преобразования параметров могут быть приведены к линейному виду, относят к классу линейных моделей. Вопрос № 40. В двух опытах изучено число зёрен в колосе пшеницы. Получены следующие данные. Оцените достоверность разности между средними значениями анализируемого признака двух опытов и напишите вывод.
Решение: Наименьшая существенная разность (HCP) — величина, указывающая границу возможных случайных отклонений в эксперименте; это та минимальная разность в урожаях между средними, которая в данном опыте признается существенной при 5%-ном (НСР05) или 1%-ном (HCP01) уровне значимости НСР = t * = df = + – 2 t – значение критерия Стьюдента, соответствующее числу степеней свободы Выдвинем гипотезу = 0 – разница между вариантами несущественная. Для проверки гипотезы рассчитаем НСР = t * и разницу между вариантами d . Если d НСР => то принимается и разница не существенна, иначе разница является существенной. Рассчитаем среднюю ошибку для каждого из опыта по формуле: = Варианса рассчитывается по формуле: = Среднее квадратическое отклонение: σ = = = 0,38 = = 0,25 = = 0,62 = = 0,5 = = 0,08 = = 0,06 = = = 0,26 df = = 134 Значение t критерия на уровне значимости ɑ = 0,05 со степенями свободы df = 134 равно t(0,05;134) = 1,98. НСР = t * = 0,26 * 1,98 = 0,51 Найдем разницу между вариантами d = 30,5 – 33,9 = – 3,4 Поскольку d < НСР => число зёрен в колосе пшеницы в двух опытах идентичны. Вопрос № 61. Получены экспериментальные данные по урожайности бобов фасоли овощной (кг/м2) у пяти сортов. Сравнить изучаемые сорта и контроль по урожайности на основе дисперсионного анализа.
Решение: Находим групповые средние:
Обозначим р – количество уровней фактора (р=3). Число измерений на каждом уровне одинаково и равно q=5. В последней строке помещены групповые средние для каждого уровня фактора. Общая средняя вычисляется по формуле: Для расчета Sобщ составляем таблицу 2 квадратов вариант:
Sобщ = 14.18 + 15.53 + 14.07 - 5 • 3 • 1.692 = 0.77 Находим Sф по формуле: Sф = 5(1.682 + 1.742 + 1.662 - 3 • 1.692) = 0.0173 Получаем Sост: Sост = Sобщ - Sф = 0.77 - 0.0173 = 0.75 Определяем факторную дисперсию: и остаточную дисперсию: Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно. Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований. Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки. Иначе говоря, в данном примере фактор не оказывает существенного влияния на случайную величину. Список использованных источниковАлибеков И. Ю. Теория вероятностей и математическая статистика в среде MATLAB. Учебное пособие. М.: Лань, 2019. – 184 с. Воробьев, Н.Н. Методические аспекты оценки эффективности производства сельскохозяйственной продукции / Н.Н. Воробьев // Kant. – 2018. – № 2 (27). – С. 255–260. Зинченко А. П., Романцева Ю. Н. Статистика сельского хозяйства: статистическое наблюдение. Учебное пособие для вузов. М.: Юрайт, 2020. – 162 с. Кайнова В. Н., Зимина Е. В. Статистические методы в управлении качеством. Учебное пособие. М.: Лань, 2019. 152 с. Международная статистика. Учебник для бакалавриата и магистратуры / ред. Башкатов Б. И., Суринов А. Е. М.: Юрайт, 2019. – 594 с. Нарбут В. В., Салин В. Н., Шпаковская Е. П. Экономическая статистика. Учебник / Economic statistics. Textbook. М.: КноРус, 2020. – 234 с. Прибыткова, И.И. Методологические аспекты аграрной структуры сельскохозяйственного производства / И.И. Прибыткова // В сборнике: Статистический анализ социально – экономического развития субъектов РФ. Материалы 5–ой Международной научно–практической конференции. – 2018. – С. 256–260. Сидняев Н. И. Теория вероятностей и математическая статистика. Учебник для академического бакалавриата. М.: Юрайт, 2019. – 220 с. 1 Алибеков И. Ю. Теория вероятностей и математическая статистика в среде MATLAB. Учебное пособие. М.: Лань, 2019. – 184 с. 2 Зинченко А. П., Романцева Ю. Н. Статистика сельского хозяйства: статистическое наблюдение. Учебное пособие для вузов. М.: Юрайт, 2020. – 162 с. 3 Кайнова В. Н., Зимина Е. В. Статистические методы в управлении качеством. Учебное пособие. М.: Лань, 2019. 152 с. 4 Сидняев Н. И. Теория вероятностей и математическая статистика. Учебник для академического бакалавриата. М.: Юрайт, 2019. – 220 с. 5 Нарбут В. В., Салин В. Н., Шпаковская Е. П. Экономическая статистика. Учебник / Economic statistics. Textbook. М.: КноРус, 2020. – 234 с. 6 Международная статистика. Учебник для бакалавриата и магистратуры / ред. Башкатов Б. И., Суринов А. Е. М.: Юрайт, 2019. – 594 с. 7 Воробьев, Н.Н. Методические аспекты оценки эффективности производства сельскохозяйственной продукции / Н.Н. Воробьев // Kant. – 2018. – № 2 (27). – С. 255–260. 8 Прибыткова, И.И. Методологические аспекты аграрной структуры сельскохозяйственного производства / И.И. Прибыткова // В сборнике: Статистический анализ социально – экономического развития субъектов РФ. Материалы 5–ой Международной научно–практической конференции. – 2018. – С. 256–260. |