Главная страница

Задания по языку программирования R


Скачать 258.37 Kb.
НазваниеЗадания по языку программирования R
Дата11.09.2022
Размер258.37 Kb.
Формат файлаdocx
Имя файлаzadaniya.docx
ТипДокументы
#671528

Задания по языку программирования R


Задания предназначены для формирования простейших навыков в решении задач использования языка R с использованием платформы Rstudio. Большинство задач не имеют прикладной направленности и дифференциации по обучаемым. Однако отдельные задания являются индивидуальными и основаны на использовании индивидуальных наборов данных.

Каждый студент может самостоятельно выбрать свой набор данных и решать задачи его исследования.

Ниже приведен набор заданий с указанием их номеров и содержания.

  1. Построить векторы:

      1. Годов, начиная с 2000 года по 2022.

      2. 20 целых чисел. Числа начинаются с номера, соответствующего порядковому номеру студента в списке очередности.

      3. Месяцев года на русском и английском.

  1. Построить матрицу чисел от 1 до 20 с шагом равным 2, используя функцию seq. Изменить второй элемент матрицы на число -5.

  2. C помощью функции rep составить список, состоящий из пяти чисел 10.

  3. Построить квадратную матрицу размером 4 на 4, содержащую все единицы. Порядок заполнения по строкам. Используя функцию seq, заполнить матрицу 5х5 членами натурального ряда. Порядок заполнения по столбцам.

  4. Собрать матрицу из четырех векторов, которые содержат члены натурального ряда, используя функции cbind() (от сolum и bind – столбец и связывать) или rbind() (от row и bind – строка и связывать). В случае необходимости транспонировать полученную матрицу с помощью функции t. Возвести матрицу в квадрат. Найти обратную матрицу. Сложить две квадратные матрицы. Первая матрица получена из первых 25 чисел натурального ряда. Вторая из чисел натурального ряда, начиная с 50.

  5. Решить систему алгебраических уравнений матричным методом



Решить систему с помощью функции solve(A, b)

  1. Построить таблицу из трех векторов. Первый вектор содержит имя, второй фамилию, третий – год рождения для 10 студентов группы, начиная с себя. Назвать полученную таблицу Student.data. Первый вектор назвать FirstName. Второй LastName. Третий –Year.

Для построения таблицы использовать функцию data.frame. Изменить данные второй строки таблицы. Извлечь данные из 1-3 элементов второго столбца. С помощью функции str посмотреть структуру полученной таблицы. Посмотреть начало и конец таблицы с помощью функции head, tail.

  1. Набрать аналогичные данные по студентам своей группы в блокноте и импортировать полученные данные в R.

  2. Задать квадратную матрицу размером nx5, где n-порядковый номер студента в группе 4х4. С помощью функции seq заполнить ее членами натурального ряда. С помощью функции apply найти минимальные значения в каждой строке и в каждом столбце. Скрипт должен быть по аналогии с представленным

С использованием функции array создать массив данных размерностью nх3х4. Задать имена размерностей А1-Аn, В1-В3, С1-С4. В массив поместить числа натурального ряда, начиная с 1.

  1. Построить список из чисел от n до 100, используя функцию seq и ключевые слова from, to, by. С помощью функции sapply найти сумму всех элементов списка.

  2. Сгенерировать случайную последовательность размером в 500 наблюдений, распределенных по закону распределения, вид которого определен порядковым номером студента в группе.



Параметры закона определить самостоятельно.

Например, для нормального закона можно задать математическое ожидание 5, ско 2. Найти оценку математического ожидания, ско, Построить гистограмму распределения. Построить огибающую плотности распределения. Построить ящичную, скрипичную диаграмму. Построить график функции распределения и плотности распределения.

  1. Для построения графика плотности и графика функции распределения можно использовать скрипты, подобные указанному

x<-pretty(c(-10,10),500)

y<-dnorm(x)

plot(x,y,type="l")


y1<-pnorm(x)

plot(x,y1,type="l")


  1. Построение гистограммы

hist(n_number,breaks=10,freq=FALSE)



  1. Построение ящичной диаграммы

boxplot(n_number,col="coral",horizontal=TRUE)



Указанные диаграммы построить с помощью библиотеки ggplot2

  1. Сгенерировать еще две нормально распределенные случайные последовательности с параметрами 6, 2 и 8, 4 соответственно. Построить ящичные диаграммы для трех последовательностей с указанием названий осей, с использованием заливки цветом. Расположить диаграммы горизонтально и вертикально. Оценить выборочные характеристики mean(), median(), var(), sd(), min() , max(), quantile(), IQR(), quantile(,p(= seq(0, 1, 0.1)).



  1. Определить выборочные эксцесс и асимметрию. Для этого загрузить библиотеку install.packages("moments"). Рассчитать коэффициенты эксцесса и асимметрии можно, загрузив пакет library(moments) #загрузка пакета moments

Для оценки выборочных характеристик использовать функции R kurtosis, skewness.

  1. Скачать набор данных из файла Кредит.txt.

Пример синтаксиса функции приведен ниже

y1 <- read.table("data/sol_y1.txt", header=TRUE, sep="\t", as.is=TRUE, check.names=FALSE, comment.char="", row.names=1).

Если используется формат исходного файла csv, то можно использовать функцию:

chem <- read.csv(file = "hydro_chem.csv", header = TRUE)

Если подлежащий загрузке файл хранится в папке, отличной от рабочей папки R, то следует указать полный путь к нему. При этом пользователям операционной системы Windows необходимо помнить, что для указания полных путей к файлам в программе R используется не обратный одинарный слэш (\), а прямой одинарный (/) либо двойной обратный слеш (\\). Например, следующие две команды будут успешно восприняты R и приведут к идентичному результату – загрузке файла hydro_chem.txt и сохранению его в виде объекта chem:

chem <- read.csv(file = "D:\\Documents\\hydrochem.txt", header = TRUE)

chem <- read.csv(file = "D:/Documents/hydrochem.txt", header = TRUE)

Для интерактивного выбора загружаемого файла, который хранится вне рабочей папки R, можно применить вспомогательную функцию file.choose() (выбрать файл). Выполнение этой команды приводит к открытию обычного диалогового окна операционной системы Windows, в котором пользователь выбирает папку с необходимым файлом. Очень удобно совмещать file.choose() с командами read.table() или read.csv(), например:

chem <- read.table(file = file.choose(), header = TRUE, sep = ",")
Сохранить результаты в файл. Пример функции приведен ниже

write.table(y1, "data/new_y.txt", quote=FALSE, sep="\t", row.names=TRUE, col.names=TRUE)

write.table(chem,"c:/Work/ex.txt",col.name=TRUE).

Имя файла задать по своему имени

  1. Используя datasets cars, исследовать его структуру с помощью функции str. Создать два списка с именами speed, dist. Создать таблицу данных из данного набора данных именами столбцов speed, dist. Найти описательную статистики для каждого столбца таблицы. Построить диаграммы для каждого столбца (plot, hist, boxplot). Найти минимальные элементы в столбцах таблицы.

table.cars<-cbind(speed,dist)


  1. Использовать библиотеку ggplot2. Для этого вызвать библиотеку library(ggplot2). Построить точечную диаграмму, гистограмму, ящичную диаграмму для данных из набора данных mpg. Для точечной диаграммы использовать данные набора mpg, включающие результаты наблюдений, подготовленных Управлением по защите окружающей среды США для 38 моделей автомобилей.

Анализировать переменные displ – объем двигателя в литрах, hwy- расход топлива в милях пробега на галлон топлива.

  1. Найти статистические характеристики для одного из dataset, входящего в состав базового пакета datasets. Номер dataset выбрать по порядковому номеру в группе. При определении статистических характеристик выбрать один из признаков (столбцов) набора данных.

Номер по порядку

Название dataset



airquality New York Air Quality Measurements



anscombe Anscombe's Quartet of 'Identical' Simple Linear Regressions



attenu The Joyner-Boore Attenuation Data



attitude The Chatterjee-Price Attitude Data



beaver1 (beavers) Body Temperature Series of Two Beavers



beaver2 (beavers) Body Temperature Series of Two Beavers



BJsales Sales Data with Leading Indicator



cars Speed and Stopping Distances of Cars



ChickWeight Weight versus age of chicks on different diets



chickwts Chicken Weights by Feed Type



crimtab Student's 3000 Criminals Data



discoveries Yearly Numbers of Important Discoveries



DNase Elisa assay of DNase



esoph Smoking, Alcohol and (O)esophageal Cancer



euro Conversion Rates of Euro Currencies



euro.cross (euro) Conversion Rates of Euro Currencies



eurodist Distances Between European Cities and Between US Cities



EuStockMarkets Daily Closing Prices of Major European Stock Indices, 1991-1998



faithful Old Faithful Geyser Data



fdeaths (UKLungDeaths) Monthly Deaths from Lung Diseases in the UK



freeny Freeny's Revenue Data



freeny.x (freeny) Freeny's Revenue Data



freeny.y (freeny) Freeny's Revenue Data



HairEyeColor Hair and Eye Color of Statistics Students



infert Infertility after Spontaneous and Induced Abortion



InsectSprays Effectiveness of Insect Sprays



iris Edgar Anderson's Iris Data



LifeCicleSaving Intercountry Life-Cycle Savings Data



state.x77 US State Facts and Figures


Theoph Pharmacokinetics of Theophylline







USArrests  Violent Crime Rates by US State



USJudgeRatings Lawyers' Ratings of State Judges in the US Superior Court



Women average heights and weights for American women aged 30–39.






Используя библиотеку ggpolt2 провести графический анализ наборов данных.


  1. Исследуйте данные, находящиеся в библиотеке ggplot2 из набора данных diamonds. В данном наборе хранятся данные о примерно 54000 алмазов, включая цену, вес, цвет, чистоту и качество огранки каждого из них. При исследовании использовать графические средства, в том числе диаграмму geom_bar/

ggplot(data=diamonds)+geom_bar(mapping=aes(x=cut))




  1. Выполнить графический анализ данных из учебного набора данных о стоимости жилья в Бостоне. Этот набор данных содержит 506 наблюдений, содержащих 14 признаков. Набор данных о ценах на жилье в Бостоне включает прогнозирование цены дома в тысячах долларов с учетом подробностей о доме и его окрестностях.

В набор данных входят следующие признаки:

    • CRIM -ПРЕСТУПЛЕНИЕ: уровень преступности на душу населения по городам.

    • ZN: доля жилой земли, зонированной для участков более 25 000 кв. Футов.

    • INDUS - ИНДУС: доля нерелевантных бизнес-акров на город

    • CHAS: фиктивная переменная Чарльз-Ривер (= 1, если тракт ограничивает реку; 0 в противном случае).

    • NOX: концентрация оксидов азота (частей на 10 миллионов).

    • РМ: среднее количество комнат на одно жилище.

    • AGE ВОЗРАСТ: доля домовладельцев, построенных до 1940 года.

    • DIS: взвешенные расстояния до пяти бостонских центров занятости.

    • RAD РАД: индекс доступности к радиальным магистралям.

    • TAX - НАЛОГ: полная стоимость налога на недвижимость за 10 000 долларов США.

    • PTRAYIO - ПТРАТИО: соотношение учеников и учителей по городам.

    • BLACK - B: 1000 (Bk - 0,63) ^ 2, где Bk - доля чернокожих по городам.

    • ISTAT:% ниже статуса населения.

    • MEDV: средняя стоимость домов, занимаемых владельцами, в 1000 долларов (зависимая переменная).

  1. Выполнить графический анализ с использованием различных диаграмм. При решении задачи использовать библиотеку ggplot, а также функции plot, hist, boxplot. Номер набора данных определяется порядковым номером студента в группе.



Вариант

Package

Dataset

Краткая характеристика набора данных



datasets

airquality

Daily air quality measurements in New York, May to September 1973.



datasets

ChickWeight

The ChickWeight data frame has 578 rows and 4 columns from an experiment on the effect of diet on early growth of chicks.



car

Womenlf {car}

The Womenlf data frame has 263 rows and 4 columns. The data are from a 1977 survey of the Canadian population.



car

Baumann

The Baumann data frame has 66 rows and 6 columns. The data are from an experimental study conducted by Baumann and Jones, as reported by Moore and McCabe (1993) Students were randomly assigned to one of three experimental groups.



car

Davis

The Davis data frame has 200 rows and 5 columns. The subjects were men and women engaged in regular exercise. There are some missing data



car

Freedman

The Freedman data frame has 110 rows and 4 columns. The observations are U. S. metropolitan areas with 1968 populations of 250,000 or more. There are some missing data.



car

Hartnagel

The Hartnagel data frame has 38 rows and 7 columns. The data are an annual time-series from 1931 to 1968. There are some missing data.



car

Mroz

The Mroz data frame has 753 rows and 8 columns. The observations, from the Panel Study of Income Dynamics (PSID), are married women.



car

Prestige

The Prestige data frame has 102 rows and 6 columns. The observations are occupations.



car

Salaries

The 2008-09 nine-month academic salary for Assistant Professors, Associate Professors and Professors in a college in the U.S. The data were collected as part of the on-going effort of the college's administration to monitor salary differences between male and female faculty members.



car

States

The States data frame has 51 rows and 8 columns. The observations are the U. S. states and Washington, D. C.



datasets

USArrests

This data set contains statistics, in arrests per 100,000 residents for assault, murder, and rape in each of the 50 US states in 1973. Also given is the percent of the population living in urban areas.



datasets

USJudgeRatings

Lawyers' ratings of state judges in the US Superior Court.



car

WeightLoss

Contrived data on weight loss and self esteem over three months, for three groups of individuals: Control, Diet and Diet + Exercise. The data constitute a double-multivariate design.



car

Womenlf

The Womenlf data frame has 263 rows and 4 columns. The data are from a 1977 survey of the Canadian population.



В папке учебной практики

Заемщик

Данные о заемщиках, содержащие 999 записей






Школа

Данные о успеваемости и результатах психологического опроса школьников






Кредит

Данные о клиентах



https://www.kaggle.com/rajyellow46/wine-quality

Вина

Заданы характеристики химического состава вина



https://www.kaggle.com/rajyellow46/wine-quality

Wine_red

Эти два набора данных связаны с красными и белыми вариантами португальского вина "Vinho Verde"






Wine_white






Car

Рассматриваются данные о 74 типах автомобилей. Каждый автомобиль (наблюдение) характеризуется 13 переменными. Данные за 1977-1978 годы.






WineAustralia

Оъем месячных продаж вин в Австралии за период с января 1980 по июнь 1994 г.




  1. Зарегистрироваться на сайте Kaggle. Загрузить данные об индексе счастья.

World Happiness Report 2022.

Отметим, что счастье в мире измеряется технологиями, социальными нормами и политикой правительства. Набор данных, созданный решением веб-сканирования. В таблице находятся данные по 153 странам. Показателем счастья считается среднее по стране нескольких факторов. Оценка счастья объясняется следующими факторами:

  • ВВП на душу населения

  • Ожидаемая продолжительность здоровой жизни

  • Социальная поддержка

  • Свобода делать жизненный выбор

  • Щедрость

  • Восприятие коррупции

  • Остаточная ошибка


написать администратору сайта