Практические работы 1-11 по Анализу больших данных (язык R). АБД1. Информация о нем. Задание 1
Скачать 270.8 Kb.
|
Загружаем фрейм. При этом в Environment появляется информация о нем. Задание 1 Используя фрейм present, создайте график доли мальчиков с течением времени, и на основе графика определите, является ли следующее утверждение истинным или ложным: доля мальчиков, родившихся в США , уменьшилась с течением времени С помощью команды, представленной ниже, изобразим график, демонстрирующий, какая доля рождения мальчиков была с 1940 по 2002 года. Получаем следующий график По графику мы видим, что доля мальчиков неравномерно уменьшалась с 1940 по 2002 года. Задание 2 Используя фрейм present, создайте график, который отображает соотношение мальчик-к-девочке за каждый год. Что вы видите? Опишите тенденцию. С помощью команды, представленной ниже, построим график соотношения мальчик-к-девочке за каждый год. Наблюдается тенденция уменьшения разницы между количеством рожденных мальчиков и девочек. Но разница в отношениях 1.058 и 1.046 достаточно незначительна, т.е. снижение разницы происходит очень медленно. Задание 3 Используя фрейм present, вычислите абсолютные различия между количеством мальчиков и девочек, родившихся в каждом году, и определите, в каком году была самая большая абсолютная разница в количествах новорожденных девочек и мальчиков? С помощью следующей функции выведем абсолютную разницу. Также воспользуемся функцией max, чтобы при анализе не пропустить наибольшее число Число 105244 находится на 24-ой позиции, найдем соответствие. Соответственно в 1963 году была самая большая разница. Задание 4 Используя фрейм diamonds, определите все возможные сочетания качества огранки (cut), цвета (color) и чистоты (clarity) алмазов. Результат представьте в таблице со столбцами: № п/п, cut, color, clarity. Выполнить задание можно с помощью следующей функции Так как результат представляет собой длинную таблицу, представим ниже ее часть. Задание 5 Используя фрейм diamonds, определите 100 самых больших алмазов, с указанием их цены (price), величины (carat) и размеров по трем измерениям (x, y, z). Установим библиотеку “dplyr”. Создадим новую переменную, которая будет равна сумме всех осей, для удобного подсчета размера алмазов. Отсортируем их по убыванию, и выведем нужные нам строки и столбцы. Задание 6 Используя набор данных nottem, постройте график изменения средней температуры воздуха в городе Ноттенгейм за период 1920–1939 гг., отдельно для каждого месяца с января по декабрь. Создадим переменные, в которые поместим последовательности с температурами каждого месяца Разделим окно на 12 графиков и выведем каждый из них Результат выполнения программного кода Задание 7 Используя набор данных precip, определите города США с минимальным и максимальным уровнем годовых осадков. Установим пакет precip Найдем минимальное значение и выведем соответствующий ему город Повторим те же действия для максимума. Задание 8 Используя набор данных pressure, постройте график зависимости давления паров ртути от температуры. Результат выполнения программного кода Задание 9 Исходные данные American Community Survey предоставляет для скачивания данные, взятые из материалов различных обследований в Соединенных Штатах. Cкачайте данные из опроса о жилье в штате Айдахо в 2006 г. с сайта: https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv Загрузите эти данные в RStudio с помощью команды read.csv(). Книга кодирования, описывающая термины используемых в таблице переменных находится на: https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2FPUMSDataDict06.pdf Задача Используя исходные данные определите общее количество предложений недвижимости с кодом расположения PUMA = 800 (Public Use Microdata Area code). Ответ Укажите правильный ответ: (231 1077 851 104) Решение: Используем команду read.csv() для загрузки данных в RStudio. Для считывания нужных значений используем result <- subset. Для вывода length(result$Puma). Задание 10 Исходные данные Скачать Excel таблицу из данных Natural Gas Aquisition Program по адресу: http://www.gsa.gov/dg/pbs/DATA.gov_NGAP.xlsx (оригинальный источник данных: http://catalog.data.gov/dataset/natural-gas-acquisition-program) Задача Используя исходные данные запишите строки 18-22 и столбцы 7-12 в переменную dat. Используя оператор for(), найдите максимальное значение в столбце NA..5 фрейма dat. Ход выполнения Используем команду read.csv() для загрузки данных в RStudio. Для записи столбцов в переменную dat используем функцию dat <- readWorksheetFromFile. Для вывода максимального значения добавим переменную, в которую будем перебирать все числа и выведем его. Задание 11 Исходные данные Загрузите XML данные о ресторанах Балтимора в переменную res с сайта: https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml Задача Сколько ресторанов описано в загруженных данных? В переменную zip прочитайте все zipcode. Посчитайте число ресторанов с zipcode = 21218? Ответ Укажите правильный ответ: (96 83 69 122) |