Главная страница
Навигация по странице:

  • Исходные данные

  • Задача

  • Ход выполнения

  • Исходные данные Загрузите XML данные о ресторанах Балтимора в переменную res

  • Практические работы 1-11 по Анализу больших данных (язык R). АБД1. Информация о нем. Задание 1


    Скачать 270.8 Kb.
    НазваниеИнформация о нем. Задание 1
    АнкорПрактические работы 1-11 по Анализу больших данных (язык R
    Дата01.12.2022
    Размер270.8 Kb.
    Формат файлаdocx
    Имя файлаАБД1.docx
    ТипДокументы
    #823323

    Загружаем фрейм.



    При этом в Environment появляется информация о нем.



    Задание 1

    Используя фрейм present, создайте график доли мальчиков с течением времени, и на основе графика определите, является ли следующее утверждение истинным или ложным: доля мальчиков, родившихся в США , уменьшилась с течением времени

    С помощью команды, представленной ниже, изобразим график, демонстрирующий, какая доля рождения мальчиков была с 1940 по 2002 года.



    Получаем следующий график



    По графику мы видим, что доля мальчиков неравномерно уменьшалась с 1940 по 2002 года.

    Задание 2

    Используя фрейм present, создайте график, который отображает соотношение мальчик-к-девочке за каждый год. Что вы видите? Опишите тенденцию.

    С помощью команды, представленной ниже, построим график соотношения мальчик-к-девочке за каждый год.





    Наблюдается тенденция уменьшения разницы между количеством рожденных мальчиков и девочек. Но разница в отношениях 1.058 и 1.046 достаточно незначительна, т.е. снижение разницы происходит очень медленно.

    Задание 3

    Используя фрейм present, вычислите абсолютные различия между количеством мальчиков и девочек, родившихся в каждом году, и определите, в каком году была самая большая абсолютная разница в количествах новорожденных девочек и мальчиков?

    С помощью следующей функции выведем абсолютную разницу. Также воспользуемся функцией max, чтобы при анализе не пропустить наибольшее число



    Число 105244 находится на 24-ой позиции, найдем соответствие.



    Соответственно в 1963 году была самая большая разница.

    Задание 4

    Используя фрейм diamonds, определите все возможные сочетания качества огранки (cut), цвета (color) и чистоты (clarity) алмазов. Результат представьте в таблице со столбцами: № п/п, cut, color, clarity.

    Выполнить задание можно с помощью следующей функции



    Так как результат представляет собой длинную таблицу, представим ниже ее часть.



    Задание 5

    Используя фрейм diamonds, определите 100 самых больших алмазов,

    с указанием их цены (price), величины (carat) и размеров по трем измерениям (x, y, z).

    Установим библиотеку “dplyr”.



    Создадим новую переменную, которая будет равна сумме всех осей, для удобного подсчета размера алмазов. Отсортируем их по убыванию, и выведем нужные нам строки и столбцы.



    Задание 6

    Используя набор данных nottem, постройте график изменения средней температуры воздуха в городе Ноттенгейм за период 1920–1939 гг., отдельно для каждого месяца с января по декабрь.

    Создадим переменные, в которые поместим последовательности с температурами каждого месяца



    Разделим окно на 12 графиков и выведем каждый из них



    Результат выполнения программного кода



    Задание 7

    Используя набор данных precip, определите города США с минимальным и максимальным уровнем годовых осадков.

    Установим пакет precip



    Найдем минимальное значение и выведем соответствующий ему город





    Повторим те же действия для максимума.




    Задание 8

    Используя набор данных pressure, постройте график зависимости давления паров ртути от температуры.



    Результат выполнения программного кода

    Задание 9

    Исходные данные

    American Community Survey предоставляет для скачивания данные, взятые из материалов различных обследований в Соединенных Штатах. Cкачайте данные из опроса о жилье в штате Айдахо в 2006 г. с сайта:

    https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Fss06hid.csv

    Загрузите эти данные в RStudio с помощью команды read.csv(). Книга кодирования, описывающая термины используемых в таблице переменных находится на:

    https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2FPUMSDataDict06.pdf

    Задача

    Используя исходные данные определите общее количество предложений недвижимости с кодом расположения PUMA = 800 (Public Use Microdata Area code).

    Ответ

    Укажите правильный ответ: (231 1077 851 104)
    Решение:

    Используем команду read.csv() для загрузки данных в RStudio.

    Для считывания нужных значений используем result <- subset.

    Для вывода length(result$Puma).



    Задание 10

    Исходные данные

    Скачать Excel таблицу из данных Natural Gas Aquisition Program по адресу: http://www.gsa.gov/dg/pbs/DATA.gov_NGAP.xlsx (оригинальный источник данных: http://catalog.data.gov/dataset/natural-gas-acquisition-program)

    Задача

    Используя исходные данные запишите строки 18-22 и столбцы 7-12 в переменную dat. Используя оператор for(), найдите максимальное значение в столбце NA..5 фрейма dat.

    Ход выполнения

    Используем команду read.csv() для загрузки данных в RStudio.

    Для записи столбцов в переменную dat используем функцию dat <- readWorksheetFromFile.

    Для вывода максимального значения добавим переменную, в которую будем перебирать все числа и выведем его.







    Задание 11

    Исходные данные

    Загрузите XML данные о ресторанах Балтимора в переменную res с сайта:

    https://d396qusza40orc.cloudfront.net/getdata%2Fdata%2Frestaurants.xml

    Задача

    Сколько ресторанов описано в загруженных данных? В переменную zip прочитайте все zipcode. Посчитайте число ресторанов с zipcode = 21218?

    Ответ

    Укажите правильный ответ: (96 83 69 122)


    написать администратору сайта