Обр.больших данных ЛРиПР. Лабораторная работа 1 Знакомство с языком R

Название	Лабораторная работа 1 Знакомство с языком R
Дата	24.08.2022
Размер	27.3 Kb.
Формат файла
Имя файла	Обр.больших данных ЛРиПР.docx
Тип	Лабораторная работа #652230

Лабораторная работа 1 Знакомство с языком R

Установить и запустить программу R.

Настроить рабочую директорию с помощью функции setwd().

Сгенерировать вектор X

U(0, 1) и построить гистограмму.

Сохранить результаты моделирования в текстовый файл (*.txt, *.csv), гистограмму в графический файл (*.jpg, *.svg) с использованием функций записи в файл.

Познакомиться с основными структурами данных numeric(), matrix(), data.frame(), list().

Познакомиться со справочной системой.

Установка и загрузка дополнительных пакетов c помощью функций install.packagesQ и library().

Литература

https://ru.stackoverflow.com/questions/506597/Книги и учебные ресурсы по языку R

Лабораторная работа 2

Стратегии работы с большими массивами данных

Сгенерировать большой массив данных и записать в один файл [1]. Установить пакет purrr. Записать массив данных по частям в несколько файлов [2]. Сформировать репрезентативная выборку ограниченного размера.
Выполнить загрузку данных с использованием различных стратегий [1]. Сделать выводы. Установить пакеты data.table, sqldf, ff.
Установить и загрузить библиотеки sqldf и nycflights13.Ознакомиться со структурой набора данных flights. Вычислить количество наблюдений для всех перевозчиков carrier в таблице flights. Отобразить в консоли значения полейdep_time,dep_delay,arr_time, carrier, tailnum из таблицы flights (первые и последние 5 строк). Вычислить среднее время задержки прибытия (mean_arr_delay) и отправления (mean_dep_delay) для различных перевозчиков (carrier) [3].
Сгенерировать data.frame с тремя столбцами и 100 строками. Преобразовать данные из широкого в длинный формат. Установить пакет reshape2 [4].

Литература

https://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as- dataframes/
https://stackoverflow.com/questions/57047338/split-dataset-per-rows-into-smaller-files-in-r
https://www.tutorialspoint.com/big data analytics/introduction to sql.htm
Кабаков Р.И. R в действии. Анализ и визуализация данных на языке R (2014).

Лабораторная работа 3
Подготовка исходных данных

Сгенерировать вектор (массив, таблица данных) и добавить в него элементы NA. Очистить данные с использованием функцииis.na() [1].
Сгенерировать таблицу данных с числовыми и текстовые столбцами. Очистить данные с функции complete.cases() [1].

Сгенерировать числовую таблицу данных с пропусками. С использованием функции preProcess из пакета caret заполнить пропуски предсказанными значениями (среднее, медиана) [2].
Сгенерировать два числовых набора данных, добавить в них выбросы. С использованием функции boxplot обнаружить выбросы и удалить их [3, 4].
Сгенерируйте таблицу данных, в которой дублируются строки. Удалите строки с использованием функций unique(), duplicated(). Сравните результаты [5].
Обработать пропуски в данных с использованием пакета mice [6].
Разобрать пример с мультиколлинеарностью [7].

Литература

http ://datascientist.one/removing-na-value s-r/
https://r-analvtics.blogspot.com/2017/01/blog-post.html
http://datascientist.one/delete-outliers-with-boxplot-r/
https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/
https://stackoverflow.com/questions/13967063/remove-duplicated-rows
https://habr.com/ru/company/infopulse/blog/305692/
https://datascienceplus.com/multicollinearitv-in-r/

Лабораторная работа 4

Обработка данных. Выбор признаков (Feature Selection)

Установить пакет CARET, выполнить команду names(getModelInfo()), ознакомиться со списком доступных методов выбора признаков. Выполните графический разведочный анализ данных с использование функции featurePlot() для набора данных из справочного файла пакета CARET:

x <- matrix(rnorm(50*5),ncol=5) y <- factor(rep(c("A", "B"), 25))

Сохранить полученные графики в *.jpg файлы. Сделать выводы.

С использование функций из пакета Fselector [2] определить важность признаков для решения задачи классификации. Использовать набор data(iris). Сделать выводы.
Установите пакет Boruta и проведите выбор признаков для набора данных data("Ozone") [3, 4]. Построить график boxplot, сделать выводы.

Литература

https://topepo.github.io/caret/train-models-bv-tag.html#implicit-feature-selection
https://miningthedetails.com/blog/r/fselector/
https://www.istatsoft.org/article/view/v036i11/v36i11.pdf
https://www.datacamp.com/communitv/tutorials/feature-selection-R-boruta
https://habr.com/ru/post/264915/
http://ai.stanford.edu/ronnyk/wrappersPrint.pdf

Лабораторная работа 5

Обработка данных. Выбор экземпляров (Instance Selection)

Выполните классификацию k-ближайших соседей с использованием функции knn() из пакета class на наборе данных iris [1]. Проведите нормализацию данных, разделите выборку на обучающую и тестовую. Оцените построенную модель с использованием функции CrossTable() из пакета gmodels. Постройте матрицу ошибок [2] и диагональную оценку качества прогноза (diagonal mark quality prediction).
Рассмотрите пример реализации метода опорных векторов с использованием функции svm() из пакета e1071. Постройте линейный классификатор для прогнозирования. Для подбора параметров модели выполните перекрестную проверку с делением исходной выборки на 10 равных частей (cross=10) [3, c.172].
Выполните расчет главных компонент с использованием пакета vegan() и его функции rda(). Постройте ординационную диаграмму методом PCA [3, c. 49] и сделайте выводы.

Литература

https://en.proft.me/2017/01/22/dassification-using-k-nearest-neighbors-r/
https://habr.com/ru/company/ods/blog/328372/
Шитиков В.К., Мастицкий С.Э. (2017) Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 351 с. - Электронная книга, адрес доступа: https://github.com/ranalytics/data-mining
Olvera-Lopez, Jose & Carrasco-Ochoa, Jesus & Martmez-Trinidad, Jose Francisco & Kittler, Josef. (2010). A review of instance selection methods. Artif. Intell. Rev. 34. 133-143. 10.1007/s 10462-010-9165-y. https://mafiadoc.com/a-review-of-instance-selection-methods-soft- computing-and-_5b054f698ead0ed4758b4586.html
Top 10 algorithms in data mining http://www.cs.umd.edu/samir/498/10Algorithms-08.pdf

Лабораторная работа 6

Обработка данных. Дискретизация для классификации (Discretization)

С использованием функции discretize() из пакета arules выполните преобразование непрерывной переменной в категориальную [1] различными методами: «interval» (равная ширина интервала), «frequency» (равная частота), «cluster» (кластеризация) и «fixed» (категории задают границы интервалов). Используйте набор данных iris. Сделайте выводы.
С использованием пакета discretization выполните дискретизацию с использованием алгоритмов Chi2 и CAIM [2]. Используйте набор данных iris. Сравните результаты и сделайте выводы.

Литература

http://finzi.psych.upenn. edu/library/arule s/html/di s cretize. html
https://cran.r-proiect.org/web/packages/discretization/index.html

Лабораторная работа 7
Организация распределённых вычислений

Установите пакет sparklyr, установите Java Virtual Machine (JVM). Подключитесь к локальному Spark-кластеру. Загрузите таблицу flights из пакета nycflights13 в Spark- кластер [1]. Выполните запросы (задание 3, Лабораторная работа 2). Сравните результаты, сделайте выводы.
Настройте для использования Hadoop [2-5], подсчитайте количество слов в файле *.txt c использованием HDFS [3]. Файл сгенерировать самостоятельно.
Установите MongoDB [6, 7]. Подключите библиотеку mongolite. Выполните пример для набора iris c использование функции mongo() из видеоролика [7]. Сохраните код и сделайте выводы.

Литература

https://r-analvtics.blogspot.com/2020/02/spark-r-connect.html
4 Ways To Use R And Hadoop Together https://www.edureka.co/blog/4-ways-to-use-r- and-hadoop-together/
http://www.rdatamining.com/big-data/r-hadoop-setup-guide
https://github.com/ieffreybreen/hadoop-R
Video: Using R with Hadoop https://www.r-bloggers.com/video-using-r-with-hadoop/
https://data-flair.training/blogs/mongodb-tutorials-home/
Connect to MongoDB Database in R https://www.voutube.com/watch?v=JBEKJflNV2g
https://www.blue-granite.com/blog/using-hadoop-data-r-distributed-machine-learning
https://data-flair.training/blogs/r-hadoop-integration/

Лабораторная работа 8
Практические задачи

с использованием различных инструментов обработки больших данных

Выберите два любых кейса [1]. Опишите входные данные, стек моделей и технологий, которые можно использовать для решения выбранных кейсов. Приведите иллюстративные примеры с использованием R. Сделайте выводы.

Литература

https://data-flair.training/blogs/big-data-case-studies/
https://data-flair.training/blogs/big-data-use-cases-case-studies-hadoop-spark-flink/

Практическая работа № 1. Поиск и определение Big Data.

Требуется осуществить поиск источников информации в сети Интернет: откры-тые и закрытые источники данных. Рассмотреть портал открытых данных РФ. Определить можно ли классифицировать найденные данными как «Big Data». Сохранить данные. Написать отчет с выводами.

Практическая работа № 2. Хранение больших данных

Описать модель организации хранилища данных. Загрузить данные в RStudio. Организовать связь между загруженными таблицами с помощью SQL-запросов. Осуществить выгрузку информации для просмотра описательных статистик. Написать отчет с выводами.

Практическая работа № 3. Аналитические платформы: классификация и особенности применения

Организовать импорт данных из работы 2 из RStudio в пакет Statistica. Описать структуру полученных данных. Провести описательную статистику в пакете Statistica. Написать отчет с выводами.

Практическая работа № 4. Прогнозирование с помощью линейной регрессии.

Построить уравнение линейной регрессии по большим данным, загруженным в RStudio во 2 работе средствами языка программирования R. Написать отчет с выводами.
Практическая работа № 5. Алгоритма кластеризации больших данных

Провести кластерный анализ больших данных, загруженных в RStudio во 2 ра-боте. Применить метод k-средних и иерархическую классификацию. Выбрать оптимальный способ. Написать отчет с выводами.

Практическая работа № 6. Поиск ассоциативных правил

По показателям больших данных, загруженных в RStudio во 2 работе, осущест¬вить поиск ассоциативных правил. Написать отчет с выводами.

Практическая работа № 7. Классификация с помощью нейросети.

Методами нейросетевой классификации определить возможность разбиения больших данных на кластеры, выделенные в работе 5 по показателям, характе-ризующим другую сферу явления. Написать отчет с выводами.

Практическая работа № 8. Классификация с помощью деревьев решений.

К показателям больших данных, загруженных в RStudio во 2 работе, применить алгоритм «Дерево решений». Описать структуру дерева. Выявить основные факторы, влияющие на классификацию. Написать отчет с выводами.
Основная литература

1. Эконометрика: учебник для магистров / И.И. Елисеева и др.; под ред. И.И. Елисеевой. -М.: Издательство Юрайт, 2014. - 449 с.

2. Статистический анализ и прогнозирование с использованием пакетов прикладных статистических программ: Учеб, пособие/ А.Е. Харитонова. М.: Изд-во РГАУ-МСХА, 2015.- 155 с.

3. Образцова О.И. Статистика предприятий и бизнес-статистика [Текст] : учебное пособие для студентов высших учебных заведений по направле-нию подготовки "Экономика" / О.И. Образцова. - Москва : Высшая школа экономики, 2011.- 698с.

Дополнительная литература

1. Абдикеев, Н.М. Когнитивная бизнес-аналитика: учебное пособие / Н.М. Абдикеев, А.Н. Аверкин, Л.П. Дьяконова и др. - JVL: Инфра-М, 2014. - 509 С.

2. Using Eviews for principles of Econometrics / W.E. Griffiths, R. C. Hill, G. C. Lim. - 4 th ed. -John Wiley&Sons,lnc, 2012. - 466 p.

3. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R. - Электронная книга, адрес доступа: http://r- analvtics.b1ogspot.com (свободный доступ)

4. «Введение в R» -https://m7876.wiki.zoho.comAntroduction-to-R.html (свободный доступ)

8. Перечень ресурсов информационно-телекоммуникационной сети «Интернет», необходимых для освоения дисциплины (модуля)

1. Bureau of Economic Analysis. URL: http://www.bea.gov (открытый доступ)

2. Econometric Laboratory Software Archive. URL: http://elsa.berkeley.edu/ (от-крытый доступ)

3. Econometric Software Links Econometrics Journal. URL: http://www.econ.vu.nl/econometriclinks/software.html (открытый доступ)

4. NASS - National Agricultural Statistics Service. URL: www.nass.usda.gov (от-крытый доступ)

5. STATISTICS. URL: http://www.oecd-

ilibrary.org/statistics;jsessionid=3ddci6tti4o90.delta (открытый доступ)

6. STATISTICS. URL: http://epp.eurostat.ec.europa.eu/portal/page/portal/ statis- tics/themes (открытый доступ)

7. System of National Accounts 2008. URL: http://unstats.un.org/ unsd/nationalaccount/sna2008.asp (открытый доступ)

8. Доклады о развитии человека. URL: http://www.un.org/ni/development/hdr/ (открытый доступ)

9. Единый архив статистических и эконометрических данных ВШЭ. URL: http://sophist.hse.ru/db/oprosv.shtml?ts=2 (открытый доступ)

10. Итоги Всероссийской сельскохозяйственной переписи 2006 года (в 9 томах). URL: http://www.gks.ru/news/perepis2006/totals-osn.htm (открытый доступ)

11. Квантиль. Международный эконометрический журнал на русском языке. URL: http://www.quanti1e.ru/ (открытый доступ)

12. Московская международная валютная биржа, http://www.micex.ru (откры-тый доступ)

13.Основные обзоры и доклады ООН в экономической и социальной областях. URL: http://www.un,org/ш/development/surveys/ (открытый доступ)

14.Официальный сайт Всемирного банка . URL: http:// www.worldbank.org

(открытый доступ)

15. Официальный сайт Международного валютного фонда. URL:

http://www.imf.оrg (открытый доступ)

16. Официальный сайт Международной организации труда. URL:

http://www.ilo.org (открытый доступ)

17. Официальный сайт Министерства финансов РФ. URL: http://www.minfin.gov.ru (открытый доступ)

18.Официальный сайт Национального бюро статистики по рынку труда США. URL: http:// www.bls.gov (открытый доступ)

19.Официальный сайт Национального бюро экономических исследований США. URL: http:// www.nber.org (открытый доступ)

20.Официальный сайт Росстата. URL: http://www.gks.ru/ (открытый доступ)

21.Официальный сайт Центрального Банка России. URL: (открытый дос- Tvn)http://www.cbr.m

22. Препринты НИУ ВШЭ. http://www.hse.ru/org/hse/wp (открытый доступ)

23. Росбизнесконсалтинг, http://www.rbk.ш (открытый доступ)

24. Центр макроэкономического анализа и прогнозирования при ИНП РАН. http://www.forecast.ru (открытый доступ)

2 5. Центральный экономико-математический институт (ЦЭМИ) РАН.

http://www.cemi.rssi.ru (открытый доступ)

26.Эконометрическое общество. URL:http://edirc,repec,org/data/essssea.html (от-крытый доступ)

27.The R Project for Statistical Computing https://www.r-proiect.org/ (открытый доступ)

Обр.больших данных ЛРиПР. Лабораторная работа 1 Знакомство с языком R

Лабораторная работа 1 Знакомство с языком R Установить и запустить программу R. Настроить рабочую директорию с помощью функции setwd(). Сгенерировать вектор X

Лабораторная работа 1 Знакомство с языком R

Установить и запустить программу R.

Настроить рабочую директорию с помощью функции setwd().

Сгенерировать вектор X