Лабораторная работа 1 Знакомство с языком R
Установить и запустить программу R. Настроить рабочую директорию с помощью функции setwd(). Сгенерировать вектор X U(0, 1) и построить гистограмму.
Сохранить результаты моделирования в текстовый файл (*.txt, *.csv), гистограмму в графический файл (*.jpg, *.svg) с использованием функций записи в файл. Познакомиться с основными структурами данных numeric(), matrix(), data.frame(), list(). Познакомиться со справочной системой. Установка и загрузка дополнительных пакетов c помощью функций install.packagesQ и library(). Литература
https://ru.stackoverflow.com/questions/506597/Книги и учебные ресурсы по языку R
Лабораторная работа 2
Стратегии работы с большими массивами данных
Сгенерировать большой массив данных и записать в один файл [1]. Установить пакет purrr. Записать массив данных по частям в несколько файлов [2]. Сформировать репрезентативная выборку ограниченного размера. Выполнить загрузку данных с использованием различных стратегий [1]. Сделать выводы. Установить пакеты data.table, sqldf, ff. Установить и загрузить библиотеки sqldf и nycflights13.Ознакомиться со структурой набора данных flights. Вычислить количество наблюдений для всех перевозчиков carrier в таблице flights. Отобразить в консоли значения полейdep_time,dep_delay,arr_time, carrier, tailnum из таблицы flights (первые и последние 5 строк). Вычислить среднее время задержки прибытия (mean_arr_delay) и отправления (mean_dep_delay) для различных перевозчиков (carrier) [3]. Сгенерировать data.frame с тремя столбцами и 100 строками. Преобразовать данные из широкого в длинный формат. Установить пакет reshape2 [4].
Литература
https://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as- dataframes/ https://stackoverflow.com/questions/57047338/split-dataset-per-rows-into-smaller-files-in-r https://www.tutorialspoint.com/big data analytics/introduction to sql.htm Кабаков Р.И. R в действии. Анализ и визуализация данных на языке R (2014).
Лабораторная работа 3 Подготовка исходных данных
Сгенерировать вектор (массив, таблица данных) и добавить в него элементы NA. Очистить данные с использованием функцииis.na() [1]. Сгенерировать таблицу данных с числовыми и текстовые столбцами. Очистить данные с функции complete.cases() [1].
Сгенерировать числовую таблицу данных с пропусками. С использованием функции preProcess из пакета caret заполнить пропуски предсказанными значениями (среднее, медиана) [2]. Сгенерировать два числовых набора данных, добавить в них выбросы. С использованием функции boxplot обнаружить выбросы и удалить их [3, 4]. Сгенерируйте таблицу данных, в которой дублируются строки. Удалите строки с использованием функций unique(), duplicated(). Сравните результаты [5]. Обработать пропуски в данных с использованием пакета mice [6]. Разобрать пример с мультиколлинеарностью [7].
Литература
http ://datascientist.one/removing-na-value s-r/ https://r-analvtics.blogspot.com/2017/01/blog-post.html http://datascientist.one/delete-outliers-with-boxplot-r/ https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/ https://stackoverflow.com/questions/13967063/remove-duplicated-rows https://habr.com/ru/company/infopulse/blog/305692/ https://datascienceplus.com/multicollinearitv-in-r/
Лабораторная работа 4
Обработка данных. Выбор признаков (Feature Selection)
Установить пакет CARET, выполнить команду names(getModelInfo()), ознакомиться со списком доступных методов выбора признаков. Выполните графический разведочный анализ данных с использование функции featurePlot() для набора данных из справочного файла пакета CARET:
x <- matrix(rnorm(50*5),ncol=5) y <- factor(rep(c("A", "B"), 25))
Сохранить полученные графики в *.jpg файлы. Сделать выводы.
С использование функций из пакета Fselector [2] определить важность признаков для решения задачи классификации. Использовать набор data(iris). Сделать выводы. Установите пакет Boruta и проведите выбор признаков для набора данных data("Ozone") [3, 4]. Построить график boxplot, сделать выводы.
Литература
https://topepo.github.io/caret/train-models-bv-tag.html#implicit-feature-selection https://miningthedetails.com/blog/r/fselector/ https://www.istatsoft.org/article/view/v036i11/v36i11.pdf https://www.datacamp.com/communitv/tutorials/feature-selection-R-boruta https://habr.com/ru/post/264915/ http://ai.stanford.edu/ronnyk/wrappersPrint.pdf
Лабораторная работа 5
Обработка данных. Выбор экземпляров (Instance Selection)
Выполните классификацию k-ближайших соседей с использованием функции knn() из пакета class на наборе данных iris [1]. Проведите нормализацию данных, разделите выборку на обучающую и тестовую. Оцените построенную модель с использованием функции CrossTable() из пакета gmodels. Постройте матрицу ошибок [2] и диагональную оценку качества прогноза (diagonal mark quality prediction). Рассмотрите пример реализации метода опорных векторов с использованием функции svm() из пакета e1071. Постройте линейный классификатор для прогнозирования. Для подбора параметров модели выполните перекрестную проверку с делением исходной выборки на 10 равных частей (cross=10) [3, c.172]. Выполните расчет главных компонент с использованием пакета vegan() и его функции rda(). Постройте ординационную диаграмму методом PCA [3, c. 49] и сделайте выводы.
Литература
https://en.proft.me/2017/01/22/dassification-using-k-nearest-neighbors-r/ https://habr.com/ru/company/ods/blog/328372/ Шитиков В.К., Мастицкий С.Э. (2017) Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 351 с. - Электронная книга, адрес доступа: https://github.com/ranalytics/data-mining Olvera-Lopez, Jose & Carrasco-Ochoa, Jesus & Martmez-Trinidad, Jose Francisco & Kittler, Josef. (2010). A review of instance selection methods. Artif. Intell. Rev. 34. 133-143. 10.1007/s 10462-010-9165-y. https://mafiadoc.com/a-review-of-instance-selection-methods-soft- computing-and-_5b054f698ead0ed4758b4586.html Top 10 algorithms in data mining http://www.cs.umd.edu/samir/498/10Algorithms-08.pdf
Лабораторная работа 6
Обработка данных. Дискретизация для классификации (Discretization)
С использованием функции discretize() из пакета arules выполните преобразование непрерывной переменной в категориальную [1] различными методами: «interval» (равная ширина интервала), «frequency» (равная частота), «cluster» (кластеризация) и «fixed» (категории задают границы интервалов). Используйте набор данных iris. Сделайте выводы. С использованием пакета discretization выполните дискретизацию с использованием алгоритмов Chi2 и CAIM [2]. Используйте набор данных iris. Сравните результаты и сделайте выводы.
Литература
http://finzi.psych.upenn. edu/library/arule s/html/di s cretize. html https://cran.r-proiect.org/web/packages/discretization/index.html
Лабораторная работа 7 Организация распределённых вычислений
Установите пакет sparklyr, установите Java Virtual Machine (JVM). Подключитесь к локальному Spark-кластеру. Загрузите таблицу flights из пакета nycflights13 в Spark- кластер [1]. Выполните запросы (задание 3, Лабораторная работа 2). Сравните результаты, сделайте выводы. Настройте для использования Hadoop [2-5], подсчитайте количество слов в файле *.txt c использованием HDFS [3]. Файл сгенерировать самостоятельно. Установите MongoDB [6, 7]. Подключите библиотеку mongolite. Выполните пример для набора iris c использование функции mongo() из видеоролика [7]. Сохраните код и сделайте выводы.
Литература
https://r-analvtics.blogspot.com/2020/02/spark-r-connect.html 4 Ways To Use R And Hadoop Together https://www.edureka.co/blog/4-ways-to-use-r- and-hadoop-together/ http://www.rdatamining.com/big-data/r-hadoop-setup-guide https://github.com/ieffreybreen/hadoop-R Video: Using R with Hadoop https://www.r-bloggers.com/video-using-r-with-hadoop/ https://data-flair.training/blogs/mongodb-tutorials-home/ Connect to MongoDB Database in R https://www.voutube.com/watch?v=JBEKJflNV2g https://www.blue-granite.com/blog/using-hadoop-data-r-distributed-machine-learning https://data-flair.training/blogs/r-hadoop-integration/
Лабораторная работа 8 Практические задачи
с использованием различных инструментов обработки больших данных
Выберите два любых кейса [1]. Опишите входные данные, стек моделей и технологий, которые можно использовать для решения выбранных кейсов. Приведите иллюстративные примеры с использованием R. Сделайте выводы.
Литература
https://data-flair.training/blogs/big-data-case-studies/ https://data-flair.training/blogs/big-data-use-cases-case-studies-hadoop-spark-flink/
Практическая работа № 1. Поиск и определение Big Data.
Требуется осуществить поиск источников информации в сети Интернет: откры-тые и закрытые источники данных. Рассмотреть портал открытых данных РФ. Определить можно ли классифицировать найденные данными как «Big Data». Сохранить данные. Написать отчет с выводами.
Практическая работа № 2. Хранение больших данных
Описать модель организации хранилища данных. Загрузить данные в RStudio. Организовать связь между загруженными таблицами с помощью SQL-запросов. Осуществить выгрузку информации для просмотра описательных статистик. Написать отчет с выводами.
Практическая работа № 3. Аналитические платформы: классификация и особенности применения
Организовать импорт данных из работы 2 из RStudio в пакет Statistica. Описать структуру полученных данных. Провести описательную статистику в пакете Statistica. Написать отчет с выводами.
Практическая работа № 4. Прогнозирование с помощью линейной регрессии.
Построить уравнение линейной регрессии по большим данным, загруженным в RStudio во 2 работе средствами языка программирования R. Написать отчет с выводами. Практическая работа № 5. Алгоритма кластеризации больших данных
Провести кластерный анализ больших данных, загруженных в RStudio во 2 ра-боте. Применить метод k-средних и иерархическую классификацию. Выбрать оптимальный способ. Написать отчет с выводами.
Практическая работа № 6. Поиск ассоциативных правил
По показателям больших данных, загруженных в RStudio во 2 работе, осущест¬вить поиск ассоциативных правил. Написать отчет с выводами.
Практическая работа № 7. Классификация с помощью нейросети.
Методами нейросетевой классификации определить возможность разбиения больших данных на кластеры, выделенные в работе 5 по показателям, характе-ризующим другую сферу явления. Написать отчет с выводами.
Практическая работа № 8. Классификация с помощью деревьев решений.
К показателям больших данных, загруженных в RStudio во 2 работе, применить алгоритм «Дерево решений». Описать структуру дерева. Выявить основные факторы, влияющие на классификацию. Написать отчет с выводами. Основная литература
1. Эконометрика: учебник для магистров / И.И. Елисеева и др.; под ред. И.И. Елисеевой. -М.: Издательство Юрайт, 2014. - 449 с.
2. Статистический анализ и прогнозирование с использованием пакетов прикладных статистических программ: Учеб, пособие/ А.Е. Харитонова. М.: Изд-во РГАУ-МСХА, 2015.- 155 с.
3. Образцова О.И. Статистика предприятий и бизнес-статистика [Текст] : учебное пособие для студентов высших учебных заведений по направле-нию подготовки "Экономика" / О.И. Образцова. - Москва : Высшая школа экономики, 2011.- 698с.
Дополнительная литература
1. Абдикеев, Н.М. Когнитивная бизнес-аналитика: учебное пособие / Н.М. Абдикеев, А.Н. Аверкин, Л.П. Дьяконова и др. - JVL: Инфра-М, 2014. - 509 С.
2. Using Eviews for principles of Econometrics / W.E. Griffiths, R. C. Hill, G. C. Lim. - 4 th ed. -John Wiley&Sons,lnc, 2012. - 466 p.
3. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R. - Электронная книга, адрес доступа: http://r- analvtics.b1ogspot.com (свободный доступ)
4. «Введение в R» -https://m7876.wiki.zoho.comAntroduction-to-R.html (свободный доступ)
8. Перечень ресурсов информационно-телекоммуникационной сети «Интернет», необходимых для освоения дисциплины (модуля)
1. Bureau of Economic Analysis. URL: http://www.bea.gov (открытый доступ)
2. Econometric Laboratory Software Archive. URL: http://elsa.berkeley.edu/ (от-крытый доступ)
3. Econometric Software Links Econometrics Journal. URL: http://www.econ.vu.nl/econometriclinks/software.html (открытый доступ)
4. NASS - National Agricultural Statistics Service. URL: www.nass.usda.gov (от-крытый доступ)
5. STATISTICS. URL: http://www.oecd-
ilibrary.org/statistics;jsessionid=3ddci6tti4o90.delta (открытый доступ)
6. STATISTICS. URL: http://epp.eurostat.ec.europa.eu/portal/page/portal/ statis- tics/themes (открытый доступ)
7. System of National Accounts 2008. URL: http://unstats.un.org/ unsd/nationalaccount/sna2008.asp (открытый доступ)
8. Доклады о развитии человека. URL: http://www.un.org/ni/development/hdr/ (открытый доступ)
9. Единый архив статистических и эконометрических данных ВШЭ. URL: http://sophist.hse.ru/db/oprosv.shtml?ts=2 (открытый доступ)
10. Итоги Всероссийской сельскохозяйственной переписи 2006 года (в 9 томах). URL: http://www.gks.ru/news/perepis2006/totals-osn.htm (открытый доступ)
11. Квантиль. Международный эконометрический журнал на русском языке. URL: http://www.quanti1e.ru/ (открытый доступ)
12. Московская международная валютная биржа, http://www.micex.ru (откры-тый доступ)
13.Основные обзоры и доклады ООН в экономической и социальной областях. URL: http://www.un,org/ш/development/surveys/ (открытый доступ)
14.Официальный сайт Всемирного банка . URL: http:// www.worldbank.org
(открытый доступ)
15. Официальный сайт Международного валютного фонда. URL:
http://www.imf.оrg (открытый доступ)
16. Официальный сайт Международной организации труда. URL:
http://www.ilo.org (открытый доступ)
17. Официальный сайт Министерства финансов РФ. URL: http://www.minfin.gov.ru (открытый доступ)
18.Официальный сайт Национального бюро статистики по рынку труда США. URL: http:// www.bls.gov (открытый доступ)
19.Официальный сайт Национального бюро экономических исследований США. URL: http:// www.nber.org (открытый доступ)
20.Официальный сайт Росстата. URL: http://www.gks.ru/ (открытый доступ)
21.Официальный сайт Центрального Банка России. URL: (открытый дос- Tvn)http://www.cbr.m
22. Препринты НИУ ВШЭ. http://www.hse.ru/org/hse/wp (открытый доступ)
23. Росбизнесконсалтинг, http://www.rbk.ш (открытый доступ)
24. Центр макроэкономического анализа и прогнозирования при ИНП РАН. http://www.forecast.ru (открытый доступ)
2 5. Центральный экономико-математический институт (ЦЭМИ) РАН.
http://www.cemi.rssi.ru (открытый доступ)
26.Эконометрическое общество. URL:http://edirc,repec,org/data/essssea.html (от-крытый доступ)
27.The R Project for Statistical Computing https://www.r-proiect.org/ (открытый доступ) |