Главная страница
Навигация по странице:

  • Литература https://ru.stackoverflow.com/questions/506597/Книги и учебные ресурсы по языку R Лабораторная работа 2

  • Лабораторная работа 3Подготовка исходных данных

  • Лабораторная работа 4 Обработка данных. Выбор признаков (Feature Selection)

  • Лабораторная работа 5 Обработка данных. Выбор экземпляров (Instance Selection)

  • Лабораторная работа 6 Обработка данных. Дискретизация для классификации (Discretization)

  • Лабораторная работа 7Организация распределённых вычислений

  • Лабораторная работа 8Практические задачи с использованием различных инструментов обработки больших данных

  • Практическая работа № 1. Поиск и определение Big Data.

  • Практическая работа № 2. Хранение больших данных

  • Практическая работа № 3. Аналитические платформы: классификация и особенности применения

  • Практическая работа № 4. Прогнозирование с помощью линейной регрессии.

  • Практическая работа № 5. Алгоритма кластеризации больших данных

  • Практическая работа № 6. Поиск ассоциативных правил

  • Практическая работа № 7. Классификация с помощью нейросети.

  • Практическая работа № 8. Классификация с помощью деревьев решений.

  • Дополнительная литература

  • Обр.больших данных ЛРиПР. Лабораторная работа 1 Знакомство с языком R


    Скачать 27.3 Kb.
    НазваниеЛабораторная работа 1 Знакомство с языком R
    Дата24.08.2022
    Размер27.3 Kb.
    Формат файлаdocx
    Имя файлаОбр.больших данных ЛРиПР.docx
    ТипЛабораторная работа
    #652230


    Лабораторная работа 1 Знакомство с языком R

    1. Установить и запустить программу R.

    2. Настроить рабочую директорию с помощью функции setwd().

    3. Сгенерировать вектор X

    U(0, 1) и построить гистограмму.

  • Сохранить результаты моделирования в текстовый файл (*.txt, *.csv), гистограмму в графический файл (*.jpg, *.svg) с использованием функций записи в файл.

  • Познакомиться с основными структурами данных numeric(), matrix(), data.frame(), list().

  • Познакомиться со справочной системой.

  • Установка и загрузка дополнительных пакетов c помощью функций install.packagesQ и library().

    Литература

    1. https://ru.stackoverflow.com/questions/506597/Книги и учебные ресурсы по языку R

    Лабораторная работа 2

    Стратегии работы с большими массивами данных

    1. Сгенерировать большой массив данных и записать в один файл [1]. Установить пакет purrr. Записать массив данных по частям в несколько файлов [2]. Сформировать репрезентативная выборку ограниченного размера.

    2. Выполнить загрузку данных с использованием различных стратегий [1]. Сделать выводы. Установить пакеты data.table, sqldf, ff.

    3. Установить и загрузить библиотеки sqldf и nycflights13.Ознакомиться со структурой набора данных flights. Вычислить количество наблюдений для всех перевозчиков carrier в таблице flights. Отобразить в консоли значения полейdep_time,dep_delay,arr_time, carrier, tailnum из таблицы flights (первые и последние 5 строк). Вычислить среднее время задержки прибытия (mean_arr_delay) и отправления (mean_dep_delay) для различных перевозчиков (carrier) [3].

    4. Сгенерировать data.frame с тремя столбцами и 100 строками. Преобразовать данные из широкого в длинный формат. Установить пакет reshape2 [4].

    Литература

    1. https://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as- dataframes/

    2. https://stackoverflow.com/questions/57047338/split-dataset-per-rows-into-smaller-files-in-r

    3. https://www.tutorialspoint.com/big data analytics/introduction to sql.htm

    4. Кабаков Р.И. R в действии. Анализ и визуализация данных на языке R (2014).

    Лабораторная работа 3
    Подготовка исходных данных


    1. Сгенерировать вектор (массив, таблица данных) и добавить в него элементы NA. Очистить данные с использованием функцииis.na() [1].

    2. Сгенерировать таблицу данных с числовыми и текстовые столбцами. Очистить данные с функции complete.cases() [1].

    1. Сгенерировать числовую таблицу данных с пропусками. С использованием функции preProcess из пакета caret заполнить пропуски предсказанными значениями (среднее, медиана) [2].

    2. Сгенерировать два числовых набора данных, добавить в них выбросы. С использованием функции boxplot обнаружить выбросы и удалить их [3, 4].

    3. Сгенерируйте таблицу данных, в которой дублируются строки. Удалите строки с использованием функций unique(), duplicated(). Сравните результаты [5].

    4. Обработать пропуски в данных с использованием пакета mice [6].

    5. Разобрать пример с мультиколлинеарностью [7].

    Литература

    1. http ://datascientist.one/removing-na-value s-r/

    2. https://r-analvtics.blogspot.com/2017/01/blog-post.html

    3. http://datascientist.one/delete-outliers-with-boxplot-r/

    4. https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/

    5. https://stackoverflow.com/questions/13967063/remove-duplicated-rows

    6. https://habr.com/ru/company/infopulse/blog/305692/

    7. https://datascienceplus.com/multicollinearitv-in-r/

    Лабораторная работа 4

    Обработка данных. Выбор признаков (Feature Selection)

    1. Установить пакет CARET, выполнить команду names(getModelInfo()), ознакомиться со списком доступных методов выбора признаков. Выполните графический разведочный анализ данных с использование функции featurePlot() для набора данных из справочного файла пакета CARET:

    x <- matrix(rnorm(50*5),ncol=5) y <- factor(rep(c("A", "B"), 25))

    Сохранить полученные графики в *.jpg файлы. Сделать выводы.

    1. С использование функций из пакета Fselector [2] определить важность признаков для решения задачи классификации. Использовать набор data(iris). Сделать выводы.

    2. Установите пакет Boruta и проведите выбор признаков для набора данных data("Ozone") [3, 4]. Построить график boxplot, сделать выводы.

    Литература

    1. https://topepo.github.io/caret/train-models-bv-tag.html#implicit-feature-selection

    2. https://miningthedetails.com/blog/r/fselector/

    3. https://www.istatsoft.org/article/view/v036i11/v36i11.pdf

    4. https://www.datacamp.com/communitv/tutorials/feature-selection-R-boruta

    5. https://habr.com/ru/post/264915/

    6. http://ai.stanford.edu/ronnyk/wrappersPrint.pdf



    Лабораторная работа 5

    Обработка данных. Выбор экземпляров (Instance Selection)

    1. Выполните классификацию k-ближайших соседей с использованием функции knn() из пакета class на наборе данных iris [1]. Проведите нормализацию данных, разделите выборку на обучающую и тестовую. Оцените построенную модель с использованием функции CrossTable() из пакета gmodels. Постройте матрицу ошибок [2] и диагональную оценку качества прогноза (diagonal mark quality prediction).

    2. Рассмотрите пример реализации метода опорных векторов с использованием функции svm() из пакета e1071. Постройте линейный классификатор для прогнозирования. Для подбора параметров модели выполните перекрестную проверку с делением исходной выборки на 10 равных частей (cross=10) [3, c.172].

    3. Выполните расчет главных компонент с использованием пакета vegan() и его функции rda(). Постройте ординационную диаграмму методом PCA [3, c. 49] и сделайте выводы.

    Литература

    1. https://en.proft.me/2017/01/22/dassification-using-k-nearest-neighbors-r/

    2. https://habr.com/ru/company/ods/blog/328372/

    3. Шитиков В.К., Мастицкий С.Э. (2017) Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 351 с. - Электронная книга, адрес доступа: https://github.com/ranalytics/data-mining

    4. Olvera-Lopez, Jose & Carrasco-Ochoa, Jesus & Martmez-Trinidad, Jose Francisco & Kittler, Josef. (2010). A review of instance selection methods. Artif. Intell. Rev. 34. 133-143. 10.1007/s 10462-010-9165-y. https://mafiadoc.com/a-review-of-instance-selection-methods-soft- computing-and-_5b054f698ead0ed4758b4586.html

    5. Top 10 algorithms in data mining http://www.cs.umd.edu/samir/498/10Algorithms-08.pdf

    Лабораторная работа 6

    Обработка данных. Дискретизация для классификации (Discretization)

    1. С использованием функции discretize() из пакета arules выполните преобразование непрерывной переменной в категориальную [1] различными методами: «interval» (равная ширина интервала), «frequency» (равная частота), «cluster» (кластеризация) и «fixed» (категории задают границы интервалов). Используйте набор данных iris. Сделайте выводы.

    2. С использованием пакета discretization выполните дискретизацию с использованием алгоритмов Chi2 и CAIM [2]. Используйте набор данных iris. Сравните результаты и сделайте выводы.

    Литература

    1. http://finzi.psych.upenn. edu/library/arule s/html/di s cretize. html

    2. https://cran.r-proiect.org/web/packages/discretization/index.html

    Лабораторная работа 7
    Организация распределённых вычислений


    1. Установите пакет sparklyr, установите Java Virtual Machine (JVM). Подключитесь к локальному Spark-кластеру. Загрузите таблицу flights из пакета nycflights13 в Spark- кластер [1]. Выполните запросы (задание 3, Лабораторная работа 2). Сравните результаты, сделайте выводы.

    2. Настройте для использования Hadoop [2-5], подсчитайте количество слов в файле *.txt c использованием HDFS [3]. Файл сгенерировать самостоятельно.

    3. Установите MongoDB [6, 7]. Подключите библиотеку mongolite. Выполните пример для набора iris c использование функции mongo() из видеоролика [7]. Сохраните код и сделайте выводы.

    Литература

    1. https://r-analvtics.blogspot.com/2020/02/spark-r-connect.html

    2. 4 Ways To Use R And Hadoop Together https://www.edureka.co/blog/4-ways-to-use-r- and-hadoop-together/

    3. http://www.rdatamining.com/big-data/r-hadoop-setup-guide

    4. https://github.com/ieffreybreen/hadoop-R

    5. Video: Using R with Hadoop https://www.r-bloggers.com/video-using-r-with-hadoop/

    6. https://data-flair.training/blogs/mongodb-tutorials-home/

    7. Connect to MongoDB Database in R https://www.voutube.com/watch?v=JBEKJflNV2g

    8. https://www.blue-granite.com/blog/using-hadoop-data-r-distributed-machine-learning

    9. https://data-flair.training/blogs/r-hadoop-integration/

    Лабораторная работа 8
    Практические задачи


    с использованием различных инструментов обработки больших данных

    Выберите два любых кейса [1]. Опишите входные данные, стек моделей и технологий, которые можно использовать для решения выбранных кейсов. Приведите иллюстративные примеры с использованием R. Сделайте выводы.

    Литература

    1. https://data-flair.training/blogs/big-data-case-studies/

    2. https://data-flair.training/blogs/big-data-use-cases-case-studies-hadoop-spark-flink/



    Практическая работа № 1. Поиск и определение Big Data.

    Требуется осуществить поиск источников информации в сети Интернет: откры-тые и закрытые источники данных. Рассмотреть портал открытых данных РФ. Определить можно ли классифицировать найденные данными как «Big Data». Сохранить данные. Написать отчет с выводами.

    Практическая работа № 2. Хранение больших данных

    Описать модель организации хранилища данных. Загрузить данные в RStudio. Организовать связь между загруженными таблицами с помощью SQL-запросов. Осуществить выгрузку информации для просмотра описательных статистик. Написать отчет с выводами.

    Практическая работа № 3. Аналитические платформы: классификация и особенности применения

    Организовать импорт данных из работы 2 из RStudio в пакет Statistica. Описать структуру полученных данных. Провести описательную статистику в пакете Statistica. Написать отчет с выводами.

    Практическая работа № 4. Прогнозирование с помощью линейной регрессии.

    Построить уравнение линейной регрессии по большим данным, загруженным в RStudio во 2 работе средствами языка программирования R. Написать отчет с выводами.
    Практическая работа № 5. Алгоритма кластеризации больших данных

    Провести кластерный анализ больших данных, загруженных в RStudio во 2 ра-боте. Применить метод k-средних и иерархическую классификацию. Выбрать оптимальный способ. Написать отчет с выводами.

    Практическая работа № 6. Поиск ассоциативных правил

    По показателям больших данных, загруженных в RStudio во 2 работе, осущест¬вить поиск ассоциативных правил. Написать отчет с выводами.

    Практическая работа № 7. Классификация с помощью нейросети.

    Методами нейросетевой классификации определить возможность разбиения больших данных на кластеры, выделенные в работе 5 по показателям, характе-ризующим другую сферу явления. Написать отчет с выводами.

    Практическая работа № 8. Классификация с помощью деревьев решений.

    К показателям больших данных, загруженных в RStudio во 2 работе, применить алгоритм «Дерево решений». Описать структуру дерева. Выявить основные факторы, влияющие на классификацию. Написать отчет с выводами.
    Основная литература

    1. Эконометрика: учебник для магистров / И.И. Елисеева и др.; под ред. И.И. Елисеевой. -М.: Издательство Юрайт, 2014. - 449 с.

    2. Статистический анализ и прогнозирование с использованием пакетов прикладных статистических программ: Учеб, пособие/ А.Е. Харитонова. М.: Изд-во РГАУ-МСХА, 2015.- 155 с.

    3. Образцова О.И. Статистика предприятий и бизнес-статистика [Текст] : учебное пособие для студентов высших учебных заведений по направле-нию подготовки "Экономика" / О.И. Образцова. - Москва : Высшая школа экономики, 2011.- 698с.

    Дополнительная литература

    1. Абдикеев, Н.М. Когнитивная бизнес-аналитика: учебное пособие / Н.М. Абдикеев, А.Н. Аверкин, Л.П. Дьяконова и др. - JVL: Инфра-М, 2014. - 509 С.

    2. Using Eviews for principles of Econometrics / W.E. Griffiths, R. C. Hill, G. C. Lim. - 4 th ed. -John Wiley&Sons,lnc, 2012. - 466 p.

    3. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R. - Электронная книга, адрес доступа: http://r- analvtics.b1ogspot.com (свободный доступ)

    4. «Введение в R» -https://m7876.wiki.zoho.comAntroduction-to-R.html (свободный доступ)

    8. Перечень ресурсов информационно-телекоммуникационной сети «Интернет», необходимых для освоения дисциплины (модуля)

    1. Bureau of Economic Analysis. URL: http://www.bea.gov (открытый доступ)

    2. Econometric Laboratory Software Archive. URL: http://elsa.berkeley.edu/ (от-крытый доступ)

    3. Econometric Software Links Econometrics Journal. URL: http://www.econ.vu.nl/econometriclinks/software.html (открытый доступ)

    4. NASS - National Agricultural Statistics Service. URL: www.nass.usda.gov (от-крытый доступ)

    5. STATISTICS. URL: http://www.oecd-

    ilibrary.org/statistics;jsessionid=3ddci6tti4o90.delta (открытый доступ)

    6. STATISTICS. URL: http://epp.eurostat.ec.europa.eu/portal/page/portal/ statis- tics/themes (открытый доступ)

    7. System of National Accounts 2008. URL: http://unstats.un.org/ unsd/nationalaccount/sna2008.asp (открытый доступ)

    8. Доклады о развитии человека. URL: http://www.un.org/ni/development/hdr/ (открытый доступ)

    9. Единый архив статистических и эконометрических данных ВШЭ. URL: http://sophist.hse.ru/db/oprosv.shtml?ts=2 (открытый доступ)

    10. Итоги Всероссийской сельскохозяйственной переписи 2006 года (в 9 томах). URL: http://www.gks.ru/news/perepis2006/totals-osn.htm (открытый доступ)

    11. Квантиль. Международный эконометрический журнал на русском языке. URL: http://www.quanti1e.ru/ (открытый доступ)

    12. Московская международная валютная биржа, http://www.micex.ru (откры-тый доступ)

    13.Основные обзоры и доклады ООН в экономической и социальной областях. URL: http://www.un,org/ш/development/surveys/ (открытый доступ)

    14.Официальный сайт Всемирного банка . URL: http:// www.worldbank.org

    (открытый доступ)

    15. Официальный сайт Международного валютного фонда. URL:

    http://www.imf.оrg (открытый доступ)

    16. Официальный сайт Международной организации труда. URL:

    http://www.ilo.org (открытый доступ)

    17. Официальный сайт Министерства финансов РФ. URL: http://www.minfin.gov.ru (открытый доступ)

    18.Официальный сайт Национального бюро статистики по рынку труда США. URL: http:// www.bls.gov (открытый доступ)

    19.Официальный сайт Национального бюро экономических исследований США. URL: http:// www.nber.org (открытый доступ)

    20.Официальный сайт Росстата. URL: http://www.gks.ru/ (открытый доступ)

    21.Официальный сайт Центрального Банка России. URL: (открытый дос- Tvn)http://www.cbr.m

    22. Препринты НИУ ВШЭ. http://www.hse.ru/org/hse/wp (открытый доступ)

    23. Росбизнесконсалтинг, http://www.rbk.ш (открытый доступ)

    24. Центр макроэкономического анализа и прогнозирования при ИНП РАН. http://www.forecast.ru (открытый доступ)

    2 5. Центральный экономико-математический институт (ЦЭМИ) РАН.

    http://www.cemi.rssi.ru (открытый доступ)

    26.Эконометрическое общество. URL:http://edirc,repec,org/data/essssea.html (от-крытый доступ)

    27.The R Project for Statistical Computing https://www.r-proiect.org/ (открытый доступ)


  • написать администратору сайта