Главная страница
Навигация по странице:

  • Поручиков, Михаил Алексеевич

  • ОСНОВЫ АНАЛИЗА ДАННЫХ Роль анализа данных в современном мире

  • Научные исследования

  • Программное обеспечение

  • Построение системы анализа данных

  • Вопросы для самоконтроля

  • Практические задания

  • СБОР И ПОДГОТОВКА ДАННЫХ Общие сведения

  • Источники данных

  • Сбор данных

  • Поручиков М.А. Анализ данных. М. А. Поручиков


    Скачать 1.28 Mb.
    НазваниеМ. А. Поручиков
    Дата25.02.2021
    Размер1.28 Mb.
    Формат файлаpdf
    Имя файлаПоручиков М.А. Анализ данных.pdf
    ТипАнализ
    #179239
    страница1 из 5
      1   2   3   4   5

    МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
    ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ
    ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
    «САМАРСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ
    УНИВЕРСИТЕТ имени академика С.П. КОРОЛЕВА»
    (Самарский университет)
    М. А. ПОРУЧИКОВ
    АНАЛИЗ ДАННЫХ
    Рекомендовано редакционно-издательским советом федерального государственного автономного образовательного учреждения высшего образования
    «Самарский национальный исследовательский университет имени академика С.П. Королева» в качестве учебного пособия для студентов, обучающихся по программе высшего образования по направлению подготовки 38.03.05 Бизнес-информатика
    САМАРА
    Издательство Самарского университета
    2016

    УДК 33(075)
    ББК 65.050я7
    П 602
    Рецензенты: д-р экон. наук, проф. Д. Ю. И в а н о в, д-р техн. наук, проф. Н. Н. В а с и н
    Поручиков, Михаил Алексеевич
    П 602 Анализ данных: учеб. пособие / М.А. Поручиков. – Самара:
    Изд-во Самарского университета, 2016. – 88 с.
    ISBN 978-5-7883-1085-5
    Приведены общие сведения о месте и роли анализа данных в современной системе знаний.
    Рассмотрены основы регрессионного анализа, классификации, кластерного анализа, быстродействия систем анализа данных. Приведены вопросы для самоконтроля, задачи для самостоятельного решения.
    Представлены указания по выполнению лабораторных работ.
    Пособие предназначено для студентов, изучающих дисциплину
    «Анализ данных» по направлению подготовки 38.03.05 Бизнес- информатика.
    Разработано на кафедре математических методов в экономике.
    УДК 33(075)
    ББК 65.050я7
    ISBN 978-5-7883-1085-5
    © Самарский университет, 2016

    3
    ОГЛАВЛЕНИЕ
    ВВЕДЕНИЕ .......................................................................................................................... 4
    ОСНОВЫ АНАЛИЗА ДАННЫХ ........................................................................................ 5
    Р
    ОЛЬ АНАЛИЗА ДАННЫХ В СОВРЕМЕННОМ МИРЕ
    ................................................................ 5
    Н
    АУЧНЫЕ ИССЛЕДОВАНИЯ
    ................................................................................................ 6
    П
    РОГРАММНОЕ ОБЕСПЕЧЕНИЕ
    ........................................................................................... 7
    П
    ОСТРОЕНИЕ СИСТЕМЫ АНАЛИЗА ДАННЫХ
    ....................................................................... 7
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ......................................................................................... 7
    П
    РАКТИЧЕСКИЕ ЗАДАНИЯ
    .................................................................................................. 8
    СБОР И ПОДГОТОВКА ДАННЫХ ................................................................................... 9
    О
    БЩИЕ СВЕДЕНИЯ
    .............................................................................................................. 9
    И
    СТОЧНИКИ ДАННЫХ
    ...................................................................................................... 10
    С
    БОР ДАННЫХ
    .................................................................................................................. 10
    П
    ОДГОТОВКА ДАННЫХ
    ..................................................................................................... 13
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ....................................................................................... 14
    Л
    АБОРАТОРНАЯ РАБОТА
    «С
    БОР И ПОДГОТОВКА ДАННЫХ
    »............................................... 15
    РЕГРЕССИОННЫЙ АНАЛИЗ .......................................................................................... 20
    О
    БЩИЕ СВЕДЕНИЯ
    ............................................................................................................ 20
    А
    НАЛИТИЧЕСКОЕ РЕШЕНИЕ
    ............................................................................................. 22
    Ч
    ИСЛЕННОЕ РЕШЕНИЕ
    ...................................................................................................... 24
    В
    ЫБОР ФУНКЦИИ ГИПОТЕЗЫ
    ............................................................................................ 27
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ....................................................................................... 32
    Л
    АБОРАТОРНАЯ РАБОТА
    «Р
    ЕГРЕССИОННЫЙ АНАЛИЗ
    » ..................................................... 33
    КЛАССИФИКАЦИЯ ДАННЫХ ....................................................................................... 37
    О
    БЩИЕ СВЕДЕНИЯ
    ............................................................................................................ 37
    Б
    ИНАРНАЯ КЛАССИФИКАЦИЯ
    ........................................................................................... 38
    К
    АЧЕСТВО КЛАССИФИКАЦИИ
    ........................................................................................... 42
    М
    НОЖЕСТВЕННАЯ КЛАССИФИКАЦИЯ
    ............................................................................... 44
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ....................................................................................... 54
    Л
    АБОРАТОРНАЯ РАБОТА
    «Б
    ИНАРНАЯ КЛАССИФИКАЦИЯ
    » ................................................ 55
    Л
    АБОРАТОРНАЯ РАБОТА
    «М
    НОЖЕСТВЕННАЯ КЛАССИФИКАЦИЯ
    » .................................... 57
    КЛАСТЕРНЫЙ АНАЛИЗ ................................................................................................. 61
    О
    БЩИЕ СВЕДЕНИЯ
    ............................................................................................................ 61
    М
    ЕТОД К
    -
    СРЕДНИХ
    .......................................................................................................... 61
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ....................................................................................... 69
    Л
    АБОРАТОРНАЯ РАБОТА
    «К
    ЛАСТЕРНЫЙ АНАЛИЗ
    » ........................................................... 70
    БЫСТРОДЕЙСТВИЕ СИСТЕМ АНАЛИЗА ДАННЫХ ................................................. 75
    О
    БЩИЕ СВЕДЕНИЯ
    ............................................................................................................ 75
    В
    ЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ
    ....................................................................................... 75
    В
    ОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
    ....................................................................................... 78
    З
    АДАЧИ
    ............................................................................................................................ 79
    Л
    АБОРАТОРНАЯ РАБОТА
    «Б
    ЫСТРОДЕЙСТВИЕ СИСТЕМ АНАЛИЗА ДАННЫХ
    » ..................... 80
    ЗАКЛЮЧЕНИЕ .................................................................................................................. 84
    БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................................................... 85

    4
    ВВЕДЕНИЕ
    Данное учебное пособие предназначено для студентов, обучающихся по программе высшего образования по направлению
    38.03.05 «Бизнес-информатика» и направлено на формирование следующих компетенций согласно соответствующему федеральному государственному образовательному стандарту [1]:
    - способность к самоорганизации и самообразованию;
    - способность работать с компьютером как средством управления информацией, работать с информацией из различных источников, в том числе в глобальных компьютерных сетях;
    - способность использовать основные методы естественно- научных дисциплин в профессиональной деятельности для теоретического и экспериментального исследования;
    - способность использовать соответствующий математический аппарат и инструментальные средства для обработки, анализа и систематизации информации по теме исследования;
    - умение готовить научно-технические отчеты, презентации, научные публикации по результатам выполненных исследований.
    Для успешного освоения материала, представленного в учебном пособии, необходимо владение основами линейной алгебры и математического анализа, а также базовыми навыками работы с электронными таблицами Microsoft Excel и оформления документов в текстовом редакторе (например, Microsoft Word или OpenOffice
    Write).
    Пособие построено по модульному принципу. Каждый модуль включает теоретический материал, вопросы для самоконтроля и задания для самостоятельного решения, лабораторные работы.
    Выполнение лабораторных работ предполагается с помощью специализированного программного обеспечения, размещенного в курсе «Анализ данных» системы дистанционного обучения (СДО)
    Самарского университета [2].

    5
    ОСНОВЫ АНАЛИЗА ДАННЫХ
    Роль анализа данных в современном мире
    Современный этап развития человечества характеризуется экспоненциальным ростом количества накопленной информации.
    Согласно исследованию [3], к 2007 году человечество имело возможность хранения информации объемом 2.9·10 20
    байт. Большой объем данных порождают научные эксперименты. Так, в апреле 2016 года в открытый доступ поступили 300 Тбайт экспериментальных данных, полученных на большом адронном коллайдере [4].
    Функционирование многих технических систем также сопровождается сбором большого количества данных. Например, самолет Боинг-787 генерирует около 500 Гбайт данных за один полет [5]. Однако для выделения из накопленных данных полезной информации требуется определенная обработка этих данных.
    Также существует тенденция к переложению функции принятия решений – изначально функции человека – на так называемые экспертные системы
    (специализированные информационные системы). Экспертные системы позволяют повысить скорость и точность принятия решений. Как правило, функционирование экспертных систем связано с анализом большого объема данных (рис.
    1).
    Рис. 1. Процесс управления
    В целом анализ данных можно определить как процесс поиска скрытых закономерностей и генерации новых знаний. К основным задачам анализа данных можно отнести прогнозирование, классификацию, поиск схожих черт, выдачу рекомендаций, выявление отклонений. Анализ данных – междисциплинарная область знаний, находящаяся на стыке математики, теории алгоритмов и информационных технологий.
    В англоязычных источниках для обозначения сферы анализа данных используется термины Data Mining и Machine Learning
    Анализ ситуации
    Принятие решения
    Исполнение решения

    6
    (машинное обучение). Согласно энциклопедии Британника, машинное обучение является дисциплиной направления «искусственный интеллект» (Artificial Intelligence), в свою очередь принадлежащего к области компьютерных наук (Computer Science) [6].
    Необходимость анализа больших объемов накопленных данных привела к созданию специализированных подразделений во многих компаниях. Некоторые компании, например Яндекс, реализуют собственные образовательные проекты в этой области [7].
    Научные исследования
    В сфере анализа данных ведутся активные научные исследования.
    Анализ публикаций, индексированных в реферативной базе данных
    SCOPUS
    , показывает устойчивый рост количества научных работ
    (
    табл. 1).
    Таблица 1. Количество публикаций в базе SCOPUS
    Ключевые слова
    Периоды
    1991-1995 1996-2000 2001-2005 2006-2010 2011-2015
    Data
    Analysis
    221072 333879 536742 906164 1008666
    Machine
    Learning
    1889 2958 9301 26388 43548
    Expert
    System
    13073 14372 19861 34466 41352
    Data Mining
    1376 4662 18185 42347 59646
    Big Data
    1321 2554 5110 10544 28220
    Deep
    Learning
    263 596 1221 3377 7410
    В последнее время особый интерес в сфере анализа данных вызывают такие направления исследований, как «большие данные»
    (Big Data) и «глубокое обучение» (Deep Learning).
    Передовые разработки в сфере искусственного интеллекта поражают воображение. В 1997 году компьютер DeepBlue впервые выиграл матч из шести партий у чемпиона мира по шахматам [8].
    В рамках проекта DeepQA разрабатывается система искусственного интеллекта, позволяющая воспринимать вопросы на естественных языках [9]. Ведется разработка беспилотных автомобилей, ядром системы управления которых является система искусственного

    7 интеллекта. Лидером в этой области можно считать компанию Google с проектом Google Self-Driving Car Project [10].
    Программное обеспечение
    В основе систем анализа данных лежит программное обеспечение.
    При проектировании систем анализа данных могут быть использованы следующие подходы:
    - использование «коробочного» программного обеспечения общего назначения (например Microsoft Excel);
    - использование программного обеспечения, ориентированного на математические задачи (например Matlab, Octave, R);
    - разработка специализированного программного обеспечения с использованием готовых библиотек, включающих наборы специальных функций обработки данных.
    При разработке специализированного ПО рекомендуется использовать готовые библиотеки функций обработки данных. Так, для нейросетевого анализа можно применить библиотеку FANN, имеющую версии для языков программирования С#, С++, Java,
    Python, R, Matlab [11]
    , а для решения задач обработки изображений – библиотеку OpenCV, имеющую версии для языков Python, Java, Ruby,
    Matlab и др. [12].
    Построение системы анализа данных
    Можно предложить следующий общий алгоритм построения системы анализа данных:
    1
    Постановка задачи.
    2 Определение источников данных.
    3 Выбор метода и алгоритма обработки данных.
    4 Выбор аппаратной платформы.
    5
    Выбор или разработка программного обеспечения.
    6
    Верификация построенной системы.
    Отметим, что шаги 3 - 5 тесно связаны друг с другом: например, изменение аппаратной платформы может повлечь необходимость повторной разработки программного обеспечения.
    Вопросы для самоконтроля
    1
    Дайте определение понятия «анализ данных».
    2
    Перечислите основные задачи анализа данных.

    8 3
    Приведите примеры применения методов анализа данных.
    4
    Приведите пример актуального направления в области анализа данных.
    5
    Приведите алгоритм построения системы анализа данных.
    Практические задания
    1
    Найдите в сети Интернет два сайта, на которых используются системы прогнозирования.
    2
    Найдите в сети Интернет два сайта, на которых используются рекомендательные системы.
    3
    Пользуясь системой SCOPUS, проанализируйте динамику количества публикаций за пять лет по направлениям Deep Learning,
    Big Data, Recommender Systems, Social Network Analysis.
    4
    Пользуясь системой SCOPUS, найдите пять публикаций с наибольшей цитируемостью публикаций за последние десять лет по направлениям Deep Learning, Big Data, Recommender Systems,
    Social Network Analysis.
    5
    Пользуясь системами SCOPUS, Web of Science, E-library (РИНЦ), выявите нескольких ведущих ученых в сфере анализа данных.

    9
    СБОР И ПОДГОТОВКА ДАННЫХ
    Общие сведения
    Анализ данных включает три основных этапа (рис. 2).
    Рис. 2. Этапы анализа данных
    Данные по виду можно подразделить на числовые и категориальные.
    Числовые данные (Numerical Data) – это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами.
    Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха.
    Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе.
    Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека.
    В фрагменте набора данных по маркетинговой кампании в банке [13] поля Age и Balance являются числовыми, а поля Job,
    Marital, Education и Housing – категориальными (табл. 2).
    Таблица 2. Анкетные данные клиентов банка
    Аge
    Job
    Marital
    Education
    Balance
    Housing
    58 management married tertiary
    2143 yes
    44 technician single secondary
    29 yes
    33 entrepreneur married secondary
    2 yes
    47 blue-collar married unknown
    1506 yes
    33 unknown single unknown
    1 no
    35 management married tertiary
    231 yes
    28 management single tertiary
    447 yes
    42 entrepreneur divorced tertiary
    2 yes
    58 retired married primary
    121 yes
    43 technician single secondary
    593 yes
    Сбор данных
    Подготовка данных
    Обработка данных

    10
    Источники данных
    В настоящее время в открытом доступе есть большое количество баз данных, содержащих самые разнообразные сведения. Так, самым большим источником данных по разнообразным показателям стран мира в целом можно считать базу данных Всемирного банка [14], содержащую годовые значения 331 показателя стран мира за период с 1960 по 2014 годы в форматах HTML, XLS и XML.
    По состоянию на 23 декабря 2015 года самым большим источником открытых данных по Российской Федерации является
    «Портал открытых данных Российской Федерации» [15], содержащий более 4,1 тыс. наборов данных. Предполагается, что предоставление свободного доступа к отдельным данным может способствовать повышению качества государственного, регионального и муниципального управления. Принцип открытости получил отдельное название – «открытые данные» (Open Data). В Российской
    Федерации концепция открытых данных упоминается в Федеральном законе «Об информации, информационных технологиях и о защите информации» [16].
    Также большой объем открытых статистических данных содержится в банке данных Федеральной службы государственной статистики [17].
    Сбор данных
    Сбор данных – процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки.
    Как правило, оцифрованные данные бывают представлены в виде:
    - электронных таблиц в форматах XLS либо ODS;
    - текстовых файлов в формате CSV;
    - веб-страниц в формате HTML;
    - файлов в формате XML;
    - базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).
    Автоматизированный сбор данных
    В случаях, когда источники данных структурированы и представлены в сети
    Интернет, возможна реализация

    11 автоматизированного сбора данных. Программное обеспечение
    Microsoft Excel имеет специальное средство для сбора данных, в том числе из сети Интернет.
    Рассмотрим пример реализации автоматизированного сбора данных на примере онлайн-табло аэропорта Домодедово (рис. 3).
    Рис. 3. Фрагмент онлайн-табло вылета аэропорта Домодедово
    Для получения данных необходимо выполнить следующие шаги:
    1) запустить программу Microsoft Excel;
    2) перейти пункт главного меню «Данные»;
    3) выбрать пункт «Из Веба» в подменю «Получить внешние данные» (рис. 4);
    Рис. 4. Импорт данных. Шаг 1 4) в открывшемся окне «Создание веб-запроса»в поле «Адрес» набрать адрес интернет-страницы, содержащей искомые данные, и нажать кнопку «Пуск»;
    5) на открывшейся странице с помощью зеленого маркера выделить таблицу, содержащую искомые данные (рис. 5).

    12
    Рис. 5. Импорт данных. Шаг 2
    В результате выполненных действий искомые данные будут импортированы на активный лист документа Excel (рис. 6).
    Рис. 6. Результат импорта данных
    Аналогичным образом может быть построена система сбора любых данных, представленных в сети Интернет.

    13
      1   2   3   4   5


    написать администратору сайта