Главная страница

Поручиков М.А. Анализ данных. А. поручиков


Скачать 2.76 Mb.
НазваниеА. поручиков
Дата25.10.2022
Размер2.76 Mb.
Формат файлаdocx
Имя файлаПоручиков М.А. Анализ данных.docx
ТипАнализ
#753011
страница4 из 20
1   2   3   4   5   6   7   8   9   ...   20

Построение системы анализа данных


Можно предложить следующий общий алгоритм построения системы анализа данных:

  1. Постановка задачи.

  2. Определение источников данных.

  3. Выбор метода и алгоритма обработки данных. 4 Выбор аппаратной платформы.

5 Выбор или разработка программного обеспечения. 6 Верификация построенной системы.

Отметим, что шаги 3 - 5 тесно связаны друг с другом: например, изменение аппаратной платформы может повлечь необходимость повторной разработки программного обеспечения.

Вопросы для самоконтроля


1 Дайте определение понятия «анализ данных». 2 Перечислите основные задачи анализа данных.

Приведите примеры применения методов анализа данных.

  1. Приведите пример актуального направления в области анализа данных.

  2. Приведите алгоритм построения системы анализа данных.

Практические задания


  1. Найдите в сети Интернет два сайта, на которых используются системы прогнозирования.

  2. Найдите в сети Интернет два сайта, на которых используются рекомендательные системы.

  3. Пользуясь системой SCOPUS, проанализируйте динамику количества публикаций за пять лет по направлениям Deep Learning, Big Data, Recommender Systems, Social Network Analysis.

  4. Пользуясь системой SCOPUS, найдите пять публикаций с наибольшей цитируемостью публикаций за последние десять лет по направлениям Deep Learning, Big Data, Recommender Systems, Social Network Analysis.

  5. Пользуясь системами SCOPUS, Web of Science, E-library (РИНЦ), выявите нескольких ведущих ученых в сфере анализа данных.


СБОР И ПОДГОТОВКА ДАННЫХ

Общие сведения


Анализ данных включает три основных этапа (рис. 2).





Сбор данных

Подготовка данных

Обработка данных


Рис. 2. Этапы анализа данных
Данные по виду можно подразделить на числовые и категориальные.

Числовые данные (Numerical Data) это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами. Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха.

Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе. Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека.

В фрагменте набора данных по маркетинговой кампании в банке [13] поля Age и Balance являются числовыми, а поля Job, Marital, Education и Housing – категориальными (табл. 2).
Таблица 2. Анкетные данные клиентов банка


Аge

Job

Marital

Education

Balance

Housing

58

management

married

tertiary

2143

yes

44

technician

single

secondary

29

yes

33

entrepreneur

married

secondary

2

yes

47

blue-collar

married

unknown

1506

yes

33

unknown

single

unknown

1

no

35

management

married

tertiary

231

yes

28

management

single

tertiary

447

yes

42

entrepreneur

divorced

tertiary

2

yes

58

retired

married

primary

121

yes

43

technician

single

secondary

593

yes
1   2   3   4   5   6   7   8   9   ...   20


написать администратору сайта