Главная страница

Поручиков М.А. Анализ данных. А. поручиков


Скачать 2.76 Mb.
НазваниеА. поручиков
Дата25.10.2022
Размер2.76 Mb.
Формат файлаdocx
Имя файлаПоручиков М.А. Анализ данных.docx
ТипАнализ
#753011
страница5 из 20
1   2   3   4   5   6   7   8   9   ...   20





Источники данных


В настоящее время в открытом доступе есть большое количество баз данных, содержащих самые разнообразные сведения. Так, самым большим источником данных по разнообразным показателям стран мира в целом можно считать базу данных Всемирного банка [14], содержащую годовые значения 331 показателя стран мира за период с 1960 по 2014 годы в форматах HTML, XLS и XML.

По состоянию на 23 декабря 2015 года самым большим источником открытых данных по Российской Федерации является

«Портал открытых данных Российской Федерации» [15], содержащий более 4,1 тыс. наборов данных. Предполагается, что предоставление свободного доступа к отдельным данным может способствовать повышению качества государственного, регионального и муниципального управления. Принцип открытости получил отдельное название – «открытые данные» (Open Data). В Российской Федерации концепция открытых данных упоминается в Федеральном законе «Об информации, информационных технологиях и о защите информации» [16].

Также большой объем открытых статистических данных содержится в банке данных Федеральной службы государственной статистики [17].

Сбор данных


Сбор данных – процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки.

Как правило, оцифрованные данные бывают представлены в виде:

  • электронных таблиц в форматах XLS либо ODS;

  • текстовых файлов в формате CSV;

  • веб-страниц в формате HTML;

  • файлов в формате XML;

  • базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).

Автоматизированныйсборданных

В случаях, когда источники данных структурированы и представлены в сети Интернет, возможна реализация автоматизированного сбора данных. Программное обеспечение Microsoft Excel имеет специальное средство для сбора данных, в том числе из сети Интернет.

Рассмотрим пример реализации автоматизированного сбора данных на примере онлайн-табло аэропорта Домодедово (рис. 3).





Рис. 3. Фрагмент онлайн-табло вылета аэропорта Домодедово
Для получения данных необходимо выполнить следующие шаги:

  1. запустить программу MicrosoftExcel;

  2. перейти пункт главного меню «Данные»;

  3. выбрать пункт «Из Веба» в подменю «Получить внешние данные» (рис. 4);





Рис. 4. Импорт данных. Шаг 1


  1. в открывшемся окне «Создание веб-запроса»в поле «Адрес» набрать адрес интернет-страницы, содержащей искомые данные, и нажать кнопку «Пуск»;

  2. на открывшейся странице с помощью зеленого маркера выделить таблицу, содержащую искомые данные (рис. 5).



Рис. 5. Импорт данных. Шаг 2
В результате выполненных действий искомые данные будут импортированы на активный лист документа Excel (рис. 6).





Рис. 6. Результат импорта данных
Аналогичным образом может быть построена система сбора любых данных, представленных в сети Интернет.
Подготовка данных

Для использования в системах анализа данные должны быть представлены в определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности:

  • отличную от табличной форму представления;

  • пропуски отдельных данных;

  • некорректные значения;

  • большие числовые значения;

  • текстовые данные.

Перечисленные особенности могут либо привести к затруднениям в процессе дальнейшей обработки данных, либо сделать её невозможной.

Для устранения отмеченных несоответствий могут быть применены следующие операции:

  • структурирование – приведение данных к табличному (матричному) виду;

  • отбор – исключение записей с отсутствующими или некорректными значениями;

  • нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1;

  • кодирование это представление категориальных данных в числовой форме. Например, при бинарной классификации один из классов можно представить числом «0», а другой класс числом

«1». При множественной классификации система кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа «1» в соответствующем поле.

Рассмотрим пример подготовки данных. Пусть имеется выборка анкетных данных клиентов банка (табл. 3).
Таблица 3. Анкетные данные клиентов банка




Аge

Marital

Balance

Housing

1

47

married

1506

yes

2

33

single

1

no

3

35

married

high

yes

4

28

single

447

yes

5

42

divorced

2

yes

6

58




121

yes

7

43

single

593

yes


Для приведения этой выборки данных в «правильный» формат необходимо выполнить следующие операции:

    1. исключить записи №3 и №6 как имеющие отсутствующие или некорректные значения;

    2. нормализовать числовые значения в столбцах Ageи Balance;

    3. закодировать категориальные данные в столбцах Marital

и Housing.

После выполнения этих операций набор данных примет следующий вид (табл. 4).
Таблица 4. Обработанная выборка данных



Аge

Marital1

Marital2

Marital3

Balance

Housing

1

1,000

1

0

0

1,000

1

2

0,263

0

1

0

0,000

0

4

0,000

0

1

0

0,296

1

5

0,737

0

0

1

0,001

1

7

0,789

0

1

0

0,393

1



1   2   3   4   5   6   7   8   9   ...   20


написать администратору сайта