Поручиков М.А. Анализ данных. А. поручиков
Скачать 2.76 Mb.
|
Источники данныхВ настоящее время в открытом доступе есть большое количество баз данных, содержащих самые разнообразные сведения. Так, самым большим источником данных по разнообразным показателям стран мира в целом можно считать базу данных Всемирного банка [14], содержащую годовые значения 331 показателя стран мира за период с 1960 по 2014 годы в форматах HTML, XLS и XML. По состоянию на 23 декабря 2015 года самым большим источником открытых данных по Российской Федерации является «Портал открытых данных Российской Федерации» [15], содержащий более 4,1 тыс. наборов данных. Предполагается, что предоставление свободного доступа к отдельным данным может способствовать повышению качества государственного, регионального и муниципального управления. Принцип открытости получил отдельное название – «открытые данные» (Open Data). В Российской Федерации концепция открытых данных упоминается в Федеральном законе «Об информации, информационных технологиях и о защите информации» [16]. Также большой объем открытых статистических данных содержится в банке данных Федеральной службы государственной статистики [17]. Сбор данныхСбор данных – процесс формирования структурированного набора данных в цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки. Как правило, оцифрованные данные бывают представлены в виде: электронных таблиц в форматах XLS либо ODS; текстовых файлов в формате CSV; веб-страниц в формате HTML; файлов в формате XML; базы данных с доступом по технологии JSON либо через специализированный интерфейс (API). Автоматизированныйсборданных В случаях, когда источники данных структурированы и представлены в сети Интернет, возможна реализация автоматизированного сбора данных. Программное обеспечение Microsoft Excel имеет специальное средство для сбора данных, в том числе из сети Интернет. Рассмотрим пример реализации автоматизированного сбора данных на примере онлайн-табло аэропорта Домодедово (рис. 3). Рис. 3. Фрагмент онлайн-табло вылета аэропорта Домодедово Для получения данных необходимо выполнить следующие шаги: запустить программу MicrosoftExcel; перейти пункт главного меню «Данные»; выбрать пункт «Из Веба» в подменю «Получить внешние данные» (рис. 4); Рис. 4. Импорт данных. Шаг 1 в открывшемся окне «Создание веб-запроса»в поле «Адрес» набрать адрес интернет-страницы, содержащей искомые данные, и нажать кнопку «Пуск»; на открывшейся странице с помощью зеленого маркера выделить таблицу, содержащую искомые данные (рис. 5). Рис. 5. Импорт данных. Шаг 2 В результате выполненных действий искомые данные будут импортированы на активный лист документа Excel (рис. 6). Рис. 6. Результат импорта данных Аналогичным образом может быть построена система сбора любых данных, представленных в сети Интернет. Подготовка данных Для использования в системах анализа данные должны быть представлены в определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности: отличную от табличной форму представления; пропуски отдельных данных; некорректные значения; большие числовые значения; текстовые данные. Перечисленные особенности могут либо привести к затруднениям в процессе дальнейшей обработки данных, либо сделать её невозможной. Для устранения отмеченных несоответствий могут быть применены следующие операции: структурирование – приведение данных к табличному (матричному) виду; отбор – исключение записей с отсутствующими или некорректными значениями; нормализация – приведение числовых значений к определенному диапазону, например к диапазону 0...1; кодирование – это представление категориальных данных в числовой форме. Например, при бинарной классификации один из классов можно представить числом «0», а другой класс – числом «1». При множественной классификации система кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа «1» в соответствующем поле. Рассмотрим пример подготовки данных. Пусть имеется выборка анкетных данных клиентов банка (табл. 3). Таблица 3. Анкетные данные клиентов банка
Для приведения этой выборки данных в «правильный» формат необходимо выполнить следующие операции: исключить записи №3 и №6 как имеющие отсутствующие или некорректные значения; нормализовать числовые значения в столбцах Ageи Balance; закодировать категориальные данные в столбцах Marital и Housing. После выполнения этих операций набор данных примет следующий вид (табл. 4). Таблица 4. Обработанная выборка данных
|