Главная страница

Тема 1. Введение в большие данные


Скачать 375.16 Kb.
НазваниеВведение в большие данные
Дата29.03.2022
Размер375.16 Kb.
Формат файлаpdf
Имя файлаТема 1.pdf
ТипЛекции
#425388

2
Тема 1. ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ
План лекции:
1.1 Большие данные: факторы формирования тренда
1.2 Современные концепции определения больших данных
1.3 Основные характеристики больших данных
1.4 Источники больших данных
1.1 Большие данные: факторы формирования тренда
В настоящее время наблюдается взрывной рост объема информации по самым разным сферам социально-экономической деятельности. Появление новых типов генерируемых данных, их доступность, развитие новых способов сбора, хранения и обработки огромного массива информации стали толчком в развитии такого явления как большие данные (англ. big data).
В разные периоды существования человечества люди сталкивались с проблемами хранения уже накопившейся информации. Первыми примерами получения и хранения информации могут служить наскальные надписи, надписи на костях и пр., которые древние люди совершали для того, чтобы вести какой-то примитивный учет, например, запасов еды. В качестве материала для письма применялись дерево, глина, пергамент и шелк.
Хранение должно было обеспечивать возможность быстро найти необходимую информацию. Так появились первые библиотеки (Вавилон,
2000е годы до н.э.), решались вопросы хранения достаточно большого объема информации и ее структурирования с возможностью дальнейшего использования.
С изобретением бумаги (Китай, ІІ век н.э.) и печатного станка (Европа, середина XV века н.э.) объем информации резко возрастал, появилась возможность анализировать данные и прогнозировать явления и процессы.
С ростом городов возникла необходимость систематического учета населения (стали проводиться переписи населения). Каждая последующая

3 перепись населения включала в себя расширенный перечень вопросов, объем собранных сведений возрастал. Соответственно множились вопросы их обработки и анализа. Например, перед переписью населения 1880 года американское бюро переписей сообщило, что используя весь современный инструментарий для работы с данными произвести необходимые подсчеты они смогут лишь за 8 лет. Расчеты при следующей переписи в 1890 году займут не меньше 10 лет, из-за увеличения численности населения и постоянной миграции. На момент проведения следующей переписи еще не полностью будут обработаны результаты прошлой переписи. Все это обесценивает полученную информацию и ставит всю деятельность бюро под сомнение.
В это же время инженер Герман Холлерит (Herman Hollerith) создает устройство (табулятор), которое, оперируя перфокартами, сократило
10-летний труд до 3 месяцев. Холлерит создал компанию TMC (Tabulating
Machine Company), специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R (Computing-Tabulating-Recording), которая в 1924 году была переименована в IBM.
1
Во время Второй мировой войны необходимость в быстром анализе данных послужила созданию ряда компьютеров, позволяющих дешифровать сообщения неприятеля. Машина Colossus, созданная в 1943 году британскими учеными, ускорила расшифровку сообщений с нескольких недель до нескольких часов. Существовавшие проблемы скорости обработки информации повлияли на развитие технологий.
С середины ХХ века начинается бурный рост технологий хранения информации, создаются центры обработки данных (дата-центры), стремительно развивается компьютерная индустрия. Растут требования к надежности и доступности цифровых ресурсов. Из отдельных комнат в глубине предприятия дата-центры переходят в отдельные здания со своей
1
https://eltime.ru/dic/79-persons/inventors/735-herman-hollerith

4 инфраструктурой – компьютерами (серверами), системами связи с интернет- провайдерами, системами пожаротушения и т.п.
2
Интернет и переход на центральные хранилища данных увеличили объем веб-контента и породили новую проблему поисковых запросов (для сравнения: в 1995 году в мире существовало 23 500 веб-сайтов, а уже через год – больше 250 000). Так началось создание поисковых систем, которые по заданному алгоритму проводили поиск нужных запросов.
3
Появление Интернета вещей (англ. IoT, Internet of things) приводит к возникновению множества новых источников данных (смартфоны, веб- камеры, сенсоры постоянно генерируют огромный поток информации).
Помимо этого изменился и тип собираемых данных – видео и фотографии, текстовые документы, аудиофайлы и т.п.
Все произошедшие изменения привели к возникновению такого явления как большие данные. Сам термин возник лишь на стыке тысячелетий и кроме подходов, которые были заложены в его основу, явил миру всю совокупность проблем, с которыми сталкивался человек с начала всей истории работы с информацией.
Основные факторы, повлиявшие на возникновение больших данных:

объём информации экспоненциально увеличивается;

с
2000х годов цифровые носители получают широкое распространение, тем самым давая всё большему количеству информации сохраняться и быть доступной уже в цифровом виде;

особый вклад в развитие цифровой эпохи внесли жёсткие диски.
Удешевление их производства – основной фактор формирования тренда больших данных;

распространение сенсоров – новые источники непрерывного поступления данных;
2
В 1944 году вышел труд Фремонта Райдер (Fremont Rider) – «The Scholar and the Future of the Research
Library», в котором обсуждался рост выпускаемых работ и проблемы вместительности библиотек.
3
https://www.computerra.ru/234239/istoriya-bolshih-dannyh-big-data-chast-1/.

5

увеличение пропускной способности сетей, развитие беспроводных сетей;

развитие и удешевление технологий хранения данных (облачные хранилища).
1.2 Современные концепции определения больших данных
Рождению термина «большие данные» (англ. Big Data) предшествует множество работ и исследований. Все взгляды на происхождение больших данных и их определение можно объединить в следующие направления:
- научный взгляд,
- инженерный взгляд,
- маркетинговый взгляд.
Научный подход. Впервые термин появился в академической среде, когда речь шла о большом количестве научных данных.
Еще в XVIII веке английский астроном Томас Симпсон обсуждал вопросы обработки данных в своем труде «О преимуществах использования чисел в астрономических наблюдениях». Уже многим позже (1997 год) исследователи NASA столкнулись с проблемой обработки данных на компьютерах, которые не справлялись с появившимся объемом информации.
4
Термин Big Data стал широко использоваться после того, как в 2008 году в одном известном британском журнале «Nature» вышла статья, в которой обсуждались вопросы возрастающего объема данных, появления технологий их обработки. Редактор журнала Клиффорд Линч предложил термин «большие данные» по аналогии с такими понятиями как большая нефть, большая руда и т.п., обозначавшими в основном не само количество чего-то, а переход этого количества в качество.
4
Л. Черняк

6
На популяризацию термина также повлиял отчет компании МакКинзи
2011 года «Большие данные: следующий рубеж для инноваций, конкуренции и производительности».
Большие данные и бизнес (маркетинговый подход). После того как в академической среде стали обсуждать большие данные, термин приобрел популярность и широкое распространение в бизнес-среде. Теперь разные проекты, вендоры, бизнес-специалисты и специалисты-практики в области больших данных используют этот термин совершенно по-разному, в зависимости от решаемых задач. И здесь понятие определено существующими технологиями и источниками данных.
Еще один важный момент, это время, в течение которого характеристики больших данных изменяются и, соответственно, инструменты и методы работы с ними также развиваются. То, что двадцать лет назад считалось огромными массивами данных, сегодня умещается на флеш накопителе.
Инженерный подход рассматривает большие данные как исходное сырье для IT-сферы, дополняя термин используемыми технологиями обработки и хранения информации.
Речь о «больших данных» начинается с информации объемом в десятки и сотни петабайт. Такой огромный массив информации требует специальных инструментов и методов обработки и анализа, а также соответствующих средств хранения (хранилищ данных). Учитывая все это во внимание, большие данные можно определить как совокупность:

больших массивов данных. В этом контексте «большие массивы данных» означают такой объем, который невозможно обработать и хранить с помощью традиционных инструментов или на одном компьютере.

категории вычислительных технологий для обработки, хранения и передачи больших наборов данных.

методов анализа структурированных и неструктурированных данных для решения конкретных социально-экономических задач.

7
1.3 Основные характеристики больших данных
В 2001 году Даг Лэйни (Doug Laney) сформулировал возможности и вызовы, которые открываются при возрастании объема данных, и представил модель 3V для описания характеристик, которые отличают обработку больших данных от процесса обработки данных других типов: volume (объем данных), velocity (скорость накопления и обработки данных), variety
(разнообразие типов обрабатываемых данных).
1. Объем данных (Volume). Суть подхода к вопросам увеличения объемов данных заложена в самом термине Big Data. Определить порог отличия обычных хранилищ данных от Big Data возможно лишь масштабом обрабатываемой информации. И тут нужно понимать, что большие данные это не набор статичных значений, а целая система методик и технологий получения, хранения и обработки информации. Т.е. работа с большими данными требует большого внимания на каждом этапе обработки и хранения.
При работе с такими объемами информации возникает проблема объединения, распределения и координации ресурсов из групп компьютеров.
Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, другими словами горизонтальное масштабирование всей системы становятся в этой области все более важными.
2. Скорость накопления и обработки (Velocity).
Постоянный рост данных требует обработки в режиме реального времени. Иначе в ряде ситуациях данные попросту теряют свою актуальность. Скорость обработки данных, как и хранилища, должна легко наращиваться при необходимости.
3. Разнообразие типов обрабатываемых данных (Variety)
Данные могут поступать из самых разных источников. Форматы и типы носителей могут значительно различаться. Т.е. данные могут быть разноформатными, полностью разрозненными, структурированными или частично структурированными. Так, распечатанные документы понятны и

8 способы их обработки тоже - перенести в электронный вид, сшить в одну папку, пронумеровать, но что делать с информацией, которая представлена в совершенно других “носителях” и разных объёмах (интернет-документы, блоги и социальные сети, аудио/видео источники, измерительные устройства).
Традиционные системы обработки данных предполагают работу с уже отформатированными данными. Одна из задач больших данных – получив на входе большой массив разнотипных данных, оперативно выстроить между ними связи и на выходе отдать данные, доступные для структурированного или полуструктурированного анализа.
Со временем специалисты и организации расширили первоначальные
«три V». В некотором смысле добавленные параметры описывают проблемы, связанные с большими данными:

Value (ценность данных): стоимость данных, т.е. оказались ли данные полезными или нет.

Veracity (достоверность данных): многообразие источников и сложность обработки могут привести к проблемам при оценке качества данных.

Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество.

Validity (срок полезного действия данных, до тех пор, пока они не потеряли своей ценности).
Помимо этих характеристик существует классификация больших данных:
1. По степени использования:
- data-актив – данные, с которыми предприятие ежедневно работает;

9
- dark-data – генерируются в ходе операционной деятельности предприятия, но не используются. Например, IP адреса, гео-локация пользователя, статистика открытия писем и перехода на сайт и т.п.
2. По способу получения информации:
- собственные (внутренние) – данные, генерируемые в ходе операционной деятельности предприятия (транзакционные, dark-дата);
- приобретенные (внешние) – данные от сторонних поставщиков, открытых источников.
3. В зависимости от формата данных:
- простые – порядковые, целочисленные, вещественные, строковые, заданные конкретным диапазоном (списки, таблицы, оформленные );
-
структурированные – данные, которые имеют заранее определенный формат.
- не структурированные – набор данных с разными координатами измерения (числа иногда записаны словами, иногда цифрами; видео, звку или изображения);
- полуструктурированные – данные, полученные из разных источников, определяющих их формат представления.
4. В зависимости от степени обработки: сырые (в исходном формате) и
производные (как результат расчета с использованием множества исходных данных, как правило, это относительные или средние величины).
Процесс работы с большими данными на разных предприятиях может различаться, но в стратегиях и программном обеспечении есть общие черты.
Жизненный цикл больших данных – это стадии процесса работы с данными, начиная с этапа создания до момента архивации или уничтожения данных
(рисунок 2).

10
Рисунок 2 – Жизненный цикл данных
1. Создание данных (Data Generation/Data Capture). Процесс добавления данных (разных по формату и качеству) в систему. Добавить большие данные в систему можно с помощью специальных инструментов и технологий. Обычно этот этап включает 3 типа получения данных:
- приобретение организацией данных, сгенерированных вне ее пределах;
- запись данных оператором или компьютером (такие данные имеют ценность для предприятия);
- регистрация сигналов различными устройствами (датчики, Интернет вещей).
2. Обслуживание данных (Data Maintenance). После приема данные переходят к компонентам, которые управляют хранилищем. На этом этапе происходит подготовительная обработка данных без получения полезной аналитической информации: перемещение, очистка, сортировка и маркировка данных. Такие процессы называют ETL (extract, transform, load), т.е. извлечение, преобразование и загрузка данных.
1.Создание данных (Data
Capture)
2.Обслуживание данных (Data
Maintenance)
3.Синтез данных (Data
Synthesis)
4.Использован ие данных
(Data Usage)
5.Публикация данных (Data
Publication)
6.Архивация данных (Data
Archival)
7.Уничтожение данных (Data
Purging)

11
3. Синтез
данных (Data Synthesis). Данный этап появился сравнительно недавно и подразумевает стадию, на которой с данными предварительно работают аналитики и эксперты в предметной области.
Компетенции экспертов позволяют строить наиболее адекватные модели и гипотезы.
4. Использование данных (Data Usage). Применение данных как полезной информации для конкретных задач предприятия.
- Вычисление и анализ данных. Как только данные будут доступны, система может начать обработку.
Пакетная обработка – это один из методов вычисления в больших наборах данных, который предполагает разбивку данных на более мелкие части и обработку каждой части на отдельной машине, перестановку данных на основе промежуточных результатов, а затем вычисление и сбор окончательного результата.
Обработка в режиме реального времени, когда информация должна обрабатываться немедленно, а система должна своевременно реагировать по мере поступления новой информации;
Визуализация данных (результатов) - один из наиболее полезных способов выявления тенденций и организации большого количества точек данных.
5. Публикация данных (Data Publication). Под публикацией данных в этом случае понимается отправка данных за пределы предприятия в виде:
- отчетов другим организациям, клиентам,
- публикация пресс-релизов в СМИ и т.п.
Перед публикацией данные (отчеты, информация для СМИ) должны быть тщательно выверены. После публикации данные не могут быть исправлены или отредактированы в случае обнаружения ошибок.
6. Архивация данных (Data Archival). После того, как данные были использованы (однократно, либо многократно) их жизненный цикл подходит к концу и наступает этап архивации. Архивация данных – перенос данных в

12 пассивную среду, где они хранятся на случай повторного использования в активной среде (при возникшей необходимости), и удаление данных из всех активных сред организации.
7. Уничтожение данных (Data Purge). Данный этап предполагает процедуру удаления данных, при которой не остается возможности восстановить информацию или собрать остаточную (например, информацию об исходном объеме данных). Считается одним из сложных этапов в управлении данными, т.к. очистку данных выполнить необходимо должным образом, идеально сделать это из архива.
1.4 Источники больших данных
Исследование больших данных в рамках организации можно начинать с изучения источников появления этих данных.
Информация об источниках больших данных является значимой на этапе сбора данных, она позволит настроить процесс загрузки данных и обеспечит извлечение нужных для конкретного предприятия (бизнес-задачи) данных. Здесь срабатывает правило Парето: до 80% времени необходимо потратить на этапе сбора и подготовки данных, остальные 20% времени останется для анализа.
Источники больших данных могут быть классифицированы по разным признакам.
а) С позиции хозяйствующей единицы (организации) источники больших данных бывают внутренние (генерируются на территории предприятия) и внешние (добываются из внешней среды предприятия).
Внутренние источники больших данных:
- электронный документооборот (электронная почта).
-
CRM-системы
(клиентская база, маркетинг), ERP-системы
(оптимизация расходов и ресурсов предприятия), в базах которых хранятся и

13 обрабатываются критически важные данные по деятельности предприятия.
- корпоративные архивы документов.
- Интернет (сайт организации, форумы, блоги и т.п.).
- идентификаторы и счетчики (датчики).
К внешним источникам больших данных относят:
- социальные сети.
- базы данных (специализированные data set).
- крупные организации (государственные органы, торговые палаты, институты, библиотеки, бюро, банки, биржи, информационные аналитические агентства и т.п.)
- Google/Yandex Аналитика.
- мобильные операторы.
б) По доступности источники больших данных могут быть открытые
(полностью или частично) и закрытые (предоставляются по запросу, как правило, платно).
в) В зависимости от сферы генерации данныхгенерируемые
человеком (социально-экономические) и генерируемые устройством
(технические).
г) По типу больших данных могут быть:
- текстовые источники данных (доклады, рекламные издания, справочники,
- изображения (наглядная реклама, постеры, фотографии),
- аудио/ видео источники (радио, ТВ, интернет). д) В зависимости от страны происхождения – и ностранные источники
(Googl, Yahoo!, AltaVista) и российские (Яндекс, Rambler, Mail.Ru).

14
Классификацию можно продолжать. Важно понимать, что различные источники имеют разную степень достоверности, или, например, разные данные по формату, что повлияет на технику загрузки информации и ее обработки. Т.е. источники больших данных определяют всю дальнейшую работу с информацией, поэтому для предприятия важно разработать правильную стратегию по созданию данных.
Контрольные вопросы по теме:
1. Дайте определение большим данным.
2. Какие факторы повлияли на возникновение больших данных?
3. C какими трудностями можно столкнуться на этапах сбора и обработки больших данных?
4. Перечислите этапы жизненного цикла больших данных.
5. Какие источники данных имеют наибольшую ценность для предприятия?


написать администратору сайта