Главная страница
Навигация по странице:

  • Применение больших данных (видео обзор) (20 минут). Ознакомительная часть.

  • Определение больших данных. Основные НПА в этой области.

  • ФЗ-149 "Об информации, информационных технологиях и о защите информации"

  • Федеральный закон от 27.07.2006 N 152-ФЗ "О персональных данных"

  • Большие данные (big data)

  • Обработка данных (data processing)

  • Данные (data)

  • Массив данных (data set, dataset)

  • А.4 Кластерные вычисления

  • А.7 Требования по защите конфиденциальности

  • А.9 Параллельные вычисления

  • А.11 Языки программирования

  • ПЕРСПЕКТИВНАЯ ПРОГРАММА СТАНДАРТИЗАЦИИ по приоритетному направлению «Искусственный интеллект» на период 2021-2024 годы.

  • История развития больших данных

  • Введение в обработку больших данных. Семинар 0. Теоретические основы больших данных


    Скачать 46.73 Kb.
    НазваниеТеоретические основы больших данных
    АнкорВведение в обработку больших данных
    Дата16.03.2023
    Размер46.73 Kb.
    Формат файлаdocx
    Имя файлаСеминар 0.docx
    ТипСеминар
    #995054

    Семинар

    Тема: Теоретические основы больших данных

    Учебные вопросы:

    1. Ознакомительная часть (20 минут).

    2. Определение больших данных. Основные НПА в этой области (25 минут).

    3. История развития больших данных (25 минут).

    4. Применение больших данных (видео обзор) (20 минут).



    1. Ознакомительная часть.

    Представиться. Рассказать о предмете. Собрать информацию об учащихся.

    1. Определение больших данных. Основные НПА в этой области.

    Большие данные – комплексный набор методов, подходов и инструментов обработки структурированных и неструктурированных данных колоссальных объемов. Главной целью обработки Big Data является быстрое и эффективное использование всех видов информации в условиях непрерывного изменения и прироста в больших объёмах. Говоря простым языком, Big data представляет собой безмерный объем информации, который не может быть обработан стандартными инструментами и аппаратными средствами. Основными задачами Big Data являются хранение и обработка информации гигантских объёмов данных. Большие данные по сравнению с обычными данными требуют иной подход к обработке. При обработке Big data используются собственные инструменты и технологии, которые предназначены для данных со сверхбольшим объёмом информации.

    В Кэмбриджском словаре приводятся следующие определения данных: данные – это информация, особенно факты и числа, собранные для последующего использования при принятии решений. Данные – это информация в электронной форме, пригодная для хранения и использования компьютером.

    На сегодняшний день также довольно широко распространена формулировка, заключающаяся в том, что данные являются нефтью цифровой экономики.

    Философский подход: исходно понятие данных – философское, оно возникает в эпистемологии при рассмотрении основой проблемы гносеологии – познаваемости мира, поиска и осмысления истины. Процедуры верификации или фальсификации данных создают информацию, осмысление истины создает знание. Философия рассматривает преобразование сведений в данные, данных в информацию, а информации – в знания. Истинность сведений субъективна. Сведения, выраженные в формальном представлении, являются данными. Обработка данных позволяет определить сколько в них содержится информации. При осмыслении информации экспертом создаются знания.

    В Конституции РФ следующие статьи регламентируют действия с информацией:

    ● часть 1 статьи 24 запрещает сбор, хранение, использование и распространение информации о частной жизни лица без его согласия;

    ● часть 4 статьи 29 предоставляет каждому право свободно искать, получать, передавать, производить и распространять информацию любым законным способом;

    ● статья 42 предоставляет каждому право на достоверную информацию об окружающей среде.

    При этом, согласно статье 71 конституции в ведении РФ находится “ и) федеральные энергетические системы, ядерная энергетика, расщепляющиеся материалы; федеральные транспорт, пути сообщения, информация, информационные технологии и связь; космическая деятельность”.

    На основе Конституции разрабатываются федеральные законы.

    В РФ принят ФЗ-149 "Об информации, информационных технологиях и о защите информации". Он регулирует отношения возникающие при осуществлении права часть 4 статьи 29 Конституции РФ, при применении информационных технологий и обеспечении защиты информации.

    В статье 3 ФЗ-149 дается определение информации как таковой, а также связанные с информацией объекты и действия.

    1) информация – сведения (сообщения, данные) независимо от формы их представления;

    2) информационные технологии – процессы, методы поиска, сбора, хранения, обработки, предоставления, распространения информации и способы осуществления таких процессов и методов;

    3) информационная система – совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств;

    4) информационно-телекоммуникационная сеть – технологическая система, предназначенная для передачи по линиям связи информации, доступ к которой осуществляется с использованием средств вычислительной техники;

    5) обладатель информации – лицо, самостоятельно создавшее информацию либо получившее на основании закона или договора право разрешать или ограничивать доступ к информации, определяемой по каким-либо признакам;

    6) доступ к информации – возможность получения информации и ее использования;

    7) конфиденциальность информации – обязательное для выполнения лицом, получившим доступ к определенной информации, требование не передавать такую информацию третьим лицам без согласия ее обладателя;

    8) предоставление информации – действия, направленные на получение информации определенным кругом лиц или передачу информации определенному кругу лиц;

    9) распространение информации – действия, направленные на получение информации неопределенным кругом лиц или передачу информации неопределенному кругу лиц;

    10) электронное сообщение – информация, переданная или полученная пользователем информационно-телекоммуникационной сети;

    11) документированная информация – зафиксированная на материальном носителе путем документирования информация с реквизитами, позволяющими определить такую информацию или в установленных законодательством Российской Федерации случаях ее материальный носитель;

    11.1) электронный документ – документированная информация, представленная в электронной форме, то есть в виде, пригодном для восприятия человеком с использованием электронных вычислительных машин, а также для передачи по информационно-телекоммуникационным сетям или обработки в информационных системах;

    12) оператор информационной системы – гражданин или юридическое лицо, осуществляющие деятельность по эксплуатации информационной системы, в том числе по обработке информации, содержащейся в ее базах данных;

    13) сайт в сети "Интернет" – совокупность программ для электронных вычислительных машин и иной информации, содержащейся в информационной системе, доступ к которой обеспечивается посредством информационно-телекоммуникационной сети "Интернет" (далее – сеть "Интернет") по доменным именам и (или) по сетевым адресам, позволяющим идентифицировать сайты в сети "Интернет";

    14) страница сайта в сети "Интернет" (далее также – интернет-страница) – часть сайта в сети "Интернет", доступ к которой осуществляется по указателю, состоящему из доменного имени и символов, определенных владельцем сайта в сети "Интернет";

    15) доменное имя – обозначение символами, предназначенное для адресации сайтов в сети "Интернет" в целях обеспечения доступа к информации, размещенной в сети "Интернет";

    16) сетевой адрес – идентификатор в сети передачи данных, определяющий при оказании телематических услуг связи абонентский терминал или иные средства связи, входящие в информационную систему;

    17) владелец сайта в сети "Интернет" – лицо, самостоятельно и по своему усмотрению определяющее порядок использования сайта в сети "Интернет", в том числе порядок размещения информации на таком сайте;

    18) провайдер хостинга – лицо, оказывающее услуги по предоставлению вычислительной мощности для размещения информации в информационной системе, постоянно подключенной к сети "Интернет";

    19) единая система идентификации и аутентификации – федеральная государственная информационная система, порядок использования которой устанавливается Правительством Российской Федерации, и которая обеспечивает в случаях, предусмотренных законодательством Российской Федерации, санкционированный доступ к информации, содержащейся в информационных системах;

    20) поисковая система – информационная система, осуществляющая по запросу пользователя поиск в сети "Интернет" информации определенного содержания и предоставляющая пользователю сведения об указателе страницы сайта в сети "Интернет" для доступа к запрашиваемой информации, расположенной на сайтах в сети "Интернет", принадлежащих иным лицам, за исключением информационных систем, используемых для осуществления государственных и муниципальных функций, оказания государственных и муниципальных услуг, а также для осуществления иных публичных полномочий, установленных федеральными законами.

    К сожалению, формулировки ФЗ-149 недостаточно полные. Например, в законе не определено, что такое сеть “Интернет”. Некоторые определения не соответствуют принятым в IT-отрасли терминам. Например, в российском языке термин “электронный документ” обозначает информацию на конкретном материальном носителе.
    Федеральный закон от 27.07.2006 N 152-ФЗ "О персональных данных"

    Настоящим Федеральным законом регулируются отношения, связанные с обработкой персональных данных, осуществляемой федеральными органами государственной власти, органами государственной власти субъектов Российской Федерации, иными государственными органами (далее - государственные органы), органами местного самоуправления, иными муниципальными органами (далее - муниципальные органы), юридическими лицами и физическими лицами с использованием средств автоматизации, в том числе в информационно-телекоммуникационных сетях, или без использования таких средств, если обработка персональных данных без использования таких средств соответствует характеру действий (операций), совершаемых с персональными данными с использованием средств автоматизации, то есть позволяет осуществлять в соответствии с заданным алгоритмом поиск персональных данных, зафиксированных на материальном носителе и содержащихся в картотеках или иных систематизированных собраниях персональных данных, и (или) доступ к таким персональным данным.

    Действие настоящего Федерального закона не распространяется на отношения, возникающие при:

    1) обработке персональных данных физическими лицами исключительно для личных и семейных нужд, если при этом не нарушаются права субъектов персональных данных;

    2) организации хранения, комплектования, учета и использования содержащих персональные данные документов Архивного фонда Российской Федерации и других архивных документов в соответствии с законодательством об архивном деле в Российской Федерации;

    4) обработке персональных данных, отнесенных в установленном порядке к сведениям, составляющим государственную тайну.

    Целью настоящего Федерального закона является обеспечение защиты прав и свобод человека и гражданина при обработке его персональных данных, в том числе защиты прав на неприкосновенность частной жизни, личную и семейную тайну.

    В целях настоящего Федерального закона используются следующие основные понятия:

    1) персональные данные - любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных);

    1.1) персональные данные, разрешенные субъектом персональных данных для распространения, - персональные данные, доступ неограниченного круга лиц к которым предоставлен субъектом персональных данных путем дачи согласия на обработку персональных данных, разрешенных субъектом персональных данных для распространения в порядке, предусмотренном настоящим Федеральным законом;

    2) оператор - государственный орган, муниципальный орган, юридическое или физическое лицо, самостоятельно или совместно с другими лицами организующие и (или) осуществляющие обработку персональных данных, а также определяющие цели обработки персональных данных, состав персональных данных, подлежащих обработке, действия (операции), совершаемые с персональными данными;

    Как правильно осуществлять обработку персональных данных

    3) обработка персональных данных - любое действие (операция) или совокупность действий (операций), совершаемых с использованием средств автоматизации или без использования таких средств с персональными данными, включая сбор, запись, систематизацию, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передачу (распространение, предоставление, доступ), обезличивание, блокирование, удаление, уничтожение персональных данных;

    4) автоматизированная обработка персональных данных - обработка персональных данных с помощью средств вычислительной техники;

    5) распространение персональных данных - действия, направленные на раскрытие персональных данных неопределенному кругу лиц;

    6) предоставление персональных данных - действия, направленные на раскрытие персональных данных определенному лицу или определенному кругу лиц;

    7) блокирование персональных данных - временное прекращение обработки персональных данных (за исключением случаев, если обработка необходима для уточнения персональных данных);

    8) уничтожение персональных данных - действия, в результате которых становится невозможным восстановить содержание персональных данных в информационной системе персональных данных и (или) в результате которых уничтожаются материальные носители персональных данных;

    9) обезличивание персональных данных - действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных;

    10) информационная система персональных данных - совокупность содержащихся в базах данных персональных данных и обеспечивающих их обработку информационных технологий и технических средств;

    11) трансграничная передача персональных данных - передача персональных данных на территорию иностранного государства органу власти иностранного государства, иностранному физическому лицу или иностранному юридическому лицу.

    Глава 1. Общие положения

    Статья 1. Сфера действия настоящего Федерального закона

    Статья 2. Цель настоящего Федерального закона

    Статья 3. Основные понятия, используемые в настоящем Федеральном законе

    Статья 4. Законодательство Российской Федерации в области персональных данных

    Глава 2. Принципы и условия обработки персональных данных

    Статья 5. Принципы обработки персональных данных

    Статья 6. Условия обработки персональных данных

    Статья 7. Конфиденциальность персональных данных

    Статья 8. Общедоступные источники персональных данных

    Статья 9. Согласие субъекта персональных данных на обработку его персональных данных

    Статья 10. Специальные категории персональных данных

    Статья 10.1. Особенности обработки персональных данных, разрешенных субъектом персональных данных для распространения

    Статья 11. Биометрические персональные данные

    Статья 12. Трансграничная передача персональных данных

    Статья 13. Особенности обработки персональных данных в государственных или муниципальных информационных системах персональных данных

    Глава 3. Права субъекта персональных данных

    Статья 14. Право субъекта персональных данных на доступ к его персональным данным

    Статья 15. Права субъектов персональных данных при обработке их персональных данных в целях продвижения товаров, работ, услуг на рынке, а также в целях политической агитации

    Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных

    Статья 17. Право на обжалование действий или бездействия оператора

    Глава 4. Обязанности оператора

    Статья 18. Обязанности оператора при сборе персональных данных

    Статья 18.1. Меры, направленные на обеспечение выполнения оператором обязанностей, предусмотренных настоящим Федеральным законом

    Статья 19. Меры по обеспечению безопасности персональных данных при их обработке

    Статья 20. Обязанности оператора при обращении к нему субъекта персональных данных либо при получении запроса субъекта персональных данных или его представителя, а также уполномоченного органа по защите прав субъектов персональных данных

    Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, по уточнению, блокированию и уничтожению персональных данных

    Статья 22. Уведомление об обработке персональных данных

    Статья 22.1. Лица, ответственные за организацию обработки персональных данных в организациях

    Глава 5. Федеральный государственный контроль (надзор) за обработкой персональных данных. Ответственность за нарушение требований настоящего Федерального закона

    Статья 23. Уполномоченный орган по защите прав субъектов персональных данных

    Статья 23.1. Федеральный государственный контроль (надзор) за обработкой персональных данных

    Статья 24. Ответственность за нарушение требований настоящего Федерального закона

    Глава 6. Заключительные положения

    Статья 25. Заключительные положения

    ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь.

    Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ имени М.В. Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Автономной некоммерческой организацией "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии международного стандарта ИСО/МЭК 20546:2019* "Информационные технологии - Большие данные - Обзор и словарь" (ISO/IEC 20546:2019 "Information technology - Big data - Overview and vocabulary", IDT).

    Настоящий стандарт содержит набор терминов и определений, необходимых для улучшения информационного взаимодействия и формирования русскоязычных понятий в области информационных технологий и больших данных. Он обеспечивает терминологическую основу для стандартов, связанных с большими данными.

    Большие данные (big data): Большие массивы данных (3.1.11), отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
    Примечание - Термин "большие данные" широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных.

    Обработка данных (data processing): систематическое выполнение операций с данными (3.1.5).

    Пример: Арифметические или логические операции с данными, объединение или

    сортировка данных или такие операции с текстом, как редактирование, сортировка,

    объединение, хранение, извлечение, отображение или печать.

    Данные (data): реинтерпретируемое представление информации в формализованном виде, пригодном для коммуникации, интерпретации или обработки.

    Наука о данных (data science): извлечение практических знаний из данных посредством исследования или создания и проверки гипотез.

    Массив данных (data set, dataset): идентифицируемая совокупность данных (3.1.5), к которой можно получить доступ или скачать в одном или нескольких форматах.

    Тип данных (data type, datatype): определенный массив объектов данных (3.1.5) конкретной структуры данных и набор допустимых операций, в рамках которых эти объекты данных выступают в роли операндов при выполнении любой из этих операций.

    Общие сведения

    Разработка систем больших данных имеет значение для ряда технологических сфер обсуждения и стандартизации. В данном приложении обсуждаются связи области больших данных с другими областями разработки стандартов.

    А.2 Метаданные

    Метаданные представляют собой описательные данные, включая, например, описание истории обработки данных. Поскольку системы больших данных спроектированы для выполнения распределенной обработки данных, в том числе тех, которые являются внешними и не находятся под контролем системы больших данных, использование метаданных становится все более важной концепцией. Поскольку большие данные повторно используются для целей, далеких от их сбора, важно, чтобы метаданные были связаны с любыми данными, доступными для других. Метаданные также включают в себя источник данных и их использование. Их можно разделить на бизнес- и технические метаданные.

    А.3 Алгоритмы

    При разработке алгоритмов анализа больших данных необходимо учитывать требования распределенной обработки данных, данные обычно хранились локально. В контексте больших данных алгоритмы обработки данных по узлам должны быть адаптированы к горизонтальному масштабированию, чтобы напрямую обеспечить конкретное распределение данных по узлам.

    А.4 Кластерные вычисления

    Кластерные вычисления относятся к распределению процессов по сети компьютеров. Компьютеры используют программное обеспечение для работы физической системы как единого целого. Если поместить уровень служб поверх физической системы, то будут достигнуты преимущества облачных вычислений.

    А.5 Облачные вычисления

    Облачные вычисления – это одна из парадигм доступности и управления ресурсами для систем больших данных. Существует несколько ключевых характеристик, часто присущих внедрению облачных вычислений, в том числе: широкий доступ к сети, измеримое обслуживание, многопользовательский режим, самообслуживание по требованию, быстрая адаптация и масштабируемость, а также объединение ресурсов. Системы больших данных могут использовать внедрение облачных вычислений для инфраструктуры, платформ или приложений.

    А.6 Безопасность данных

    Системы больших данных имеют дополнительные проблемы с безопасностью из-за распределенного характера обработки данных. Дополнительные уязвимости возникают, например, при распределенном использовании и управлении физическим компьютером и сетевой инфраструктурой, а также в рамках контроля на всех уровнях программного обеспечения и сред хранения. Обычно в среде распределенной обработки данных осуществляются шифрование, маскирование и доступ на основе ролей, чтобы обеспечить комплексную защиту данных на всех уровнях, в том числе при передаче данных по сети. Некоторые примеры массивов данных, для которых требуется высокий уровень безопасности, включают в себя: конфиденциальную информацию о клиентах, информацию о продуктах, данные счетов, коммерческие данные компаний, финансовые транзакции, медицинские карты пациентов и оборонные данные.

    А.7 Требования по защите конфиденциальности

    Существуют законодательные и нормативные требования, которые влияют на использование личной информации и регулируют его. Все больше личной информации можно получить из сети интернет, социальных сетей, устройств слежения и т. д. В широком смысле защита конфиденциальности - это совокупность правовых и нормативных требований, которые обеспечивают право отдельных лиц на контроль не только над использованием их личной информации, но также ее достоверностью, аспектами жизненного цикла (включая принудительное удаление) и т. д. Кроме того, ключевым правом защиты конфиденциальности является право информированного согласия» человека в отношении использования его личной информации. Интеграция массивов данных из разнородных источников вполне может приводить к созданию наборов личной информации или получению нового способа ее использования, отличного от цели, для которой было получено осознанное согласие конкретного лица на использование такой личной информации. Поэтому любая организация, разрабатывающая и использующая системы больших данных, несет юридическую и фидуциарную ответственность за обеспечение полной поддержки и внедрения всех применимых норм по защите конфиденциальности в тех случаях, когда их деятельность связана с обработкой личной информации

    А.8 SQL

    SQL – это стандартный (см. серию международных стандартов ISO/IEC (ИСО/МЭК) 9075) интерактивный язык программирования, предназначенный для создания запросов, обновления и управления данными и их массивами в базе данных. SQL предназначен для манипулирования структурированными данными и предоставляет полноценную и всеобъемлющую структуру для доступа к данным, а также поддерживает широкий спектр эффективных аналитических функций. Расширения баз данных SQL поддерживают обнаружение столбцов в широком диапазоне массивов данных: не только реляционных таблиц/представлений, но также XML, JSON, пространственных объектов, объектов схожих с изображениями (больших двоичных объектов и больших символьный объектов) и семантических объектов. Системы управления данными NoSQL, предназначенные для поддержки нетабличных структурированных данных, а также неструктурированных и полуструктурированных данных, еще не сделали выбор в пользу одного общего языка доступа. Во многих вариантах реализации NoSQL приняты SQL-подобные языки, включающие некоторое подмножество стандартного SQL с расширениями, поддерживающими специфические особенности реализаций NoSQL.

    А.9 Параллельные вычисления

    Большие данные обычно относятся к распределенной информационно-емкой обработке данных узлами кластера. Сообщество моделирования уже много лет разрабатывает методы информационно-емкой обработки большими кластерами вычислительных узлов. Учитывая, что оба подхода представляют собой крайние случаи для высокомасштабированных вычислений и анализа данных, технологии обоих подходов будут использоваться для спектра возможностей, требующих как ресурсоемких, так и информационно-емких вычислений.

    А.10 Интернет вещей

    Одновременно с созданием все большего и большего количества данных, создаются вычислительные системы, способные эти данные анализировать. Пользователи хотят использовать объем данных, доступных с различных сенсоров и других источников данных. Это обеспечивает эффективную предсказательную аналитику данных для управления и контроля сетевых решений. Типичные технологические достижения в области сенсоров, а также развертывание IPV6 для обеспечения подключения этих устройств к сети интернет, создают потребность в системе больших данных, которая сможет обрабатывать потоковые данные, обладающие высокой скоростью генерации, из нескольких источников. Это отличается от систем с крупными объемами больших данных, которые обычно запускают пакетные задания на относительно небольшом количестве больших массивов данных. Данная разница в характеристиках массивов данных оказывает прямое влияние на архитектуру и методы, используемые для анализа данных.

    А.11 Языки программирования

    Анализ расширенных данных с использованием статистических вычислений является фундаментальным подходом к концепции больших данных. Пользователи могут разрабатывать системы аналитики больших данных с использованием языков программирования общего назначения. Потребности в распределенной обработке данных привели к появлению ряда новых языков программирования и запросов, подходящих для разработки систем больших данных, а также новых процессов. Языки программирования (см. примечание 1), как правило, имеют доступные платформы, библиотеки и средства динамической поддержки для обеспечения эффективной обработки больших данных с использованием параллельных вычислений и хранения. Среди новых процессов – распределение-сборка данных для их распределенной обработки.

    ПЕРСПЕКТИВНАЯ ПРОГРАММА СТАНДАРТИЗАЦИИ по приоритетному направлению «Искусственный интеллект» на период 2021-2024 годы.

    При актуализации в 2021 году Программу планируется дополнить стандартами по актуальным темам, в том числе:

    дистанционный государственный контроль (надзор) в сфере ИИ;

    архитектура и сервисная поддержка промышленных решений и сервисов, основанных на технологиях ИИ;

    ролевые модели в рамках проектов ИИ;

    единые правила документирования проектов с использованием ИИ;

    вопросы доступности данных, необходимых для создания, испытаний и применения систем ИИ;

    применение технологий ИИ в промышленности, в т. ч. машиностроении, металлургии, пищевой промышленности и т.п.;

    применение технологий ИИ: в топливно-энергетическом комплексе; применение технологий ИИ для речного и авиатранспорта; применение технологий ИИ в мониторинге лесного фонда и водных ре­сурсов;

    технологии ИИ: в государственных информационно-аналитических си­стемах, системах мониторинга национальных программ и системах информа­ционно-аналитического обеспечения ситуационных центров;

    протокол для загрузки наборов данных;

    Актуализированная Программа будет проходить согласование в соот­ветствии с приказом Росстандарта от 22 мая 2020 г. № 601 с техническими комитетами в смежных областях деятельности, включая, но не ограничиваясь:

    ТК 022 «Информационные технологии»;

    ТК 026 «Криптографическая защита информации»;

    ТК 045 «Железнодорожный транспорт»;

    ТК 051 «Система конструкторской документации»;

    ТК 057 «Интеллектуальные транспортные системы»;

    ТК 098 «Биометрия и биомониторинг»;

    ТК 194 «Кибер-физические системы»;

    ТК 201 «Эргономика, психология труда и инженерная психология»;

    ТК 234 «Системы тревожной сигнализации и противокриминальной за­щиты»;

    ТК 362 «Защита информации»;

    ТК 461 «Информационно-коммуникационные технологии в образова­нии»;

    ТК 468 «Информатизация здоровья»;

    ТК 482 «Поддержка жизненного цикла экспортируемой продукции во­ енного и продукции двойного назначения».

    1. История развития больших данных

    На понимание технологий и подходов к хранению, обработке и анализу информации, ныне известных как Big Data, сегодня мы решили взглянуть сквозь призму времени. Возможно, кому-то данный подход покажется слегка наивным, но мы уверены: ничто не ново под луной и аналоги проблем, которые стоят перед современным человеком в данной области, можно с лёгкостью найти на всех этапах развития цивилизации, а мы, подобно Гензель и Гретель, попытаемся оставить след из хлебных крошек, который выведет нас из темного леса истории к светлым лугам познания.

    Всю свою историю человечество осознанно или нет сталкивалось и решало проблемы хранения и обработки информации. Ещё 10-20 тысяч лет назад прародители современного человека использовали кости для записи остатков собранных запасов – предположительно, чтобы вести торговую активность и иметь прогнозируемый остаток на нужды собственно пропитания. Это всего лишь теория, но, если она верна – это первый пример получения и анализа информации в нашей истории.

    Первые библиотеки Вавилона в 2000-х годах до нашей эры, позднее – библиотеки в Александрии – всё это пример того, как люди в тот или иной момент сталкивались с вопросами хранения большого объема информации и ее консолидации для удобства использования. Проблемы тогда, правда, сводились в основном к тому, чтобы не потерять всю накопленную мудрость при следующем вражеском набеге, как это произошло в Александрии при вторжении римлян, когда большая часть библиотеки была утрачена.

    Про какой-либо серьезный анализ в привычном нам контексте в то время говорить не приходилось вплоть до середины XVII века, когда Джон Грант, известный своими работами в области демографической статистики, кроме прочего выпустил труд, описывавший теорию, в которой использование аналитики смертности позволяло предупреждать о начале эпидемии бубонной чумы.

    В 1865 году профессор Ричард Миллер Девинс (Richard Millar Devens) впервые ввел в обиход термин Business Intelligence, использовав его в своей книге Cyclopedia of Commercial and Business Anecdotes, где кроме прочего рассказал Генри Фернезе, который пришёл к успеху благодаря структурированию и анализу информации о деловой активности.

    С увеличением количества данных, которые люди стали использовать в различных сферах своей деятельности, возникало все больше проблем с их обработкой и анализом. Так, перед переписью 1880 года американское бюро, занимавшееся переписью населения, столкнулось с трудностью и объявило, что с современными подходами к работе с данными произвести подсчет они смогут лишь за 8 лет, а при следующей переписи в 1890 году, ввиду увеличения численности населения и постоянной миграции, дать точные результаты удастся не раньше чем через 10 лет, когда они уже полностью устареют. Получалась ситуация, когда к моменту следующего сбора данных не будут еще полностью проанализированы результаты прошлой переписи, что полностью обесценивает эту информацию и ставит само существование бюро под сомнение.

    На помощь пришел инженер по имени Герман Холлерит (Herman Hollerith), который в 1881 году создал устройство (табулятор), которое, оперируя перфокартами, сокращало 10-летний труд до 3 месяцев. Воодушевленный успехом Холлерит создал компанию TMC, специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R, которая в 1924 году была переименована в IBM.

    Дальнейший рост информации и проблемы, встававшие перед нашими предшественниками, всегда сводились в равной степени к вопросам хранения и скорости обработки этих данных.

    Во время Второй мировой войны необходимость в быстром анализе данных послужила созданию ряда компьютеров, позволяющих дешифровать сообщения неприятеля. Так, в 1943 году британские ученые создали машину Colossus, которая ускорила расшифровку сообщений с нескольких недель до нескольких часов. Как таковой личной памяти у «Колосса» не было, поэтому данные подавались через перфорированное колесо. Трудно представить сейчас, сколько жизней спас этот, по нашим меркам, допотопный компьютер с производительностью около 6 мегагерц и как изменился бы ход истории, если не существовало бы проблем со скоростью обработки информации.

    Но скорость анализа не единственный вопрос, которым были озадачены наши предшественники в середине XX века. В 1944 году библиотекарь Фремонт Райдер (Fremont Rider) выпустил труд The Scholar and the Future of the Research Library, в котором он проанализировал, что с существующим ростом выпускаемых работ библиотеки должны удваивать свою вместительность каждые 16 лет. Это приведет к тому, что, к примеру, Йельская библиотека к 2040 году должна будет состоять из 6000 миль (около 10000 км) полок.

    Дальше – больше. Начиная с 1950-х годов, наряду с все увеличивающейся потребностью в хранении и обработке информации, начался бурный рост технологий ее хранения, начали появляться центры обработки данных. Люди из разных отраслей деятельности стали приходить к пониманию, что их преимущества так или иначе будут зависеть от умения хранить и анализировать информацию, а также от скорости этого анализа и полученной от него ценностью.

    С началом эры Интернета, переходом на центральные хранилища данных и с лавинообразным ростом количества веб-контента (для сравнения: в 1995 году в мире существовало 23 500 веб-сайтов, а уже через год – больше 250 000) встал вопрос поиска по многообразию существующего контента. Несмотря на существование уже нескольких созданных к тому времени поисковых систем (к слову, Yahoo не имела своей вплоть до 2002 года, а использовала сторонние разработки), первой действительно приближенной к современным была система AltaVista. Ее уникальность была в том, что она использовала лингвистический алгоритм, разбивая поисковую фразу на слова и проводя поиск по существующим индексам для ранжирования результата. За два года количество запросов в день изменилось с 300 000 до 80 миллионов.

    Все, о чем мы рассказали выше, – примеры вопросов, связанных с хранением и обработкой информации. Эту цепочку можно продолжать до бесконечности, но сам термин Big Data пришёл к нам лишь на стыке тысячелетий и кроме подходов, которые были заложены в его основу, явил миру всю совокупность проблем, с которыми сталкивался человек с начала своей истории работы с информацией.

    Магия литеры V

    Перед тем как вплотную подойти к вопросу о Больших Данных, технологиях и областях применения, необходимо сделать ремарку и подготовить почву для обсуждения самого вопроса.

    6 февраля 2001 года Дуг Лейни (Doug Laney) из Meta Group (входит в состав Gartner) издал документ, описывающий основные проблемные зоны, связанные с повышенными требованиями к центральным хранилищам данных на фоне бурного роста e-commerce, а также делающий прогноз на изменение стратегии IT-компаний в отношении подходов к построению архитектуры решений, связанных с хранением и обработкой информации.

    Было выделено три важнейших направления, на которых стоит сосредоточиться для решения вопросов управления данными: Volume, Velocity и Variety. Позже эти понятия стали основой для описательной модели Больших Данных под названием 3V (VVV).

    Нужно учесть, что эти аспекты обсуждались без отсылки к понятию Больших Данных, концепцию которых начали применять чуть позже, но эти параметры как никакие другие описали основные принципы того, что мы с вами называем Big Data.

    Volume

    Важность правильного подхода к вопросам увеличения объемов данных заложена в самом понятии Big Data. Но как определить этот порог, который отличает обычное хранилище от Больших Данных? Ответ прост – никак. Big Data – это не список статичных значений, при достижении которых определяется принадлежность решения, а целый набор методик и технологий получения, хранения и обработки информации, несмотря на наличие или отсутствие в ней структурированности.

    Давайте рассмотрим этот момент на примере компании Facebook, так как индустрию социальных сетей уже невозможно представить в отрыве от использования технологий Big Data. Каждые 60 секунд происходит загрузка более 130 000 фотографий и добавляется либо обновляется около 1 000 000 записей, не говоря о присоединении новых пользователей к уже существующим двум миллиардам, а также происходит коммуникация между ними и добавление медиаконтента. Большой объем данных? Несомненно. Но давайте представим, что Facebook ограничился бы исключительно получением, хранением и предоставлением этой информации по запросу. Такой подход нельзя было бы отнести к понятию Big Data. Это был бы просто огромный массив данных.

    Информация сама по себе – не сила, иначе самыми могущественными людьми были бы библиотекари. Б. Стерлинг

    Еще одно существенное уточнение. Когда вы оперируете такими объёмами информации, очень важно быть готовым к оперативному горизонтальному масштабированию всей совокупной системы ввиду потенциального роста входящих данных.

    Давайте продолжим разбираться в этом вопросе еще глубже и перейдем к следующему параметру.

    Velocity

    Скорость обработки. В условиях постоянного прироста данных необходима возможность их обработки с той скоростью, которую требуют цели проекта, в контексте которого данный параметр обсуждается. Давайте представим себе, что все шахты нашей необъятной родины снабжены сотнями датчиков. Они анализируют тысячи параметров экосистемы конкретной шахты, которые затем поступают на хаб, передающий весь поток в центральный ЦОД, где выполняется обработка и анализ полученной информации.

    Данные эти разнообразны и среди прочих включают в себя уровень содержания вредных веществ, сейсмические показания и прочую информацию, способную указать на вероятность обрушения, утечку газа или иные катастрофические последствия, возможные в конкретно взятой шахте. А теперь представьте себе, что поступившие данные в силу тех или иных причин были обработаны за 2 часа вместо, скажем, 10 минут и результатом обработки была информация о высоком риске обрушения, которое случилось во время анализа этой информации и поэтому превентивные меры не были приняты.

    Пример, возможно, надуманный, но хорошо отражает суть Velocity, от которой зачастую зависит еще один параметр, который добавила компания IDC в эту цепочку из трех V, – Value, или ценность информации. В нашем примере эта ценность была равна нулю, так как потеряла свою актуальность раньше, чем ею смогли воспользоваться за период Validity этой информации, который говорит о сроке ее полезного действия. В другом контексте параметр Value следует рассматривать как стоимость данных, то есть помогли ли они получить готовые для анализа данные после обработки или оказались нам бесполезны.

    Можно придти к выводу, что скорость обработки данных, как и хранилища, должна легко наращиваться при необходимости, что также заложено в некоторые технологии Больших Данных, позволяющие обрабатывать информацию децентрализованно. Это дает возможность масштабировать решения более гибко.

    Так мы узнали еще одну сферу, где применение Big Data более чем оправданно, – это IOT, или интернет вещей, который уже давно перерос из бытовой сферы умных домов в нечто большее.

    Variety

    Все примеры работы с информацией из нашего исторического вступления сводились к работе с так или иначе структурированными данными. Но что делать, если информация приходит в неструктурированном виде и ее нельзя разложить «по полочкам»? Уже в 1998 году инвестиционный банк «Мерилл Линч» заявил, что до 90% всей потенциально полезной информации не структурировано.

    Допустим, вы решили анализировать систему электронных сообщений в своей компании (естественно, с согласия своих работников). Данные, которые можно назвать структурированными, – это наименование отправителя, получателя, даты отправки, получения и прочая информация, которую можно явно определить в заранее согласованную ячейку базы данных. На этом этапе проблем не возникает, и если вы решили собирать информацию о количестве писем, частоте отправки или, скажем, среднем размере письма, у вас это легко получится. Но что делать с вложениями или текстом письма? Какую информацию можно получить, просто распределяя их в поля text или attaches, если, к примеру, вы хотите узнать, пишут ли ваши сотрудники стихи в переписке, используют ли корпоративную почту в личных целях? Без интеллектуального анализа данных разобраться в этом вопросе невозможно.

    Кроме приведенного примера, неструктурированными можно считать любые данные, которые нельзя связать с уже имеющейся моделью. Поэтому одна из задач, которая ставится перед использованием Big Data (в большей степени, нежели хранение информации), – получая на входе большой массив разнотипных данных, оперативно выстроить между ними связи и на выходе отдать данные, доступные для структурированного или полуструктурированного анализа.

    Давайте подытожим все, о чем мы сегодня поговорили, и попробуем сформулировать в двух словах, что мы знаем о Big Data.

    Во-первых, не всегда большой объем данных говорит о системе, что она решает вопросы Больших Данных.

    Во-вторых, важно поддерживать необходимую скорость обработки поступающих данных, иначе можно потерять их ценность и передать на дальнейший анализ уже невалидные данные или в качестве результата предоставить неактуальную информацию.

    В-третьих, важно уметь находить связи между любыми данными, вне зависимости от уровня их структурированности, и уметь получать результат, который можно однозначно анализировать для решения той или иной задачи.

    В-четвертых, система должна быть хорошо масштабируемой на уровне логики, иначе мы рискуем получить недостоверные данные ввиду потери одного из магических V, потери которого неизбежны при наличии бОльшего потока информации, нежели мы можем обработать.

    Получается, что Big Data – это горизонтально масштабируемая система, использующая набор методик и технологий, позволяющих обрабатывать структурированную и неструктурированную информацию и строить связи, необходимые для получения однозначно интерпретируемых человеком данных, не успевших потерять актуальность, и несущая ценность преследуемых им целей.

    Многие могут что-то добавить, ведь определений Big Data существует, возможно, не меньше, нежели компаний, ее использующих. Но этого определения нам будет достаточно для перехода ко второй части статьи, где мы рассмотрим примеры и области применения, а также поговорим о технологиях, которые используются в Big Data.

    Термин Big Data был предложен Клиффордом Линчем (Clifford Lynch) (рисунок 1.1), редактором журнала Nature, который 3 сентября 2008 года выпустил отдельный номер, главной темой которого была «Как могут повлиять на будущее науки, технологии, открывающие возможности работы с большими объёмами данных?» (Оригинал: «Big data: How do your data grow?»). Термин «Большие данные» был предложен по аналогии с терминами «Большая нефть», «Большая руда» и т. д. Размер больших данных в 2012 году определялся от нескольких десятков терабайт до петабайт (250). Термин большие данные может быть причислен к данным, связанным с высочайшей изменчивостью источников данных, а также обладающим сложными взаимосвязями и трудностями изменения или удаления отдельных записей. Большие данные характеризуются гигантским объёмом, значительной скоростью поступления данных, а также 7 многообразием самих данных. Для таких данных требуются новейшие способы обработки, которая в дальнейшем может привести к улучшению методов принятия решений, оптимизации процессов и поиска закономерностей.

    К 2011 году понятие Big Data стало набирать популярность, в основном, в крупных корпорациях таких как Microsoft, IBM, Oracle, EMC, HP и др. В 2011 году исследовательская компания Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре после виртуализации. По прогнозам подразумевается, что внедрение технологий Big Data крупно повлияет на информационные технологии в сферах производства, здравоохранении, торговли, государственного управлении, а также в отраслях, в которых регистрируются индивидуальные перемещения ресурсов. С 2013 года большие данные начинают преподавать в университетах в рамках вузовских программ по науке о данных, вычислительным наукам и инженерии.

    Инновационные разработки в области Big Data начинались не в маленьких стартапах, как это часто бывает в IT-индустрии, а в больших компаниях. Так, например, технология распределенной обработки данных MapReduce была разработана компанией Google, a Hadoop, являющийся 8 свободным программным обеспечением для выполнения распределенных вычислений на кластерах из сотен и тысяч узлов, сразу после создания активно поддержала компания Yahoo. Большинство программных продуктов в области Big Data являются свободными, а их адаптацией и продвижением занимаются те самые стартапы. Традиционные поставщики решений в области хранения и обработки данных, такие как IBM и 3 EMC внимательно относятся к новым разработкам в области Больших Данных и стараются использовать их в своих продуктах совместно с собственными технологиями.


    написать администратору сайта