Главная страница
Навигация по странице:

  • Ключевые слова

  • Keywords

  • Методы исследования.

  • Результаты.

  • Обсуждение.

  • Статья. Современные технологии анализа больших данных


    Скачать 53.32 Kb.
    НазваниеСовременные технологии анализа больших данных
    Дата23.05.2023
    Размер53.32 Kb.
    Формат файлаdocx
    Имя файлаСтатья.docx
    ТипСтатья
    #1154940

    Тема:  Современные технологии анализа больших данных

    Аннотация: Статья посвящена обзору современных технологий «больших данных». Приведены основные характеристики, которые отличают эту технологию от других, принципы работы с ней, позволяющие проводить анализ максимально эффективно. Необходимость и перспективы использования технологии Big Data обоснованы, результаты использования этой технологии приняты во внимание. Анализ существующего программного и аппаратного обеспечения, используемого для анализа и обработки больших наборов данных, таких как Hadoop, MapReduce и NoSQL, выявил их преимущества и функции.
    Ключевые слова: большие данные, Big Data, Hadoop, MapReduce, NoSQL, статистический анализ, масштабируемость.
    Abstract. The article is devoted to the review of modern "big data" technologies. The main characteristics that distinguish this technology from others, the principles of working with it, allowing the analysis to be carried out as efficiently as possible, are given. The need and prospects for using Big Data technology are justified, and the results of using this technology are taken into account. Analysis of existing software and hardware used for analyzing and processing large data sets, such as Hadoop, MapReduce, and NoSQL, has revealed their advantages and functions.
    Keywords: big data, Big Data, Hadoop, MapReduce, NoSQL, statistical analysis, scalability.


    Вступление. Постоянное ускорение роста данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, деловая информация - это лишь некоторые типы источников, которые могут генерировать огромные объемы данных.

    Большие данные сейчас довольно распространены. Не все знают, как быстро и глубоко обработка больших объемов данных меняет различные аспекты жизни общества. Изменения происходят в различных областях, создавая новые проблемы и проблемы, в том числе в области информационной безопасности, где такие важные аспекты, как конфиденциальность, целостность, доступность и многое другое должны быть на переднем плане.

    Сегодня человек уже научился использовать новейшие технологии для анализа и обработки информационных потоков, а также для их использования. Эффективная обработка больших объемов собранной информации значительно упрощает поиск оптимальной стратегии развития компании в современных конкурентных условиях.
    Методы исследования. Анализ последних исследований и публикаций показал, что тема больших данных по-прежнему неоднозначна, хотя изучается специалистами в различных секторах (экономика, информационные технологии, политика и др.). Влияние больших данных на социальные процессы и корпоративную организацию, в частности, изучали Билл Фрэнкс, Виктор Майер Шонбергер, Кеннет Кукер, Эрик Сигел, Джон Форман и другие. Среди отечественных источников преобладают журналистские материалы, но фундаментальных работ в этом направлении не хватает [6].
    Результаты. Большие данные могут сыграть важную роль в принятии решения о том, открывать ли магазин в определенном месте или нет, основываясь на наличии мощного целевого потока людей.

    Следовательно, наиболее очевидное практическое применение технологии больших данных находится в области маркетинга. Благодаря развитию Интернета и распространению всех типов устройств связи, данные о поведении (такие как количество звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.
    Обсуждение.

    Изложение основного материала начнем с того, что большие данные касаются прежде всего огромного количества данных, которые постоянно собираются с помощью устройств и технологий, таких как кредитные карты и карты лояльности клиентов, Интернета и социальных медиа, а также через датчики WiFi и электронные метки. Большая часть этой информации является ограниченно структурированной – то есть это данные, которые соответствуют определенной, заранее установленной модели данных. Как правило, их необходимо адаптировать к целям использования, поскольку данные собираются по критерию ограниченности хранилища, а не исчерпаемости [1].

    Определение термина очевидно: «большие данные» означает управление большими объемами данных, а также их анализ. Если вы посмотрите более широко, это информация, которая не может быть обработана традиционными методами из-за больших объемов.

    Сам термин Big Data (большие данные) возник весьма недавно. 

    В 2010 году начали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. По данным Google Trends, растущая популярность термина падает в конце 2011 года. К 2011 году большинство крупных ИТ-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин «большие данные» в своих бизнес-стратегиях. Постепенно аналитики рынка информационных технологий начинают активно исследовать эту концепцию [2].

    На сегодняшний день эта концепция приобрела важную известность и активно осуществляются в разных сферах. Однако нельзя с уверенностью сказать, что большие данные - это принципиально новое явление - наоборот, большие источники данных существуют уже много лет. В маркетинге их можно назвать базами данных для покупок клиентов, кредитных историй, образа жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помочь компаниям предвидеть будущие потребности клиентов, оценивать риски, формировать предпочтения потребителей и т. д.

    В 2018 году Википедия дает новое определение Big Data:

    «Большие данные представляют собой обозначение структурированных и неструктурированных данных крупных размеров и весомого многоообразия, ввергаемых результативной обработке программных средств, которые были горизонтально масштабированы и возникли в завершении 2000-х годов, и альтернативных классических систем управления базами данных и решений Business Intelligence класса решения».

    Как видите, в этом есть такие неоднозначные термины, как «огромных», «значительного», «эффективной» и «альтернативных». Даже само название довольно субъективное. Допустим, 4 терабайта (емкость современного внешнего жесткого диска для ноутбука) - это уже большие данные или нет? Википедия добавляет к этому термину следующее: «в обширном смысле «большие данные» представляются социально-экономическим явлением, объединенным с возникновением технологических вероятностей, позволяющих проанализировать достаточно огромные объемы информации в определенных проблемных сферах, глобальный объем данных и модернизаационные последствия этого потока» [4].

    Майер-Шенбергер В. и Кукье К. В качестве основного подхода к анализу больших массивов данных различают корреляционный анализ [2]. По их мнению, это основа прогнозного анализа, который использует большие наборы данных. Суть его заключается в ответе на вопрос «Что?», но в то же время не всегда удается ответить на вопрос «Почему?» Метод корреляции оказался малопригодным и малоэффективен при анализе небольших объемов данных. Тем не менее, это оказалось лучшим подходом для анализа больших объемов информации, где точность относительно большой выборки теряет значение.

    В настоящее время ситуация изменилась в двух аспектах [3]:

    • возникли уже сложные инструменты и методы сцелью анализа и сравнения различных наборов данных;

    • инструменты анализа были дополнены многими новыми источниками данных, благодаря широкому переходу на цифровые технологии, а также новым методам сбора и измерения данных.

    Теоретики-исследователи прогнозируют, что технологии больших данных будут активно использоваться в производстве, здравоохранении, торговле, правительстве и других разнообразных областях и отраслях.

    Следует отметить, что большие данные не определенный массив данных, а набор методов для их обработки. Характерной особенностью больших наборов данных является не только объем, но и другие категории, которые характеризуют утомительные процессы обработки и анализа данных. Исходные данные для обработки могут быть, например [3]:

    • периодические издания интернет-поведения пользователей;

    • Интернет вещей;

    • соцсети;

    • метеорологические данные;

    • Цифровые книжные издания из крупнейших библиотек;

    • GPS сигналы от транспортных средств;

    • информация о транзакции для клиентов банка;

    • данные о местонахождении абонентов мобильной сети;

    • информация о покупках в крупных торговых сетях и т. д.

    Впоследствии объем данных и число их источников стремительно увеличивается, и на этом фоне возникают новые и существующие методы обработки информации.

    Применяемая область больших данных набирает обороты для расширения:

    Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только исходя из данных анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.

    Технологии Big Data могут быть использованы для организации движения беспилотных транспортных средств.

    При обработке больших объемов данных вы можете распознавать лица на фотографиях и видео.

    Ритейлеры имеют возможность осуществлять технологии больших данных как например в торговых компаниях, где активно используют матрицы данных из соцсетей с целью успешной настройки своих рекламных кампаний, которые ориентированы на максимум для определенного потребительского сегмента. Эта технология активно выполняется при организации избирательных предприятий, в том числе для анализа политических предпочтений в социуме [5].

    Применение технологий больших данных актуально для решений класса обеспечения дохода (RA), которые включают в себя механизмы с целью обнаружения несоответствий и углубленного анализа данных, позволяющие вовремя обнаружить возможные потери или искажения информации, которые могут привести к спаду финансовых итогов.

    Поставщики телекоммуникационных услуг могут объединять большие данные, включая геолокацию; в свою очередь, эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа целевой и местной рекламы, а также для розничных продавцов и банков.

    Так, исследовательская и консалтинговая компания Gartner разработала модель для больших данных в 2001 году. Ее модель «3 V» охватывала объем, скорость и разнообразие данных (английский - объем, скорость, разнообразие) [6].

    Gartner формализовал свое определение в 2012 году: «Большие данные - это информационные ресурсы большого объема, высокой скорости и / или большого разнообразия, которые требуют новых форм обработки для обеспечения лучшего принятия решений, обнаружения идеи и оптимизация процесса». Большие данные - это также наука использования больших объемов данных, чтобы помочь человеку или бизнесу принять правильное решение.

    Таким образом, большие данные - это возможность получить актуальную для бизнеса информацию из огромного количества различных данных. И все чаще считается, что перед этими 3 V вы должны добавить четвертое значение V - value, значение.

    Очевидно, что влияние больших данных на бизнес является частью более глубокого процесса. Если мы примем во внимание работу Карлотты Перес о долгосрочных технологических волнах, то в широком контексте большие данные - это следующая волна после эры коммуникации и информации.

    Использование больших данных будет расти в секторах производства, транспорта и логистики с тенденцией развития Industry 4.0 (появление киберфизических систем). Сегодня аналитика данных используется в областях обслуживания клиентов и внутренней операционной эффективности. Если мы примем во внимание растущие тенденции влияния экономики, основанной на данных, то ожидается, что более широкое использование больших данных будет способствовать принятию решений, прогнозированию, моделированию и визуализации.

    Технология больших данных включает в себя хранение информации (в настоящее время связанное с облачными технологиями), ее структурирование (с использованием программных решений и платформ), а также управление и анализ (обработка и создание аналитических отчетов). Целью использования больших данных является [6]:

    • улучшить процесс принятия решений;

    • управление рисками;

    • разработка новых продуктов;

    • увеличение маржи и т.д.

    Аналитики организации IBS оценили «весь мировой объём данных» следующими величинами:

    Таблица 1 – Мировой объём данных по данным аналитиков IBS

    Годы

    Единица измерения количества информации

    2003 г.

    5 эксабайт данных (1 ЭБ = 1 млрд гигабайт)

    2008 г.

    0,18 зеттабайт (1 ЗБ = 1024 эксабайта)

    2015 г.

    более 6,5 зеттабайт

    2020 г.

    40-44 зеттабайт (прогноз)

    2025 г.

    этот объем увеличивается еще в 10 раз.


    В статье также подчеркивается, что безусловно, большие данные чаще генерируется предприятиями, а не обычными потребителями.

    Вы можете использовать более простое определение, которое полностью соответствует установленному и более простому определению, которое полностью согласуется с журналистами и маркетологами. «Большие данные - это комбинация технологий, которые могут делать три вещи [1]:

    1. Обработка больших объемов данных по сравнению с «нормальными» сценариями.

    2. Чтобы иметь возможность работать с данными, вам нужно быстро прибыть в очень больших количествах. Это означает, что данных не только много, но их становится все больше и больше.

    3. Уметь работать со структурированными и слегка структурированными данными параллельно и в разных аспектах.

    Считается, что эти «навыки» позволяют выявить скрытые закономерности, которые ускользают от ограниченного человеческого восприятия. Это предоставляет беспрецедентные возможности для оптимизации многих областей нашей жизни: правительства, медицины, телекоммуникаций, финансов, транспорта, производства и так далее. Неудивительно, что журналисты и маркетологи использовали фразу «Большие данные» так часто, что многие эксперты считают этот термин зачисленным и предлагают отказаться от него.

    Кроме того, в октябре 2015 года Gartner исключила Big Data из списка популярных трендов. Аналитики компании объяснили свое решение тем, что понятие «большие данные» включает в себя значительное количество технологий, которые уже активно используются в компаниях, они частично относятся к другим популярным направлениям и направлениям и стали инструментом для повседневной работы.

    В любом случае, термин «Большие данные» все еще широко используется, о чем свидетельствует наша статья.

    Характерными особенностями больших наборов данных, помимо физического размера, являются другие, которые подчеркивают сложность задачи обработки и анализа этих данных. Набор данных VVV (объем, скорость, разнесение - физический объем, скорость роста данных и потребность в быстрой обработке, способность обрабатывать различные типы данных) был разработан Мета Группой в 2001 году, чтобы показать равную важность управления данными во всех трех аспектах.

    Далее возникла интерпретация уже с четырьмя V (прибавилась veracity – достоверность), пять V (viability - жизнеспособность и value - ценность), семи V (variability - изменчивость и visualization - визуализация). Однако организация IDC, к примеру, интерпретирует только четвёртый V как value (ценность), экономическую целесообразность обработки больших объемов данных в соответствующих условиях [6]. 

    Основываясь на приведенных выше определениях, основные принципы работы с большими данными следующие [6]:

    • Горизонтальная масштабируемость. Это основной принцип обработки больших данных. Как уже отмечалось, с каждым днем ​​появляется все больше больших данных. Соответственно, необходимо увеличить количество вычислительных узлов, по которым распределяются эти данные, и обработка должна происходить без ущерба для производительности.

    • отказоустойчивость. Этот принцип следует из предыдущего. Поскольку в кластере может быть много вычислительных узлов (иногда десятки тысяч), и их количество может увеличиться, вероятность сбоя компьютера возрастает. Методы работы с большими данными должны учитывать вероятность таких ситуаций и включать в себя превентивные меры.

    • местонахождение данных. Поскольку данные распределяются по большому количеству вычислительных узлов, если они физически расположены на одном сервере и обрабатываются на другом, затраты на передачу данных могут быть неоправданно высокими. Поэтому желательно выполнять обработку данных на том же компьютере, на котором они хранятся.

    Эти принципы отличаются от типичных для традиционных, централизованных и вертикальных моделей хорошо структурированного хранилища данных. Фактически разрабатываются подходы и технологии для работы с большими данными [5]:

    • Первоначально набор подходов и технологий включал массовую параллельную обработку неопределенно структурированных данных, таких как СУБД NoSQL, алгоритмы MapReduce и инструменты проекта Hadoop. В будущем другие решения стали относиться к технологиям больших данных, которые предоставляют аналогичные возможности обработки для обработки очень больших массивов данных, а также некоторых аппаратных средств.

    • MapReduce - модель компьютерных кластерных вычислений, представленная Google. Согласно этой модели приложение делится на большое количество идентичных элементарных действий, выполняемых на узлах кластера, и поэтому, естественно, они сводятся к конечному результату.

    • SQL NoSQL (от англ. Not Only SQL, не только SQL) - это общий термин для различных нереляционных баз данных и хранилищ; это не означает какую-либо конкретную технологию или продукт. Обычные реляционные базы данных хорошо подходят для довольно быстрых и единообразных запросов, а для сложных и гибко построенных запросов, характерных для больших данных, нагрузка превышает разумные пределы, и использование СУБД становится неэффективным.

    • Hadoop - набор инструментов, библиотек и сред, свободно распространяемых для создания и выполнения распределенных приложений, работающих на кластерах из сотен и тысяч узлов. Это считается одной из основных технологий большинства данных.

    • R - язык программирования для статистической обработки данных и графики. Он широко используется для анализа данных и стал стандартом для статистических программ.

    • Аппаратные решения. Корпорации Teradata, EMC и т. Д. Предлагают аппаратное и программное обеспечение, предназначенное для обработки больших массивов данных. Эти системы поставляются в виде готовых к установке телекоммуникационных шкафов, содержащих кластер серверов и программное обеспечение для управления массовой параллельной обработкой. Иногда это включает в себя аппаратные решения для аналитической обработки в оперативной памяти, в частности программные и аппаратные системы Hana от SAP и Oracle Exalytics, хотя такая обработка не является массивно параллельной с самого начала, а объем оперативной памяти в одном узле пересекается с несколькими терабайтами.

    • Консалтинговая фирма Mc McKinsey, в дополнение к технологиям NoSQL, MapReduce, Hadoop, R, которые рассматриваются большинством аналитиков, включая технологии Business Intelligence и системы управления реляционными базами данных с поддержкой SQL в контексте адекватности обработка больших данных.

    Следует отметить, что McKinsey, международная консалтинговая компания, специализирующаяся на решении проблем, связанных со стратегическим управлением, определяет 11 методов и методов анализа, используемых в больших данных [3].

    • Методы данных класса Data Mining (интеллектуальный анализ данных, интеллектуальный анализ данных, интеллектуальный анализ данных): набор методов для обнаружения ранее неизвестных, нетривиальных и практически полезных знаний, необходимых для принятия решений по данным. Такие методы, в частности, включают в себя: правила ассоциации обучения, классификацию (категоризацию), кластерный анализ, регрессионный анализ, идентификацию и анализ отклонений и тому подобное.

    • Краудсорсинг ОУ - классификация и обогащение данных силами широкой, неопределенной группы людей, которые выполняют эту работу, не вступая в трудовые отношения.

    • F Слияние и интеграция данных - набор методов, которые позволяют интегрировать разнородные данные из нескольких источников для выполнения углубленного анализа (например, обработка цифрового сигнала, обработка естественного языка, включая анализ звука).

    • Машинное обучение, включая обучение учителей и преподавателей - использование моделей, построенных на основе статистического анализа машинного обучения, для получения сложных прогнозов на основе базовых моделей.

    • Искусственные нейронные сети, анализ сетей, оптимизация, включая генетические алгоритмы (генетический алгоритм - алгоритмы эвристического поиска, которые используются для решения задач оптимизации и моделирования путем случайного выбора, объединения и изменения необходимых параметров с использованием механизмов, аналогичных естественному отбору в природе).

    • Распознавание образов.

    • Прогнозная аналитика.

    • Симуляция (имитация): метод, позволяющий создавать модели, описывающие процессы такими, какими они были бы в реальности. Моделирование модно рассматривать как своего рода экспериментальный тест.

    • Пространственный анализ (пространственный анализ): класс данных, который использует топологическую, геометрическую и географическую информацию, удаляется из данных.

    • Статистический анализ - анализ временных рядов, A / B-тестирование (A / B-тестирование, распределенное тестирование - метод маркетинговых исследований, с использованием которого контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько индикаторов были изменены, чтобы выяснить, что улучшает цель путем изменения.

    • Визуализация данных анализа - представление информации в виде рисунков, диаграмм с использованием интерактивных функций и анимации, как для достижения результатов, так и для использования в качестве исходных данных для последующего анализа. На очень важном этапе анализа больших данных вы можете просматривать наиболее важные результаты анализа наиболее удобным для восприятия способом.

    Согласно Глобальному институту McKinsey, Большие данные: еще одна граница для инноваций, конкуренции и отчетов о производительности, данные стали таким же важным фактором в производстве, как трудовые или производственные активы. Используя большие наборы данных, компании могут получить ощутимые конкурентные преимущества. Технологии больших данных могут быть полезны при решении следующих задач [2]:

    • прогноз рынка

    • маркетинг и оптимизация продаж

    • разработка продукта

    • принятие решений в управлении

    • увеличение производительности труда

    • эффективная логистика

    • мониторинг состояния основных средств.

    На производственных предприятиях большие наборы данных также создаются в результате внедрения предприятия, а большие наборы данных также создаются в результате внедрения технологии промышленного Интернета вещей. Во время этого процесса основные компоненты и узлы станков и станков оснащены датчиками, исполнительными механизмами, контроллерами и иногда недорогими процессорами, способными выполнять предельные (туманные) вычисления. В процессе производства данные постоянно собираются и, возможно, предварительно обрабатываются (например, фильтрация). Аналитические платформы обрабатывают результаты наиболее удобным для восприятия способом и сохраняют их для дальнейшего использования. На основании анализа полученных данных сделаны выводы о состоянии оборудования, эффективности внесенных изменений в технологические процессы и т. д.

    Благодаря мониторингу информации в режиме реального времени персонал предприятия может [3]:

    • сократить время простоя

    • улучшить производительность оборудования

    • снизить эксплуатационные расходы на оборудование

    • предотвратить несчастные случаи.

    Последний пункт особенно важен. Например, операторы на НПЗ получают в среднем около 1500 оповещений в день, то есть более одного оповещения в минуту. Это приводит к большей усталости для операторов, которые должны постоянно принимать немедленные решения о том, как платформа реагирует на данный сигнал. Однако платформа анализа может отфильтровывать вторичную информацию, и операторы могут затем сосредоточиться в основном на критических ситуациях. Это позволяет им лучше идентифицировать несчастные случаи и, возможно, несчастные случаи. В результате повышается надежность производства, безопасность труда, наличие технологического оборудования и соблюдение требований законодательства.

    Кроме того, на основе результатов анализа больших данных можно рассчитать сроки амортизации оборудования, перспективы изменения технологических условий и сокращения обслуживающего персонала или принять стратегические решения относительно дальнейшего развития компания.

    Однако помимо этих преимуществ есть и недостатки. Многие ученые выделили слабые стороны этого метода. Критика Д. Бойда и К. Кроуфа была принята во внимание. Они выделили следующие недостатки Большой даты [6]:

    • иллюзия объективности, так как интерпретация найденных моделей находится в центре разработки, которая носит субъективный характер;

    • данных не всегда много - лучше, они могут не касаться изучаемого предмета, также в огромном количестве информации не может быть корреляций;

    • вне контекста собранные данные могут потерять свое значение;

    • наличие и накопление шума в данных, что искажает их смысл;

    • при большом объеме информации расчет корреляций может быть сильно искажен;

    • сопутствующая эндогенность;

    • ошибки измерения и репрезентативности, то есть программа может определить неправильный алгоритм, поэтому данные будут недействительными.

    Однако эти проблемы существуют при традиционных формах измерения общественного мнения. Эти вопросы не важны для изучения микрогрупп или небольших сообществ, и при этом нет необходимости изучать большие данные. Помимо технических проблем выделяется ряд этических вопросов, решение которых более проблематично. Их можно разделить на следующие группы [6]:

    1) нарушение конфиденциальности;

    2) мониторинг поведения сети как в прошлом, так и в реальном времени;

    3) Конфиденциальность данных для некоторых групп населения.

    По этой причине некоторые исследователи считают, что большие данные должны быть доступны только каждому, что также повышает информационную грамотность как теоретиков-исследователей, так и общественности. Взаимодействие больших данных с высококачественными методами исследования общественного мнения в настоящее время является наиболее эффективным. Потому что, анализируя только статистические данные, нельзя с уверенностью сказать, что является зависимой переменной, а что - независимой. Или, может быть, есть третий фактор, который влияет на изменение двух других параметров.

    Следовательно, необходимо качественное дополнение к данным, которые мы можем получить путем анализа больших данных _0_. Если вы сравните большие данные с традиционными методами, вы можете выделить несколько основных отличий [6]:

    1) большие данные генерируются без вмешательства человека, что невозможно при традиционной обработке данных;

    2) они часто соотносятся с новыми источниками данных, то есть данные могут быть получены в прошлом и в реальном времени;

    3) Большие источники данных не были созданы как удобные для пользователя.

    Таким образом, большие наборы данных оптимизируют сбор данных, сокращают время и ресурсы, необходимые для того, что в настоящее время очень важно. Кроме того, при работе с большим количеством информации традиционные методы не всегда эффективны, потому что [6]:

    1) информация может находиться в разных хранилищах;

    2) часто отсутствие структуры данных;

    3) информация постоянно обновляется.

    Следовательно, термин «большие данные» появился в социологии сравнительно недавно, но он уже популярен и является объектом пристального внимания ученых.

    Некоторые видят в них угрозу для эмпирической социологии, но они скорее помощники и облегчают получение информации об обществе и происходящих там процессах. Большие данные имеют несколько преимуществ [1]:

    • автоматическая регистрация поведения, то есть генерируется без вмешательства человека и минимизирует влияние человеческого фактора;

    • отсутствие случайных выборок и непосредственная работа с населением, постоянный сбор информации, включая возможность получить информацию из прошлого и новых источников данных;

    • возможность быстрой обработки.

    Если мы сравним преимущества и недостатки этого метода, его преимущества пересекаются с негативными аспектами. Однако для исследования общественного мнения более ошибочно использовать только «Большую дату», так как рекомендуется исследовать комбинацию количественных и качественных методов, которые обеспечивают более репрезентативные данные.

    Хранение больших данных не всегда приносит пользу. Хранение огромного количества данных, описывающих некоторые легко наблюдаемые события, не всегда приводит к полезному пониманию реальности. Это также относится к анализу запасов, каналов Twitter, медицинских данных, данных CRM или мониторингу комплекса оборудования для диагностических служб.

    Допустим, надежный список потенциальных покупателей товаров, а также демографическая информация и информация о чистой стоимости товаров для поставщиков могут быть гораздо более ценными, чем огромное количество данных о кликах на различных веб-сайтах интернет-магазинов. При мониторинге работы электростанций было обнаружено, что наблюдение за определенной информацией и изменениями, которые происходят с некоторыми параметрами (или их комбинациями), более информативно для последующего представления, чем мониторинг тысяч параметров потока данных в секунду.

    Скорость обновления данных и «текущий» временной интервал. Например, для поставщиков аксессуаров для дома было бы более важно получить «сигнал» за месяц или два до покупки дома, чем информацию в режиме реального времени после покупки, когда потенциальный клиент ищет аксессуары на различных веб-сайтах.
    Выводы. 
    Анализ больших данных - достаточно сложная задача, требующая специальных инструментов и навыков обработки. Они основаны на математических алгоритмах, теории вероятностей и многих других инструментах, которые, если их применять к большим данным, могут принести больше плода тем, кто не проигнорировал это относительно новое явление в информационном пространстве в Интернете. Учитывая быстрый рост объема больших данных, можно смело предположить, что научные области, связанные с их анализом, не потеряют актуальности в ближайшем будущем.

    К сожалению, пока, по мнению экспертов, Россия отстает от ведущих стран мира в применении технологий больших данных примерно на 3-5 лет. Причины этого отставания - низкий уровень автоматизации, фрагментация собранных данных, недостаточное количество реальных проектов. Используемые на Западе технологии не всегда могут быть адаптированы к российским реалиям. Кроме того, существует явная нехватка специалистов по Big Data.

    Для внедрения технологий больших данных требуется не только техническая, но и организационная поддержка. Первое касается организации извлечения данных, хранения данных, стандартизированных рабочих станций для анализа, цифрового моделирования, оптимизации и прогнозирования. Вторая область потребует формирования соответствующих квалификаций в секторе больших данных. Специалисты с новой квалификацией «Инженеры данных», «Data Scientist» необходимы для моделирования, оптимизации и прогнозирования. Кроме того, потребуются обучающие курсы для техников Big Data, специалистов по планированию и бизнес-менеджеров.

    Однако потенциал российского рынка больших данных огромен, и темпы его развития в ближайшие годы будут в несколько раз выше, чем на мировом рынке.

    Литература


    1. Горелова А. А. Большие данные и направления их использования в маркетинге // Актуальные проблемы гуманитарных и естественных наук. - 2017. - № 4-2. - С. 11-16.

    2. Иванов П.Д., Вампилов В.Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: Наука и инновации, 2014. Вып. 8.

    3. Медетов А.А. Термин Big Data и способы его применения // Молодой ученый, 2016. - № 11. - С. 207-210.

    4. Одинцов А. В. Социология общественного мнения и вызов Big Data // Мониторинг общественного мнения: Экономические и социальные перемены. - 2017. - № 3. - С. 30-43.

    5. Смирнов В. Новые компетенции социолога в эпоху больших данных // Мониторинг общественного мнения: Экономические и социальные перемены. - 2015. № 2. - С. 44-54.

    6. Большие данные (Big_Data).// Википедия, 2020. [Электронный ресурс]. Режим доступа: http://ru. (дата обращения: 14.02.2020).


    написать администратору сайта