Главная страница

през2. Понятие больших данных и области применения 15 Большие данные (Big Data, биг дата)


Скачать 6.84 Mb.
НазваниеПонятие больших данных и области применения 15 Большие данные (Big Data, биг дата)
Анкорasdasdasdasdzxczczxc
Дата28.04.2023
Размер6.84 Mb.
Формат файлаpptx
Имя файлапрез2.pptx
ТипАнализ
#1095661

Введение в большие данные

Выполнил| Балмакаев Т.М

Введение

2

https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share

Понятие больших данных и области применения

15

Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределено анализировать информацию.

Понятие больших данных и области применения

16

Клиффорд Линч, 2008

Business Intelligence

17

Business Intelligence = BI = Бизнес – аналитика (rus) — это набор IT-технологий для сбора, хранения и анализа данных, позволяющих предоставлять пользователям достоверную аналитику в удобном формате, на основе которой можно принимать эффективные решения для управления бизнес-процессами компании.

Разница подходов

18

Традиционная аналитика

Big data аналитика

Постепенный анализ небольших пакетов данных

Обработка сразу всего массива доступных данных

Редакция и сортировка данных перед обработкой

Данные обрабатываются в их исходном виде

Старт с гипотезы и ее тестирования относительно данных

Поиск корреляций по всем данным до получения искомой информации

Данные собираются, обрабатываются, хранятся и лишь затем анализируются

Анализ и обработка больших данных в реальном времени, по мере поступления

Функции и задачи больших данных

19

Правило VVV — три признака или свойства, которыми большие данные должны обладать:
  • Volume – объем
  • Velocity – скорость
  • Variety - многообразие

Функции и задачи больших данных

20

Функция

Задача

Big Data — собственно массивы необработанных данных

Хранение и управление большими объемами постоянно обновляющейся информации

Data mining — процесс обработки и структуризации данных, этап аналитики для выявления закономерностей

Структурирование разнообразных сведений, поиск скрытых и неочевидных связей для приведения к единому знаменателю

Machine learning — процесс машинного обучения на основе обнаруженных связей в процессе анализа

Аналитика и прогнозирование на основе обработанной и структурированной информации

Источники больших данных

21
  • Интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (IoT).
  • Корпоративные данные — транзакционная деловая информация, архивы, базы данных.
  • Показания устройств — датчиков, приборов, а также метеорологические данные, данные сотовой связи и т.д. -

Принципы функционирования систем больших данных

22
  • Горизонтальная масштабируемость
  • Отказоустойчивость
  • Локальность данных

Что можно сделать с помощью больших данных?

23

Предсказать победителя Оскара!

Что можно сделать с помощью больших данных?

24

Найти военную базу НАТО

Что можно сделать с помощью больших данных?

25

Диагностировать беременность

Области применения технологий больших данных

26

Анализ данных опросов:

- Мониторинг общественного мнения и анализ социально-

экономической ситуации

- Определение проблем, формирующих кризисную ситуацию

- Анализ реакции населения на внедрение различных федеральных и

региональных программ

- Анализ экономического положения и уровня жизни населения

Области применения технологий больших данных

27

Предвыборные исследования

- Анализ эффективности политической рекламы

- Анализ средств массовой информации

- Выявление наиболее эффективных средств влияния на мнения

различных групп избирателей

- Диагностика предвыборной ситуации

- Анализ основных проблем избирателей

Области применения технологий больших данных

28

Общественная безопасность

- Анализ преступности

- Отслеживание уровня рецидивизма

Области применения технологий больших данных

29

Образование

- Планирование школьных округов

- Отслеживание успеваемости учащихся, выявление факторов

способствующих повышению успеваемости

- Администрирование - контроль за уровнем выполнения

обязательных программ и тестов.

Области применения технологий больших данных

30

Трудоустройство

- Анализ рынка труда - понимание состава и структуры рабочей силы

- Анализ заявлений о приеме на работу - разработка профилей претендентов.

Области применения технологий больших данных

31

Анализ прибыли

 - Оценка соответствия размеров уплаченных налогов и имущества

- Анализ мошенничеств

Области применения технологий больших данных

32

Здравоохранение

- Отслеживание болезней и создание отчетов о случаях заболеваний

- Эпидемиология - выявление причин заболеваний и территории их

распространения, а также контроль заболеваемости

- Медицинская помощь - определение профилей тех, кому часто

требуется медицинская помощь

- Профилактика - выявление групп риска и необходимости

медицинского вмешательства.

Области применения технологий больших данных

33

Окружающая среда

- Анализ экосистем - выяснение факторов, влияющих на здоровье

экосистемы

- Оценка качества воды/воздуха - осуществление контроля за

соответствием качества вод или воздуха имеющимся стандартам.



Области применения технологий больших данных

34

Транспорт

- Планирование наиболее эффективных маршрутов для лучшей

организации транспортных и пассажирских потоков

- Создание отчетов о дорожных происшествиях для выяснения

факторов, влияющих на происшествия

- Моделирование программ поддержания надлежащего состояния

дорожного покрытия, прогнозирование возможного ремонта дорог.

Области применения технологий больших данных

35

Стратегическое планирование

- Анализ удовлетворенности клиентов и изучения изменений потребностей общественности

- Оценка программ - понимание факторов успешной реализации программы

- Профилирование населения - более эффективное направление действия программы на определенные слои населения

- Анализ затрат - выявления наиболее эффективных программ

- Анализ результатов выполнения программ

Технологии больших данных в маркетинге

40
  • Создание точных портретов целевых потребителей.
  • Предсказание реакции потребителей на маркетинговые сообщения.
  • Максимальная персонализация рекламных сообщений.
  • Увеличение кросс-продаж, повторных продаж, ремаркетинга.
  • Поиск и определение причин популярности востребованных товаров и продуктов.
  • Совершенствование продуктов и услуг, повышение лояльности клиентов.
  • Повышение качества обслуживания.
  • Предупреждение мошенничества.
  • Снижение издержек в работе с поставщиками и клиентами.

Большие данные в бизнесе

36

Поставщики инфраструктуры — решают задачи хранения и предобработки данных.

Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения.

Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента.

Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.

Поисковые системы

37

Выгоды использования Big Data в бизнесе

38
  • Упрощается планирование.
  • Увеличивается скорость запуска новых проектов.
  • Повышаются шансы проекта на востребованность.
  • Можно оценить степень удовлетворенности пользователей.
  • Проще найти и привлечь целевую аудиторию.
  • Ускоряется взаимодействие с клиентами и контрагентами.
  • Оптимизируются интеграции в цепи поставок.
  • Повышается качество клиентского сервиса, скорость взаимодействия.
  • Повышается лояльность текущих клиентов.

Драйверы и ограничители Big Data в России

39

Драйверы

Ограничители

Высокий спрос на Big Data для повышения конкурентоспособности с помощью возможностей технологий

Необходимость обеспечивать безопасность и конфиденциальность данных

Развитие методов обработки медиафайлов на мировом уровне

Нехватка квалифицированных кадров

Реализация отраслевого плана по импортозамещению программного обеспечения

В большинстве российских компаний объем накопленных информационных ресурсов не достигает уровня Big Data

Тренд на использование услуг российских провайдеров и системных интеграторов

Новые технологии сложно внедрять в устоявшиеся информационные системы компаний

Создание технопарков, которые способствуют развитию информационных технологий

Высокая стоимость технологий

Государственная программа по внедрению грид-систем — виртуальных суперкомпьютеров, которые распространяются по кластерам и связываются сетью

Заморозка инвестиционных проектов в России и отток зарубежного капитала

Перенос на территорию России серверов, которые обрабатывают персональную информацию

Рост цен на импортную продукцию

Сервисы Big Data

41

«1С-Битрикс BigData»

Сервисы Big Data

42

RTB Media

Сервисы Big Data

43

Alytics

Сервисы Big Data

44

Crossss

Технологии Больших данных:

45
  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Python;
  • Аппаратные решения.

Методы и техники анализа Больших данных

46

Основными методами и техниками анализа, применимыми к Большим данным, являются следующие:
  • Методы класса Data Mining
  • Краудсорсинг
  • Смешение и интеграция данных
  • Машинное обучение
  • Визуализация аналитических данных

Data Mining

Data Mining

48

Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Термин введён

Григорием Пятецким-Шапиро

в 1989 году.

Data Mining

49

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистикараспознавание образовискусственный интеллект, теория баз данных

Модели представления знаний Data Mining

50

Обзор существующих методов Data Mining

51
  • искусственные нейронные сети
  • деревья решений, символьные правила
  • методы ближайшего соседа и k-ближайшего соседа
  • метод опорных векторов
  • байесовские сети
  • линейная регрессия
  • корреляционно-регрессионный анализ
  • иерархические методы кластерного анализа
  • неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
  • эволюционное программирование и генетические алгоритмы
  • метод ограниченного перебора
  • эволюционное программирование и генетические алгоритмы
  • разнообразные методы визуализации данных и множество других методов.

Свойства методов Data Mining

52
  • точность
  • масштабируемость
  • интерпретируемость
  • проверяемость
  • трудоемкость
  • гибкость
  • быстрота
  • популярность

Свойства методов Data Mining

53

Классификация методов Data Mining

54

Подход к обучению математических моделей Data Mining

55

Статистические методы Data Mining

Кибернетические методы Data Mining

Классификация по задачам

56

Описательные методы

Прогнозирующие методы

Мнение экспертов о Data Mining

57

Aberdeen Group: Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров.

Herb Edelstein: «Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается».

Проблемы, ограничения и критические вопросы Data Mining

58
  • Data Mining не может заменить аналитика
  • Сложность разработки и эксплуатации приложения Data Mining
  • Квалификация пользователя
  • Извлечение полезных сведений невозможно без хорошего понимания сути данных
  • Сложность подготовки данных
  • Большой процент ложных, недостоверных или бессмысленных результатов
  • Высокая стоимость
  • Наличие достаточного количества репрезентативных данных



Перспективы технологии Data Mining

59

• выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям;

• создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях;

• создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные ;

• преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области

Data Mining

Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют такие особенности:

- требуют решений, основанных на знаниях ;

- имеют изменяющуюся окружающую среду;

- имеют доступные, достаточные и значимые данные ;

- обеспечивают высокие дивиденды от правильных решений.

60

Data Mining

61

Международная конференция по Knowledge Discovery Data Mining (International Conferences on Knowledge Discovery and Data Mining).

Среди наиболее известных WWW-источников - сайт www.kdnuggets.com , который ведет один из основателей Data Mining Григорий Пиатецкий-Шапиро.

Периодические издания по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM-TODS, IEEE-TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence.

Материалы конференций: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory).

Краудсорсинг

Краудсорсинг

63

Краудсорсинг — привлечение к решению какой-либо проблемы большой группы людей

В 2003 году Луис фон Ах (Luis von Ahn) вместе со своими коллегами впервые предложил понятие "человеческих вычислений

в 2006 году термин "Краудсорсинг" (crowdsourcing) был сформулирован редактором журнала "Wired" Джеффом Хау (Jeff Howe)

Краудсорсинг

64

Краудсорсинг - это мобилизация ресурсов людей посредством информационных технологий с целью решения задач, стоящих перед бизнесом, государством и обществом в целом.

Классификация Краудсорсинга*

65

I. По сфере жизни (бизнес, социальный, политический)

II. По типу решаемых задач (создание продукта (контента), голосование, поиск решения, поиск людей, сбор информации, сбор мнений, тестирование, служба поддержки, сбор средств - Краудфандинг).

Классификация Краудсорсинга*

*http://crowdsourcing.ru/article/what_is_the_crowdsourcing

Классификация Краудсорсинга

66

 По сфере жизни:
  • Бизнес

  • 2) Социальный или общественный

    3) Политический или государственный

Классификация Краудсорсинга

67

 По типу решаемых задач: 
  • Создание продукта (контента)

  • 99designs, TopCoder,  Witmart,  Tongal, Audiodraft

    2) Голосование

    3) Поиск решения

     KaggleCrowdFlowerInnoCentiveAcademy of Ideas, Wazoku

    4) Поиск людей, например - Liza Alert

    5) Сбор информации, например - Zooniverse

    6) Сбор мнений, например -  ChaordixInnopinion и AnswerTap

    7) Тестирование, например  uTest,

    8) Сбор средств - Краудфандинг

Преимущества Краудсорсинга

68

1) Большой охват

2) Вовлечение пользователей

3) Разнообразие выбора

4) Единственно возможный вариант

5) Фиксированные сроки

6) Экономия финансовых ресурсов

Краудсорсинг в России

69

СПАСИБО ЗА ВНИМАНИЕ!


написать администратору сайта