през2. Понятие больших данных и области применения 15 Большие данные (Big Data, биг дата)
Скачать 6.84 Mb.
|
Введение в большие данные Выполнил| Балмакаев Т.М Введение 2 https://www.slanecartoon.com/-/galleries/privacy-1/-/medias/f882b7b9-5893-4572-99f1-1c17c7ebbe81-data-mine/share Понятие больших данных и области применения 15 Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределено анализировать информацию. Понятие больших данных и области применения 16 Клиффорд Линч, 2008 Business Intelligence 17 Business Intelligence = BI = Бизнес – аналитика (rus) — это набор IT-технологий для сбора, хранения и анализа данных, позволяющих предоставлять пользователям достоверную аналитику в удобном формате, на основе которой можно принимать эффективные решения для управления бизнес-процессами компании. Разница подходов 18
Функции и задачи больших данных 19 Правило VVV — три признака или свойства, которыми большие данные должны обладать:
Функции и задачи больших данных 20
Источники больших данных 21
Принципы функционирования систем больших данных 22
Что можно сделать с помощью больших данных? 23 Предсказать победителя Оскара! Что можно сделать с помощью больших данных? 24 Найти военную базу НАТО Что можно сделать с помощью больших данных? 25 Диагностировать беременность Области применения технологий больших данных 26 Анализ данных опросов: - Мониторинг общественного мнения и анализ социально- экономической ситуации - Определение проблем, формирующих кризисную ситуацию - Анализ реакции населения на внедрение различных федеральных и региональных программ - Анализ экономического положения и уровня жизни населения Области применения технологий больших данных 27 Предвыборные исследования - Анализ эффективности политической рекламы - Анализ средств массовой информации - Выявление наиболее эффективных средств влияния на мнения различных групп избирателей - Диагностика предвыборной ситуации - Анализ основных проблем избирателей Области применения технологий больших данных 28 Общественная безопасность - Анализ преступности - Отслеживание уровня рецидивизма Области применения технологий больших данных 29 Образование - Планирование школьных округов - Отслеживание успеваемости учащихся, выявление факторов способствующих повышению успеваемости - Администрирование - контроль за уровнем выполнения обязательных программ и тестов. Области применения технологий больших данных 30 Трудоустройство - Анализ рынка труда - понимание состава и структуры рабочей силы - Анализ заявлений о приеме на работу - разработка профилей претендентов. Области применения технологий больших данных 31 Анализ прибыли - Оценка соответствия размеров уплаченных налогов и имущества - Анализ мошенничеств Области применения технологий больших данных 32 Здравоохранение - Отслеживание болезней и создание отчетов о случаях заболеваний - Эпидемиология - выявление причин заболеваний и территории их распространения, а также контроль заболеваемости - Медицинская помощь - определение профилей тех, кому часто требуется медицинская помощь - Профилактика - выявление групп риска и необходимости медицинского вмешательства. Области применения технологий больших данных 33 Окружающая среда - Анализ экосистем - выяснение факторов, влияющих на здоровье экосистемы - Оценка качества воды/воздуха - осуществление контроля за соответствием качества вод или воздуха имеющимся стандартам. Области применения технологий больших данных 34 Транспорт - Планирование наиболее эффективных маршрутов для лучшей организации транспортных и пассажирских потоков - Создание отчетов о дорожных происшествиях для выяснения факторов, влияющих на происшествия - Моделирование программ поддержания надлежащего состояния дорожного покрытия, прогнозирование возможного ремонта дорог. Области применения технологий больших данных 35 Стратегическое планирование - Анализ удовлетворенности клиентов и изучения изменений потребностей общественности - Оценка программ - понимание факторов успешной реализации программы - Профилирование населения - более эффективное направление действия программы на определенные слои населения - Анализ затрат - выявления наиболее эффективных программ - Анализ результатов выполнения программ Технологии больших данных в маркетинге 40
Большие данные в бизнесе 36 Поставщики инфраструктуры — решают задачи хранения и предобработки данных. Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения. Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента. Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов. Поисковые системы 37 Выгоды использования Big Data в бизнесе 38
Драйверы и ограничители Big Data в России 39
Сервисы Big Data 41 «1С-Битрикс BigData» Сервисы Big Data 42 RTB Media Сервисы Big Data 43 Alytics Сервисы Big Data 44 Crossss Технологии Больших данных: 45
Методы и техники анализа Больших данных 46 Основными методами и техниками анализа, применимыми к Большим данным, являются следующие:
Data Mining Data Mining 48 Data Mining – это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году. Data Mining 49 Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных Модели представления знаний Data Mining 50 Обзор существующих методов Data Mining 51
Свойства методов Data Mining 52
Свойства методов Data Mining 53 Классификация методов Data Mining 54 Подход к обучению математических моделей Data Mining 55 Статистические методы Data Mining Кибернетические методы Data Mining Классификация по задачам 56 Описательные методы Прогнозирующие методы Мнение экспертов о Data Mining 57 Aberdeen Group: " Data Mining - технология добычи полезной информации из баз данных. Однако в связи с существенными различиями между инструментами, опытом и финансовым состоянием поставщиков продуктов, предприятиям необходимо тщательно оценивать предполагаемых разработчиков Data Mining и партнеров. Herb Edelstein: «Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается». Проблемы, ограничения и критические вопросы Data Mining 58
Перспективы технологии Data Mining 59 • выделение типов предметных областей с соответствующими им эвристиками, формализация которых облегчит решение соответствующих задач Data Mining, относящихся к этим областям; • создание формальных языков и логических средств, с помощью которых будут формализованы рассуждения и автоматизация которых станет инструментом решения задач Data Mining в конкретных предметных областях; • создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные ; • преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области Data Mining Области, где применения технологии Data Mining, скорее всего, будут успешными, имеют такие особенности: - требуют решений, основанных на знаниях ; - имеют изменяющуюся окружающую среду; - имеют доступные, достаточные и значимые данные ; - обеспечивают высокие дивиденды от правильных решений. 60 Data Mining 61 Международная конференция по Knowledge Discovery Data Mining (International Conferences on Knowledge Discovery and Data Mining). Среди наиболее известных WWW-источников - сайт www.kdnuggets.com , который ведет один из основателей Data Mining Григорий Пиатецкий-Шапиро. Периодические издания по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM-TODS, IEEE-TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence. Материалы конференций: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory). Краудсорсинг Краудсорсинг 63 Краудсорсинг — привлечение к решению какой-либо проблемы большой группы людей В 2003 году Луис фон Ах (Luis von Ahn) вместе со своими коллегами впервые предложил понятие "человеческих вычислений в 2006 году термин "Краудсорсинг" (crowdsourcing) был сформулирован редактором журнала "Wired" Джеффом Хау (Jeff Howe) Краудсорсинг 64 Краудсорсинг - это мобилизация ресурсов людей посредством информационных технологий с целью решения задач, стоящих перед бизнесом, государством и обществом в целом. Классификация Краудсорсинга* 65 I. По сфере жизни (бизнес, социальный, политический) II. По типу решаемых задач (создание продукта (контента), голосование, поиск решения, поиск людей, сбор информации, сбор мнений, тестирование, служба поддержки, сбор средств - Краудфандинг). Классификация Краудсорсинга* *http://crowdsourcing.ru/article/what_is_the_crowdsourcing Классификация Краудсорсинга 66 По сфере жизни:
2) Социальный или общественный 3) Политический или государственный Классификация Краудсорсинга 67 По типу решаемых задач:
99designs, TopCoder, Witmart, Tongal, Audiodraft 2) Голосование 3) Поиск решения Kaggle, CrowdFlower, InnoCentive, Academy of Ideas, Wazoku 4) Поиск людей, например - Liza Alert 5) Сбор информации, например - Zooniverse 6) Сбор мнений, например - Chaordix, Innopinion и AnswerTap 7) Тестирование, например uTest, 8) Сбор средств - Краудфандинг Преимущества Краудсорсинга 68 1) Большой охват 2) Вовлечение пользователей 3) Разнообразие выбора 4) Единственно возможный вариант 5) Фиксированные сроки 6) Экономия финансовых ресурсов Краудсорсинг в России 69 СПАСИБО ЗА ВНИМАНИЕ! |