Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных
Скачать 2.95 Mb.
|
2.1. Data Mining /Data Science Существующие массивы данных не только характеризуются значи- тельным объемом и регулярной пополняемостью, но и содержат порой преимущественно тривиальные (неактуальные, ошибочные и т.п.) эле- менты. Процесс поиска в этих данных чего-то ценного стал сравним с работой на горнорудных предприятиях, где в многотонных завалах руды осуществляется поиск (добыча) драгоценных металлов или кам- ней, полезный выход которых может исчисляться граммами. Учиты- вая сходную трудоемкость процесса «добычи» (англ. mining) знаний из «завалов» данных термин закрепился и для области Data Mining. Для Data Mining могут быть даны различные определения, не претендующие на исключительную полноту. Data Mining – это: 1) процесс обнаружения в базах данных нетривиальных и прак- тически полезных закономерностей [5]; 2) процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (паттернов) с целью достижения преимуществ в бизнесе [34]; 3) процесс, цель которого – обнаружить новые значимые корре- ляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов и других статистических и математических методов [19]; 4) исследование и обнаружение «машиной» (алгоритмами, сред- ствами искусственного интеллекта) в «сырых» данных скрытых знаний, которые ранее не были известны, нетривиальны, практиче- ски полезны, доступны для интерпретации человеком [53]; 5) процесс обнаружения полезных знаний о бизнесе [45]. Интеллектуальный анализ данных 16 Поэтому для более глубокого понимания сути явления Data Mining только какого-либо одного определения не вполне доста- точно. Под Data Mining (наиболее устоявшаяся аналогия в русском языке, и все-таки не прямой перевод, – интеллектуальный анализ данных; по-видимому, это более широкий термин) понимают сово- купность методов обнаружения в данных таких знаний, которые обязательно обладают следующими свойствами: – ранее неизвестные, неожиданные; – практически полезные; – доступные для интерпретации; – необходимые для принятия решений в различных сферах че- ловеческой деятельности. В более широком смысле под Data Mining понимают концепцию анализа данных, предполагающую, что: – данные могут быть неточными, неполными (содержать про- пуски), противоречивыми, разнородными, косвенными и при этом иметь гигантские объемы; поэтому понимание данных в кон- кретных приложениях требует значительных интеллектуальных усилий; – сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности способностью обучаться по прецедентам, т.е. делать общие выводы на основе частных наблюдений; разра- ботка таких алгоритмов также требует значительных интеллекту- альных усилий; – процессы переработки сырых данных в информацию, а ин- формации в знания уже не могут быть выполнены по старинке «вручную» и требуют порой нетривиальной автоматизации. Data Mining – мультидисциплинарная область, возникшая и раз- вивающаяся на базе достижений прикладной математической стати- стики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 6). Иногда отмечают иной характер мультидисциплинарности Data Mining – это объединение компью- терных наук (англ. Computer Science), математики (англ. Mathemat- ics) и представлений о предметной области (англ. Domain Expertise) (рис. 7). В этом случае компьютерные науки описывают среду 2. Терминология 17 создания информационных продуктов (англ. data products), матема- тика выстраивает теоретическую основу для решения поставлен- ных проблем, а представление о предметной области позволяет по- нять реальность, в которой существует проблемная ситуация. Рис. 6. Иллюстрация Data Mining как междисциплинарной области Рис. 7. Иллюстрация Data Mining как междисциплинарной области Data Mining Распознавание образов Визуализация данных Экспертные системы Информационн ый поиск Оперативная аналитическая обработка Теория баз данных Хранилища данных Эффективные вычисления Статистика Нейросети Искусственный интеллект Нейрокомпьютерные вычисления Data Mining Машинное обучение Статистика Теория информации Распознавание образов Базы данных Методы оптимизации KDD Интеллектуальный анализ данных 18 Именно включение предметной области как междисциплинар- ной компоненты Data Mining существенно осложняет практическую интеллектуальную работу в этой сфере, требуя от специалиста (Data Scientist) при решении каждой конкретной задачи анализа данных до- статочно глубокого погружения в новую, незнакомую ему область человеческой деятельности. Однако очевидно, что без такого погру- жения сложно найти эффективные решения существующих проблем. Следует отметить еще одну важную отличительную особенность Data Mining. Вычислительная сложность многих традиционных ме- тодов математической статистики или технологий БД определяется как O(n 2 ), или (n 3 ), где n – объем исходных данных. Однако при сверхбольших объемах данных (превышающих порой несколько миллионов записей), характерных для современного этапа развития отрасли ИКТ, непосредственное применение таких традиционных методов обработки данных крайне затруднительно даже на самой современной мощной вычислительной технике. Учитывая эту осо- бенность, Data Mining предполагает создание и развитие специали- зированных алгоритмов, характеризующихся значительно более высокой вычислительной эффективностью (O(n), O(log n) и т.п.), достигаемой, например, за счет поиска приближенного результата (эвристики) без существенной потери точности. 2.2. Big Data Анализ терминологии, достаточно полно описывающей область Data Mining, позволяет отметить, что в ней часто в схожем контек- сте применяется и такой термин, как Big Data (рус. большие дан- ные). При этом широта его употребления специалистами и неспеци- алистами порой затрудняет однозначное толкование этого термина, в особенности учитывая обсуждение деталей понятия Data Mining выше. Как же следует понимать Big Data? Ежедневно в мире создается более 5 эксабайтов 1 информации. В 2012 г. в мире было сгенерировано около 2,43 Зеттабайт (1 ЗБ – 1 Единица измерения, равная 10 18 , или 2 60 , байт. 2. Терминология 19 около 1 млрд Гб), что более чем в 2 раза превосходит объем инфор- мации в цифровом виде в 2010 г. (1,2 ЗБ). К 2020 г. информацион- ные системы имеют дело с количеством данных, равным 40 ЗБ (при- мерно в 57 раз большим, чем количество песчинок на пляжах всей поверхности Земли). Очевидно, появление и активное тиражирова- ние термина Big Data во многом вызвано сопровождением этого объективного процесса накопления сверхбольших объемов данных. Действительно, обеспечивать соответствие возможностей ИКТ- инфраструктуры, предназначенной лишь для надежного хранения стремительно растущих объемов накапливаемых данных, не говоря уже о возможностях их интеллектуальной обработки, – непростая и дорогостоящая задача. Это означает перспективы формирования и развития рынка Big Data со значительной финансовой емкостью. Аналитики отмечают, что мировой рынок Big Data (технологий и сервисов для обработки данных) в ближайшие годы будет расти в среднем на 13,2% в год и к 2022 г. вырастет до 274,3 млрд долл. Целесообразно отметить, что основным драйвером продвижения термина Big Data во многом являются рыночные законы марке- тинга 1 . Они позволяют привлечь к проблеме внимание не только ученых, но и государства и бизнеса, и предусмотреть в бюджетах компаний средства на развитие этих технологий (в первую очередь – именно аппаратной ИКТ-инфраструктуры, что объясняет не столь высокую популярность термина Data Mining,связанного больше со специализированным алгоритмическим и программным обеспече- нием интеллектуальной обработки данных). Именно поэтому порой дискуссия о границах того, что является «действительно» «боль- шими данными», а что уже не является, сводится к тому, насколько дорогостоящая инфраструктура требуется для их поддержки 2 1 Именно они, главным образом, «реанимировали» традиционные технологии web- хостинга в виде популярных сегодня облачных сервисов и способствуют развитию суперкомпьютерной тематики, регулярно продвигая различные рейтинги мощно- сти суперкомпьютеров в мире. 2 Например, по этой логике компания Google или исследовательский коллайдер CERN, конечно, работают в концепции Big Data, а вот все менее масштабные пред- приятия – сомнительно… Интеллектуальный анализ данных 20 2.2.1. Основные понятия Рассмотрим некоторые наиболее типичные определения и тол- кования термина Big Data [56]: – данные очень большого объема; – область управления и анализа больших объемов данных; – область управления и анализа больших объемов данных, представленных (в отличие от реляционных БД) в слабоструктури- рованных форматах (веб-журналы, видеозаписи, текстовые доку- менты, машинный код или, например, геопространственные данные и т.п.); – область работы с информацией огромного объема и разно- образного состава, весьма часто обновляемой и находящейся в разных источниках, в целях увеличения эффективности деятель- ности, создания новых продуктов и повышения конкурентоспо- собности; – область, объединяющая техники и технологии, которые из- влекают смысл из данных на экстремальном пределе практично- сти; – постоянно растущий объем информации, поступающей в опе- ративном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используе- мых для обработки данных и выявления на их основе важных биз- нес-тенденций; – наборы данных, превосходящие возможности традицион- ных программно-аппаратных инструментов оперирования дан- ными (например, в случае, когда параметры набора данных превосходят возможности обработки стандартными средствами MS Excel). Очевидно, и данный набор понятий не позволит совершенно четко определить, где построить границу между «действительно» «большими данными» и «просто данными». Сравнительно большой объем данных не всегда можно по умолчанию отнести к сфере Big Data,так как возможности их анализа зависят не только от объема данных, но и от вычислительной сложности задачи (очевидно, 2. Терминология 21 трудно сравнивать по сложности задачу расчета стандартных стати- стик и задачу построения комплексной оптимизационной модели). Поэтому более интересным выглядит предложение под ‘Big’ в Big Data понимать не какой-то конкретный физический объем данных или другие количественные показатели, а рассматривать это как «важные», «ключевые» данные [6]. 2.2.2. Свойства Big Data Дополнительное понимание термину Big Data придают 4 свой- ства, кратко сформулированные по четырем английским словам 1 , начинающимся на букву ‘V’ латинского алфавита: – Volume – отражает значительный физический объем данных; – Variety – показывает существенное разнообразие типов дан- ных (например, структурированные, частично структурированные, неструктурированные, как текст, web-контент, мультимедиа, дан- ные), источников данных (внутренние, внешние, общественные) и их детальности; – Velocity – демонстрирует скорость, с которой данные созда- ются и обрабатываются; – Veracity – определяет варьируемый уровень помех и ошибок в данных. Как отмечено выше, свойство Volume часто наименее важное, и нет какого-либо обязательного требования к минимальному объему обрабатываемых данных в концепции Big Data. Существенно более высокой важностью обладают свойства Variety и Velocity. Так, свой- ство Variety может привносить особенно высокую ценность в дан- ные, скомбинированные из различных источников (например, корпоративные данные, данные социальных сетей и публичная информация), даже на небольших объемах. Наиболее важным является свойство Veracity, определяющее качество и корректность данных. 1 Four Vs (четыре буквы «V», по первым буквам использованных слов): объем, мно- гообразие, скорость, достоверность. Интеллектуальный анализ данных 22 2.3. Data Mining и Big Data В заключение терминологических пояснений, характеристик и свойств, описывающих области Data Mining и Big Data, сформули- руем более четко отличия одного термина от другого. Итак, наибо- лее корректным, во избежание путаницы между терминами, пред- ставляется целесообразным под Big Data здесь и далее понимать не- который актив 1 , который при умелом применении Data Mining (технологий, методов, способов) позволяет получить (извлечь) практически полезный результат (экономический эффект). 2.4. Дедукция и индукция В интеллектуальном анализе данных обсуждают два основных способа извлечения практически полезных знаний – дедуктивный (на основе некоторой априори сформулированной гипотезы, от об- щего – к частному) и индуктивный (на основе известных паттер- нов 2 , от частного – к общему). Дедуктивный подход к исследованию данных предполагает наличие некой сформулированной гипотезы, подтверждение или опровержение которой после анализа данных позволяет получить некоторые частные сведения. Индуктивный подход к исследованию данных позволяет сфор- мулировать (скорректировать существующую) гипотезу и найти с ее помощью новые пути аналитических решений. Для поиска значимых закономерностей порой требуется совмест- ное попеременное использование индуктивного и дедуктивного под- ходов, при этом формируется такая среда, в которой модели не нужно быть исключительно статической или эмпирической. Вместо этого модель непрерывно тестируется, модифицируется и улучшается до тех пор, пока не будет достаточно усовершенствована. 1 В международных стандартах бухгалтерской отчетности – ресурс компании, от которого компания в будущем ожидает экономической выгоды. 2 Например, некоторое нетривиальное утверждение о структуре данных, имеющихся закономерностях, зависимостях между атрибутами и т.п. 3. Примеры применения 23 3. ПРИМЕРЫ ПРИМЕНЕНИЯ 3.1. Интеллектуальный анализ данных в бизнесе Наибольший интерес к технологиям интеллектуальной обра- ботки данных в первую очередь проявляют компании, работающие в условиях высокой конкуренции и имеющие четкую группу потре- бителей (розничная торговля, финансы, связь, маркетинг). Они ис- пользуют любую возможность для повышения эффективности собственного бизнеса через принятие более эффективных управ- ленческих решений. Такие компании пытаются найти связь между «внутренними» (цена, востребованность продукта, компетентность персонала и т.п.) и «внешними» (экономические показатели, конку- ренция, демография клиентов и т.п.) факторами. Это позволяет им оценивать (прогнозировать) уровень продаж и удовлетворенности клиентов, размер доходов, а также формулировать на основе сово- купности всей имеющейся информации практически полезные выводы и рекомендации. Иногда отдача от применения этих ин- струментов может составлять сотни процентов при сравнительно невысокой стоимости внедрения. При этом результатом обработки данных должен быть такой информационный продукт, который позволяет предпринять кон- кретное управленческое действие без избыточного «погружения» лица, принимающего решение (ЛПР), в детали базовых данных или промежуточной аналитики (например, дать рекомендации по по- купке / продаже на финансовом рынке, сформировать перечень ме- роприятий по увеличению производительности или маркетингу продукта и т.п.). Причем на практике возможна ситуация, при кото- рой какое-либо решение в той или иной части необходимо прини- мать обязательно – вопрос только в том, принимается оно на основе объективной информации или интуитивно. Извлечение своевременной и готовой непосредственно для принятия управленческих решений информации из различных Интеллектуальный анализ данных 24 источников предполагает создание некоторых информационных продуктов. Примерами таких информационных продуктов в биз- несе могут быть ответы на вопросы типа: – Какой из продуктов следует рекламировать больше для уве- личения прибыли? – Как следует усовершенствовать программу модернизации для уменьшения расходов? – Какой процесс производства изменить, чтобы сделать про- дукт лучше? Ключ к ответу на эти вопросы требует глубокого понимания имеющихся данных и их индуктивного 1 анализа. Рассмотрим некоторые примеры применения методов интеллек- туального анализа данных, используемых в бизнес-среде, которые подтверждают на практике возрастающую актуальность этой ин- теллектуальной сферы человеческой деятельности. 3.1.1. Розничная торговля Используя методы интеллектуального анализа данных, пункт розничной торговли (магазин) может фиксировать информацию обо всех покупках клиента и таргетированно 2 рассылать рекламные предложения своим клиентам на основе истории их покупок. Ана- лизируя демографическую информацию о клиентах, магазин может рекомендовать определенные товары и рекламные предложения для конкретного клиентского сегмента. Всемирно известная торговая сеть США WalMart – пионер ин- теллектуального анализ данных, примененного для модернизации взаимодействия с поставщиками. Компания WalMart проанализиро- вала транзакции 2 900 магазинов из шести стран, сформировав хранилище данных объемом 7,5 ТБ. При этом потребовалось выполнить более 1 млн сложных запросов к данным. Данные 1 То есть от частного к общему. 2 Таргетинг (англ. target – цель) – рекламный механизм, позволяющий выделить це- левую аудиторию для демонстрации ей рекламы. 3. Примеры применения 25 использованы для определения паттернов покупателей при совершен- ствовании мерчендайзинговых 1 стратегий для 3 500 поставщиков. Типовыми вопросами, на которые ищутся ответы при анализе данных в розничной торговле, являются: – Кто ваш покупатель? – Как сегментировать клиентов? – На какую целевую аудиторию сделать акцент? – Какие факторы влияют на решение о покупке? – Какова значимость каждого из факторов? – Какие товары предлагать в совместных акциях? – Какие существуют зависимости в поведении клиентов? – На какой объем спроса в будущем ориентироваться? |