Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных
Скачать 2.95 Mb.
|
3.1.2. Сфера развлечений Интересными могут быть примеры анализа данных в сфере раз- влечений. Например, компания по продаже контента для видеопро- смотра может анализировать историю пользовательских запросов и предлагать в соответствии с ними индивидуальные рекомендации. В Национальной баскетбольной ассоциации США традиционно используются инструменты анализа данных для оценки перемеще- ний игроков на площадке, помогая тренерам команд в тактической борьбе и выработке стратегий на игру. Еще в далеком 1995 г. такой анализ игры между New York Knicks и Cleveland Cavaliers позволил выявить, что защитник Mark Price позволил забить нападающему John Williams из команды соперника лишь один бросок из четырех, в то время как общая статистика за игру по этому показателю для Cavaliers была зафиксирована на уровне 49,30%. Учитывая, что ви- део всех игр сохраняется фрагментарно, тренер с легкостью может отыскать в большом видеомассиве данных любые интересующие моменты и проанализировать причину успеха или неудачи в кон- кретном игровом эпизоде без необходимости часами просматривать все видео в поисках нужного фрагмента. 1 Мерчендайзинг (англ. merchandising) – искусство сбыта. Интеллектуальный анализ данных 26 Хороший кейс применения методов интеллектуального анализа данных на заре развития этих подходов к спортивной индустрии показан в популярном фильме «Человек, который изменил все» («Moneyball») на примере игры в бейсбол. 3.1.3. Маркетинг, страхование, работа с персоналом Наиболее распространенными сегодня примерами использования инструментов Data Mining являются различные интернет-магазины и поисковые системы. Они на основе ретроспективных запросов пользователя определяют профиль его интересов, руководствуясь которым возможно предложить товары и услуги, которые с высокой степенью вероятности также могут заинтересовать пользователя. Многие сталкиваются сегодня с такими примерами в Google, Ama- zon, eBay и т.п. С расширением страхового рынка все большую актуальность ин- струменты анализа данных приобретают и для него. Эта сфера че- ловеческой деятельности всегда требовала использования матема- тических моделей оценки рисков. С развитием инструментов Data Mining появляются новые перспективные возможности оценки рис- ков на основе большей совокупности факторов, моделирования страховых убытков, исследования связи среднего уровня доходов территории и числа застрахованных, кластерного анализа в авто- страховании (например, для избегания случаев мошенничества), оценки распределения размеров убытков, прогнозирования доходов от продажи страховых полисов и др. Очевидно, инструменты интеллектуального анализа данных могли бы помочь специалистам кадровой службы любой компании. При этом примерами вопросов, на которые ищут ответы такие спе- циалисты, могут быть: – Каким требованиям должен удовлетворять соискатель? – Кто и как часто совершает ошибки? – Сколько компания теряет из-за ошибок сотрудников? – Кто является мошенником? – Как оптимизировать штат и нагрузку? 3. Примеры применения 27 – Как оптимизировать режимы работы оборудования? – Как сократить число сбоев и простоев по технологическим причинам? Примерами тем, которые могут искать специалисты в области маркетинга методами Data Mining, могут быть: – целевая аудитория; – наиболее выгодные типы клиентов; – маркетинговые каналы; – взаимодействие с дилерами; – политика скидок, специальные предложения. 3.1.4. Примеры применения классификации, кластеризации и прогнозирования Характерной особенностью Data Mining является активное ис- пользование методов классификации, кластеризации и прогнозиро- вания, используемых для выявления неявных закономерностей и свойств, присутствующих в данных. Рассмотрим без математиче- ской детализации некоторые прикладные примеры применения этих методов при решении практических задач. Классификация. В общем виде задача классификации заключа- ется в том, чтобы определить, к какому классу (типу, категории) относятся те или иные данные в соответствии с некоторым извест- ным набором атрибутов и массивом соответствующих этим атрибу- там данных. При этом множество классов, к одному из которых впоследствии можно отнести исследуемый объект, известно. Каж- дый класс обладает определенными свойствами, которые характе- ризуют его объекты. Например, задачу классификации следует решать в банковском секторе при определении степени достаточной кредитоспособно- сти клиента. В этом случае банковский служащий оперирует двумя известными ему классами – кредитоспособный и некредитоспособ- ный. Характеристиками (признаками) исследуемого (классифици- руемого) объекта являются возраст, место работы, уровень доходов, семейное положение. Фактически задача сводится к тому, чтобы Интеллектуальный анализ данных 28 определить значение одного из параметров объекта анализа (класс «кредитоспособный» или класс «некредитоспособный») по значе- ниям всех прочих его параметров (признаков). Говорят, что необхо- димо определить значение зависимой переменной «кредитоспособ- ность» (которая может принимать значения «да» или «нет») при из- вестных значениях независимых переменных «возраст», «место ра- боты», «уровень дохода», «семейное положение». Кластеризация. Кластеризация – задача, аналогичная предыду- щей, но реализуется в случае, когда набор классов неизвестен зара- нее. Например, задачу кластеризации решает маркетолог, разделяя всех клиентов некоторого бизнеса на неопределенное количество групп по характеристикам условного сходства – социальному и гео- графическому положению, основным мотивам покупки, базовым товарам персональной потребительской корзины, размеру чека и т.п. Более четкое определение целевых групп позволяет дифферен- цировать для них предложения, повысив результативность промо- акций и снизив неэффективные расходы на их проведение. Напри- мер, более детальное социально-демографическое представление об имеющихся сегментах потребителей в розничной торговле поз- воляет выделить более доходные сегменты и активизировать для них свою рекламную деятельность, а также выделить менее доход- ные сегменты и существенно скорректировать для них используе- мые маркетинговые инструменты. В совокупности такой подход позволит более фокусно, целевым образом, расходовать имеющи- еся ресурсы, увеличивая объемы продаж. Прогнозирование. Метод прогнозирования – один из наиболее востребованных в бизнесе. Анализируя данные прошлых периодов, можно построить с некоторой точностью прогноз на будущее (ко- торое каждый бизнесмен хотел бы знать). Причем чем более по- дробные и точные ретроспективные данные имеются и чем больше анализируемый отрезок времени, тем, как правило, точнее полу- чатся результаты прогнозирования. Данный метод нередко применяется для оценки спроса на услуги и товары, структуры сбыта, характеризующиеся сезонными колеба- ниями, или позволяет оценить ожидаемую потребность в кадрах. 3. Примеры применения 29 Примером применения такого инструментария, конечно, являются фондовые рынки, на которых трейдеры пытаются угадать направ- ления движения тех или иных графиков и определить верные мо- менты покупки / продажи. Высокую актуальность и широкое распространение инстру- менты прогнозирования приобретают в розничной торговле продо- вольственными товарами. В условиях скоротечности бизнес-про- цессов заказа, поставки, хранения и продажи скоропортящихся продуктовых товаров крайне важно выдержать баланс между удовлетворенностью клиента (имеющего достаточный выбор на полках магазина и возможность найти желаемое) и остатками то- вара (приобретенного, занимающего место на складе и в торговом зале, но в итоге – не проданного), которые будут утилизированы по истечении срока годности. Именно в этом обширном сегменте рынка сегодня идет серьезная борьба между производителями соот- ветствующих программных инструментов интеллектуального ана- лиза данных, которые при умелом использовании быстро дают существенный экономический эффект. Однако насколько эта задача представляется актуальной, настолько непросто идет поиск ее наиболее перспективных реше- ний, удачное воплощение которых зависит от множества факторов и достаточно глубокого знания специалиста по интеллектуальному анализу данных деталей предметной области. 3.2. Интеллектуальный анализ данных в решении сложных прикладных задач Область применения инструментов ИАД не ограничивается исключительно бизнес-сферами, основным показателем эффектив- ности которых является прибыль. Очевидно, такой инструментарий может найти и находит применение в других областях человеческой деятельности, функционирование которых сопровождается генери- рованием и анализом различных данных. Важнейшими сферами, в которых активно адаптируются методы ИАД, являются медицина и государственное управление. Интеллектуальный анализ данных 30 3.2.1. Медицина Описанные методы ИАД применялись для создания алгоритмов диагностики и прогнозирования в онкологии, неврологии, педиат- рии, психиатрии, гинекологии и других областях [27, 44, 94]. На ос- нове полученных результатов построены экспертные системы для постановки диагнозов с использованием правил, описывающих сочетания симптомов разных заболеваний. Правила помогают выбирать показания (противопоказания), предсказывать исходы назначенного курса лечения. В молекулярной генетике и генной ин- женерии – это определение маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого организма. Известно несколько крупных фирм, специализирующихся на применении ИАД для расшифровки ге- нома человека и растений. В прикладной химии такие методы ис- пользуют для выяснения особенностей строения химических соеди- нений. В медицине консолидируют информацию из различных источ- ников – данные из медицинских карт, результаты анализов и проб, выходные показатели диагностирующих тест-систем. Создают и применяют советующие системы для диагностики заболеваний, которые выявляют значимые признаки и моделируют сложные за- висимости между симптомами и заболеваниями с использованием разнообразных регрессионных моделей, деревьев решений, нейрон- ных сетей и т.д. Также выполняют оценку диагностических тестов в сравнении с традиционными методиками, осуществляя подбор оп- тимальных порогов диагностических показателей и определение чувствительности и пределов применимости конкретной модели. Кроме того, инструменты ИАД (ассоциативные правила и последо- вательные шаблоны) могут применяться при выявлении связей между приемом препаратов и побочными эффектами. Вместе с тем создание алгоритмического и программного обес- печения систем поддержки медицинской деятельности до сих пор не является тривиальной задачей. Потенциал ИАД может быть рас- крыт в эффективном диалоге квалифицированного медицинского 3. Примеры применения 31 специалиста и разработчика интеллектуальных систем. Однако в та- кой сложной сфере, как медицина, квалифицированный специалист не всегда способен доступно для разработчика объяснить свои рас- суждения 1 . Поэтому потенциал применения технологий и методов ИАД в медицине все еще остается в значительной степени нереали- зованным. 3.2.2. Государственное управление Большие объемы информации, концентрирующиеся в органах государственного и муниципального управления, обычно хранятся в разрозненном и не всегда готовом для непосредственной автома- тизированной обработки виде, содержат значительное количество неточностей и пробелов, что является препятствием для ее эффек- тивного использования в процессе принятия решений. Современ- ные инструменты ИАД используют для поиска существующих в данных противоречий, дублирования, опечаток и их корректи- ровки. Также полезной является реализация различных бюджетных моделей с возможностями сравнения различных вариантов, услов- ного моделирования, прогнозирования развития ситуации, расчета показателей эффективности. Кроме того, возможно автоматическое обнаружение отклонений, их ранжирование и оповещение заинте- ресованных лиц. Все это успешно применяется при решении задач поиска лиц, уклоняющихся от налогов, или при поиске вероятных источников террористических угроз. Актуальность использования инструментов ИАД для решения задач государственного и муниципального управления подтвер- ждает набирающая обороты программа повышения квалификации « Управление, основанное на данных », организованная при содей- ствии Агентства стратегических инициатив и направленная разви- тие компетенций, известных у таких специалистов как Сhief Data Officer. В 2019 г. несколько сотен человек на базе различных орга- низаций (Томский государственный университет, Высшая школа 1 Для других областей человеческой деятельности этот тезис часто также справедлив. Интеллектуальный анализ данных 32 экономики и др.) прошли повышение квалификации именно по этому профилю. 3.3. Интеллектуальный анализ данных в ранней диагностике опасных заболеваний В условиях нарастающей потребности в персонализации меди- цины и необходимости ее комплексного цифрового развития сего- дня в мире ощущается острый дефицит решений, позволяющих обеспечить не только разностороннюю диагностику состояния че- ловека, но и автоматизированное сохранение персональных данных медицинской диагностики с формированием непрерывного цифро- вого следа, позволяя осуществлять не только интеллектуальную обработку отдельных диагностических результатов, но и анализ их динамики с формированием соответствующих медицинских заклю- чений. В настоящее время активно проводятся исследования в области анализа отдельных типов компьютерных изображений для задач ди- агностики различных заболеваний, а последние исследования все активнее используют для этого методы машинного обучения. Наибольшее распространение получила обработка данных невысо- кой размерности – 2D-компьютерной томографии (КТ) с получе- нием пошаговых рентгенологических цельных изображений, мам- мографии или иных 2D-изображений. Более сложным и трудоемким является обработка 3D-изображе- ний, характеризующихся не только более высокой размерностью данных, но и более значительным информационным объемом. При- мерами таких данных сегодня являются данные магнитно-резонанс- ной томографии (МРТ), которая позволяет получить трехмерное изображение сканируемых зон посредством измерения соответ- ствующего электромагнитного поля исследуемых тканей. Несмотря на перспективность изложенных результатов приме- нения методов машинного обучения к медицинским 2D- и 3D-изоб- ражениям, практически отсутствуют подходы к выбору наиболее подходящих к конкретным типам данных классификационных 3. Примеры применения 33 архитектур глубокого обучения, включая способы предваритель- ной обработки данных, собственно архитектуры сверточной нейросети, а также способов визуализации и интерпретации результатов. Отдельного изучения заслуживают результаты исследований другого типа данных, который также широко применяется в задачах медицинской диагностики, – временных рядов: электрокардиогра- фии, эхоэнцефалографии и т.п. 3.4. Интеллектуальный анализ данных в индустриальной предиктивной аналитике В настоящее время в нашей стране и в мире большая часть про- мышленных процессов находится под автоматизированным или автоматическим контролем. При этом происходит генерация огром- ного объема технологических и нетехнологических данных, кото- рые собираются и архивируются на базе соответствующей ИТ-ин- фраструктуры. Накопленные данные о протекании технологических процессов с учетом действий диспетчерского персонала, парамет- ров среды, состояний агрегатов и характеристик исходного сырья могут содержать полезную информацию не только о текущем со- стоянии того или иного агрегата, но и о начавшихся критических изменениях в технических характеристиках агрегата и его потреби- тельских свойствах. Большинство предприятий для отслеживания негативных изме- нений в работе оборудования используют базовые средства кон- троля, предоставляемые производителями. В их основе лежат прин- ципы агрегации и визуализации данных из различных источников в доступном формате для проведения анализа. Основные функции таких систем генерации отчетов ограничиваются, как правило, лишь построением диаграмм и графиков, а собственно анализ представленной информации остается за человеком. Именно та- кого рода решения сегодня предлагаются ведущими производите- лями систем диспетчерского контроля и управления (Wonderware, Emerson и т.д.). Интеллектуальный анализ данных 34 Однако подобный экспертный анализ имеет существенные огра- ничения: – не позволяет анализировать многочисленные косвенные фак- торы, влияющие на состояние оборудования, и прогнозировать кри- тическую ситуацию априори; – анализ ситуации проводится с существенной задержкой отно- сительно режима реального времени; – эксперт дополнительно использует лишь несложные методы традиционной математической статистики, область применения которых существенно ограничена известными законами распреде- ления данных и их небольшим набором; – требуется высокая квалификация эксперта, позволяющая ана- лизировать неочевидные тренды, прогнозировать развитие ситуа- ции исключительно с учетом своего практического опыта. Поэтому все более актуальными становятся методы анализа данных, максимально исключающие человеческий фактор, но бази- рующиеся на использовании экспертного опыта и в значительной мере заменяющие человека-эксперта. Несмотря на успешные по- пытки применения этих методов в различных областях анализа аналогичных биомедицинских или речевых сигналов, в области индустриальной аналитики такие решения практически отсут- ствуют. Существующие сегодня отдельные примеры (решения Tibco Statistica или Fujitsu) имеют существенные технические огра- ничения: – слабая интеграция непосредственно с источниками техноло- гических данных, которая препятствует применению результатов анализа в режиме реального времени; – большинство систем управления на промышленных предпри- ятиях являются локальными, закрытыми системами, изолирован- ными от сети Интернет (данный фактор требует дополнительных мер безопасности и учета специфики промышленных протоколов передачи данных); – высокие вычислительные затраты, которые невозможно реа- лизовать в условиях существующей инфраструктуры. 3. Примеры применения 35 Отсутствие решений в области анализа технологических данных главным образом связано со следующими обстоятельствами: – нестационарность и динамичность технологических процес- сов, обусловливающие сложность математического описания; – неоднородная структура данных (вещественные значения, со- бытия, сообщения); – уникальность каждого объекта управления (в отличие от био- медицинских и речевых данных, которые имеют обобщенные ха- рактерные признаки), которая требует адаптивного похода для каж- дого случая; – наличие аномальных ситуаций, которые могут являться как следствием изменения интересующего тренда технологического сиг- нала, так и следствием ремонтных или иных регламентных процедур. Разрешение указанных сложностей позволит извлекать полез- ную информацию о технических характеристиках агрегатов на про- изводстве, локализовать с высокой точностью область и причину неисправности оборудования, прогнозировать состояние объекта с учетом его ретроспективных характеристик и характеристик дру- гих смежных агрегатов. В итоге это позволит оптимизировать управление технологическим процессом и повысить технико-эко- номические показатели производства. Наиболее существенная экономическая выгода от применения интеллектуального анализа данных ожидается в области сопровож- дения технического обслуживания и ремонта (ТОиР) сложного технологического оборудования, которая характеризуется суще- ственными затратами на любых производственных предприятиях. Применение методов интеллектуального анализа технологических данных позволит решить следующие проблемы: – существенно сократить время простоя оборудования; – оптимизировать план мероприятий по техническому обслу- живанию, а также уменьшить время внепланового техобслуживания; – проводить углубленный анализ причин отказов оборудования; – получать более полную информацию о технологическом про- цессе; Интеллектуальный анализ данных 36 – повысить срок службы сложного технологического оборудо- вания. При этом особое место в обеспечении надежности производства занимает задача обнаружения аномалий в данных, так как именно они зачастую являются предвестниками аварий, сбоев оборудова- ния и нештатных ситуаций. Применительно к системам монито- ринга техногенных объектов под аномалиями могут пониматься любые события, нарушающие регламентное протекание контроли- руемого технологического процесса. Своевременное обнаружение аномалий позволяет оперативно вносить коррективы в управление технологическим процессом, тем самым избегая возникновения негативных ситуаций на производстве. |