Главная страница
Навигация по странице:

  • 3.1.3. Маркетинг, страхование, работа с персоналом

  • 3.1.4. Примеры применения классификации

  • 3.2. Интеллектуальный анализ данных в решении сложных прикладных задач

  • 3.2.2. Государственное управление

  • 3.3. Интеллектуальный анализ данных в ранней диагностике опасных заболеваний

  • 3.4. Интеллектуальный анализ данных в индустриальной предиктивной аналитике

  • Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных


    Скачать 2.95 Mb.
    НазваниеИнтеллектуальный анализ данных
    АнкорИнтеллектуальный анализ данных учебное пособие
    Дата30.09.2022
    Размер2.95 Mb.
    Формат файлаpdf
    Имя файлаИАД Лекции Замятин 20.pdf
    ТипУчебное пособие
    #707536
    страница3 из 16
    1   2   3   4   5   6   7   8   9   ...   16
    3.1.2. Сфера развлечений
    Интересными могут быть примеры анализа данных в сфере раз- влечений. Например, компания по продаже контента для видеопро- смотра может анализировать историю пользовательских запросов и предлагать в соответствии с ними индивидуальные рекомендации.
    В Национальной баскетбольной ассоциации США традиционно используются инструменты анализа данных для оценки перемеще- ний игроков на площадке, помогая тренерам команд в тактической борьбе и выработке стратегий на игру. Еще в далеком 1995 г. такой анализ игры между New York Knicks и Cleveland Cavaliers позволил выявить, что защитник Mark Price позволил забить нападающему
    John Williams из команды соперника лишь один бросок из четырех, в то время как общая статистика за игру по этому показателю для
    Cavaliers была зафиксирована на уровне 49,30%. Учитывая, что ви- део всех игр сохраняется фрагментарно, тренер с легкостью может отыскать в большом видеомассиве данных любые интересующие моменты и проанализировать причину успеха или неудачи в кон- кретном игровом эпизоде без необходимости часами просматривать все видео в поисках нужного фрагмента.
    1
    Мерчендайзинг (англ. merchandising) – искусство сбыта.

    Интеллектуальный анализ данных
    26
    Хороший кейс применения методов интеллектуального анализа данных на заре развития этих подходов к спортивной индустрии показан в популярном фильме «Человек, который изменил все»
    Moneyball») на примере игры в бейсбол.
    3.1.3. Маркетинг, страхование, работа с персоналом
    Наиболее распространенными сегодня примерами использования инструментов Data Mining являются различные интернет-магазины и поисковые системы. Они на основе ретроспективных запросов пользователя определяют профиль его интересов, руководствуясь которым возможно предложить товары и услуги, которые с высокой степенью вероятности также могут заинтересовать пользователя.
    Многие сталкиваются сегодня с такими примерами в Google, Ama-
    zon, eBay и т.п.
    С расширением страхового рынка все большую актуальность ин- струменты анализа данных приобретают и для него. Эта сфера че- ловеческой деятельности всегда требовала использования матема- тических моделей оценки рисков. С развитием инструментов Data
    Mining появляются новые перспективные возможности оценки рис- ков на основе большей совокупности факторов, моделирования страховых убытков, исследования связи среднего уровня доходов территории и числа застрахованных, кластерного анализа в авто- страховании (например, для избегания случаев мошенничества), оценки распределения размеров убытков, прогнозирования доходов от продажи страховых полисов и др.
    Очевидно, инструменты интеллектуального анализа данных могли бы помочь специалистам кадровой службы любой компании.
    При этом примерами вопросов, на которые ищут ответы такие спе- циалисты, могут быть:
    – Каким требованиям должен удовлетворять соискатель?
    – Кто и как часто совершает ошибки?
    – Сколько компания теряет из-за ошибок сотрудников?
    – Кто является мошенником?
    – Как оптимизировать штат и нагрузку?

    3. Примеры применения
    27
    – Как оптимизировать режимы работы оборудования?
    – Как сократить число сбоев и простоев по технологическим причинам?
    Примерами тем, которые могут искать специалисты в области маркетинга методами Data Mining, могут быть:
    – целевая аудитория;
    наиболее выгодные типы клиентов;
    – маркетинговые каналы;
    – взаимодействие с дилерами;
    – политика скидок, специальные предложения.
    3.1.4. Примеры применения классификации,
    кластеризации и прогнозирования
    Характерной особенностью Data Mining является активное ис- пользование методов классификации, кластеризации и прогнозиро-
    вания, используемых для выявления неявных закономерностей и свойств, присутствующих в данных. Рассмотрим без математиче- ской детализации некоторые прикладные примеры применения этих методов при решении практических задач.
    Классификация. В общем виде задача классификации заключа- ется в том, чтобы определить, к какому классу (типу, категории) относятся те или иные данные в соответствии с некоторым извест- ным набором атрибутов и массивом соответствующих этим атрибу- там данных. При этом множество классов, к одному из которых впоследствии можно отнести исследуемый объект, известно. Каж- дый класс обладает определенными свойствами, которые характе- ризуют его объекты.
    Например, задачу классификации следует решать в банковском секторе при определении степени достаточной кредитоспособно-
    сти клиента. В этом случае банковский служащий оперирует двумя известными ему классами – кредитоспособный и некредитоспособ-
    ный. Характеристиками (признаками) исследуемого (классифици- руемого) объекта являются возраст, место работы, уровень доходов, семейное положение. Фактически задача сводится к тому, чтобы

    Интеллектуальный анализ данных
    28 определить значение одного из параметров объекта анализа (класс
    «кредитоспособный» или класс «некредитоспособный») по значе- ниям всех прочих его параметров (признаков). Говорят, что необхо- димо определить значение зависимой переменной «кредитоспособ- ность» (которая может принимать значения «да» или «нет») при из- вестных значениях независимых переменных «возраст», «место ра- боты», «уровень дохода», «семейное положение».
    Кластеризация. Кластеризация – задача, аналогичная предыду- щей, но реализуется в случае, когда набор классов неизвестен зара- нее. Например, задачу кластеризации решает маркетолог, разделяя всех клиентов некоторого бизнеса на неопределенное количество групп по характеристикам условного сходства – социальному и гео- графическому положению, основным мотивам покупки, базовым товарам персональной потребительской корзины, размеру чека и т.п. Более четкое определение целевых групп позволяет дифферен- цировать для них предложения, повысив результативность промо- акций и снизив неэффективные расходы на их проведение. Напри- мер, более детальное социально-демографическое представление об имеющихся сегментах потребителей в розничной торговле поз- воляет выделить более доходные сегменты и активизировать для них свою рекламную деятельность, а также выделить менее доход- ные сегменты и существенно скорректировать для них используе- мые маркетинговые инструменты. В совокупности такой подход позволит более фокусно, целевым образом, расходовать имеющи- еся ресурсы, увеличивая объемы продаж.
    Прогнозирование. Метод прогнозирования – один из наиболее востребованных в бизнесе. Анализируя данные прошлых периодов, можно построить с некоторой точностью прогноз на будущее (ко- торое каждый бизнесмен хотел бы знать). Причем чем более по- дробные и точные ретроспективные данные имеются и чем больше анализируемый отрезок времени, тем, как правило, точнее полу- чатся результаты прогнозирования.
    Данный метод нередко применяется для оценки спроса на услуги и товары, структуры сбыта, характеризующиеся сезонными колеба- ниями, или позволяет оценить ожидаемую потребность в кадрах.

    3. Примеры применения
    29
    Примером применения такого инструментария, конечно, являются фондовые рынки, на которых трейдеры пытаются угадать направ- ления движения тех или иных графиков и определить верные мо- менты покупки / продажи.
    Высокую актуальность и широкое распространение инстру- менты прогнозирования приобретают в розничной торговле продо- вольственными товарами. В условиях скоротечности бизнес-про- цессов заказа, поставки, хранения и продажи скоропортящихся продуктовых товаров крайне важно выдержать баланс между
    удовлетворенностью клиента (имеющего достаточный выбор на полках магазина и возможность найти желаемое) и остатками то-
    вара (приобретенного, занимающего место на складе и в торговом зале, но в итоге – не проданного), которые будут утилизированы по истечении срока годности. Именно в этом обширном сегменте рынка сегодня идет серьезная борьба между производителями соот- ветствующих программных инструментов интеллектуального ана- лиза данных, которые при умелом использовании быстро дают существенный экономический эффект.
    Однако насколько эта задача представляется актуальной, настолько непросто идет поиск ее наиболее перспективных реше- ний, удачное воплощение которых зависит от множества факторов и достаточно глубокого знания специалиста по интеллектуальному анализу данных деталей предметной области.
    3.2. Интеллектуальный анализ данных
    в решении сложных прикладных задач
    Область применения инструментов ИАД не ограничивается исключительно бизнес-сферами, основным показателем эффектив- ности которых является прибыль. Очевидно, такой инструментарий может найти и находит применение в других областях человеческой деятельности, функционирование которых сопровождается генери- рованием и анализом различных данных. Важнейшими сферами, в которых активно адаптируются методы ИАД, являются медицина и государственное управление.

    Интеллектуальный анализ данных
    30
    3.2.1. Медицина
    Описанные методы ИАД применялись для создания алгоритмов диагностики и прогнозирования в онкологии, неврологии, педиат- рии, психиатрии, гинекологии и других областях [27, 44, 94]. На ос- нове полученных результатов построены экспертные системы для постановки диагнозов с использованием правил, описывающих сочетания симптомов разных заболеваний. Правила помогают выбирать показания (противопоказания), предсказывать исходы назначенного курса лечения. В молекулярной генетике и генной ин- женерии – это определение маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого организма. Известно несколько крупных фирм, специализирующихся на применении ИАД для расшифровки ге- нома человека и растений. В прикладной химии такие методы ис- пользуют для выяснения особенностей строения химических соеди- нений.
    В медицине консолидируют информацию из различных источ- ников – данные из медицинских карт, результаты анализов и проб, выходные показатели диагностирующих тест-систем. Создают и применяют советующие системы для диагностики заболеваний, которые выявляют значимые признаки и моделируют сложные за- висимости между симптомами и заболеваниями с использованием разнообразных регрессионных моделей, деревьев решений, нейрон- ных сетей и т.д. Также выполняют оценку диагностических тестов
    в сравнении с традиционными методиками, осуществляя подбор оп- тимальных порогов диагностических показателей и определение чувствительности и пределов применимости конкретной модели.
    Кроме того, инструменты ИАД (ассоциативные правила и последо- вательные шаблоны) могут применяться при выявлении связей между приемом препаратов и побочными эффектами.
    Вместе с тем создание алгоритмического и программного обес- печения систем поддержки медицинской деятельности до сих пор не является тривиальной задачей. Потенциал ИАД может быть рас- крыт в эффективном диалоге квалифицированного медицинского

    3. Примеры применения
    31 специалиста и разработчика интеллектуальных систем. Однако в та- кой сложной сфере, как медицина, квалифицированный специалист не всегда способен доступно для разработчика объяснить свои рас- суждения
    1
    . Поэтому потенциал применения технологий и методов
    ИАД в медицине все еще остается в значительной степени нереали- зованным.
    3.2.2. Государственное управление
    Большие объемы информации, концентрирующиеся в органах государственного и муниципального управления, обычно хранятся в разрозненном и не всегда готовом для непосредственной автома- тизированной обработки виде, содержат значительное количество неточностей и пробелов, что является препятствием для ее эффек- тивного использования в процессе принятия решений. Современ- ные инструменты ИАД используют для поиска существующих в
    данных противоречий, дублирования, опечаток и их корректи-
    ровки. Также полезной является реализация различных бюджетных
    моделей с возможностями сравнения различных вариантов, услов- ного моделирования, прогнозирования развития ситуации, расчета показателей эффективности. Кроме того, возможно автоматическое
    обнаружение отклонений, их ранжирование и оповещение заинте-
    ресованных лиц. Все это успешно применяется при решении задач поиска лиц, уклоняющихся от налогов, или при поиске вероятных источников террористических угроз.
    Актуальность использования инструментов ИАД для решения задач государственного и муниципального управления подтвер- ждает набирающая обороты программа повышения квалификации
    «
    Управление, основанное на данных
    », организованная при содей- ствии Агентства стратегических инициатив и направленная разви- тие компетенций, известных у таких специалистов как Сhief Data
    Officer.
    В 2019 г. несколько сотен человек на базе различных орга- низаций (Томский государственный университет, Высшая школа
    1
    Для других областей человеческой деятельности этот тезис часто также справедлив.

    Интеллектуальный анализ данных
    32 экономики и др.) прошли повышение квалификации именно по этому профилю.
    3.3. Интеллектуальный анализ данных
    в ранней диагностике опасных заболеваний
    В условиях нарастающей потребности в персонализации меди- цины и необходимости ее комплексного цифрового развития сего- дня в мире ощущается острый дефицит решений, позволяющих обеспечить не только разностороннюю диагностику состояния че- ловека, но и автоматизированное сохранение персональных данных медицинской диагностики с формированием непрерывного цифро- вого следа, позволяя осуществлять не только интеллектуальную обработку отдельных диагностических результатов, но и анализ их динамики с формированием соответствующих медицинских заклю- чений.
    В настоящее время активно проводятся исследования в области анализа отдельных типов компьютерных изображений для задач ди- агностики различных заболеваний, а последние исследования все активнее используют для этого методы машинного обучения.
    Наибольшее распространение получила обработка данных невысо- кой размерности – 2D-компьютерной томографии (КТ) с получе- нием пошаговых рентгенологических цельных изображений, мам- мографии или иных 2D-изображений.
    Более сложным и трудоемким является обработка 3D-изображе- ний, характеризующихся не только более высокой размерностью данных, но и более значительным информационным объемом. При- мерами таких данных сегодня являются данные магнитно-резонанс- ной томографии (МРТ), которая позволяет получить трехмерное изображение сканируемых зон посредством измерения соответ- ствующего электромагнитного поля исследуемых тканей.
    Несмотря на перспективность изложенных результатов приме- нения методов машинного обучения к медицинским 2D- и 3D-изоб- ражениям, практически отсутствуют подходы к выбору наиболее подходящих к конкретным типам данных классификационных

    3. Примеры применения
    33 архитектур глубокого обучения, включая способы предваритель- ной обработки данных, собственно архитектуры сверточной нейросети, а также способов визуализации и интерпретации результатов.
    Отдельного изучения заслуживают результаты исследований другого типа данных, который также широко применяется в задачах медицинской диагностики, – временных рядов: электрокардиогра- фии, эхоэнцефалографии и т.п.
    3.4. Интеллектуальный анализ данных
    в индустриальной предиктивной аналитике
    В настоящее время в нашей стране и в мире большая часть про- мышленных процессов находится под автоматизированным или автоматическим контролем. При этом происходит генерация огром- ного объема технологических и нетехнологических данных, кото- рые собираются и архивируются на базе соответствующей ИТ-ин- фраструктуры. Накопленные данные о протекании технологических процессов с учетом действий диспетчерского персонала, парамет- ров среды, состояний агрегатов и характеристик исходного сырья могут содержать полезную информацию не только о текущем со- стоянии того или иного агрегата, но и о начавшихся критических изменениях в технических характеристиках агрегата и его потреби- тельских свойствах.
    Большинство предприятий для отслеживания негативных изме- нений в работе оборудования используют базовые средства кон- троля, предоставляемые производителями. В их основе лежат прин- ципы агрегации и визуализации данных из различных источников в доступном формате для проведения анализа. Основные функции таких систем генерации отчетов ограничиваются, как правило, лишь построением диаграмм и графиков, а собственно анализ представленной информации остается за человеком. Именно та- кого рода решения сегодня предлагаются ведущими производите- лями систем диспетчерского контроля и управления (Wonderware,
    Emerson и т.д.).

    Интеллектуальный анализ данных
    34
    Однако подобный экспертный анализ имеет существенные огра- ничения:
    – не позволяет анализировать многочисленные косвенные фак- торы, влияющие на состояние оборудования, и прогнозировать кри- тическую ситуацию априори;
    – анализ ситуации проводится с существенной задержкой отно- сительно режима реального времени;
    – эксперт дополнительно использует лишь несложные методы традиционной математической статистики, область применения которых существенно ограничена известными законами распреде- ления данных и их небольшим набором;
    – требуется высокая квалификация эксперта, позволяющая ана- лизировать неочевидные тренды, прогнозировать развитие ситуа- ции исключительно с учетом своего практического опыта.
    Поэтому все более актуальными становятся методы анализа данных, максимально исключающие человеческий фактор, но бази- рующиеся на использовании экспертного опыта и в значительной мере заменяющие человека-эксперта. Несмотря на успешные по- пытки применения этих методов в различных областях анализа аналогичных биомедицинских или речевых сигналов, в области индустриальной аналитики такие решения практически отсут- ствуют. Существующие сегодня отдельные примеры (решения
    Tibco Statistica или Fujitsu) имеют существенные технические огра- ничения:
    – слабая интеграция непосредственно с источниками техноло- гических данных, которая препятствует применению результатов анализа в режиме реального времени;
    – большинство систем управления на промышленных предпри- ятиях являются локальными, закрытыми системами, изолирован- ными от сети Интернет (данный фактор требует дополнительных мер безопасности и учета специфики промышленных протоколов передачи данных);
    – высокие вычислительные затраты, которые невозможно реа- лизовать в условиях существующей инфраструктуры.

    3. Примеры применения
    35
    Отсутствие решений в области анализа технологических данных главным образом связано со следующими обстоятельствами:
    – нестационарность и динамичность технологических процес- сов, обусловливающие сложность математического описания;
    – неоднородная структура данных (вещественные значения, со- бытия, сообщения);
    – уникальность каждого объекта управления (в отличие от био- медицинских и речевых данных, которые имеют обобщенные ха- рактерные признаки), которая требует адаптивного похода для каж- дого случая;
    – наличие аномальных ситуаций, которые могут являться как следствием изменения интересующего тренда технологического сиг- нала, так и следствием ремонтных или иных регламентных процедур.
    Разрешение указанных сложностей позволит извлекать полез- ную информацию о технических характеристиках агрегатов на про- изводстве, локализовать с высокой точностью область и причину неисправности оборудования, прогнозировать состояние объекта с учетом его ретроспективных характеристик и характеристик дру- гих смежных агрегатов. В итоге это позволит оптимизировать управление технологическим процессом и повысить технико-эко- номические показатели производства.
    Наиболее существенная экономическая выгода от применения интеллектуального анализа данных ожидается в области сопровож- дения технического обслуживания и ремонта (ТОиР) сложного технологического оборудования, которая характеризуется суще- ственными затратами на любых производственных предприятиях.
    Применение методов интеллектуального анализа технологических данных позволит решить следующие проблемы:
    – существенно сократить время простоя оборудования;
    – оптимизировать план мероприятий по техническому обслу- живанию, а также уменьшить время внепланового техобслуживания;
    – проводить углубленный анализ причин отказов оборудования;
    – получать более полную информацию о технологическом про- цессе;

    Интеллектуальный анализ данных
    36
    – повысить срок службы сложного технологического оборудо- вания.
    При этом особое место в обеспечении надежности производства занимает задача обнаружения аномалий в данных, так как именно они зачастую являются предвестниками аварий, сбоев оборудова- ния и нештатных ситуаций. Применительно к системам монито- ринга техногенных объектов под аномалиями могут пониматься любые события, нарушающие регламентное протекание контроли- руемого технологического процесса. Своевременное обнаружение аномалий позволяет оперативно вносить коррективы в управление технологическим процессом, тем самым избегая возникновения негативных ситуаций на производстве.

    4. Основные задачи и классификация методов анализа данных
    37
    1   2   3   4   5   6   7   8   9   ...   16


    написать администратору сайта