Аналитика. 2004_Курносов ЮВ, Конотопов ПЮ_Аналитика_3,9 Mb. Рецензенты
Скачать 3.9 Mb.
|
интеллектуального анализа данных (в англоязычных источниках — Data Mining, т. е. «раскопка данных»). Для этого класса систем ИИ характерно комплексное использование методов, используемых в логических системах ИИ и нейрокомпьютинге, в сочетании с инструментарием статистического анализа данных и компьютерной 383 лингвистики. Только по состоянию на начало 1999 года на американском рынке интеллектуального программного обеспечения было представлено свыше пятнадцати программных и программно-аппаратных комплексов, относящихся к этому классу 99 . Безусловно, все эти системы нуждаются в обучении, профессиональной настройке и адаптации к предметной области, в которой предполагается их дальнейшее использование. В большинстве своем, они представляют собой системы искусственного интеллекта, ориентированные на решение задач анализа «абстрактных» типов данных (т. е. безотносительно к их семантике), интегрированные со сконфигурированными под потребности заказчика базами данных. Иным вариантом поставки систем data mining является вариант, предполагающий настройку и адаптацию системы искусственного интеллекта (собственно, инструмента Data Mining) под уже существующую подсистему хранения данных заказчика. В любом варианте поставки по мере функционирования системы она выделяет некие скрытые закономерности в хранимых массивах данных (в том числе — корреляции временных рядов). Такие корреляции не всегда очевидны для аналитика, однако, для систем data mining числа — родная стихия. Системы data mining не имеют обыкновения забывать или упускать из внимания сколь бы то ни было «незначительные детали» и закономерности — это свойство делает их полезным инструментом информационно-аналитической работы. Принцип функционирования систем интеллектуального анализа данных состоит в том, что на основе анализа потока данных, поступающих от разнообразных источников информации, формируется информационный образ неким образом интерпретируемой ситуации, который в ходе дальнейшей эксплуатации системы может быть «узнан», о чем и информируется потребитель. Отрасль, для которой создается такая система, на этапе разработки, в принципе, не существенна, поскольку важен лишь принцип формирования системы признаков и класс данных, на которые ориентирована данная система (количественные, качественные). Адаптация к предметной области этого класса программного обеспечения заключается в том, что предметная область подлежит моделированию и описанию в виде совокупности измеримых атрибутов. Поведение этих атрибутов во времени неким (наперед неизвестным) образом характеризует состояние и поведение систем. С точки зрения исследователя интерес представляет именно то, каким образом наблюдаемые ситуации и 99 Clementine (Integral Solutions, Ltd.), Darwin (Thinking Machines, Corp.), DataCruncher (DataMind), Enterprise Miner (SAS Institute), GainSmarts (Urban Science), Intelligent Miner (IBM Corp.), MineSet (Silicon Graphics, Inc.), Model 1 (Group 1/Unica Technologies), ModelQuest (AbTech Corp.), PRW (Unica Technologies, Inc.), CART (Salford Systems), NeuroShell (Ward Systems Group, Inc.), OLPARS (PAR Government Systems), Scenario (Cognos), See5 (RuleQuest Research), S-Plus (MathSoft), WizWhy (WizSoft) 384 тенденции отражаются в имеющемся наборе атрибутов, не существует ли неких признаков, характеризующих начальный период зарождения негативной или позитивной тенденции, скатывания к неким сценариям в развитии ситуации и т. п. Еще раз заметим: системы data mining не работают напрямую с текстами произвольного формата и данными, которые не могут быть непосредственно сопоставлены. Максимум, что они «могут», если не располагают тезаурусом, характерным для данной предметной области — это работа со структурно-статистическими признаками и временными распределениями. Если разобраться, то, на самом деле, такие системы могут оказаться полезными даже в случае отсутствия интепретанты у впервые проявившегося признака, поскольку системы интеллектуального анализа данных способны лишь акцентировать внимание аналитика на неких всплесках, по совокупности интегральных или частных показателей отличающих ситуацию от эталона нормы. Какую именно интерпретацию получат эти признаки — вопрос квалификации аналитика, поскольку задача систем интеллектуального анализа данных — это выделение сэмпла, но никак не снабжение его некой семантикой. Системы этого типа работают подобно периферийному зрению человека — они реагируют лишь на изменения (периферийное зрение человека обеспечивает только сигнализацию о перемещениях в «опасной» зоне, но за распознавание движущегося объекта оно не берется). Обращают на себя внимание попытки вхождения на уровень таких, казалось бы, трудно формализуемых отношений, как политика. Подобные системы не пытаются подменить аналитика, взвалив на себя весь интеллектуальный процесс, связанный с формированием политической стратегии (социализацией идей), однако способны выступать в роли хорошего помощника, способного непредвзято оценить пользу от предпринятых политических шагов. Для того, чтобы система смогла стать таким помощником, пользователю нужно «разъяснить» автоматизированной системе преследуемые им цели и рассматриваемые способы достижения этих целей, «проинформировать» систему о тех политических силах, чьи интересы, следует учитывать при решении задачи, отношениях между вероятными политическими сторонниками и противниками, возможных препятствиях на пути достижения целей и вероятных причинах их возникновения. Лишь после этого встроенная экспертная система будет способна оказать пользователю помощь в разработке альтернативных вариантов стратегии достижения целей, сопоставить эти варианты, а также оценить результативность предпринятых политических шагов. Далее начинается работа, собственно, системы искусственного интеллекта, которая на основе поставляемых ей данных (отклики прессы, 385 рейтинги, результаты голосования и т. д.) предпримет попытки оценивания результативности целенаправленной деятельности. По результатам работ обычно предоставляется набор графиков, текстов и диаграмм, обеспечивающих возможность системного видения проблемы и путей ее решения. Доступным примером, на котором можно испытать возможности такого рода систем, может служить распространяемая на основе лицензии Shareware «облегченная» версия программного обеспечения PolicyMaker Lite (PoliMap, США, http://www.polimap.com). Данный программный продукт специально разработан для ведения политического анализа и позволяет оценивать расстановку действующих политических сил при осуществлении политической активности (например, при продвижении законодательных инициатив, ведении внутрипартийной борьбы или в ходе выборов). И хотя в этой системе (по крайней мере, в той демонстрационной версии, которая предлагается на пробу заинтересованным лицам) явно перевешивает блок экспертных знаний, ознакомление с ней может оказаться весьма поучительным. Назвать такие системы разумными нельзя, но на звание электронного интеллектуального помощника они вполне могут претендовать. Часто по своим функциями системы этого типа занимают позицию между инструментальными средствами формального моделирования и средствами активизации мыслительной деятельности. 9.5 СРЕДСТВА СТРУКТУРИРОВАНИЯ И ВИЗУАЛИЗАЦИИ ДАННЫХ. ЭЛЕКТРОННЫЕ ПОМОЩНИКИ АНАЛИТИКА Над решением проблемы визуализации и структурирования данных работали крупнейшие ученые (достаточно вспомнить Аристотеля, ведь логика — это одна из систем визуализации рассуждений). Рассматривая технологии работы с текстами, мы уже уделили немалое внимание проблеме структурирования данных, но позволим себе еще раз вернуться к этой проблеме. Как часто случается, что после тщетных размышлений над некоторой проблемой в прыгающем на колдобинах ГАЗике, садишься за стол, берешь бумагу, карандаш и... все сложное становится простым (правда, иногда случается и обратное!). И не потому, что в условиях тряски нейроны, вынужденные цепляться своими дендритами, аксонами и синапсами друг за дружку, забывают о своем высоком предназначении (лишь бы не рассыпалась пресловутая нейронная сеть). Дело в том, что оперировать знаками легче, когда они наблюдаемы, а не роятся в голове вперемешку с мыслями об удержании в себе содержимого желудка. Причем способ наблюдения несущественен: например, еще одним приемом «визуализации» является проговаривание цепочки рассуждений. Дети часто пользуются этим приемом, более того, использовать его рекомендуют и 386 психологи, но мы-то умные, да взрослые, и позволяем себе такое только в одиночестве или в состоянии, когда уже впору идти на прием к доктору. Проворачивать в голове сложные многосвязные структуры знаковой природы очень сложно, а без них, увы, вся логика повисает в воздухе. Знаки же человек привык воспринимать либо с помощью зрения, либо с помощью слуха — вот и вся разгадка (кто на что учился, как принято говорить). Разберемся с тем, что наизобретали умнейшие... Итак: рисунки и иероглифика, письменность, формальные знаковые системы, таблицы, матрицы, графики, плоскостные развертки, сечения и аксонометрические проекции многомерных графиков, графы, сети, диаграммы, многомерные таблицы и массивы, сетчатые рельефы, псевдотрехмерные текстурные рельефы, виртуальная реальность... Внушительный перечень, но... неполный — одних диаграмм можно насчитать массу разновидностей, не говоря уже о прочих способах визуализации данных. Собственно, в ряде приложений визуализация данных является одним из эффективных способов упорядочения — зачем проводить сортировку неупорядоченных пар данных, если они могут быть непосредственно нанесены на график и считаны с приемлемой точностью? Более того: таким способом часто восстанавливаются и пропущенные измерения. Другой пример — использование сечений на трехмерной модели рельефа позволяет легко установить зону затопления в весенний паводок, в то время как обсчитать такую модель очень непросто. Короче говоря, что хорошо аналитику, то программисту — чистая мука. Работа с графикой — одна из тех отраслей, в которой приходится помнить высшую математику с аналитической геометрией, чего не требуется при разработке большинства прикладных программ. По этой причине на рынке программного обеспечения для разработчиков программного обеспечения большой популярностью пользуются библиотеки подпрограмм и программных компонентов, предназначенных для решения задач отображения данных в графическом режиме. Например, на специализированном Интернет-сайте ComponentSource (США, http://www.componentsource.com), где размещаются сведения о коммерчески распространяемых библиотеках подпрограмм и программных компонентах, прошедших тестирование и допущенных к применению в проектах федерального уровня, компоненты подобного сорта, обладающие мощными возможностями — хотя и не редкость, но и стоят недешево (особенно это заметно по стоимости лицензий для использования в ГСТК Интернет). Если же в вашей организации нет штатных программистов, а заказное программное обеспечение для вас слишком дорого, то на рынке программного обеспечения сегодня присутствует масса программных продуктов, приспособленных для решения задач отображения данных, а также задач 387 разработки и отображения деловой графики. Рассмотрим стандартные возможности некоторой гипотетически доступной потребителю системы такого сорта: - наличие непосредственной связи с базами данных или возможности выполнения разовых процедур импорта данных из формата хранения наиболее известных баз данных и табличных редакторов; - наличие возможности редактирования и/или просмотра в табличном режиме данных, поступающих из подключенной базы данных, введенных в ручном режиме или импортированных извне; - возможность выбора типа диаграммы или графика, используемого для отображения данных, настройки цветов линий и плоскостей на графике (диаграмме и т. п.), ориентации и пределов измерений шкал (координатных осей), подписей и т. д.; - возможность манипуляции шкалами: нормирование отображаемых величин, установление масштаба отображения, изменение закона распределения делений на шкалах (линейный, экспоненциальный и т. п.); - возможность вывода на печать и экспорта в другие программы и сохранения в иных форматах представления графики, нежели фирменный; - возможность считывания данных, соответствующих указанной на теле графического объекта точке (ближайших или интерполированных). Этому перечню требований на сегодня соответствует большинство подсистем отображения данных, реализованных в средах математического моделирования (MathCAD, MathLab и др.), табличных редакторах (Lotus Notes/Domino, Microsoft Excel и др.), а также в ряде других профессионально исполненных программных продуктов, предназначенных для работы с числовыми или структурированными данными. Довольно часто создатели программного обеспечения используют для решения проблемы отображения данных прием сохранения результатов обработки в формате обеспечивающем возможность их последующего просмотра с применением подсистемы отображения данных наиболее распространенных программных продуктов. Одной из основных проблем, существующей в ИАР, является сам процесс синтеза модели, так и не получивший технологического обеспечения. До сего момента наиболее весомым достижением в этой сфере стало создание средств визуального моделирования объектов, процессов и отношений (эти технологии получили название WYSIWYG, от фразы what-you-see-is-what-you- get — что видишь, то и получаешь). Благодаря этой технологии инструментарий аналитика составили средства, предоставляющие наборы конструктивных элементов, располагающих совместимыми интерфейсами. Их комбинирование позволяет достаточно легко построить логико-графическую интерпретацию модели. Применение средств визуального моделирования и 388 проектирования на первичном этапе формализации положительно сказывается на процессе моделирования, так как оно: - стимулирует мыслительные усилия эксперта-аналитика за счет придания абстрактному мыслительному процессу наглядной формы; - способствует формированию и развитию системного мышления; - способствует проявлению скрытых логических конфликтов, а также логической неполноты модели (системы умолчаний эксперта); - позволяет создать основу для развития модели, дальнейшей формализации отношений, перехода от качественных показателей к количественным — к аналитическим методам моделирования; - позволяет за счет протоколирования процесса построения модели осуществлять обучение системы моделирования, а также адаптировать ее интерфейс к конкретному пользователю, его аналитическим приемам; - способствует развитию методологии моделирования, поскольку протоколирование процесса синтеза модели позволяет перейти на уровень металогики модели, т. е. анализировать процесс анализа или моделировать процесс моделирования. Особого упоминания здесь заслуживают системы протоколирования рассуждений, позволяющие отображать в виде графических и логико- лингвистических моделей сценарии и алгоритмы различных процессов, рассуждений экспертов, классификации и иные виды моделей, использующих графические методы отображения связей. Операции, выполняемые с их применением, часто называют майнд-мэппингом (от англ. mind mapping — картографирование мышления). Вообще-то, в русском языке для именования результата работы систем такого типа есть название: «функциональная схема (диаграмма)», но из-за того, что отечественные программные продукты этого класса на рынке практически не представлены, то термин уже изрядно потеснен, если не вытеснен вовсе. Те, кому уже доводилось решать подобные задачи, знают, сколько времени уходит на разработку с помощью примитивных компьютерных средств, не приспособленных для таких работ, графического представления мало-мальски серьезной классификации. Майнд-мэпперы же практически всю графическую работу берут на себя, заботясь, в том числе, и о размещении элементов на полученной диаграмме. К числу систем этого класса могут быть отнесены: система MindMapper (SimTech, США, http://www.mindmapper.com/), Microsoft Project (Microsoft, США, http://www.microsoft.com/) и другие. Экономия времени от применения подобных программных продуктов даже на относительно простых функциональных схемах (порядка 20 блоков) может составлять около часа на одну схему. Кроме того, следует учесть, что многие системы протоколирования рассуждений прекрасно стыкуются с базами данных и табличными редакторами, способны экспортировать данные в формат 389 языков гипертекстовой разметки, например, XML, что делает эти средства еще и незаменимым инструментом управления проектами и создания действующих макетов баз знаний. Использование систем майнд-мэппинга для протоколирования мозговых штурмов, сеансов извлечения знаний при создании экспертных систем делает их незаменимым инструментом информационной работы. Кроме того, средства протоколирования рассуждений часто реализуются в многопользовательском режиме и выступают в качестве подсистемы в автоматизированных системах, служащих для коллективной разработки управленческих и проектных решений, а также программного обеспечения. Многие системы этого типа позволяют строить линейные планы-графики Г. Гантта (диаграммы Гантта), а также циклические и сетевые планы-графики, широко используемые в управлении, позволяя решать не только задачи графического отображения, но и производить вычисления затрачиваемых ресурсов и времени, а также решать примитивные оптимизационные задачи. Существует также и еще один класс программного обеспечения по своей идеологии близкого к системам майнд-мэппинга: это системы презентационной графики, но по этапу применения они ближе к завершению цикла ИАР и могут быть отнесены к классу систем отображения результатов ИАР. Поэтому к их рассмотрению мы обратимся позже. 9.6 СИСТЕМЫ ГИБРИДНОГО ИНТЕЛЛЕКТА Если рассматривать системы гибридного интеллекта в самом общем виде, то можно сказать, что системы гибридного интеллекта представляют собой сложный, скорее даже, социальный феномен, возникающий при коллективном ведении интеллектуальной работы. Соответственно, любая организационная система, осуществляющая ИАР, со всеми основаниями может быть названа системой гибридного интеллекта. По определению В.Ф. Венды 100 , « |