Разработка автоматизированной системы для документооборота. Реферат вопрос о необходимости автоматизации управления документооборотом давно перешел в практическую плоскость, и все больше российских предприятий внедряют у себя системы электронного документооборота,
Скачать 3.12 Mb.
|
4.3. Назначение, функциональные возможности, состав и структурная схемасистемы Основная идея систем управления контентом (Рисунок 4.1) – разделение визуального дизайна сайта и его информационного наполнения. При создании сайта с помощью такой системы разрабатывается набор шаблонов страниц, в которых впоследствии размещается информация. В этом случае роль разработчиков (фактически это группа внедрения) ограничивается только созданием "начальной" информационной системы на основе системы управления контентом, затем пользователи сами публикуют требуемую информацию и определяют ее представление. Управление сайтом сводится к минимуму, – администратору остается только управлять пользователями. Рисунок4.1 - Схема функционирования CMS Пользователи CMS делятся на две группы – создатели шаблонов страниц и авторы контента (информационного наполнения). Таким образом, одна группа пользователей создает структуру и оформление страниц, а другая наполняет его содержанием. 80 Функции систем управления контентом структурированы согласно жизненному циклу системы. Сначала группа внедрения разворачивает ядро CMS и создает в СУБД информационное хранилище контента – БД. Далее администратор предоставляет доступ к системе различным пользователям, затем создается контент, он публикуется, и к нем применяются шаблоны оформления. 4.3.1 Требования к системе администрирования контента (CMS) Первым этапом создания любого программного продукта является постановка задачи. Имея точно сформулированные цели и задачи, можно приступать к проектированию структуры базы данных и всего приложения в целом. Разработку приложения можно начинать, только имея готовый проект, иначе вся работа грозит закончиться неудачей и потерей драгоценного времени. Основные требования, предъявляемые к CMS, заключаются в следующем. Система должна позволять: Изменять и корректировать структуру сайта. Редактировать существующие страницы и создавать новые. Редактировать информационное наполнение всех страниц сайта. Быть гибкой, в плане добавления новых модулей. Согласно этим требованиям, все страницы сайта должны создаваться средствами CMS. Исключение могут составлять дизайнозависимые блоки, например главное меню сайта, ссылка на копирайт внизу страницы, изменения в которых могут сильно повлиять на дизайн. Такие блоки, как правило, мало подвержены изменениям и создаются виде статичных HTML-блоков. Для того чтобы обеспечить не только удобную навигацию администраторам и редакторам ресурса, но и простоту сопровождения ресурса, с самого начала необходимо спроектировать структуру расположения файлов и папок в директории Document Root. 4.3.2 Создание контента На первом этапе необходимо создать все типы контента и схемы их метаописаний, а также настроить систему на определенный поток работ (если система поддерживает создание потоков работ, а не использует единственный встроенный). Понятие типа контента аналогично понятию класса, а элементы контента представляют собой набор экземпляров таких "классов". Типами контента являются, например, текст и изображение; экземпляром контента конкретный документ или картинка. Следующая важная возможность – хранение информации о версии контента. Это позволяет задать номер версии любых операций изменения контента и при необходимости восстановить его. 81 В любой момент можно отказаться от изменений и, практически в режиме реального времени, откатиться на одну из предыдущих зафиксированных версий. Строгий контроль версий необходим для определения ответственности отдельных лиц, а также для резервного и аварийного восстановления системы. Кроме управления контентом, система должна предоставлять возможность создавать метаданные о нем. Метаданные – это сведения о данных, свойства данных. Примером метаданных служат ключевые (характерные) слова документов, предназначенные для поисковых или отчетных систем. Системы управления контентом, рассматриваемые в данном обзоре, не поддерживают метаданные, хотя можно специально ввести дополнительные типы контента, представляющие собой метаданные. После того, как все типы контента созданы, авторы информационного наполнения начинают создавать, изменять и удалять элементы контента указанного типа. CMS уже содержит некоторый набор визуальных компонентов, например, для редактирование текста, выбора изображений, выбора шаблона представления. Кроме непосредственно редактирования элементов контента, необходимо предусмотреть разбиение контента по категориям или рубрикам. 4.3.3 Создание шаблонов оформления В качестве решения проблемы представления в системах управления контентом используется технология шаблонов, определяющих внешний вид страницы. Разработчику шаблонов не нужно знать никаких технических тонкостей. На ранних этапах существования WWW шаблоны представляли "заготовки" HTML-кода, из которого путем манипуляций в HTML- редакторе получались готовые страницы. Сегодня такими заготовками манипулируют уже не дизайнеры в своих редакторах, а серверные web-приложения. Таким образом, современный шаблон Web-страницы представляет собой блок HTML, который благодаря специальным тегам или внедренным сценариям, облегчает включение динамически сгенерированного содержания на этапе выполнения. При использовании подобных шаблонов программистам необходим некоторый стандартизированный интерфейс для работы с ними – шаблонный движок (в английском языке существует устоявшийся термин – template engine), который может иметь разнообразные дополнительные функции, например, поддерживать кэширование шаблонов, их динамическое обновление и т.д. 4.3.4 Публикация контента Механизм публикации информации в системе управления контентом отвечает за процесс создания, редактирования и удаления шаблонов страниц, а также за сопоставление типов контента 82 и шаблонов страниц. В состав дополнительных возможностей системы публикации может входить предварительная генерация статической версии сайта. Эта опция очень полезна в случае размещения информационной системы на оборудовании с ограниченными возможностями. Типичный процесс публикации информации в World Wide Web реализован в Microsoft Content Management Server. Обычным приемом обеспечения оформления информационного наполнения являются шаблоны представления информации. Поэтому первым этапом процесса является создание наборов шаблонов. Типичный шаблон содержит разметку HTML и места, куда в дальнейшем будут вставлены данные (placeholder'ы в терминологии Microsoft). Далее на основе этих шаблонов авторы информационного наполнения создают страницы и представляют их редакторам для одобрения. Редакторы, в свою очередь, могут либо отклонить страницу и вернуть ее автору на доработку, либо одобрить ее и передать модератору сайта. В первом случае процесс повторяется снова, во втором же модератор сайта проверяет расположение страницы на сайте, дату и срок ее публикации. Если все в порядке, страница становится видна пользователям. Несмотря на то, что рабочий процесс в Microsoft Content Management Server фиксирован и не может быть изменен в дальнейшем, подобное решени е подходит большинству пользователей, которым необходимо публиковать информацию в World Wide Web. 4.3.5 Управление пользователями Управление пользователями включает создание, изменение и удаление учетных записей отдельных пользователей и их групп, а также назначение прав для работы с элементами контента. Важной частью требований является наличие пользовательских профилей (profiles), с помощью которых можно сгенерировать персональное представление информации для каждого пользователя. Полезной является и возможность пользователя делегировать свои права. Это позволяет пользователям переназначать исполнителя конкретной работы и избегать простоев из-за отсутствия отдельного лица. Системы управления контентом управляют учетными записями пользователей на основе собственных групп, не используя существующие идентификационные системы, например, Windows. Аутентификация средствами Windows позволила бы значительно упростить администрирование. При этом система управления контентом могла бы использовать операционную систему локального компьютера или контролера домена для проверки и сопровождения учетной записи пользователя. Представление информации создается на основе данных, а также предпочтений конкретного пользователя. Персонификация достигается путем использование профилей – специальных записей, в которых хранится информация, специфичная для конкретных пользователей. 83 Архитектура системы управления контентом В самом общем виде архитектуру систем управления Web-контентом (Рисунок 4.2) можно представить следующим образом: Рисунок4.2 - Архитектура CMS В основе данной технологии лежит трехзвенная архитектура клиент/сервер. Такая архитектура разбивает процесс обработки данных между клиентом, сервером приложений и хранилищем данных. В отличие от традиционной двухзвенной архитектуры здесь присутствует сервер приложений как промежуточное звено между клиентом и хранилищем данных. В системе присутствует два хранилища. В первом (обычно реляционная СУБД) хранятся все данные, которые публикуются на сайте. Во втором (обычно файловая система) хранятся элементы представления – шаблоны, графические изображения и т.д. Получая запрос, сервер приложений обрабатывает его, связываясь с хранилищем данных, в каком бы месте необходимые данные не находились. Клиент лишь получает результат в виде HTML-файла. Таким образом, сервер приложений является стандартизованной платформой для динамической доставки контента и построения основных приложений. Серверов приложений может быть много, а связь с ними происходит через Web-сервер. 4.3.6 Работа с системой администрирования разрабатываемой (CMS) Для администрирования ресурса необходимо обратиться к ключевому файлу библиотеке администрирования. Как правило, этот файл не выводят виде ссылок на страницы ресурса, в целях безопасности. (А если и выводят, то только ссылку на страницу авторизации пользователей) При обращении в адресной строке браузера к адресу: http://www.имя_сайта.имя_домена/admin/ (Рисунок 4.3). или http://www.имя_сайта.имя_домена/admin/index.php пользователь попадает на страницу администрирования контента. Система администрирования контента, как блок CMS позволяет выполнять следующие задачи: 84 Управление разделами статей. Управление метаданными статьи. Метаданные статьи включают в себя название, описание статьи (эти элементы выводятся на странице администрирования) и информацию для заголовка и метатегов страницы сайта: заголовок страницы (Тег Работа над статьей как структурным элементом позволяет осуществлять над ней следующие действия: Создание. Редактирование (изменение метаданных статьи). Удаление. Скрытие/отображение. Редактирование статей (работа с параграфами). CMS должна обеспечивать следующие операции с параграфами: Создание. Редактирование. Удаление. Скрытие/Отображение. Перемещение вверх/вниз. Рисунок 4.3 – «Внешний вид главной страницы CMS» 85 5 Интеллектуальный анализ данных (DataMining) По мере распространения информационных технологий увеличиваются объемы хранимой в базах данных информации, что приводит к развитию методов интеллектуального анализа данных – дисциплины, изучающей процесс нахождения новых, действительных и потенциально полезных знаний в базах данных. Интеллектуальный анализ (ИА) лежит на пересечении нескольких наук, главные из которых – это системы баз данных, статистика и искусственный интеллект. Область интеллектуального анализа выросла из одного семинара в 1989 г. до десятков международных конференций в 2003 г. с тысячами исследователей во многих странах мира. Интеллектуальный анализ широко используется во многих областях с большим объемом данных. В науке – астрономии, биологии, биоинформатике, медицине, физике и других областях. В бизнесе – торговле, телекоммуникациях, банковском деле, промышленном производстве и т.д. Благодаря сети Интернет интеллектуальный анализ используется каждый день тысячи раз в секунду – каждый раз, когда кто-то использует поисковые системы для своих нужд. Виды информации, с которыми работают исследователи, включают не только цифровые данные, но и все более текст, изображение, видео, звук и т.д. Новая и быстро растущая часть интеллектуального анализа – анализ связей между данными (link analysis) – имеет приложения в таких разных областях, как биоинформатика, цифровые библиотеки и т.п. Математические и статистический подходы являются основой для ИА. Инструментарий ИА включает: Методы теории вероятностей и математической статистики. Регрессионный, дискриминантный анализ. Факторный, кластерный анализ. Карты восприятия, методы выявления логических закономерностей. Метод дерева решений. Методы теории нечетких множеств. Методы теории полезности. Метод анализа иерархий. Система сбалансированных показателей. Нейронные сети. Под интеллектуальными (интеллект от лат. Intellectus – ум, рассудок, разум) методами подразумеваются такие способы решения задач, в основе которых лежат алгоритмы и действия, в большей или меньшей степени связанные с интеллектуальной деятельностью человека, его эволюцией, повседневным поведением. 86 С другой стороны, в современных организациях непрерывное развитие может быть увидено в перманентном изменении услуг и производимых товаров. Это требует все более действенного и эффективного организационного и производственного окружения. Одним из подтверждений подобных тенденций является распространение систем менеджмента качества на базе стандарта ИСО 9000 и таких методологий, как Continuous Process Improvement (CPI). Эти подходы требуют наличия инструментов моделирования бизнес-процессов, анализа их выполнения, средств контроля и документирования. При этом крайне важна возможность непрерывного улучшения и внесения изменений в их структуру. Значительным образом способствуют решению этих задач системы управления электронным документооборотом, такие, как «ДокМенеджер», «DocsVision», «Documentum» и др. Бизнес-процессы в них должны быть построены соответствующим образом, желательно с использованием научных методов. Основная проблема для сотрудников, ответственных за разработку бизнес-процессов, – осуществление действенного и эффективного дизайна и контроля бизнес-процессов. Поскольку в современной организации значительное количество информации о бизнес- процессах записывается и хранится в электронном виде, подобные данные представляются полезными для получения актуальной картины, происходящей с бизнес-процессами. Решить эту задачу позволяют адаптированные методы ИА, чему уделяется особое внимание в этой монографии. Разрабатывая систему поддержки бизнес-процесса, аналитику необходимо построить детальную модель, безошибочно описывающую реальный бизнес-процесс. Моделирование бизнес-процесса без использования системы интеллектуального анализа – сложная задача, требующая всестороннего знания процесса (общение с сотрудниками и менеджерами – участниками бизнес-процесса), что занимает много времени, и часто результаты получаются весьма субъективными. Именно поэтому в современной научной литературе возрастает интерес к решению этой проблемы в большей степени средствами ИА. При использовании OLAP-систем [1] аналитику предоставляются средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют «скрытыми», так как они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду [2]. Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания. За этим направлением прочно закрепился термин интеллектуального анализа данных. 87 Классическое определение этого термина дал в 1996 г. один из основателей этого направления Пятецкий-Шапиро [1]. Интеллектуальный анализ данных – исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно [2]. Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания. Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных средств ИА. Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания представляются в понятном для человека виде. В ИА для представления полученных знаний служат модели. Виды моделей зависят от методов их создания. Наиболее распространенными являются: правила, деревья решений, кластеры и математические функции. 5.1 Практическое применение анализа данных Интернет-технологии. В системах электронного бизнеса, где особую важность имеют вопросы привлечения и удержания клиентов, технологии ИА часто применяются для построении рекомендательных систем Интернет-магазинов и для решения проблемы персонализации посетителей Web-сайтов. Рекомендации товаров и услуг, построенные на основе закономерностей в покупках клиентов, обладают огромной убеждающей силой. Статистика показывает, что почти каждый посетитель магазина Amazon не упускает возможности посмотреть на то, что покупали другие посетители. Персонализация клиентов, другими словами, автоматическое распознавание принадлежности клиента к определенной целевой аудитории позволяет компании проводить более гибкую маркетинговую политику. Поскольку в электронной коммерции деньги и платежные 88 системы также электронные, то важной задачей становится обеспечение безопасности при операциях с пластиковыми карточками. ИА позволяет обнаруживать случаи мошенничества. Банковское дело. Классическим примером использования ИА на практике является решение проблемы о возможной некредитоспособности клиентов банка. Этот вопрос, тревожащий любого сотрудника кредитного отдела банка, можно решить и интуитивно. Если образ клиента в сознании банковского служащего соответствует его представлению о кредитоспособном клиенте, то кредит выдавать можно, иначе – отказать. По схожей схеме, но более продуктивно и полностью автоматически работают установленные во многих банках системы поддержки принятия решений со встроенной функциональностью ИА. Лишенные субъективной предвзятости, они опираются в своей работе только на историческую базу данных банка, где записывается детальная информация о каждом клиенте и в конечном итоге факт его кредитоспособности. Классификационные алгоритмы ИА обрабатывают эти данные, и полученные результаты используются далее для принятия решений. Анализ кредитного риска заключается, прежде всего, в оценке кредитоспособности заемщика. Эта задача решается на основе анализа накопленной информации, т.е. кредитной истории «прошлых» клиентов. С помощью инструментов ИА (деревья решений, кластерный анализ, нейронные сети и др.) банк может получить профили добросовестных и неблагонадежных заемщиков. Кроме того, возможно классифицировать заемщика по группам риска, а значит, не только решить вопрос о возможности кредитования, но и установить лимит кредита, проценты по нему и срок возврата. Мошенничество с кредитными карточками представляет собой серьезную проблему, т.е. убытки от него измеряются миллионами ежегодно, а рост количества мошеннических операций составляет по оценкам экспертов от 15 до 25 % ежегодно. При решении этой задачи технология ИА предоставляет стереотипы подозрительных операций, созданные в результатеанализа огромного количества транзакций – как законных, так и неправомерных. Исследуется не только отдельно взятая операция, но и совокупность последовательных во времени транзакций. Кроме того, алгоритмы и модели (например, нейронные сети), имеющиеся в составе продуктов ИА, способны тестироваться и самообучаться. При попытке совершения подозрительной операции средства ИА оперативно выдают предупреждение об этом, что позволяет банку предотвратить незаконные действия, а не устранять их последствия. Использование технологий ИА позволяется сократить число нарушений на 20 – 30 %. Другие области применения. ИА может применяться практически везде, где возникает задача автоматического анализа данных. В качестве примера приведем такие популярные направления, как анализ и последующая фильтрация спама, а также разработка так называемых 89 виртуальных собеседников. Последние сейчас являются не более чем экзотическим дополнением к интерфейсу некоторых сайтов, но предполагается, что в будущем они могут заменить собой call- центры компаний. Интеллектуальный анализ выполнения бизнес-процессов в системе электронного документооборота (СЭД) – молодое направление, обещающее интересные задачи и их решения. Авторами были разработаны три алгоритма: алгоритм восстановления комплексных МАБП и два различных алгоритма поиска частых подпоследовательностей. Алгоритм восстановления комплексных МАБП предоставляет аналитику возможность не только получить МАБП на основе журнала выполнения бизнес-процесса, но и увидеть наиболее типичные варианты выполнения бизнес-процесса, отражающие зачастую бизнес-правила принятия решений. Подобный инструмент может улучшить принимаемые аналитиком решения на этапе анализа бизнес-процессов, помочь новым сотрудникам в понимании новых для них бизнес- процессов, проливает свет на имеющиеся в организации взаимодействия. В контексте дальнейшего развития алгоритмов возникают интересные задачи, решение которых только предстоит найти. Например, задача обнаружения таких дискриминантных правил, которые характеризуют неудачное или, напротив, удачное завершение бизнес-процесса, или какой выбор ведет к наиболее желанному завершению бизнес-процесса. Алгоритмы, предложенные для поиска частых подпоследовательностей при выполнении МАБП, по существу являются адаптацией традиционных алгоритмов поиска частых подпоследовательностей к применению в более структурированной предметной области, где имеется дополнительная информация о природе исследуемых последовательностей. В частности, это адаптация алгоритма «Apriori» [10] для работы с данными WFMS. Кроме того, произведено тестирование алгоритмов поиска частых подпоследовательностей, где было подтверждено их превосходство над традиционными подходами поиска. Дальнейшее развитие алгоритмов поиска частых подпоследовательностей наблюдается в применении техник без генерации кандидатов [9]. При реализации этих алгоритмов в системе интеллектуального анализа выполнения бизнес- процессов необходимо учитывать их требования к уровню производительности при доступе к журналам выполнения, необходимость доступа к функционалу, реализующему другие алгоритмы восстановления МАБП, взаимодействие с редактором МАБП (подсветка частых подпоследовательностей в МАБП), сохранение вычисленных данных для дальнейшего анализа. Описанные алгоритмы (как разработанные в рамках этой работы, так и разработки других авторов, указанные в первой главе) предъявляют жесткие требования к реализующей их системе: − Скорость доступа к журналам выполнения бизнес-процессов без снижения производительности СЭД, при этом данные должны находиться в актуальном состоянии. 90 − Наглядность работы алгоритмов для конечного пользователя (например, выделение особым цветом в МАБП наиболее частых подпоследовательностей). − Возможность конвертации МАБП в различные нотации (EPC, IDEF3, Control Flow, Activity Diagrams и т.п.). − Возможность ввода уникальных параметров алгоритмов. − Сопоставление журнала выполнения и версионности МАБП. Реализация всех этих требований при сохранении приемлемой производительности конечной системы – сложная задача, решая которую, необходимо учитывать предоставляемую конечной архитектурой возможность легкого добавления новых методов и алгоритмов в систему интеллектуального анализа. |