Тема Понятие информационной технологии Вопросы темы
Скачать 2.93 Mb.
|
бизнес-интеллекта (BI-системами) или системами интеллектуального анализа данных. Спектр задач, решаемых аналитическими системами, достаточно широк: анализ сроков поставок товаров производителей или поставщиком; анализ ситуаций возникновения дефицита или затоваривания; анализ динамики качества производственных процессов; анализ брака и списаний; анализ эффективности рекламных каналов; анализ эффективности маркетинговых акций, а также много других задач. BI-системы могут быть представлены в виде некоторого инструментария, благодаря которому можно разрабатывать специализированные прикладные решения для аналитических задач, применительно к огромному количеству предметных областей (рис. 39). Изначально такой вариант BI-систем не является настроенным на заданную предметную область. Поэтому в данном случае потребуются специалисты в области информационных технологий для адаптации BI- 44 системы под конкретную предметную область определенного предприятия. Однако есть и другой вид BI-систем, который является самостоятельной платформой, уже адаптированной под определенную предметную область и настроенной для решения типовых аналитических задач, свойственных многим предприятиям. Если предприятие решает внедрять у себя типовое BI-приложение, то затраты времени и средств в данном случае будут меньше, чем при создании собственного BI-приложения «с нуля». Разработчики аналитических приложений используют программно- аппаратные средства, образующие BI-платформу, и создают с их помощью настроенное определенным образом программное приложение (BI-приложение). Разработанные BI-приложения могут применяться в определенной предметной области сотрудниками компании, не являющимися специалистами в сфере информационных технологий и не могущими самостоятельно настроить BI-платформу для решения своих аналитических задач. 45 Рис. 39. Спектр задач, решаемых BI-системами 46 Рис. 40. Принципиальная схема взаимодействия пользователей BI- системы Все более востребованной становится технология настройки аналитики «под пользователя». Это аналитические сервисы, основное назначение которых заключается в поиске и предоставлении ответа, например, клиенту компании или ее сотруднику на интересующий вопрос без их обращения в службу поддержки. Как правило, подобный сервис представлен в виде программного обеспечения, установленного как на стационарном, так и на мобильном устройстве пользователя. Кроме того, есть база знаний, разделенная на категории, и удобная система поиска. Непосредственно база знаний может включать набор часто задаваемых вопросов и ответов на них, коллекцию статей, документов, файлов, различных алгоритмов и технологий поиска решений. Преимущество подобных сервисов еще и в том, что они могут быть доступны аналитику и через интернет-браузер. 47 Классифицировать аналитические инструменты затруднительно, так как многие из них позволяют решать задачи, которые можно было бы отнести к разным категориям. Поэтому в самом общем виде все инструменты для анализа можно разделить на горизонтальные и вертикальные (рис. 41). Рис. 41. Группы информационных технологий, ориентированных на анализ данных К горизонтальным относят общеприменимые инструменты, без учета отраслевой специфики предприятий. Такие инструменты приемлемы для предприятий, занимающихся своей деятельностью длительное время без существенных ее модификаций. Если же предприятие планирует значительное расширение своей деятельности и специализация компании значительно расширится со временем, то в данном случае целесообразнее ориентироваться на вертикальные BI-решения. Такие решения являются специализированными для конкретной отрасли или задачи. Если перечислить отдельные инструменты аналитических систем, то к ним можно отнести: инструменты делового анализа; технологии многомерного анализа данных; технологии добычи данных и текстовой информации; технологии извлечения информации и знаний из веб; средства анализа процессов; средства визуализации и ряд других. 48 В качестве примеров систем, ориентированных на решение аналитических задач, можно отметить Tableau, Spotfire, QlikSense, Microsoft BI, Prognoz Platform, IBM Cognos, Tibco Spotfire, Pentaho BI, а также: Project Business intelligence 18 – решение на базе платформы Micrisoft BI, предназначенное для анализа данных проектной деятельности. Power BI – система бизнес-аналитики от Microsoft, базируется на облачных вычислениях, машинном обучении, голосовом интерфейсе Cortana. QlikView – аналитический инструментарий, загружающий, очищающий, преобразовывающий данные из различных источников (реализация в системе функции ETL на высокой скорости и соответствующем уровне гибкости. Собственного хранилища данных нет (не нуждается в промежуточном хранилище, но может подключаться к имеющемуся хранилищу). OLAР не требуется. BI TOCAN 19 – система бизнес-аналитики. Принципиальная схема архитектуры BI-системы представлена на рис. 42. Рассмотрим назначение основных аналитических инструментов. Начнем со средств предварительной подготовки данных (ETL 20 ). Для решения аналитических задач нужны исходные данные. Их источниками являются корпоративные базы данных. В них данные попадают в процессе решения оперативных задач, с помощью внедренных на предприятии автоматизированных систем и различных приложений. Кроме того, необходимые для аналитической деятельности данные могут храниться в локальных файлах, создаваемых сотрудниками компании, в самых разных форматах. К тому же, информационные потоки могут быть внутренними и внешними. Такая разрозненная информация делает работу аналитика очень затруднительной, а порой и невозможной. Поэтому возникает необходимость в предварительной подготовке информации к последующей ее аналитической обработке. Для этих целей и используется технология первичной обработки данных. Технология первичной обработки данных является ключевой в управлении хранилищами данных. В процессе первичной обработки данных происходит: извлечение данных из внешних источников; их трансформация и очистка, чтобы они соответствовали потребностям бизнес-модели; и загрузка их в хранилище данных с целью последующего анализа. 18 Режим доступа – Projectbi.net 19 Режим доступа: https://tocan.biz/ 20 ETL (Extract – извлечение, Transformation – преобразование, Load – загрузка) – процессы по сбору, повышению качества данных и приведению их в единую структуру. 49 После того, как сбор данных из указанных источников будет завершен, следует этап преобразования собранных данных с целью их последующего размещения в аналитическое хранилище данных. Рис. 42. Принципиальная схема архитектуры BI-системы 50 Преобразование необходимо для того, чтобы формат исходных данных адаптировать к формату, который пригоден для выполнения аналитической обработки. Очистка данных – это процесс выявления и исправления ошибок, а также несоответствий данных для улучшения их качества. Вариантов такого рода ошибок очень много: противоречивость информации; пропуски в данных; аномальные значения; шум (или бесполезная информация); ошибки ввода данных. Заканчивает свою работу ETL-инструмент сохранением (загрузкой) очищенных данных в хранилище данных. Примерами ETL-инструментов могут служить Talend Open Studio (TOS) 21 , Pentaho Data Integration 22 , а также Informatica Power Center, IBM DataStage, Oracle Data Integrator, Oracle WareHouse Builder и т. д. Хранилище данных представляет собой объемную базу интегрированной, хронологической, предметно-ориентированной информации как о предприятии, так и о внешнем его окружении (рис. 43). Рис. 43. Принципиальная схема технологии работы с хранилищем данных 21 Режим доступа – https://www.talend.com. 22 Режим доступа – http://www.pentaho.com. 51 Частным случаем хранилища данных может быть витрина данных, которая содержит исключительно тематически объединенные данные. В зависимости от специфики решаемых аналитических задач может быть создано несколько витрин данных. Под метаданными понимается любая информация, необходимая в информационно-аналитических системах для анализа, проектирования, построения, внедрения и применения аналитической системы. На уровне приложений – метаданные описывают структуру данных в операционных БД и других их источниках. На уровне хранилища данных – метаданные описывают структуру и взаимосвязи данных в Хранилище. На уровне конечного пользователя – метаданные описывают структуры данных в Хранилище в терминах предметной области конечного пользователя. В качестве примера хранилища данных можно привести RS- DataHouse 23 . Также управляемое и достаточно высокоскоростное хранилище данных предлагает Amazon Redshift 24 Важными инструментами аналитических систем являются интеллектуальный анализ и технологии извлечения данных. Интеллектуальный анализ необходим для того, чтобы, используя большие объемы имеющихся данных, создавать гипотезы о развитии ситуации в дальнейшем. Или же предположить причину сложившейся ситуации на данный момент времени. Аналитик, опираясь на свои знания и опыт, создает гипотезы. Но так как потоки данных велики, аналитик может упустить из виду определенную взаимосвязь данных. В этом случае ему на помощь приходит технология добычи данных и знаний. Данная технология опирается на специальные компьютерные алгоритмы и средства искусственного интеллекта, благодаря чему может находить в исходных данных скрытые закономерности, зависимости, знания. Созданные технологиями добычи данных и знаний гипотезы потом передаются в OLAP-системы для их проверки (рис. 44). Генерация гипотез – это одна из основных задач аналитика. Именно он, опираясь на свои знания и опыт, создает гипотезы. Однако потоки данных столь велики, что аналитик может упустить из виду определенную взаимосвязь данных. В этом случае на помощь аналитику приходит технология добычи знаний (англ. Data Mining) (рис. 45). Данная технология опирается на специальные компьютерные алгоритмы и средства искусственного интеллекта, благодаря чему может находить в исходных данных скрытые закономерности, зависимости, знания. 23 Режим доступа – https://www.softlab.ru. 24 Режим доступа – https://aws.amazon.com. 52 Рис. 44. Принципиальная схема технологии аналитической обработки Рис. 45. Задачи, решаемые Data Mining Именно созданные средствами Data Mining гипотезы потом передаются в OLAP-системы для их проверки. 53 Технологии извлечения данных могут различаться в зависимости от специфики исходных источников данных, из которых нужно извлечь что- то полезное. Например, это может быть только текстовая информация (англ. Text Mining), или информация, извлекаемая из ресурсов Интернета (англ. Web Mining), или из протекающих на предприятии бизнес- процессов (англ. Process Mining). Поэтому, кроме технологий Data Mining, в аналитических приложениях могут применяться технологии Text Mining, которые необходимы для анализа текстовой информации. Технология Text Mining нацелена на работу с неструктурированной информацией, которой являются текстовые документы. Если из таблиц данные получить легко (они структурированы), то преобразовать текстовую информацию в формат, пригодный для анализа без потери смысла текста достаточно сложно и обычные аналитические инструменты с этой задачей не справляются (например, к анализу текстовой информации не удастся применить технологии Data Mining). Например, есть приложение Statistica Text Miner 25 , переводящее неструктурированный текст в пригодные для восприятия и последующего анализа данные. Также поддерживают технологию Text Mining такие продукты, как Clarabridge CX Analitics 26 , Еще один инструмент анализа – Web Mining. Данная технология применяется для извлечения, исследования и анализа информации из веб-документов и сервисов. Например, продукты OpenText 27 В том случае, когда предприятие хочет проанализировать бизнес- процессы, отражающие различные виды его деятельности и выявить сильные и слабые их стороны, применяют технологии Process Mining (технологии анализа бизнес-процессов). Эти технологии позволяют отобразить существующие бизнес-процессы предприятия. указать все необходимые виды ресурсов для реализации этих бизнес-процессов, а также определить значимый для предприятия результат в виде услуг или продуктов, предоставляющих ценность для потребителей. Построенные бизнес-процессы, отражающие реальность, анализируются специалистом. В результате проведенного анализа могут быть приняты решения о внесении изменений в существующие бизнес- процессы. Иногда может возникнуть ситуация, когда средства Process Mining могут показать существенные изменения в бизнес-процессах, отражающих реальную, текущую деятельность предприятия и теми схемами бизнес-процессов, которые заложены в корпоративной информационной системе. Это может говорить о том, что у предприятия назрела необходимость в модернизации имеющейся корпоративной информационной системы или даже в ее замене на более современные 25 Режим доступа – Statsoft.ru 26 Режим доступа – www.clarabridge.com. 27 Режим доступа – www.opentext.com. 54 решения, соответствующие как текущей деятельности предприятия, так и современным технологиям обработки информации. Например, технология Process Mining реализована в ELMA BPM Suite 28 , Bizagi BPM Suite 29 и Bonita Open Solution 30 Технологии больших данных (англ. Big Data). Самый важный момент в понимании смысла технологий больших данных заключается в следующем. Объемы данных огромны. Представлены они в самых разных форматах и находятся во множестве самых разнообразных источников как внутри конкретного предприятия, так и за его пределами. Например, это могут быть узлы внутрикорпоративной сети, хранилища данных, облачные сервисы и т. д. Скорость обновления огромных массивов данных существенна. Поэтому важно, чтобы были использованы такие технологии работы с огромными потоками плохо структурированной, разрозненной, постоянно и порой молниеносно изменяемой информации, которые позволяли бы аналитикам устанавливать взаимосвязи между данными и принимать на основе этого обоснованные решения. На основе массива информации строится модель будущего, а дальше имитируются различные варианты и отслеживаются результаты. Например, Master Card используют большие данные для предотвращения мошеннических операций со счетами клиентов. Технологии и методы анализа больших данных представлены на рис. 46. Важную роль в технологиях больших данных играют методы поиска, обработки и применения неструктурированной информации в больших объемах (более 100 Гб в день). Актуальными становятся технологии «быстрых данных», обеспечивающие быстрый и легкий доступ к данным самых разнообразных типов и вне зависимости от количества их источников. Кроме того, важна и программно-аппаратная платформа, позволяющая собирать и анализировать данные на сверхвысоких скоростях. Применительно к технологии больших данных иногда можно услышать такой термин, как «озеро данных». Данная технология подразумевает вычленение данных из источников, добавление их к уже имеющимся, а затем выполнение аналитиком экспериментов с полученным массивом данных. Если полезность таких данных для компании аналитиком признается, то эти данные могут быть использованы в корпоративных аналитических системах (к данным применяются аналитические инструменты, которые использует предприятие в компании для решения своих аналитических задач). Технологии Big Data представлены в виде схемы на рис. 47. 28 Данные о программном продукте доступны по адресу: http://www.elma-bpm.ru. 29 Данные о программном продукте доступны по адресу: http://www.bizagi.com. 30 Данные о программном продукте доступны по адресу: http://www.bonitasoft.com. 55 Очень важным инструментом аналитических приложений являются методы визуализации. Все те результаты, которые формирует система Data Mining, далеко не всегда являются удобными для их просмотра человеком. Поэтому в аналитических приложениях существуют специальные методы визуального отображения данных. Самыми простыми методами визуализации являются секторные диаграммы, гистограммы, поверхностные, пузырьковые и прочие виды диаграмм. Например, для решения бизнес-задач в большей степени приемлемы гистограммы или секторные диаграммы, визуализация в формате термометров, спидометров, светофоров и т. д. Если же речь идет об анализе геопространственных данных, то в этом случае не обойтись без карт в 3D-формате (рис. 47). Более сложными считаются графики рассеяния и диаграммы констелляции. Этот метод визуализации позволяет пользователям самим устанавливать информационные точки или перемещать с помощью компьютерной мыши уже установленные точки, анализируя и исследуя тем самым представленные данные. 56 Рис. 46. Технологии и методы анализа больших данных 57 Рис. 47. Укрупненная и упрощенная схема взаимосвязи технологий BigData Рис. 48. Аналитические панели 31 31 Режим доступа – http://dreamantle.ru. 58 Существенным преимуществом современных методов визуализации данных пользователь легко может подобрать наиболее подходящий для себя метод визуализации, выбирая нужный пункт меню в интерфейсе аналитического приложения или просто перемещая выделенные на экране объекты в нужном ему направлении. Вопросы для самопроверки: 1. Что понимается под информационной технологией? 2. Как можно классифицировать информационные технологии в зависимости от формы представления данных, информации и знаний? 3. В чем отличие технологии векторного представления изображений от растрового? 4. Какие основные шаги включает технологический процесс создания трехмерного объекта? 5. Как могут быть классифицированы прикладные информационные технологии? 6. Как могут быть классифицированы информационные технологии с точки зрения воплощения их в конечном программном продукте? 7. Что понимается под интегрированными информационными технологиями? 8. Что понимается под цифровизацией? 9. Что понимается под цифровой экономикой? 10. Какие виды облачных технологий вы знаете? 11. В чем отличие публичного облака от частного? 12. Какие самые популярные виды графиков, применяемые для иллюстрации экономических расчетов, вы знаете? 13. Какие типичные технологические этапы при работе с табличными данными проходит пользователь? 14. Что понимается под базой данных? 15. Какие типы моделей данных вы знаете? 16. Что понимается под OLTP-технологией? 17. Какие действия можно выполнять с аналитическим кубом? 18. С какой целью применяются аналитические технологии? 19. Какие экономические задачи могут быть решены с помощью аналитических систем? 20. С какой целью применяются средства предварительной подготовки данных? 21. Что понимается под очисткой данных? 22. Для чего применяется хранилище данных? 23. Что понимается под интеллектуальным анализом данных? 24. Какие технологии извлечения данных вы знаете? 25. В чем сущность технологии больших данных? |