Проблемы, связанные с использованием Data Mining DM-технологии
Конечно, возможности DM велики, но уже сейчас аналитики предупреждают потенциальных инвесторов, что этот еще не устоявшийся сегмент рынка ПО может быть чрезмерно разрекламирован.
Сложность инструментов Data Mining
Сложность — существенный барьер для внедрения DM. Существует такое шутливое мнения, что DM — настолько сложная технология, что для ее освоения необходимо иметь три высших образования: одно в области статистики или вычислительных методов, другое в области бизнеса, чтобы понимать клиентов, и еще одно по вычислительной технике.
Фактически DM — это результат совместных усилий специалистов во всех трех областях. Управление проектом должны брать на себя бизнес-специалисты, задачей которых является формирование набора бизнес-задач и последующая интерпретация полученных результатов. Разработчик-аналитик, разбирающийся в методах DM , в статистике и инструментах должен создать надежную модель. А специалисты по информационным технологиям обеспечивают обработку данных, а также техническую поддержку.
IT-команды увлеклись мифом о том, что средства DM просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный DM проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных.
Опытность пользователя DM
Различные инструменты DM имеют свои сильные и слабые стороны. Поэтому конкретные программы должны четко соответствовать уровню подготовленности пользователя и его конкретным целям. Кроме того, DM , как правило, подразумевает употребление определенного технического жаргона, который может сильно усложнить для неопытного пользователя понимание работы программы, ее сути, практических результатов, а также того, какой продукт и каким способом лучше всего использовать для достижения определенных бизнес-целей. Это вызывает замешательство, и часто потенциальный клиент может вообще отказаться от использования DM . Еще хуже, если клиент вложит большие средства и пойдет неверным путем или потратит деньги на освоение различных инструментов для того, чтобы, наконец, понять, как нужно было применять DM в данной области деятельности.
Если DM применяется неправильно, то это может разорить компанию — использование DM должно быть неразрывно связано с повышением квалификации пользователя». Применение сложных инструментов предъявляет все большие требования к людям, которые необходимы компании, однако специалистов по DM , которые бы хорошо разбирались в бизнесе, очень не много. Извлечение полезных сведений невозможно без хорошего понимания сути данных. Кроме того, во многих случаях необходима тщательная интерпретация тех зависимостей или шаблонов, которые были обнаружены. Поэтому работа с этими средствами требует тесного сотрудничества между бизнес-экспертом и специалистом по инструментам DM .
Правильное использование прогнозирующих моделей должно быть грамотно интегрировано в реальные бизнес процессы, с тем, чтобы можно было четко оценивать и обновлять модели.
Трудозатраты
Результаты DM в большой мере зависят от уровня подготовки данных, а не от „чудесных возможностей“ некоего алгоритма или набора алгоритмов. Успешный анализ требует очищенных и подготовленных данных. По утверждению аналитиков и пользователей очистка клиентских записей, разделение их на поддающиеся обработке, но статистически достоверные образцы, а затем тестирование и уточнение всех результатов, занимает до 80% процентов всего DM-процесса. Таким образом, чтобы заставить технологию работать на себя потребуется много времени. Много усилий тратится на анализ предварительных данных и корректировку прогнозирующих моделей.
Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов.
Высокий процент ложных результатов
Инструменты, занимающиеся поиском трудно обнаруживаемых зависимостей в БД, могут раскрыть действительно драгоценные «самородки» информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Но, к сожалению, DM очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл.
Пример:
Компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными карточками. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла.
Несоответствие результато в прогнозировани я реально й ситуации
Есть одна сложнейшая задача, вставшая перед DM , которую многие эксперты считают неразрешимой и которая оправдывает тот скептицизм, который часто слышен в адрес этой ниши рынка. Средства DM хорошо прогнозируют поведение потребителя на основе данных за прошлые периоды, то есть дают информацию о том, что человек, исходя из его предыдущих приобретений, демографических данных и других параметров, захочет купить с наибольшей вероятностью. Но, по мнению критиков, DM никогда четко не предскажет, что же человек захочет купить на самом деле.
Пример.
DM-приложение может определить, что 34-х летная домохозяйка, имеющая двоих детей, вероятнее всего каждые три года в ближайшее десятилетие будет покупать отдельную микроволновую печку. Но такое ПО не может определить, что именно эта клиентка скорее купила бы более дорогую печь, где комбинируются микроволновый и конвекционный режимы, если бы та подошла ее по цене.
Конфиденциальность
Это одно из самых существенных возражений против DM. Сам по себе аналитический DM-процесс применяется к накопленным анонимным данным, при этом выявляются возможности использования, тенденции приобретения и десятки, если не сотни, других факторов. Но вот выполнение следующего этапа обработки данных — попытка связать их с характером поведения конкретного клиента, чтобы извлечь некий личный опыт взаимодействия с этим человеком, — вызывает настороженность среди сторонников прав на неприкосновенность частной жизни. Защитники конфиденциальности говорят о том, как важно быть честными с клиентами и сообщать им о собираемых данных и целях их использования.
Директивы кажутся простыми, но на практике их реализация сложна. В целом они звучат так.
Директивы:
сообщить людям, какие собираются данные и как планируется их использовать;
дать возможность эту информацию о себе не указывать;
обеспечить просмотр и корректировку личных сведений.
Именно таким, самым трудным путем, решили пойти поставщики ПО для DM, пропагандируя возможность клиентов выполнять директивы.
Использование специальной БД - базы данных
Обычно поставщики DM продуктов требуют использования дорогой специализированной БД, витрины данных или аналитического сервера, которые позволят исследовать информацию, прежде всего потому, что для эффективной обработки необходимо привести данные к некоему специальному формату.
Чтобы максимально использовать мощность масштабируемых инструментов DM коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников и установить специальную среду для работы DM алгоритмов.
Высокая стоимость
Хорошая DM программа обходится в сумму от 500 тыс. до 1,5 млн. долл., которая необходима на программное, аппаратное обеспечение и техническую поддержку. Вкладывая средства в такой проект, необходимо убедиться, что эффективность инвестиций будет достаточно высокой. Неплохой проверкой является небольшой DM-проект (от 100 тыс. до 200 тыс. долл.), который позволит выяснить, достаточно ли того объема и качества данных, которые имеются в наличии, чтобы сделать DM полезным для предприятия.
Несмотря на множество рассмотренных недостатков и проблем, связанных с DM , всё больше и больше программных продуктов этого класса находят свое применение. Конкурентные преимущества, которые дает DM , не позволяют игнорировать эту технологию. Но, чтобы получить полезные результаты требуются детальные знания данных и длительные проверки методом «проб и ошибок».
Очевидно, что идея, лежащая в основе этой технологии, имеют массу плюсов. А критики заслуживают отдельные методы ее реализации.
| OLAP-системы оперативной аналитической обработки данных
Оперативный анализ состояния рынка товаров и услуг, своевременное принятие экономически обоснованных решений являются гарантией успеха деятельности любого предприятия. Основным требованием, предъявляемым к ИС, ориентированной на анализ данных, является своевременное обеспечение аналитика всей информацией, необходимой для принятия решения. При анализе больших объемов информации возникает проблема поиска и представления требуемых данных в виде, подходящем для анализа, т.к. централизация и удобное структурирование - это далеко не все, что нужно аналитику. Ему ведь еще требуется инструмент для просмотра, визуализации информации.
| OLAP (On-Line Analytical Processing)
OLAP
OLAP (On-Line Analytical Processing) – это класс приложений и технологий, предназначенных для оперативной аналитической обработки многомерных данных (сбор, хранение, анализ) для анализа деятельности корпорации и прогнозирования будущего состояния с целью поддержки принятия управленческих решений. Технология OLAP применяется, чтобы упростить работу с многоцелевыми накопленными данными о деятельности корпорации в прошлом и не погрязнуть в их большом объеме, а также превратить набор количественных показателей в качественные, позволяет аналитикам, менеджерам и управляющим сформировать свое собственное видение данных, используя быстрый, единообразный, оперативный доступ к разнообразным формам представления информации. Такие формы, полученные на основании первичных данных, позволяют пользователю сформировать полноценное представление о деятельности предприятия.
Функциональность OLAP, как систем реализующих интеллектуальный анализ данных, заключается в динамическом многомерном анализе консолидированных данных предприятия, направленном на поддержание следующих аналитических и навигационных видов деятельности пользователя:
вычисления и моделирование, примененные к измерениям и/или их конкретным элементам, использующие информацию об иерархиях
анализ временных тенденций и взаимозависимостей показателей (анализ трендов), учет которых помогает повысить качество принимаемых оперативных и стратегических решений
формирование срезов многомерного представления для просмотра на экране
переход к более глубоким уровням детализации
доступ к исходным данным
"вращение" многомерных представлений: перемещение измерений с целью формирования различных форм представления данных на экране компьютера
OLAP-технология
OLAP-технология является альтернативой традиционным методам анализа данных, основанным на различных системах реализации SQL-запросов к реляционной БД. OLAP-системы играют важнейшую роль в анализе и планировании деятельности крупных предприятий и являются одним из направлений развития ИТ. В основу кладутся требования людей принимающих решения к предоставляемой информации, сложившейся индивидуальные особенности ведения дел и принятый механизм принятия решения. С точки зрения пользователя основное отличие OLAP-системы от ХД заключается: в предметной структурированности информации (именно предметной, а не технической). Работая с OLAP-приложением, пользователь применяет привычные категории и показатели – виды материалов и готовой продукции, регионы продаж, объем реализации, себестоимость, прибыль и т. п. А для того чтобы сформировать любой, даже довольно сложный запрос, пользователю не придется изучать SQL. При этом ответ на запрос будет получен в течение всего нескольких секунд. Кроме того, работая с OLAP-системой, экономист может пользоваться такими привычными для себя инструментами, как электронные таблицы или специальные средства построения отчетов.
Разработка решений по управлению предприятием
Разработка решений по управлению предприятием попадает в разряд областей наиболее сложно подающихся автоматизации. Однако сегодня имеется возможность оказать помощь руководителю в разработке решений и, самое главное, значительно ускорить сам процесс разработки решений, их отбора и принятия. Фактически, руководители различных рангов получают принципиально новый инструмент для более эффективного принятия управленческих решений и, самое главное, значительно ускорить сам процесс разработки решений, их отбора и принятия.
На сегодняшний момент проблему понимания и установления взаимосвязей между агрегированными данными наилучшим образом решают продукты, использующие многомерный оперативный анализ данных OLAP. Корпоративная аналитическая система, построенная на основе OLAP-технологии, позволяет различным категориям пользователей компании в реальном масштабе времени работать с обобщенной аналитической информацией и эффективно ориентироваться в больших объемах данных. OLAP-модули редко взаимодействуют с другими системами автоматизации, ведь БД последних зачастую имеют достаточно своеобразный вид и набор специальных показателей.
Главная особенность аналитических БД (OLAP) – это возможность формирования нерегламентированных запросов к аналитической БД. Загрузка данных в систему производится из оперативной БД предприятия. Корпоративная аналитическая система может состоять из нескольких модулей, каждый из которых обрабатывает несколько информационных массивов, необходимых для проведения всестороннего анализа соответствующего аспекта деятельности предприятия. Информационная модель, на основе которой разработана информационная система, в полном объеме описывает все аспекты предметной области и обеспечивает наглядность и простоту доступа к необходимым для анализа данным.
Внешнее отображение информации в системе
Внешнее отображение информации в системе реализовано в виде электронной таблицы или графика с использованием механизма двумерных сечений куба многомерной БД. Сечение определяется пользователем путем выбора двух независимых размерностей (ребер куба), значения которых будут представлены в строках и столбцах электронной таблицы, и фиксации значений всех других размерностей информационной модели. Интерфейс предлагаемой системы представляет собой несколько экранных форм, каждая из которых включает в себя электронную таблицу или график.
OLAP (On-Line Analytical Processing) - это не отдельно взятый программный продукт, не язык программирования и даже не конкретная технология, это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным. Термин OLAP очень популярен в настоящее время и OLAP-системой зачастую, но не совсем верно, называют любую DSS-систему, основанную на концепции ХД и обеспечивающих малое время выполнение (On-Line) аналитических запросов, не зависимо от того, используется ли многомерный анализ данных.
| Недостатки OLAP
Недостатки OLAP - системы оперативной аналитической обработки данных:
слабая предрасположенность к произвольному дизайну форм, т.к. OLAP-отчеты – это, как правило, сводные таблицы
выгрузка данных из баз в хранилище, разработка ХД, схемы наполнения его данными – требует высокого уровня знаний специалиста
при своем внедрении требуют достаточно большого объема дополнительных работ, прежде всего в области интеграции с имеющимися бизнес-системами (например, производственными системами, логистикой, системами складского и финансового учета). С технической точки зрения это означает необходимость разработки модулей сопряжения и переноса (преобразования) данных из этих систем, а также правильно подобранной аппаратной платформы
их использование связано с созданием ХД, которые в отличие от традиционных систем автоматизации, оптимизируются на предоставление большого объема данных по различным аналитическим запросам. Причем во многих случаях эти данные проходят предварительную обработку в самих хранилищах с целью уменьшения излишней детализации и увеличения скорости доступа
так как целью OLAP является быстрое предоставление разнообразной информации, подчас заранее не фиксированной, поэтому построения ХД должно производиться в изначально избыточном, с точки зрения классической теории построения реляционных БД, виде. Это связано с тем, что бизнес системы оптимизированы на ввод фиксированной информации и уменьшение объема данных (нормализация БД).
| |