Предварительные знания

Название	Предварительные знания
Анкор	DataMining.pdf
Дата	02.03.2017
Размер	3.17 Mb.
Формат файла
Имя файла	DataMining.pdf
Тип	Документы #3306
страница	24 из 34

1 ... 20 21 22 23 24 25 26 27 ... 34

Этап 6. Выбор модели
Если в результате моделирования нами было построено несколько различных моделей, то на основании их оценки мы можем осуществить выбор лучшей из них. В ходе проверки и оценки различных моделей на основании их характеристик, а также с учетом мнения экспертов, следует выбор наилучшей. Достаточно часто это оказывается непростой задачей.
Основные характеристики модели, которые определяют ее выбор, - это точность модели и эффективность работы алгоритма [77].
В некоторых программных продуктах реализован ряд методов, разработанных для выбора модели. Многие из них основаны на так называемой "конкурентной оценке моделей", которая состоит в применении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик.
Например, в пакете Statistica (Statsoft) [39] эти методы рассматриваются как ядро "предсказывающей добычи данных", они включают: накопление (голосование, усреднение); бустинг; мета-обучение.
Этап 7. Применение модели
После тестирования, оценки и выбора модели следует этап применения модели. На этом этапе выбранная модель используется применительно к новым данным с целью решения задач, поставленных в начале процесса Data Mining. Для классификационных и прогнозирующих моделей на этом этапе прогнозируется целевой (выходной) атрибут
(target attribute).
230

Этап 8. Коррекция и обновление модели
По прошествии определенного установленного промежутка времени с момента начала использования модели Data Mining следует проанализировать полученные результаты, определить, действительно ли она "успешна" или же возникли проблемы и сложности в ее использовании.
Однако даже если модель с успехом используется, ее не следует считать абсолютно верной на все времена. Дело в том, что необходимо периодически оценивать адекватность модели набору данных, а также текущей ситуации (следует учитывать возможность изменения внешних факторов). Даже самая точная модель со временем перестает быть таковой. Для того чтобы построенная модель выполняла свою функцию, следует работать над ее коррекцией (улучшением). При появлении новых данных требуется повторное обучение модели. Этот процесс называют обновлением модели. Работы, проводимые с моделью на этом этапе, также называют контролем и сопровождением модели.
Существует много причин, требующих обучить модель заново, т.е. обновить ее, чтобы отразить определенные изменения.
Основными причинами являются следующие:
•
изменились входящие данные или их поведение;
•
появились дополнительные данные для обучения;
•
изменились требования к форме и количеству выходных данных;
•
изменились цели бизнеса, которые повлияли на критерии принятия решений;
•
изменилось внешнее окружение или среда (макроэкономика, политическая ситуация, научно-технический прогресс, появление новых конкурентов и товаров и т.д.).
Причины, перечисленные выше, могут обесценить допущения и исходную информацию, на которых основывалась модель при построении.
Приведем простой пример из задачи о туристическом агентстве.
Рассматриваемое правило гласит: "Если ДОХОД>20 и СЕМЕЙНОЕ ПОЛОЖЕНИЕ =
"married", то класс "1". Эта модель может успешно работать на протяжении какого-то периода, но затем, например, в силу инфляции в стране, модель должна быть скорректирована. В результате рассматриваемое правило может выглядеть таким образом:
"Если ДОХОД>30 и СЕМЕЙНОЕ ПОЛОЖЕНИЕ = "married", то класс "1".
Погрешности в процессе Data Mining
Процесс Data Mining может быть успешным и неуспешным. Использование Data Mining не является гарантией получения исключительно достоверных знаний и принятия на основе этих знаний абсолютно верных решений.
Построенная модель может обладать рядом погрешностей. Вот некоторые из них: недостоверные исходные допущения при построении модели; ограниченные возможности при сборе необходимых данных; неуверенность и страхи пользователя системы, и, в силу этого, слабое их применение; неоправданно высокая стоимость.
231

Наиболее распространенной погрешностью модели являются неверные или
недостоверные исходные допущения. Некоторые допущения поддаются объективной предварительной проверке, другие не могут быть заранее проверены. Если модель Data
Mining основана на допущениях, естественно, ее точность зависит от точности допущений. Если допущения предыдущих периодов при использовании модели не оправдались, т.е. оказались неточны, то следует отказаться от "продления" этих допущений на будущие периоды.
Допустим ситуацию, когда модель хорошо работает в 18 из 20 филиалов компании. В двух филиалах, скорее всего, причина ошибок кроется не в погрешностях или неточностях модели, а в совсем других причинах, например, в данных. Если же модель плохо работает во всех филиалах без исключения, то, скорее всего, построенная модель некорректна.
Довольно сложно и установить время, которое необходимо для определения качества оценки модели. Этот отрезок времени обусловливается спецификой задачи и определяется индивидуально.
Ограниченные возможности при сборе необходимых данных
Как говорилось в одной из предыдущих Лекций, при формировании переменных модели следует абстрагироваться от тех данных, которые есть в наличии. Однако, не всегда есть возможность получить именно те данные, которые необходимы, а также быть уверенными в их качестве. Тем не менее, следует учитывать, что точность построенной модели определяется точностью входных данных.
Если внешние факторы, включенные в модель, изменяются очень часто, эти изменения должны отражаться в системе. Следует учитывать, что это не всегда возможно, а иногда - нецелесообразно.
Неуверенность пользователей
По словам Шеннона, ни одну модель "нельзя считать успешно выстроенной, пока она не принята, не понята и не применена на практике". Однако во многих исследованиях, касающихся использования моделей, отмечается, что в процессе принятия решений далеко не все построенные модели используются в полной мере, а некоторые вовсе не используются. Основными причинами этого является недоверие к моделям либо их непонимание. Для того чтобы избежать подобных явлений, лица, принимающие решения, должны принимать участие в постановке той задачи, для которой строится модель. В дальнейшем следует научить руководителя работать с моделью (т.е. ее программной реализацией), в частности, объяснить ему функции модели, возможности, ограничения и т.д.
Неоправданно высокая стоимость
В результате процесса Data Mining должна быть получена выгода (конечно, если речь не идет о научных исследованиях). Полученная прибыль должна оправдать расходы на процесс Data Mining, а это не только стоимость программного обеспечения для Data
Mining, но и затраты на подготовку данных, обучение, консультирование и т.д. Стоимость проекта зависит от его длительности, типа конечного приложения, уровня подготовки пользователей, варианта внедрения (готовый продукт, разработка "под ключ", адаптация под конкретную задачу).
232

Выводы
Важным этапом в процессе Data Mining является предварительная подготовка данных, в том числе их очистка. От качества подготовленных данных будут зависеть результаты всего процесса.
В процессе построения и выбора модели Data Mining следует пробовать использовать различные методы и алгоритмы, а также их сочетания. При отсутствии опыта использования методов Data Mining лучше начинать с более простых, поддающихся интерпретации моделей. Далее можно постепенно усложнять модели, т.е. использовать более сложные методы. Не следует требовать от модели абсолютной точности, модель можно начинать использовать при получении первых приемлемых результатов.
Следует помнить, что процесс Data Mining является итеративным. При невозможности получения результатов, которые эксперт предметной области считает приемлемыми, необходимо вернуться на один из предыдущих этапов процесса.
233

Организационные и человеческие факторы в Data Mining.
Стандарты Data Mining
Бизнес конкретной фирмы не является изолированным, он - часть рынка. Успешность бизнеса зависит не столько от того, как работает форма, сколько от того, как она работает в сравнении с подобными фирмами рынка. Существует множество различий, нас интересует одно из них - программное обеспечение или инструменты, которые используются для управления бизнесом и принятия решений.
Первый вопрос, который в связи с этим замечанием можно задать менеджеру:
"Устраивает ли Вас то программное обеспечение, которое Вы используете для получения новых знаний о делах фирмы?". Если ответ "да", то, возможно, Вы не нуждаетесь в дополнительных инструментах. Но, возможно, у Вас есть вопросы, на которые Вы бы хотели получить ответы, например, почему некоторые Ваши клиенты перешли к конкурирующим фирмам. Ответ на этот и другие вопросы может дать инструмент Data
Mining.
В предыдущих лекциях нами был рассмотрен процесс Data Mining с точки зрения этапов, которые должны быть пройдены для получения определенного знания и в итоге - для принятия наиболее верного решения.
Процесс Data Mining можно рассматривать с другой стороны, а именно, с точки зрения организационных и человеческих факторов, которые играют далеко не последнюю роль при внедрении проекта Data Mining.
Организационные Факторы
Когда в организации принято решение использовать Data Mining, первый вопрос, который возникает: "С чего начать?" После того как в организации принято решение использовать технологию Data Mining, необходимо потратить определенное время и усилия, чтобы подготовиться к этому. Необходимо создать определенную организационную окружающую среду.
Поток данных (flow of Data) в организации должен быть приспособлен к Data Mining [17], т.е. сотрудники должны быть заинтересованы в открытом сотрудничестве по обмену информацией. Особенно важно это во взаимодействии между бизнес-отделами и техническими отделами.
Рассмотрим два аспекта, касающихся организационных факторов процесса Data Mining: организационную культуру и деловую окружающую среду.
Чтобы сотрудники могли работать на максимально высоком уровне, организация должна обеспечить свободный поток нужной информации к тому сотруднику, которому она требуется, в четкие сроки и в правильной форме; только тогда возможно будет выработать своевременное оптимальное решение. Лидирующие компании обеспечивают это путем инвестиций в свою информационную инфраструктуру, которая поддерживает бизнес- процессы предприятия [99].
234

Организационная культура подразумевает активное открытое сотрудничество по обмену информацией между отделами компании и ее сотрудниками.
Это особенно важно во взаимодействии между бизнес-отделами и техническими отделами. Люди должны желать принимать новую информацию и, на основе этого, изменять условия и методы своего труда. Если сотрудники скрывают или защищают свои данные и не желают активно участвовать в обмене информацией и создании новой информации, организация, скорее всего, будет нуждаться во внутреннем или внешнем консультировании для изменения этих фактов. Это всегда непростая задача, но это существенный фактор для достижения успехов при внедрении Data Mining.
Деловая Окружающая среда. Направлять Ваши действия по Data Mining должен бизнес.
Руководители высшего звена должны быть заинтересованы во вложении средств в Data
Mining, поскольку этот процесс всегда требует значительных затрат. Необходимо четкое понимание проблемы или задачи, которую нужно решить. В организации должна присутствовать готовность открыть доступ к данным и показателям, а также к другим аспектам деятельности.
Интеграция Data Mining в бизнес всегда означает интеграцию соответствующего
инструмента в деловую среду организации.
Человеческие факторы. Роли в Data Mining
Человеческий фактор при внедрении Data Mining - это наличие и квалификационное соответствие специалистов, готовых работать с Data Mining.
Специалисты компании, вовлеченные в процесс Data Mining, исполняют одну из ролей, которые показаны на рис. 21.1
: специалист предметной области, администратор баз данных, специалист по добыче данных.
Рис. 21.1. Роли в Data Mining
Роли между специалистами распределены следующим образом.
Специалист предметной области (Domain experts) - специалист, имеющий знания о окружении бизнеса, процессах, заказчиках, клиентах, потребителях, конкурентах, т.е. о предметной области.
235

Знания о предметной области включают факты, которые к данной области относятся, закономерности, характерные для нее, гипотезы о возможных связях между явлениями, процессами и фактами в ней, процедуры для решения типовых задач. Экспертные знания - это те знания, которыми располагает специалист в некоторой предметной области.
Администратор баз данных (Database administrator) - специалист, имеющий знания о том, где и каким образом хранятся данные, как получить к ним доступ и как связать между собой эти данные.
Администратор базы данных отвечает за выработку требований к базе данных, за ее проектирование, реализацию, эффективное использование и сопровождение.
Другими обязанностями администратора баз данных могут быть: определение статуса информации и статуса пользователей; модификация данных; обеспечение целостности данных; загрузка данных и ведение БД; защита данных; обеспечение восстановления баз данных; сбор и статистическая обработка обращений к БД; анализ эффективности функционирования базы данных.
Специалист по добыче данных (Mining specialists) - специалист по анализу данных, который имеет, как минимум, основы статистических знаний.
Этот специалист должен быть способен применять технологии Data Mining и интерпретировать полученные результаты. Он должен уметь устанавливать связи со специалистом по предметной области для управления полученными результатами и с администратором БД для получения доступа к данным в запрос на свои действия.
Специалист по добыче данных ответственен за получение необходимых для Data Mining сведений из различных источников, а также за получение информации от специалистов в данной предметной области. Специалист по добыче данных должен быть также своего рода постановщиком задач. Он должен уметь получать необходимую информацию и входные данные для Data Mining-системы у специалистов по предметной области, задавать вопросы с целью уточнения сведений и т.д.
Первые две роли из описанных выше в том или ином виде присутствуют в любой компании. Третья роль в первое время внедрения Data Mining может исполняться консультантом другой компании. После приобретения соответствующих знаний, это место может занять человек из Вашей компании, например - маркетинговый аналитик.
Одной из основных трудностей при выборе специалистов либо внутри Вашей организации, либо сторонних консультантов является разнообразие областей, которые должны быть объединены в одном процессе. Процесс Data Mining требует наличия связей между бизнесом, анализом и информационными технологиями, чтобы обеспечить непрерывный двунаправленный поток информации (данные - информация - решения), который был рассмотрен в одной из начальных лекций курса.
Три роли, рассмотренные выше, являются основными, и без них процесс Data Mining не может быть осуществлен. Часто в процесс также вовлечены другие специалисты по информационным технологиям и менеджеры проектов.
Среди них могут быть:
236

•
менеджер проектов (Project Manager);
•
специалист по IT Архитектуре (IT Architect);
•
специалист по Архитектуре Решений (Solution Architect);
•
специалист по Архитектуре Данных (Data Architect);
•
специалист по Моделированию данных (Data Modeler);
•
эксперт Data Mining (Data Mining Expert);
•
деловой Аналитик (Business Analyst).
Каждая из этих ролей может быть отведена специалисту внутри организации либо стороннему специалисту. Процесс найма третьих лиц, т.е. сторонних специалистов для выполнения определенных работ, называют аутсорсингом (outsourcing).
Воспользовавшись услугами приглашенных специалистов, компании могут добиться существенного уменьшения затрат на оплату труда. О других преимуществах аутсорсинга для Data Mining будет рассказано в следующем разделе курса.
Роли Data Mining, в зависимости от конечной цели работ, распределяются следующим образом:
•
исследователи (написание исследовательских докладов и статей);
•
практикующие аналитики (решение реальных и практических задач анализа данных);
•
разработчики программного обеспечения (написание Data Mining- программного обеспечения);
•
студенты (в настоящее время обучающиеся в учебных заведениях);
•
бизнес-аналитики (главным образом, оценивающие результаты использования data mining);
•
менеджеры (управляют одним или большим количеством проектов);
•
другие.
Согласно последним опросам на KDnuggets, наибольшее число из голосующих - это практикующие аналитики, использующие технологию Data Mining для анализа реальных данных (34%), и исследователи (19%), далее идут студенты, бизнес-аналитики, разработчики программного обеспечения и менеджеры.
Теперь мы рассмотрим процесс Data Mining в разрезе работ, выполняемых описанными выше специалистами, коснемся распределения их обязанностей, укажем, где эти работы пересекаются в процессе достижения бизнес-цели.
Напомним, что процесс Data Mining практически никогда не является линейным, в большинстве случаев это итеративный циклический процесс. Именно итеративность гарантируют процессу Data Mining такой результат, который будет адаптирован под решение конкретной задачи.
Процесс Data Mining, с точки зрения человеческого фактора, является постоянным взаимодействием трех основных специалистов.
Взаимодействие специалиста по добыче данных и специалиста по предметной области осуществляется в двух точках соприкосновения (не забываем при этом, что Data Mining - итеративный процесс).
Первая точка - анализ предметной области, где определяются задачи и требования к будущей системе. Специалист по добыче данных должен вникнуть в предметную область,
237

изучить ее базовые термины, другими словами, он должен провести анализ предметной
области. На основании знаний методов и инструментов Data Mining специалист по добыче данных предлагает вариант решения проблемы.
Второй точкой соприкосновения указанных выше специалистов является интерпретация результатов, полученных в результате Data Mining.
Взаимодействие специалиста по добыче данных и администратора баз данных осуществляется на этапах анализа требований к данным и сбора данных. Непосредственно подготовка данных для Data Mining может осуществляться специалистом по добыче данных самостоятельно либо во взаимодействии с администратором баз данных.
Взаимодействие трех специалистов осуществляется на завершающих этапах Data Mining при проверке работоспособности системы, например, при сравнении прогнозных результатов с реальными. При необходимости процесс Data Mining возвращается на один из предыдущих этапов.
От того, насколько консолидированы будут действия специалистов из разных областей, зависит длительность проекта и качество полученных результатов.
Если в проекте Data Mining присутствует роль руководителя, на него возлагается координация и контроль работ, проводимых описанными выше специалистами.

1 ... 20 21 22 23 24 25 26 27 ... 34