Задача классификации

Название	Задача классификации
Дата	08.11.2022
Размер	452.47 Kb.
Формат файла
Имя файла	Lek3.pdf
Тип	Задача #776327

Лекция 3. Задачи Data Mining. Классификация и кластеризация.
Одними из основных задач анализа данных являются классификация и кластеризация.
Задача классификации
Классификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Рассмотрим несколько определений.
Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.
Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.
Классификация требует соблюдения следующих правил:

в каждом акте деления необходимо применять только одно основание;

деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия;

члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться;

деление должно быть последовательным.
Различают классификации:

вспомогательную (искусственную) классификацию - производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка;

естественную классификацию - производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.
В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:

простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");

сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Пример - периодическая система химических элементов.
Под классификацией понимают отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).
Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.
Задачей классификации часто называют предсказание категориальной зависимой переменной
(т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.
Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто - нет, кто воспользуется услугой фирмы, а кто - нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).
Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.
Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).
Многомерная классификация - разработана биологами при решении проблем дискриминации для классифицирования организмов. В работе Р. Фишера (1930г.) организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров.
Биология - востребованная и удобная среда для разработки многомерных методов классификации.
Пример задачи классификации. Пусть имеется БД о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и более дешевый отдых. Определены два класса клиентов: класс 1 и 2 (в табл. 3.1).
Таблица 3.1. База данных клиентов туристического агентства
Код клиента
Возраст
Доход
Класс
1 18 25 1
2 22 100 1
…
8 19 45 2
9 22 75 1
10 40 90 2

Задача. Определить, к какому классу принадлежит новый клиент, и какой из двух видов рекламных материалов ему стоит отсылать.
Для наглядности представим БД в двухмерном измерении (возраст и доход), в виде множества объектов, принадлежащих классам 1 (оранжевая метка) и 2 (серая метка) (рис.3.1)
Рис. 3.1. Множество объектов базы данных в двухмерном измерении
Решение задачи - определить, к какому классу относится новый клиент (белая метка).
Процесс классификации
Цель процесса классификации - построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс
классификации - в разбиении множества объектов на классы по определенному критерию.
Классификатором называется сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в примере выступает БД. Каждый объект (запись БД) несет информацию о некотором свойстве объекта.
Набор исходных данных (выборку) разбивают на два множества: обучающее и тестовое.
Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели. Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.
Тестовое (test set) множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.
Процесс классификации состоит из двух этапов: конструирования модели и ее использования.
Этап 1. Конструирование модели: описание множества предопределенных классов.

Каждый пример набора данных относится к одному предопределенному классу.

Используется обучающее множество, на нем происходит конструирование модели.

Полученная модель может быть представлена классификационными правилами,
деревом решений или математической формулой.
Этап 2. Использование модели: классификация новых или неизвестных значений.


Оценка правильности (точности) модели.
2.1. Известные значения из тестового примера сравниваются с результатами использования полученной модели.
2.2. Уровень точности - процент правильно классифицированных примеров в тестовом множестве.
2.3. Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Методы, применяемые для решения задач классификации
Для классификации используются различные методы. Основными из них являются:

классификация с помощью деревьев решений;

байесовская (наивная) классификация;

классификация при помощи искусственных нейронных сетей;

классификация методом опорных векторов;

статистические методы, в частности, линейная регрессия;

классификация при помощи метода ближайшего соседа;

классификация CBR-методом;

классификация при помощи генетических алгоритмов.
Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены на рис. 3.2 (а-в).
(а)- метод линейной регрессии
(б) - метод деревьев решений
(в) - метод нейронных сетей
Рис. 3.2. Решение задачи классификации различными методами

Точность классификации: оценка уровня ошибок
Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-
проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового
множества, которое также называют кросс-проверочным множеством. Точность классификации
тестового множества сравнивается с точностью классификации обучающего множества. Если
классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.
Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество - две трети данных и тестовое - одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров.
Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.
Оценивание классификационных методов
Оценивание методов следует проводить, исходя из следующих характеристик: скорость, робастность, интерпретируемость, надежность.
Скорость характеризует время, которое требуется на создание модели и ее использование.
Робастность, т.е. устойчивость к каким-либо нарушениям исходных предпосылок, означает возможность работы с зашумленными данными и пропущенными значениями в данных.
Интерпретируемость обеспечивает возможность понимания модели аналитиком.
Свойства классификационных правил:

размер дерева решений;

компактность классификационных правил.
Надежность методов классификации предусматривает возможность работы этих методов при наличии в наборе данных шумов и выбросов.
Задача кластеризации
Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены.
Синонимы термина " кластеризация ": "автоматическая классификация ", "обучение без
учителя" и "таксономия".
Кластеризация предназначена для разбиения совокупности объектов на однородные группы
(кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".
Цель кластеризации - поиск существующих структур.
Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".

Само понятие " кластер " определено неоднозначно: в каждом исследовании свои " кластеры ". Переводится понятие кластер (cluster) как "скопление", "гроздь".
Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.
Характеристиками кластера можно назвать два признака:

внутренняя однородность;

внешняя изолированность.
Вопрос, задаваемый аналитиками при решении многих задач, состоит в том, как организовать данные в наглядные структуры, т.е. развернуть таксономии.
Наибольшее применение кластеризация первоначально получила в таких науках как биология, антропология, психология. Для решения экономических задач кластеризация длительное время мало использовалась из-за специфики экономических данных и явлений.
В табл. 3.2 приведено сравнение некоторых параметров задач классификации и кластеризации.
Таблица 2.2. Сравнение классификации и кластеризации
Характеристика
Классификация
Кластеризация
Контролируемость обучения
Контролируемое обучение
Неконтролируемое обучение
Стратегия
Обучение с учителем
Обучение без учителя
Наличие метки класса
Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение
Метки класса обучающего множества неизвестны
Основание для классификации
Новые данные классифицируются на основании обучающего множества
Дано множество данных с целью установления существования классов или кластеров данных
На рис.3.3. схематически представлены задачи классификации и кластеризации.
Рис. 3.3. Сравнение задач классификации и кластеризации
Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping) (рис.3.4).

Рис. 3.4. Непересекающиеся и пересекающиеся кластеры
В результате применения различных методов кластерного анализа могут быть получены
кластеры различной формы. Например, возможны кластеры "цепочного" типа, когда кластеры представлены длинными "цепочками", кластеры удлиненной формы и т.д., а некоторые методы могут создавать кластеры произвольной формы.
Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных) либо предполагать в наборе данных наличие кластеров различного размера.
Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие - менее. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма.
Данные особенности следует учитывать при выборе метода кластеризации.
На сегодняшний день разработано более сотни различных алгоритмов кластеризации.
Некоторые из них будут рассмотрены в следующих лекциях.
Приведем краткую характеристику подходов к кластеризации.

Алгоритмы, основанные на разделении данных (Partitioning algorithms): o разделение объектов на k кластеров; o итеративное перераспределение объектов для улучшения кластеризации.

Иерархические алгоритмы (Hierarchy algorithms): o агломерация: каждый объект первоначально является кластером, кластеры, соединяясь друг с другом, формируют больший кластер и т.д.

Методы, основанные на концентрации объектов (Density-based methods): o основаны на возможности соединения объектов; o игнорируют шумы, нахождение кластеров произвольной формы.

Грид-методы (Grid-based methods): o квантование объектов в грид-структуры.

Модельные методы (Model-based): o использование модели для нахождения кластеров, наиболее соответствующих данным.

Оценка качества кластеризации
Оценка качества кластеризации может быть проведена на основе следующих процедур:

ручная проверка;

установление контрольных точек и проверка на полученных кластерах;

определение стабильности кластеризации путем добавления в модель новых переменных;

создание и сравнение кластеров с использованием различных методов. Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением.
Однако создание схожих кластеров различными методами указывает на правильность кластеризации.
Процесс кластеризации зависит от выбранного метода и является итеративным. Он может включать множество экспериментов по выбору разных параметров: меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Но эксперименты не самоцель - конечная цель кластеризации является получение содержательных сведений о структуре исследуемых данных.
Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.
Применение кластерного анализа
Кластерный анализ применяется в различных областях. Он полезен, когда нужно классифицировать большое количество информации.
В медицине используется кластеризация заболеваний, лечения заболеваний, их симптомов, таксономия пациентов, препаратов и т.д. В археологии устанавливаются таксономии каменных сооружений и древних объектов и т.д. В маркетинге это задача сегментации конкурентов и потребителей. В менеджменте - разбиение персонала на различные группы, классификация потребителей и поставщиков и др. В медицине - классификация симптомов. В социологии - разбиение респондентов на однородные группы.
Кластерный анализ в маркетинговых исследованиях применяется достаточно широко - как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. Решаются вопросы о группах клиентов, продуктов и т.д.
Важная задача - анализ поведения потребителя: группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение.
Другая важная задача - позиционирование - определение ниши, в которой следует позиционировать новый продукт, предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке, в которых можно предлагать существующие товары или разрабатывать новые.

Кластерный анализ удобен и для анализа клиентов компании. Все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет сократить объекты анализа, и индивидуально подойти к каждой группе клиентов.
Практика применения кластерного анализа в маркетинговых исследованиях
Приведем некоторые известные статьи, посвященные применению кластерного анализа для маркетинговых исследований:
1971г. - статья о сегментации клиентов по сфере интересов на основе данных, характеризующих предпочтения клиентов;
1974г. - статья Секстона про идентификацию групп семей - потребителей продукта, в результате были разработаны стратегии позиционирования бренда.
1981г. - статья, где проводился анализ поведения покупателей новых автомобилей на основе данных факторных нагрузок, полученных при анализе набора переменных.
Выводы:
Несмотря на кажущуюся похожесть задачи классификации и кластеризации решаются разными способами и при помощи разных методов. Различие задач - в исходных данных.
Классификация - наиболее простая задача Data Mining, относится к стратегии "обучение с учителем", для ее решения обучающая выборка должна содержать значения входных и выходных
(целевых) переменных.
Кластеризация, напротив, является задачей Data Mining, относящейся к стратегии "обучение без учителя", т.е. не требует наличия значения целевых переменных в обучающей выборке.
Задача классификации решается при помощи различных методов, наиболее простой - линейная регрессия. Выбор метода должен базироваться на исследовании исходного набора данных.
Распространенные методы решения задачи кластеризации: метод k-средних (работает только с числовыми атрибутами), иерархический кластерный анализ (работает также с символьными атрибутами), метод SOM. Сложностью кластеризации является необходимость ее оценки.
Процесс Data Mining. Начальные этапы
Процесс Data Mining состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.
Процесс Data Mining неразрывно связан с процессом принятия решений.
Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется.
Традиционный процесс Data Mining включает следующие этапы:

анализ предметной области;

постановка задачи;

подготовка данных;

построение моделей;


проверка и оценка моделей;

выбор модели;

применение модели;

коррекция и обновление модели.
Рассмотрим первые три этапа процесса Data Mining.
Этап 1. Анализ предметной области
Исследование - это процесс познания предметной области, объекта или явления с определенной целью. Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения исследователя, закономерных отношений между показателями данных свойств.
Предметная область - это мысленно ограниченная область реальной действительности, подлежащая описанию или моделированию и исследованию.
Предметная область состоит из объектов, различаемых по свойствам и находящихся в определенных отношениях между собой или взаимодействующих каким-либо образом.
Предметная область - это часть реального мира, она бесконечна и содержит как существенные, так и не значащие данные, с точки зрения проводимого исследования.
Исследователю необходимо уметь выделить существенную их часть. Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь клиента, вплоть до того, имеет ли работу супруг, есть ли у клиента несовершеннолетние дети, каков уровень его образования и т.д. Для решения другой задачи банковской деятельности эти данные будут абсолютно неважны. Существенность данных, таким образом, зависит от выбора предметной области.
В процессе изучения предметной области должна быть создана ее модель. Знания из различных источников должны быть формализированы при помощи каких-либо средств. Это могут быть текстовые описания предметной области или специализированные графические нотации.
Существует большое количество методик описания предметной области: методика структурного анализа SADT, IDEF0, диаграммы потоков данных Гейна-Сарсона, методика UML и другие. Модель предметной области описывает процессы, происходящие в предметной области, и данные, которые в этих процессах используются.
От того, насколько верно смоделирована предметная область, зависит успех дальнейшей разработки приложения Data Mining.
Этап 2. Постановка задачи
Постановка задачи Data Mining включает шаги:

формулировка задачи;

формализация задачи.
Постановка задачи включает также описание статического и динамического поведения исследуемых объектов.

Технология Data Mining не может заменить аналитика и ответить на те вопросы, которые не были заданы. Поэтому постановка задачи является необходимым этапом процесса Data Mining, на этом этапе мы определяем, какую же задачу необходимо решить. Иногда этапы анализа предметной области и постановки задачи объединяют в один этап.
Этап 3. Подготовка данных
Цель этапа: разработка базы данных для Data Mining.
Подготовка данных – важный этап, от качества выполнения которого зависит возможность получения качественных результатов всего процесса Data Mining. На этап подготовки данных может быть потрачено до 80% всего времени, отведенного на проект.
Этап подготовки данных включает:
1. Определение и анализ требований к данным-осуществляется моделирование данных: определение и анализ требований к данным. Изучаются вопросы распределения пользователей
(географическое, организационное, функциональное); вопросы доступа к данным, которые необходимы для анализа, необходимость во внешних и/или внутренних источниках данных; аналитические характеристики системы (измерения данных, виды выходных документов, последовательность преобразования информации и др.).
2. Сбор данных- наличие в организации хранилища данных делает анализ проще и эффективней и дешевле, чем использование отдельных БД. Но не все предприятия оснащены хранилищами данных. В этом случае источником для исходных данных являются оперативные, справочные и архивные БД, т.е. данные из существующих информационных систем (ИС).
Также для Data Mining может потребоваться информация из ИС руководителей, внешних источников, бумажных носителей, знания экспертов или результаты опросов.
В процессе подготовки данных аналитики и разработчики не должны привязываться к показателям, которые есть в наличии, и описать максимальное количество факторов и признаков, влияющих на анализируемый процесс.
На этом этапе осуществляется кодирование некоторых данных.
Определение необходимого количества данных - следует учитывать, являются ли данные упорядоченными или нет.
Если данные упорядочены и имеем дело с временными рядами, желательно знать, включает ли такой набор данных сезонную/цикличную компоненту. В случае присутствия в наборе данных сезонной/цикличной компоненты, необходимо иметь данные как минимум за один сезон/цикл.
Если данные не упорядочены, то есть события из набора данных не связаны по времени, в ходе сбора данных следует соблюдать учитывать следующее:
- количество записей в наборе – при недостаточном количестве записей в наборе данных может быть построена некорректная модель. Точность модели увеличивается с увеличением количества исследуемых данных.
- соотношение количества записей в наборе и количества входных переменных.

3. Предварительная обработка данных – необходима для обеспечения качественного анализа
Данные, полученные в результате сбора, должны соответствовать определенным критериям качества. Важный подэтап процесса Data Mining - оценивание качества данных.
Качество данных (Data quality) - это критерий, определяющий полноту, точность, своевременность и возможность интерпретации данных.
Данные могут быть качественные и некачественные.
Данные низкого качества - это так называемые грязные или "плохие" данные.
Данные высокого качества - это полные, точные, своевременные данные, которые поддаются интерпретации. Они обеспечивают получение качественного результата: знаний, которые смогут поддерживать процесс принятия решений.
Данные низкого качества (грязные данные) - это отсутствующие, неточные или бесполезные данные с точки зрения практического применения (представленные в неверном формате и др.).
Типы грязных данных:

грязные данные, которые могут быть автоматически обнаружены и очищены;

данные, появление которых может быть предотвращено;

данные, которые непригодны для автоматического обнаружения и очистки ;

данные, появление которых невозможно предотвратить.
Специальные средства очистки могут справиться не со всеми видами грязных данных.
Наиболее распространенные виды грязных данных: пропущенные значения; дубликаты данных; шумы и выбросы.
Как мы можем поступить с пропущенными данными?

Исключить объекты с пропущенными значениями из обработки.

Рассчитать новые значения для пропущенных данных.

Игнорировать пропущенные значения в процессе анализа.

Заменить пропущенные значения на возможные значения.
Дубликатами называются записи с одинаковыми значениями всех атрибутов.
Существует два варианта обработки дубликатов. При первом варианте удаляется вся группа записей, содержащая дубликаты. Этот вариант используется в случае, если наличие дубликатов вызывает недоверие к информации, полностью ее обесценивает. Второй вариант состоит в замене группы дубликатов на одну уникальную запись.
Шумы и выбросы - общая проблема в анализе данных.
Выбросы - резко отличающиеся объекты или наблюдения в наборе данных.
Выбросы могут представлять собой отдельные наблюдения, так и быть объединенными в некие группы. Задача аналитика - не только их обнаружить, но и оценить степень их влияния на результаты дальнейшего анализа. Если выбросы являются информативной частью анализируемого набора данных, используют робастные методы и процедуры.

Различные методы Data Mining имеют разную чувствительность к выбросам, это необходимо учитывать при выборе метода анализа данных. Некоторые инструменты Data Mining имеют встроенные процедуры очистки от шумов и выбросов.
Визуализация данных позволяет представить данные и выбросы, в графическом виде.
Результаты Data Mining на основе грязных данных не могут считаться надежными и полезными.
4. Очистка данных -выявление и удаление ошибок и несоответствий в данных с целью улучшения качества данных.
Проблемы с качеством встречаются в отдельных наборах данных - файлах и БД. Когда интеграции подлежит множество источников данных, необходимость в очистке данных возрастает, так как источники содержат разрозненные данные в различном представлении. Для обеспечения доступа к точным и согласованным данным необходима консолидация различных представлений данных и исключение дублирующейся информации. Специальные средства очистки обычно имеют дело с конкретными областями (имена и адреса) или же с исключением дубликатов. Преобразования обеспечиваются в форме библиотеки правил или пользователем в интерактивном режиме.
Метод очистки данных должен удовлетворять критериям:
1.
Он должен выявлять и удалять все основные ошибки и несоответствия, как в отдельных источниках данных, так и при интеграции нескольких источников.
2.
Должен поддерживаться определенными инструментами, чтобы сократить объемы ручной проверки и программирования, быть гибким в работе с дополнительными источниками.
3.
Очистка данных не должна производиться в отрыве от связанных со схемой преобразования данных, выполняемых на основе сложных метаданных.
4.
Функции для очистки и преобразований данных должны быть декларативно определены и подходить для использования в других источниках данных и в обработке запросов.
5.
Инфраструктура технологического процесса должна особенно интенсивно поддерживаться для Хранилищ данных.
Этапы очистки данных:
1.
Анализ данных.
2.
Определение порядка и правил преобразования данных.
3.
Подтверждение.
4.
Преобразования.
5.
Противоток очищенных данных.
Этап № 1. Анализ данных. Подробный анализ данных необходим для выявления подлежащих удалению видов ошибок и несоответствий. Можно использовать ручную проверку данных или программы для получения метаданных о свойствах данных и определения проблем качества.
Этап № 2. Определение порядка и правил преобразования данных. В зависимости от числа источников данных, степени их неоднородности и загрязненности данные могут требовать обширного преобразования и очистки. Первые шаги по очистке могут уточнить или изменить

описание проблем отдельных источников данных, а также подготовить данные для интеграции.
Дальнейшие шаги должны быть направлены на интеграцию схемы/данных и устранение проблем множественных элементов, например, дубликатов.
Этап № 3. Подтверждение. Определяется правильность и эффективность процесса и определений преобразования. Осуществляется тестированием и оцениванием, например, на примере или на копии данных источника, - чтобы выяснить, необходимо улучшить эти определения.
Этап № 4. Преобразования. Осуществляются либо в процессе для загрузки и обновления
Хранилища данных, либо при ответе на запросы по множеству источников.
Этап № 5. Противоток очищенных данных. После того как ошибки отдельного источника удалены, загрязненные данные в исходных источниках должны замениться на очищенные, чтобы улучшенные данные попали также в унаследованные приложения и в дальнейшем при извлечении не требовали дополнительной очистки.
Такой процесс преобразования требует больших объемов метаданных (схем, характеристик данных уровня схемы, определений технологического процесса и др.).