Главная страница
Навигация по странице:

  • Оценка неизвестных значений зависимой переменной.

  • Сервис "Пакет анализа"

  • Наблюдение Предсказанное Y Остатки Стандартные остатки

  • Методы классификации и прогнозирования. Деревья решений

  • Преимущества деревьев решений Интуитивность деревьев решений

  • Быстрый процесс обучения

  • Предварительные знания


    Скачать 3.17 Mb.
    НазваниеПредварительные знания
    АнкорDataMining.pdf
    Дата02.03.2017
    Размер3.17 Mb.
    Формат файлаpdf
    Имя файлаDataMining.pdf
    ТипДокументы
    #3306
    страница11 из 34
    1   ...   7   8   9   10   11   12   13   14   ...   34
    Определение функции регрессии.
    Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа.
    Оценка неизвестных значений зависимой переменной.
    Решение этой задачи сводится к решению задачи одного из типов:

    Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции.

    Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.
    91

    Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.
    Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.
    Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.
    Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммами остатков.
    При использовании регрессионного анализа следует учитывать его основное ограничение.
    Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.
    Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.
    Уравнение регрессии.
    Уравнение регрессии выглядит следующим образом: Y=a+b*X
    При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом.
    В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.
    Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии
    (предсказанного значения).
    Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис
    "Пакет анализа" и инструмент анализа "Регрессия". Задаем входные интервалы X и Y.
    Входной интервал Y - это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X - это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16.
    На выходе процедуры в выходном диапазоне получаем отчет, приведенный в таблице 8.3а
    -
    8.3в
    ВЫВОД ИТОГОВ
    92

    Таблица 8.3а. Регрессионная статистика
    Регрессионная статистика
    Множественный R
    0,998364
    R-квадрат
    0,99673
    Нормированный R-квадрат
    0,996321
    Стандартная ошибка
    0,42405
    Наблюдения
    10
    Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а
    , - регрессионную статистику.
    Величина R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1].
    В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.
    Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение
    R-квадрата, близкое к нулю, означает плохое качество построенной модели.
    В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.
    множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).
    Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.
    В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).
    Таблица 8.3б. Коэффициенты регрессии
    Коэффициенты Стандартная ошибка t-статистика
    Y-пересечение 2,694545455 0,33176878 8,121757129
    Переменная X 1 2,305454545 0,04668634 49,38177965
    * Приведен усеченный вариант расчетов
    93

    Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б
    . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a
    (2,694545455).
    Исходя из расчетов, можем записать уравнение регрессии таким образом:
    Y= x*2,305454545+2,694545455
    Направление связи между переменными определяется на основании знаков
    (отрицательный или положительный) коэффициентов регрессии (коэффициента b).
    Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.
    Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).
    В таблице 8.3в
    . представлены результаты вывода остатков. Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".
    ВЫВОД ОСТАТКА
    Таблица 8.3в. Остатки
    Наблюдение Предсказанное Y
    Остатки
    Стандартные остатки
    1 9,610909091
    -0,610909091 -1,528044662 2
    7,305454545
    -0,305454545 -0,764022331 3
    11,91636364 0,083636364 0,209196591 4
    14,22181818 0,778181818 1,946437843 5
    16,52727273 0,472727273 1,182415512 6
    18,83272727 0,167272727 0,418393181 7
    21,13818182
    -0,138181818 -0,34562915 8
    23,44363636
    -0,043636364 -0,109146047 9
    25,74909091
    -0,149090909 -0,372915662 10 28,05454545
    -0,254545455 -0,636685276 94

    При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в нашем случае
    - 0,778, наименьшее - 0,043. Для лучшей интерпретации этих данных воспользуемся графиком исходных данных и построенной линией регрессии, представленными на рис.
    8.3
    . Как видим, линия регрессии достаточно точно "подогнана" под значения исходных данных.
    Следует учитывать, что рассматриваемый пример является достаточно простым и далеко не всегда возможно качественное построение регрессионной прямой линейного вида.
    Рис. 8.3. Исходные данные и линия регрессии
    Осталась нерассмотренной задача оценки неизвестных будущих значений зависимой переменной на основании известных значений независимой переменной, т.е. задача прогнозирования.
    Имея уравнение регрессии, задача прогнозирования сводится к решению уравнения Y= x*2,305454545+2,694545455 с известными значениями x. Результаты прогнозирования зависимой переменной Y на шесть шагов вперед представлены в таблице 8.4
    Таблица 8.4. Результаты прогнозирования переменной Y
    x
    Y(прогнозируемое)
    11 28,05455 12 30,36 13 32,66545 14 34,97091 15 37,27636 16 39,58182 95

    Таким образом, в результате использования регрессионного анализа в пакете Microsoft
    Excel мы:

    построили уравнение регрессии;

    установили форму зависимости и направление связи между переменными - положительная линейная регрессия, которая выражается в равномерном росте функции;

    установили направление связи между переменными;

    оценили качество полученной регрессионной прямой;

    смогли увидеть отклонения расчетных данных от данных исходного набора;

    предсказали будущие значения зависимой переменной.
    Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью.
    Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.
    Выводы
    В этой части лекции мы рассмотрели основные характеристики описательной статистики и среди них такие понятия, как среднее значение, медиана, максимум, минимум и другие характеристики вариации данных. Также было кратко рассмотрено понятие выбросов.
    Рассмотренные в лекции характеристики относятся к так называемому исследовательскому анализу данных, его выводы могут относиться не к генеральной совокупности, а лишь к выборке данных. Исследовательский анализ данных используется для получения первичных выводов и формирования гипотез относительно генеральной совокупности. Также были рассмотрены основы корреляционного и регрессионного анализа, их задачи и возможности практического использования.
    96

    Методы классификации и прогнозирования. Деревья решений
    Метод деревьев решений (decision trees) является одним из наиболее популярных методов решения задач классификации и прогнозирования. Иногда этот метод Data Mining также называют деревьями решающих правил, деревьями классификации и регрессии.
    Как видно из последнего названия, при помощи данного метода решаются задачи классификации и прогнозирования.
    Если зависимая, т.е. целевая переменная принимает дискретные значения, при помощи метода дерева решений решается задача классификации.
    Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования.
    Впервые деревья решений были предложены Ховилендом и Хантом (Hoveland, Hunt) в конце 50-х годов прошлого века. Самая ранняя и известная работа Ханта и др., в которой излагается суть деревьев решений - "Эксперименты в индукции" ("Experiments in
    Induction") - была опубликована в 1966 году.
    В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов.
    На рис. 9.1
    приведен пример дерева решений, задача которого - ответить на вопрос:
    "Играть ли в гольф?" Чтобы решить задачу, т.е. принять решение, играть ли в гольф, следует отнести текущую ситуацию к одному из известных классов (в данном случае -
    "играть" или "не играть"). Для этого требуется ответить на ряд вопросов, которые находятся в узлах этого дерева, начиная с его корня.
    Первый узел нашего дерева "Солнечно?" является узлом проверки, т.е. условием. При положительном ответе на вопрос осуществляется переход к левой части дерева, называемой левой ветвью, при отрицательном - к правой части дерева. Таким образом, внутренний узел дерева является узлом проверки определенного условия. Далее идет следующий вопрос и т.д., пока не будет достигнут конечный узел дерева, являющийся узлом решения. Для нашего дерева существует два типа конечного узла: "играть" и "не играть" в гольф.
    В результате прохождения от корня дерева (иногда называемого корневой вершиной) до его вершины решается задача классификации, т.е. выбирается один из классов - "играть" и "не играть" в гольф.
    97

    Рис. 9.1. Дерево решений "Играть ли в гольф?"
    Целью построения дерева решения в нашем случае является определение значения категориальной зависимой переменной.
    Итак, для нашей задачи основными элементами дерева решений являются:
    Корень дерева: "Солнечно?"
    Внутренний узел дерева или узел проверки: "Температура воздуха высокая?", "Идет ли дождь?"
    Лист, конечный узел дерева, узел решения или вершина: "Играть", "Не играть"
    Ветвь дерева (случаи ответа): "Да", "Нет".
    В рассмотренном примере решается задача бинарной классификации, т.е. создается дихотомическая классификационная модель. Пример демонстрирует работу так называемых бинарных деревьев.
    В узлах бинарных деревьев ветвление может вестись только в двух направлениях, т.е. существует возможность только двух ответов на поставленный вопрос ("да" и "нет").
    Бинарные деревья являются самым простым, частным случаем деревьев решений. В остальных случаях, ответов и, соответственно, ветвей дерева, выходящих из его внутреннего узла, может быть больше двух.
    Рассмотрим более сложный пример. База данных, на основе которой должно осуществляться прогнозирование, содержит следующие ретроспективные данные о клиентах банка, являющиеся ее атрибутами: возраст, наличие недвижимости, образование, среднемесячный доход, вернул ли клиент вовремя кредит. Задача состоит в том, чтобы на
    98
    основании перечисленных выше данных (кроме последнего атрибута) определить, стоит ли выдавать кредит новому клиенту.
    Как мы уже рассматривали в лекции, посвященной задаче классификации, такая задача решается в два этапа: построение классификационной модели и ее использование.
    На этапе построения модели, собственно, и строится дерево классификации или создается набор неких правил. На этапе использования модели построенное дерево, или путь от его корня к одной из вершин, являющийся набором правил для конкретного клиента, используется для ответа на поставленный вопрос "Выдавать ли кредит?"
    Правилом является логическая конструкция, представленная в виде "если : то :".
    На рис. 9.2
    . приведен пример дерева классификации, с помощью которого решается задача "Выдавать ли кредит клиенту?". Она является типичной задачей классификации, и при помощи деревьев решений получают достаточно хорошие варианты ее решения.
    Рис. 9.2. Дерево решений "Выдавать ли кредит?"
    Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты
    99
    называют прогнозирующими, или атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит.
    Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления.
    Последний может относиться лишь к одному атрибуту расщепления данного узла.
    Характерная особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу-решению. Объединенная информация об атрибутах расщепления и предикатах расщепления в узле называется критерием расщепления (splitting criterion) [33].
    На рис. 9.2
    . изображено одно из возможных деревьев решений для рассматриваемой базы данных. Например, критерий расщепления "Какое образование?", мог бы иметь два предиката расщепления и выглядеть иначе: образование "высшее" и "не высшее". Тогда дерево решений имело бы другой вид.
    Таким образом, для данной задачи (как и для любой другой) может быть построено множество деревьев решений различного качества, с различной прогнозирующей точностью.
    Качество построенного дерева решения весьма зависит от правильного выбора критерия расщепления. Над разработкой и усовершенствованием критериев работают многие исследователи.
    Метод деревьев решений часто называют "наивным" подходом [34]. Но благодаря целому ряду преимуществ, данный метод является одним из наиболее популярных для решения задач классификации.
    Преимущества деревьев решений
    Интуитивность деревьев решений. Классификационная модель, представленная в виде дерева решений, является интуитивной и упрощает понимание решаемой задачи.
    Результат работы алгоритмов конструирования деревьев решений, в отличие, например, от нейронных сетей, представляющих собой "черные ящики", легко интерпретируется пользователем. Это свойство деревьев решений не только важно при отнесении к определенному классу нового объекта, но и полезно при интерпретации модели классификации в целом. Дерево решений позволяет понять и объяснить, почему конкретный объект относится к тому или иному классу.
    Деревья решений дают возможность извлекать правила из базы данных на естественном
    языке. Пример правила: Если Возраст > 35 и Доход > 200, то выдать кредит.
    Деревья решений позволяют создавать классификационные модели в тех областях, где аналитику достаточно сложно формализовать знания.
    Алгоритм конструирования дерева решений не требует от пользователя выбора
    входных атрибутов (независимых переменных). На вход алгоритма можно подавать все существующие атрибуты, алгоритм сам выберет наиболее значимые среди них, и только они будут использованы для построения дерева. В сравнении, например, с нейронными сетями, это значительно облегчает пользователю работу, поскольку в нейронных сетях выбор количества входных атрибутов существенно влияет на время обучения.
    100

    Точность моделей, созданных при помощи деревьев решений, сопоставима с другими методами построения классификационных моделей (статистические методы, нейронные сети).
    Разработан ряд масштабируемых алгоритмов, которые могут быть использованы для построения деревьев решения на сверхбольших базах данных; масштабируемость здесь означает, что с ростом числа примеров или записей базы данных время, затрачиваемое на обучение, т.е. построение деревьев решений, растет линейно. Примеры таких алгоритмов:
    SLIQ, SPRINT.
    Быстрый процесс обучения. На построение классификационных моделей при помощи алгоритмов конструирования деревьев решений требуется значительно меньше времени, чем, например, на обучение нейронных сетей.
    Большинство алгоритмов конструирования деревьев решений имеют возможность специальной обработки
    1   ...   7   8   9   10   11   12   13   14   ...   34


    написать администратору сайта