Главная страница
Навигация по странице:

  • ОТБОР

  • отчет. Н. Ф. Гусарова, Н. В


    Скачать 2.27 Mb.
    НазваниеН. Ф. Гусарова, Н. В
    Анкоротчет
    Дата19.02.2022
    Размер2.27 Mb.
    Формат файлаdocx
    Имя файла2536.docx
    ТипДокументы
    #367348
    страница6 из 19
    1   2   3   4   5   6   7   8   9   ...   19

    Вывод:


    Таким образом, проведя факторный анализ, мы выявили системные показатели, которые дают нам представление о системе признаков с помощью корреляционных матриц.

    КОНТРОЛЬНЫЕ ВОПРОСЫ


    1. Для решения каких задач применяется факторный анализ?

    2. Что показывает корреляционная матрица?

    3. Что такое вращение факторной структуры?

    4. Какие методы вращения вы знаете?



    ПРАКТИЧЕСКАЯ РАБОТА №2.


    ОТБОРПРИЗНАКОВ

    ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ


    Практически в любой задаче моделирования возникает вопрос: ка- кую модель зависимости применить, т.е. какие признаки использовать, а ка- кие нет? Проблема отбора признаков (features selection) возникает из-за того, что на этапах постановки задачи и формирования данных ещё не ясно, какие признаки действительно важны, а какие не несут полезной информации или дублируют друг друга. Стремление учесть как можно больше потенциально полезной информации приводит к появлению избыточных (шумовых) при- знаков. По мере увеличения числа используемых признаков (сложности мо- дели) средняя ошибка на обучающей выборке, как правило, монотонно убы- вает. Однако средняя ошибка на независимых контрольных данных сначала уменьшается, а затем возрастает. Это явление называют переобучением. В чрезмерно сложных моделях избыточные степени свободы ¾расходуются не столько на восстановление искомой зависимости, сколько на аппрокси- мацию ошибок измерений и погрешностей самой модели. Отбор признаков позволяет находить модель оптимальной сложности, при которой переобу- чение минимально.

    Для проверки качества отбора признаков используется критерий – функционал Qint(μ,Xℓ), характеризующий качество метода μ по обучающей выборке Xℓ, например, ошибка обучения (training error). Чем меньше значе- ние критерия Q(μ), тем выше качество метода μ. Критерий должен быть внешним, т.е. проверять качество метода μ по тем данным, которые не ис- пользовались в процессе обучения. Наиболее известные типы внешних кри- териев:

    • Критерий средней ошибки на контрольных данных.

    • Критерий скользящего контроля: берут несколько различных раз- биений исходной выборки на обучение и контроль, и среднюю ошибку на контроле усредняют по разбиениям. Обратите внимание на то, что во всех критериях, использующих случайные разбиения, обучающие и контроль- ные подвыборки должны обладать теми же статистическими характеристи- ками, что и полная выборка.

    • Критерии непротиворечивости: если модель алгоритмов A и метод обучения μ подобраны правильно, то настройка параметров модели по раз- личным представительным подвыборкам должна приводить к одинаковым или почти одинаковым алгоритмам.

    • Критерии регуляризации – наложить ограничения на вектор пара- метров алгоритма, либо ввести штраф за выход вектора параметров из неко- торой допустимой области (например, чтобы норма вектора параметров  а

     в алгоритме a = μ(Xℓ) не становилась слишком большой).

    Как правило, используется совокупность критериев. Практическая рекомендация отобрать некоторое количество лучших методов по

    критерию скользящего контроля; а из них выбрать тот, для которого крите- рий регуляризации (либо критерий непротиворечивости) принимает наименьшее значение.

    Задача отбора информативных признаков состоит в следующем. Бу- дем считать, что объекты описываются набором признаков F

    = {f1,..., fn}. Вектор f1(x), . . . , fn(x) ∈ D1 × . . . × Dn, где Dj –множество допустимых значений признака fj, называется признаковым описанием объ- екта x. Пусть G F произвольное подмножество признаков. Будем обозна- чать через μG метод обучения, который строит алгоритмы, используя только признаки из подмножества G . Будем предполагать, что метод μG выбирает алгоритм из модели алгоритмов A(G ), использующей только при- знаки из G . Число используемых признаков |G | будем называть сложностью модели A(G ).

    Для отбора информативных признаков используются различные ме-

    тоды:


    • Полный перебор.

    • Последовательное добавление признаков простая стратегия жад-

    ного наискорейшего спуска: алгоритм добавляет к набору G по одному при- знаку, каждый раз выбирая тот признак, который приводит к наибольшему уменьшению внешнего критерия. Возможно также последовательное удале- ние признаков из полного набора, а также комбинация – алгоритм последо- вательного добавления–удаления.

      • Построение и обход дерева возможных наборов признаков. Вер- шины дерева соответствуют наборам признаков. Корневая вершина соот- ветствует пустому набору. Каждый дочерний набор образуется путём при- соединения некоторого признака к родительскому набору. Чтобы избежать появления в дереве одинаковых наборов, отличающихся только порядком признаков, к дочерним наборам присоединяются только те признаки, но- мера которых превышают максимальный номер признака в родительском наборе. Как известно, существуют две стратегии полного обхода дерева: по- иск в глубину (depth-first search, DFS) и поиск в ширину (breadth-first search, BFS). Обе позволяют вводить различные эвристики для сокращения пере- бора.

      • Генетический алгоритм. Первое поколение наборов генерируется случайным образом. К этим наборам применяются операции скрещивания и мутации для порождения большого числа новых наборов. Затем произво- дится .селекция: во второе поколение отбираются только B наборов, лучших по заданному внешнему критерию Q. Ко второму поколению также приме- няются операции скрещивания, мутации и селекции, и порождается третье поколение. Эволюционный процесс переходит от поколения к поколению до тех пор, пока не наступит стагнация, т.е. качество лучшего набора в по- колении перестанет улучшаться.

      • Случайный поиск с адаптацией. Если упростить генетический алго- ритм, отказавшись от скрещивания, то получится алгоритм случайного по- иска (stochastic search).

      • Кластеризация признаков. Методы кластеризации в общем случае позволяют разбить выборку объектов на кластеры, состоящие из схожих объектов, и выделить в каждой группе по одному наиболее типичному пред- ставителю. То же самое можно проделать и с признаками, если определить функцию расстояния между признаками, например, через коэффициент кор- реляции или метрику Хемминга.

      • Методы математического программирования. Используются для отбора признаков, главным образом, в линейных моделях регрессии и клас- сификации. По существу, здесь также реализуется перебор признаков, но перебор внутри стандартных процедур математического программирования при поиске активных ограничений.

    Более подробно со спецификой применения методов можно ознако- миться [3], в разделе «Критерии выбора моделей и методы отбора призна- ков».

    1   2   3   4   5   6   7   8   9   ...   19


    написать администратору сайта