отчет. Н. Ф. Гусарова, Н. В
Скачать 2.27 Mb.
|
Вывод:Таким образом, проведя факторный анализ, мы выявили системные показатели, которые дают нам представление о системе признаков с помощью корреляционных матриц. КОНТРОЛЬНЫЕ ВОПРОСЫДля решения каких задач применяется факторный анализ? Что показывает корреляционная матрица? Что такое вращение факторной структуры? Какие методы вращения вы знаете? ПРАКТИЧЕСКАЯ РАБОТА №2.ОТБОРПРИЗНАКОВ ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯПрактически в любой задаче моделирования возникает вопрос: ка- кую модель зависимости применить, т.е. какие признаки использовать, а ка- кие нет? Проблема отбора признаков (features selection) возникает из-за того, что на этапах постановки задачи и формирования данных ещё не ясно, какие признаки действительно важны, а какие не несут полезной информации или дублируют друг друга. Стремление учесть как можно больше потенциально полезной информации приводит к появлению избыточных (шумовых) при- знаков. По мере увеличения числа используемых признаков (сложности мо- дели) средняя ошибка на обучающей выборке, как правило, монотонно убы- вает. Однако средняя ошибка на независимых контрольных данных сначала уменьшается, а затем возрастает. Это явление называют переобучением. В чрезмерно сложных моделях избыточные степени свободы ¾расходуются не столько на восстановление искомой зависимости, сколько на аппрокси- мацию ошибок измерений и погрешностей самой модели. Отбор признаков позволяет находить модель оптимальной сложности, при которой переобу- чение минимально. Для проверки качества отбора признаков используется критерий – функционал Qint(μ,Xℓ), характеризующий качество метода μ по обучающей выборке Xℓ, например, ошибка обучения (training error). Чем меньше значе- ние критерия Q(μ), тем выше качество метода μ. Критерий должен быть внешним, т.е. проверять качество метода μ по тем данным, которые не ис- пользовались в процессе обучения. Наиболее известные типы внешних кри- териев: Критерий средней ошибки на контрольных данных. Критерий скользящего контроля: берут несколько различных раз- биений исходной выборки на обучение и контроль, и среднюю ошибку на контроле усредняют по разбиениям. Обратите внимание на то, что во всех критериях, использующих случайные разбиения, обучающие и контроль- ные подвыборки должны обладать теми же статистическими характеристи- ками, что и полная выборка. Критерии непротиворечивости: если модель алгоритмов A и метод обучения μ подобраны правильно, то настройка параметров модели по раз- личным представительным подвыборкам должна приводить к одинаковым или почти одинаковым алгоритмам. Критерии регуляризации – наложить ограничения на вектор пара- метров алгоритма, либо ввести штраф за выход вектора параметров из неко- торой допустимой области (например, чтобы норма вектора параметров а в алгоритме a = μ(Xℓ) не становилась слишком большой). Как правило, используется совокупность критериев. Практическая рекомендация – отобрать некоторое количество лучших методов по критерию скользящего контроля; а из них выбрать тот, для которого крите- рий регуляризации (либо критерий непротиворечивости) принимает наименьшее значение. Задача отбора информативных признаков состоит в следующем. Бу- дем считать, что объекты описываются набором признаков F = {f1,..., fn}. Вектор f1(x), . . . , fn(x) ∈ D1 × . . . × Dn, где Dj –множество допустимых значений признака fj, называется признаковым описанием объ- екта x. Пусть G ⊆ F произвольное подмножество признаков. Будем обозна- чать через μG метод обучения, который строит алгоритмы, используя только признаки из подмножества G . Будем предполагать, что метод μG выбирает алгоритм из модели алгоритмов A(G ), использующей только при- знаки из G . Число используемых признаков |G | будем называть сложностью модели A(G ). Для отбора информативных признаков используются различные ме- тоды: Полный перебор. Последовательное добавление признаков – простая стратегия жад- ного наискорейшего спуска: алгоритм добавляет к набору G по одному при- знаку, каждый раз выбирая тот признак, который приводит к наибольшему уменьшению внешнего критерия. Возможно также последовательное удале- ние признаков из полного набора, а также комбинация – алгоритм последо- вательного добавления–удаления. Построение и обход дерева возможных наборов признаков. Вер- шины дерева соответствуют наборам признаков. Корневая вершина соот- ветствует пустому набору. Каждый дочерний набор образуется путём при- соединения некоторого признака к родительскому набору. Чтобы избежать появления в дереве одинаковых наборов, отличающихся только порядком признаков, к дочерним наборам присоединяются только те признаки, но- мера которых превышают максимальный номер признака в родительском наборе. Как известно, существуют две стратегии полного обхода дерева: по- иск в глубину (depth-first search, DFS) и поиск в ширину (breadth-first search, BFS). Обе позволяют вводить различные эвристики для сокращения пере- бора. Генетический алгоритм. Первое поколение наборов генерируется случайным образом. К этим наборам применяются операции скрещивания и мутации для порождения большого числа новых наборов. Затем произво- дится .селекция: во второе поколение отбираются только B наборов, лучших по заданному внешнему критерию Q. Ко второму поколению также приме- няются операции скрещивания, мутации и селекции, и порождается третье поколение. Эволюционный процесс переходит от поколения к поколению до тех пор, пока не наступит стагнация, т.е. качество лучшего набора в по- колении перестанет улучшаться. Случайный поиск с адаптацией. Если упростить генетический алго- ритм, отказавшись от скрещивания, то получится алгоритм случайного по- иска (stochastic search). Кластеризация признаков. Методы кластеризации в общем случае позволяют разбить выборку объектов на кластеры, состоящие из схожих объектов, и выделить в каждой группе по одному наиболее типичному пред- ставителю. То же самое можно проделать и с признаками, если определить функцию расстояния между признаками, например, через коэффициент кор- реляции или метрику Хемминга. Методы математического программирования. Используются для отбора признаков, главным образом, в линейных моделях регрессии и клас- сификации. По существу, здесь также реализуется перебор признаков, но перебор внутри стандартных процедур математического программирования при поиске активных ограничений. Более подробно со спецификой применения методов можно ознако- миться [3], в разделе «Критерии выбора моделей и методы отбора призна- ков». |