|
Перегудов Ф. И., Тарасенко Ф. П
§ 6.5. РЕГИСТРАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ И ЕЕ СВЯЗЬ С ПОСЛЕДУЮЩЕЙ ИХ ОБРАБОТКОЙ Результаты любого эксперимента фиксируют в той или иной форме, а затем используют для той цели, ради которой и проводился эксперимент. Иногда эти операции практически совмещены во времени, например при автоматическом управлении производственным процессом, при автоматизации экспериментов в реальном масштабе времени и т.п. В некоторых же видах человеческой практики (научные исследования; системный анализ; контрольная, ревизионная, следственная и другие виды административной деятельности; учебные эксперименты и пр.) обработка экспериментальных данных является отдельным, самостоятельным этапом, промежуточным между этапами получения информации (измерения) и ее использования (принятия решений и их выполнения) . В таких случаях исходной информацией для обработки являются протоколы наблюдений (называемые также матрицами данных, зкспериментальными таблицами).
Характер самих протоколов наблюдений и методы их обработки зависят от того, какова модель, для уточнения которой ставится эксперимент: фактически обработка данных – это просто преобразование информации к виду, удобному для использования, перевод ответов природы с языка измерений на язык уточняемой модели. Наши знания могут быть как первоначальными, грубыми, так и далеко продвинутыми, хорошо структурированными, хотя и требующими уточнения. Соответствующие два типа моделей разные авторы называют по-разному, в зависимости от того, какой их аспект они хотят подчеркнуть: дескриптивные и конструктивные, качественные и количественные, декларативные и процедуральные, классификационные и числовые. Мы в данном параграфе будем пользоваться последними терминами; отметим, что в них отражено и то различие, что классификационные модели описывают множество различных объектов, а числовые – один объект (или множество схожих объектов). Отметим также, что в классификационной модели могут участвовать количественные переменные, и это не меняет ее качественного характера (например, диагноз больному ставится с учетом количественных анализов); аналогично, в числовых моделях часть переменных может измеряться в слабых шкалах. Рассмотрим кратко особенности экспериментальных данных и их обработки для обоих типов моделей.
КЛАССИФИКАЦИОННЫЕ МОДЕЛИ
Классификационные модели являются основополагающими, первичными, исходными формами знания. Узнавание окружающих предметов – типичный пример классификационных процессов в мыслительной деятельности человека (и животных). И в науке познание начинается с соотнесения изучаемого объекта с другими, выявления сходства и различия между ними. Поэтому протокол наблюдений на классификационном уровне эксперимента содержит результаты измерения ряда признаков Х для подмножества А объектов, выбранных из множества Г: каждый объект аi А Г обладает значениями признаков хi = (хi0, хi1, ..., хin) { Х0, Х1, ..., Хn } = Х, , n – число признаков, N – число объектов в А. Признак характеризует конкретное свойство объекта, поэтому иногда такой протокол называют таблицей “объект – свойство”.
Как уже отмечалось, способ обработки протокола зависит от цели обработки. Часто оказывается, что задача может быть сформулирована как определение по наблюдавшимся значениям признаков х = (х1, ..., хn) значений ненаблюдаемого (“целевого”) признака х0. Как правило, целевыми признаками являются те параметры модели, которые требуется уточнить по экспериментальным данным.
Рассмотрим различные типы задач для классификационных моделей.
Кластеризация (поиск “естественной” группировки объектов). Не заданы ни границы классов в пространстве признаков, ни число классов. Требуется их определить исходя из “близости”, “похожести” или “различия” описаний объектов хi = (хi1, ..., хin). Компоненты вектора Х0 – признаки кластера, значения которых подлежат определению.
Классификация (распознавание образов). Число классов задано. Если также заданы границы между классами, то имеем априорную классификацию; если границы требуется найти, оценить по классифицированным примерам, то задача называется распознаванием образов по обучающей выборке. Целевой признак Х0 имеет значения в номинальной шкале (имена классов).
OBSERVATION
наблюдение
DIMENSIONALITY
размерность
DISTRIBUTION
распределение
ORDERING
упорядочивание
Всякая статистическая задача состоит в том, чтобы, несмотря на неустранимую неопределенность наблюдений “внутри” распределения, снять (или точнее, уменьшить до приемлемого предела) неопределенность интересующей нас характеристики распределения. Упорядочивание объектов. Требуется установить отношения порядка между х10, х20, ..., хN0 (или некоторой их частью) по определенному критерию предпочтения.
Уменьшение размерности модели. Классификационные модели как первоначальные, “сырые”, учитывают множество предположений, которые еще надо проверять. Так, сам список признаков Х формируется эвристически, часто “с запасом”, и оказывается довольно длинным, а главное, избыточным, содержащим “дублирующие” и “шумящие” признаки. Поэтому одна из важных задач совершенствования классификационных моделей состоит в уменьшении размерности модели с помощью отбора наиболее информативных признаков, “склеивания” нескольких признаков в один и т.п. Как следует из практики, информативные признаки могут оказаться различными для разных классов [3].
ЧИСЛОВЫЕ МОДЕЛИ
Числовые модели отличаются от классификационных тем, что: 1) целевые признаки х0 измеряются в числовых шкалах; 2) числа х0 представляют собой функционалы или функции признаковых переменных (которые не обязательно все являются числовыми); 3) в них гораздо чаще учитываются связи переменных во времени (в классификационных задачах время иногда даже называют “забытой” переменной). В связи с этим и протоколы наблюдений могут не обязательно относиться к множеству объектов; модель можно уточнять и по экспериментам с одним объектом в разные моменты времени.
Отметим, что числовые модели могут задавать связь между переменными как в параметризованной форме (т.е. в виде функции с конечным числом параметров), так и в непараметризованной форме (в виде функционала) . Например, зависимость между входом х = { хi } и выходом у некоторой системы может задаваться в виде параметризованной линейной регрессии у = ?аiхi + + Е либо в непараметризованной форме как функционал линии регрессии у(х) = у·р(у | х)dу, где р(у | х) – неизвестная плотность условного распределения вероятностей.
Приведем типичные задачи для числовых моделей.
Косвенные измерения (оценка параметра). Требуется определить значение х0 по заданному множеству {хij}. В отличие от классификации х0 измеряется не в номинальной, а в числовой шкале. Если {хij} определены до некоторого момента t0, а х0 требуется оценить для t > t0, то задача называется прогнозированием. (Прогнозирование имеет смысл и в задаче классификации; например, ранняя диагностика заболевания.)
Поиск экстремума (планирование эксперимента). Считается, что имеется возможность пошагового изменения величин {хij (tk)}, tk = t0 + + k?t, k = 0, 1, 2, ... . Требуется изменять их так, чтобы в конце концов получить экстремальное значение целевого признака х0.
ОСОБЕННОСТИ ПРОТОКОЛОВ НАБЛЮДЕНИЙ
Отметим встречающиеся на практике особенности реальных протоколов наблюдений, которые следует учитывать при их обработке.
Большая размерность. Во многих исследованиях число объектов N и число признаков n велики, так что произведение n N достигает нескольких десятичных порядков. Учет времени приводит к еще большему увеличению размерности блока данных. В настоящее время применение ЭВМ существенно расширяет количественные возможности обработки данных, но “проклятие размерности” остается в силе и для ЭВМ.
Разнотипность данных. Разные признаки могут измеряться в различных шкалах. Многие алгоритмы построены для обработки однотипных переменных, что часто вызывает необходимость приводить разнотипные данные к одной шкале. Ясно, что более правильной стратегией поведения является разработка алгоритмов, специально построенных так, чтобы имелась возможность обрабатывать разнотипные данные, не внося в протокол никаких изменений, не связанных с экспериментом.
Пропущенные значения. Незаполненная ячейка таблицы данных – не такой уж редкий случай, особенно если эксперимент производится не в лабораторных, а в естественных условиях. Исключить из таблицы строку и столбец, на пересечении которых находится пустая ячейка, – выход далеко не всегда приемлемый. Можно, используя избыточность таблицы, некоторым образом “восстановить” пропущенные значения, а затем обрабатывать таблицу так, будто их и не было. Однако критерий “восстановления” и цель обработки должны быть согласованы, поэтому не может быть универсального способа “восстановления” пропусков. Хотя этот путь в ряде случаев вполне допустим, перспективным представляется конструирование алгоритмов обработки, позволяющих использовать таблицы с пробелами без их предварительного заполнения.
3ашумленность. Довольно часто измерение, занесенное в протокол, на самом деле отличается от измеряемого значения на некоторую случайную величину. Статистические свойства этой добавочной помехи могут не зависеть от измеряемой величины, и тогда мы говорим об аддитивном шуме. В противном случае имеет место неаддитивная или зависимая помеха. Все эти варианты должны по-разному учитываться при обработке.
Искажения, отклонения от предположений. Приступая к обработке протокола наблюдений, мы всегда исходим из определенных предположений о природе величин, занесенных в протокол. Любой способ обработки дает результаты ожидаемого качества только в том случае, если данные отвечают определенным предположениям. Далеко не всегда в ходе обработки данных обращают внимание на то, действительно ли данные отвечают предположениям, заложенным в алгоритм обработки.
Например, данные могут выглядеть как неразмытые, но быть на самом деле расплывчатыми (см. § 6.3). Цифры в действительности могут быть символами, а мы можем считать, что они числа. Числовые шкалы предполагают одинаковость единиц измерения вдоль всей шкалы (см. § 6.2), а измерительный прибор может обладать нелинейной характеристикой, и если это не отражено в протоколе, то мы будем обрабатывать искаженные данные. Измеряемая величина может быть непрерывной, но в протоколе она неизбежно приводится с округлением, и это также является искажением.
Чтобы повысить качество выводов, получаемых при обработке данных, мы должны обеспечить соответствие свойств данных и требований к ним алгоритмов либо максимально обезопасить себя от возможного несоответствия: контролировать условия эксперимента; вносить допустимые поправки в протоколы (например, производить перерасчет нелинейности); наконец, разрабатывать алгоритмы, либо содержащие возможный минимум предположений (например, процедуры непараметрической статистики), либо специально разработанные с расчетом на возможные отклонения (как в робастной статистике).
Способы обработки экспериментальных данных с целью извлечения из них полезной информации и отсеивания ненужной, мешающей, мы рассмотрим в следующей главе.
Подведем итог
Данный параграф посвящен тому, как обрабатывать результаты измерений. Рассмотрены два аспекта этой проблемы: связь способа обработки с целью измерений (т.е. в конечном счете с проверяемой моделью) и его связь с условиями измерений, приводящими к тому, что реальные протоколы наблюдений обычно далеки от желаемого идеала.
| Summary
The processing of experimental data is the subject of this section. There are many problems connected with this question. In this section we have singled out only two: the relationship between data processing and the purpose of the experiment; and data processing's connection with experimental conditions that result in various errors in real-life data.
| ЗАКЛЮЧЕНИЕ Системный анализ часто приводит к необходимости экспериментального исследования изучаемой системы. Такие эксперименты должны проводиться обязательно с участием прямых специалистов в данной конкретной области. Однако системный аналитик, оказавшийся в каком-то случае не прямым специалистом, не может ограничиваться лишь ролью заказчика на выполнение эксперимента. Очень многое зависит от постановки цели опытов, но часто не менее важно правильно извлечь информацию из результатов опыта. Поэтому предметом специального внимания должны стать такие вопросы, как выбор шкал максимально допустимой силы; употребление методов обработки, содержащих только допустимые преобразования исходных данных; учет реальных особенностей протоколов наблюдений в алгоритмах их обработки.
ЛИТЕРАТУРА Беллман Р., 3адэ Л. Принятие решений в расплывчатых условиях. – В. кн.: Вопросы анализа и процедуры принятия решений. – М.: Мир, 1976,
Бендарт Дж., Пирсол А. Измерение и анализ случайных процессов. – М.: Мир, 1974.
Лбов Г.С. Методы обработки разнотипных экспериментальных данных –Новосибирск: Наука, 1981.
Леонардо да Винчи. Избр. естественно-научные произв. – М.: АН СССР, 1965.
Пригожин И., Стенгерс И. Порядок из хаоса. – М.: Прогресс, 1986.
Пфанцагль И. Теория измерений. – М.: Мир, 1976.
Рафаэл Б. Думающий компьютер. – М.: Мир, 1979.
Розенблют А., Винер Н. Роль моделей в науке. – В кн.: Неуймин Я.Г. Модели в науке и технике. – Л.: Наука, 1984.
Тутубалин В.Н. Теория вероятностей. Краткий курс и научно-методические замечания. – М.: МГУ, 1972.
Фейнман Р. Характер физических законов. – М.: Мир, 1968.
Черчмен У., Акофф Р., Арноф Л. Введение в исследование операций. – М.: Наука, 1968.
Gray R.М., Davisson L.D. Random Processes; A Mathematical Approach for Engineers. –New Jersey: Prentice – Hall Inc., 1986.
УПРАЖНЕНИЯ Темы для обсуждения: соотношение априорных знаний (моделей) и практических действий в постановке и проведении: а) активного эксперимента; б) пассивного наблюдения.
Приведите примеры наблюдений в каждой из измерительных шкал.
Тема для обсуждения: что происходит при рассогласовании между природой наблюдаемого явления и силой измерительной шкалы? как обеспечить их согласование?
Тема для обсуждения: когда недопустимые преобразования результатов наблюдений безвредны?
Постройте графики функций принадлежности чисел х R+ к расплывчатым множествам “мало”, “много”, “насколько”. Сравните ваши графики с графиками соседа и обсудите природу различий.
Докажите, что А А' , если А – расплывчатое множество, и А А' = , если А – нерасплывчатое множество.
Покажите, что А В = (А' В')'.
Покажите, что А В = (А'·В')' .
Тема для обсуждения: причины, приведшие к разным определениям вероятности. Что общего и что различно для этих определений?
Обсудите, какие из особенностей реальных протоколов наблюдений, перечисленные в тексте, в действительности встречались в вашей практике измерений.
Вопросы для самопроверки 1. Почему верными оказываются оба противоположных утверждения: “опыт определяет модель” и “модель определяет опыт”?
2. Что такое измерение?
3. Почему над наблюдениями в некоторой шкале можно производить не любые, а только допустимые операции?
4. Каковы возможные последствия “усиления” и “ослабления” наблюдений, т.е. пересчета протокола наблюдений в шкалу, отличающуюся от той, в которой производилось измерение?
5. Чем отличается расплывчатая неопределенность от вероятностной?
6. Какими способами можно задать функцию принадлежности?
7. Как описывается вероятностная неопределенность?
8. Каковы основные отклонения свойств реальных протоколов наблюдений от желаемых?
Выбор (принятие решений) | Глава седьмая
| |
|
|