Санктпетербургский
Скачать 1.2 Mb.
|
3.5 Рекурсивные цифровые фильтры Рекурсивным называется цифровой фильтр, для которого значение процесса на выходе определяется не только конечным числом значений входного процесса, но также и предше- ствующими величинами выходного процесса. В технике такое свойство называется обратной связью (рис. 3.5). Типичное выражение рекурсивного фильтра имеет вид: Рис. 3.5 Схема рекурсивного фильтра Такой фильтр использует М значений выходного процесса и только одно — входного. В общем случае число значений выходного процесса не меняется, а число значений входного процесса возрастает. Уравнение (3.9) иллюстрирует схему фильтра, представленного на рис. 3.5, где тре- k n M k k n y h cx − = + = 1 n y 3.9 Системный анализ и принятие решений Макаров Л.М. 53 угольники обозначают операцию умножения на соответствующие величины, прямоугольники — задержку по времени на t между смежными точками и, наконец, окружность соответствует операции суммирования. Преобразование Фурье уравнения (3.9) записывается в виде: Причем сумма содержит многочлен по степеням экспоненты. Обозначая последнее вы- ражение символом z можно воспользоваться для изучения свойств цифровых фильтров теорией z -преобразований. Как следует из формулы (3.10), частотная характеристика всей системы имеет вид: Таким образом, изучение свойств частотной характеристики H(f) сводится к определе- нию положения и характера полюсов в знаменателе выражения (3.11). Рассмотрим пример. В качестве примера рассмотрим рекурсивный цифровой фильтр, заданный выражением: где ) RC t exp(- a = . Формально это условие представляет низко частотный RC фильтр. Действи- тельно, согласно формуле (3.11) имеем: Квадрат амплитудной характеристики представляется выражением: ) 2 exp( h X(f) cX(f) Y(f) M 1 k k = − + = t fk 3.10 = − − = = M k k t fk h c 1 ) 2 exp( 1 X(f) Y(f) H(f) 3.11 1 n ) 1 ( y − + − = n n ay x a 3.12 ) t f 2 aexp(- - 1 1 H(f) = Системный анализ и принятие решений Макаров Л.М. 54 Отметим, что если t RC , то и При условии: 0 1 t 2 справедливо приближенное равенство: В таком случае имеем: Действительно получаем низко частотный фильтр. Фильтр низких частот должен эффек- тивно пропускать частоты сигнала ниже частоты среза, и уменьшать или подавлять частоты сигнала выше частоты среза. Идеальный фильтр нижних частот полностью подавляет все ча- стоты входного сигнала выше частоты среза и пропускает без изменений все частоты ниже ча- стоты среза. Степень подавления каждой частоты зависит от типа фильтра. Фильтр Баттерворта — один из типов электронных фильтров. Фильтры этого класса от- личаются от других методом проектирования. Фильтр Баттерворта проектируется так, чтобы его амплитудная частотная характеристика была максимально гладкой на частотах полосы про- пускания. ) t f 2 2acos(- - a) (1 a) - (1 H(f) 2 2 + = ) ( 1 ) exp( RC t RC t a − − = RC t a − ) 1 ( t t f − − 2 1 ) 2 exp( fRC f H 2 1 1 ) ( + и 2 2 ) 2 ( 1 ) ( fRC f H Системный анализ и принятие решений Макаров Л.М. 55 Синтез рекурсивных цифровых фильтров, дающих хорошее приближение к фильтрам Баттерворта, может быть выполнен при помощи формулы (3.11) путем нахождения последова- тельности весов {h k } и коэффициента с , таких, что соблюдается соотношение: Заметим, что при f= 0 значение 1 H(f) 2 = , а при f= f 0 квадрат модуля частотной характеристики равен 1/2. На частоте t 2 1 f = величина 2 H(f) | при больших значениях М стремится к единице. Таким образом, в интервале [0, ( t 2 1 )], наиболее важном в дискретном случае, фильтр, описы- ваемый уравнением (3.13), ведет себя как низкочастотный фильтр Баттерворта, обладающий характеристикой: где f 0 — частота, соответствующая половинной энергии, а величина К определяет наклон кри- вой 2 H(f) Низкочастотные фильтры используются для сокращения объема выборки, что позволяет уменьшить длину анализируемых реализаций. По определению сокращение порядка r дискрет- ной реализации заключается в сохранении лишь каждого r-го наблюдения. Поясним это замечание. Предположим, как обычно, что наблюдения отстоят друг от друга на интервал t и произведено сокращение порядка r. Тогда новый интервал дискретности будет составлять t' = rt, а частота Найквиста станет равной: M t f H 2 0 2 ) ) / sin(f t) / sin( ( 1 1 ) ( + = и t f 2 1 0 3.13 K f H ) f f ( 1 1 ) ( 0 2 + = t r 5 , 0 f Д = Системный анализ и принятие решений Макаров Л.М. 56 Следовательно, все частоты, больше t r 5 , 0 f Д = , будут замаскированы (свернуты) в интервал [0, (1/2 rt)]. Чтобы избежать маскировки, исходную реализацию следует отфильтро- вать при помощи соответствующего низкочастотного фильтра. Наряду с фильтрами низких частот на практике используются другие типы фильтров. Так, например, хорошо известен фильтр Чебышева. Фильтр Чебышева, отличительной особенностью которого является более крутой спад амплитудно-частотной характеристики (АЧХ) и существенные пульсации амплитудно-частотной характеристики на частотах полос пропускания (фильтр Чебышева I рода) и подавления (фильтр Чебышева II рода), чем у филь- тров других типов. Фильтр получил название в честь известного русского математика П. Л. Чебышева, так как характеристики этого фильтра основываются на многочленах Чебышева. Также распространены фильтры низких и высоких частот, полосовые фильтры и ре- жекторные (заграждающие) фильтры. Фильтр верхних частот пропускает высокие частоты входного сигнала, при этом подав- ляя частоты сигнала меньше, чем частота среза. Степень подавления зависит от конкретного вида фильтра. Полосно-пропускающий фильтр пропускает частоты, находящиеся в нужном диапазоне и вырезает все остальные частоты. Полосно-заграждающий фильтр не пропускает колебания некоторой определенной по- лосы частот, и пропускает колебания с частотами, выходящими за пределы этой полосы. 4. Анализ текстовых документов 4.1 Информационные основы Информация всегда связана с материальным носителем. Носителем информации явля- ются: материальный объект, излучения различной природы. Машинными носителями инфор- мации являются: перфоленты, перфокарты, магнитные ленты, и т.д. Сигнал - способ передачи информации. Формирование, регистрация и обработка сигнала - физический процесс, имеющий информационное значение. Сигнал может быть непрерывным или дискретным. Сигнал называется дискретным, если он может принимать лишь конечное число значе- ний на конечном интервале времени. Аналоговый сигнал - сигнал, непрерывно изменяющийся по амплитуде и во времени. Сигналы, несущие текстовую, символическую информацию, дис- кретны. Информация, представленная в некотором формате может быть охарактеризована па- кетом сообщения. В качестве пакета сообщения могут рассматриваться как аналоговые, так и дискретные сигналы. Аналоговые сигналы широко используют в телефонной связи, радиове- Системный анализ и принятие решений Макаров Л.М. 57 щании, телевидении. Информатика – область человеческой деятельности, связанная с процессами преобразо- вания информации с помощью компьютеров и других средств вычислительной техники, где используются математические методы регистрации, анализа и синтеза различных сигналов. Информатика как совокупность средств преобразования информации включает техниче- ские средства (hardware), программные продукты (software), математические методы, модели и типовые алгоритмы (brainware). В состав технических средств входят компьютеры и связанные с ними периферийные устройства (мониторы, клавиатуры, принтеры и плоттеры, модемы и т.д.), линии связи, средства оргтехники. Все эти группы устройств представляют материальные ресурсы, которые обеспечивают преобразование информации, причем главенствующую роль в этом списке играет компьютер. По своей специфике компьютер нацелен на решение очень ши- рокого круга задач по преобразованию информации, при этом выбор конкретной задачи при использовании компьютера определяется программным средством, под управлением которого функционирует компьютер. К программным продуктам относятся операционные системы и их интегрированные оболочки, системы программирования и проектирования программных продуктов, различные прикладные пакеты, такие, как текстовые и графические редакторы, бухгалтерские и издатель- ские системы. Конкретное применение каждого программного продукта специфично и служит для решения определенного круга задач прикладного или системного характера. Математиче- ские методы, модели и типовые алгоритмы являются тем базисом, который положен в основу проектирования и изготовления программного, технического средства или другого объекта. Перечисленные выше три ресурсных компонента информатики играют разную роль в процессе познания окружающего мира. Информатика как фундаментальная наука занимается разработкой абстрактных методов, моделей и алгоритмов, а также связанных с ними математи- ческих теорий. Ее прерогативой является исследование процессов преобразования информации и на основе этих исследований разработка соответствующих теорий, моделей, методов и алго- ритмов, которые затем применяются на практике. На протяжении длительного периода времени цивилизация накапливала различные по содержанию информационные материалы, которые сегодня благодаря развитой сети связи и компьютерным технологиям образуют многочисленные информационные ресурсы. Обращение к информационным ресурсам, размещенным удаленно от пользователя или на персональном компьютере, требует создания специальных инструментов по организации работы с ними. Об- мен сообщениями между терминалами пользователей и получение необходимой информации усиливает интерес к решению задач по обработке сообщений. Сообщение является производным понятием от сигнала и может быть представлено ли- Системный анализ и принятие решений Макаров Л.М. 58 бо в формате аналогового, либо цифрового сигнала. В таком понимании термин сообщение позволяет рассматривать широкий перечень вопросов по передаче, приему и обработке сигна- лов посредством традиционных статистических методов. Взаимодействие отдельных элементов или функциональных узлов сложной технической системы осуществляется посредством электрических сигналов – сообщений. Взаимодействие человека с технической системой, например, с компьютером осуществляется на основе рецеп- торных систем человека и набора интерфейсов. Современные интерактивные системы позво- ляют организовывать процессы обмена сообщениями, представленными в текстовом формате. Возможность организации диалога в интерактивной системе реализуется с учетом се- мантических и статистических свойств текстов. На этих принципах реализуются поисковые си- стемы, осуществляющие подбор ссылок на информационные ресурсы сети Интернет по запросу пользователя. В огромном перечне возможностей организации коммуникации для человека вы- деляется работа с текстовым материалом с использованием компьютера. Компьютерная лингвистика задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, никак не ограничивая способы ре- шения этих задач. 4.2 Информационная модель документа Важной задачей науки является создание инструментария научного исследования – его понятийного аппарата, технических средств и методов их применения. Инструментарий иссле- дования, созданный одной отраслью науки, может с успехом применяться другими. Математи- ка и информатика создали инструментарий научного исследования, применимый в любых от- раслях науки. Этому способствуют следующие особенности этих наук: • высокая абстрактность рассматриваемых в них понятий и свойств, позволяющая приме- нять их к содержанию других наук (например, множества, изучаемые в математике, имеют од- ни и те же свойства, независимо от того, являются ли они множествами людей, частиц или гос- ударств). • формальность рассуждений (вычислений), заключающаяся в точном следовании законам логического вывода без привлечения каких-либо содержательных соображений (в этом состоит суть аксиоматического метода). Благодаря этой особенности математика и информатика имеют статус строгих и точных наук. • высокая процедурность (или операциональность, или алгоритмичность) знания, т.е. воз- можность получения новых знаний с помощью автоматизируемых процедур – алгоритмов. Содержанием информатики является разработка методов хранения, обработки и переда- Системный анализ и принятие решений Макаров Л.М. 59 чи информации с помощью компьютерных систем. Применяемые в информатике формальные преобразования информации ориентированы на извлечение семантической основы. Именно по- этому формальные модельные исследования сигналов и текстов основываются на известных статистических законах. Процесс применения методов математики и информатики заключается в построении ма- тематической и информационной моделей исследуемой предметной области, проведении ком- пьютерной обработки этих моделей и последующей содержательной интерпретации получен- ных результатов. Использование этого подхода начинается с формирования содержательной модели, формулируемой в вербальной форме или в смешанном вербально-визуальном пред- ставлении. Обращение к такой модели происходит всегда, когда возникает необходимость по- лучить или извлечь некоторую информацию из текстового массива. Часто создание содержа- тельной модели предшествует операции поиска, например, средствами традиционных поиско- вых систем Интернет. Рассмотрим основные составляющие процесса перехода от содержатель- ной к информационной модели (рис. 4.1). Выделим набор терминов - запись, правила, алфавит, который отождествляет семанти- ческую конструкцию (СК). Кроме этого в выделенной конструкции укажем пару терминов - правила и алфавит, которые характеризуют язык записи. Под СК будем понимать некоторую запись, выполненную на каком-либо физическом носителе, реализованную в рамках некоторых правил, являющуюся упорядоченной последовательностью элементов избранного алфавита. В результате работы с СК происходит либо редуцирование исходного текстового массива, либо исполняется процедура бустинга. Рис. 4.1. Схема математического и информационного моделирования Рис. 4.2. Схема информационного моделирования Системный анализ и принятие решений Макаров Л.М. 60 Понятие бустинга сформировалось в области компьютерных технологий ориентирован- ных на добычу знаний и связано с генерацией моделей обработки данных. В рамках таких мо- делей постулируется возможность организации добычи данных в соответствии с запросом. Термин «предсказывающая добыча данных» обычно применяется для обозначения проектов добычи данных, цель которых состоит в определении статистической модели или модели нейронных сетей или набора таких моделей, которые могут быть использованы для предсказа- ния некоторых интересующих откликов – реплик модели. Обсуждение возможности воспроизведения моделей обработки данных, в частности, для задач извлечения знаний, начнем с перечисления некоторых характеристических параметров базы знаний. Эти параметры представим в следующей последовательности: • Структурированность. Знания должны быть классифицированы. • Удобство доступа и усвоения. Для человека - это способность быстро понять и запом- нить или, наоборот, вспомнить в прошлом известные факты. Для компьютерной базы знаний - средства доступа, средства организации поиска, наличие аннотаций и индексов документов. • Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает «коэффициент полезного использования». • Непротиворечивость. «Хорошие» данные/знания не должны противоречить друг другу, что очевидно или по крайней мере желательно. Однако для многих областей сбора знаний это изначально не так - на вход хранилища знаний может поступать разноречивая информация. За- дача собирателя знаний обнаружить противоречия и разрешить их на этапе сбора знаний либо присвоить разным элементам данных различную оценку достоверности. • Оценка достоверности. Безусловно, усваивая или используя знания, хочется знать, насколько они достоверны. Хорошее хранилище знаний должно иметь такую оценку для своих элементов. • Процедуры обработки. Знания нужны для того, чтобы их использовать - строить новые знания. Для этого должны существовать процедуры обработки знаний. Способность делать вы- воды означает для машины наличие процедур обработки и вывода и подготовленность струк- тур данных для такой обработки. Отличия процедур извлечения знаний человека и машины в настоящее время определя- ется не только большим числом используемых правил продукции в процессе обобщения и ло- гического вывода, более эффективной реализацией этих процедур, но также и в наличии у че- ловека функций самообучения, то есть автоматического формирования новых правил логиче- ского вывода. Системный анализ и принятие решений Макаров Л.М. 61 Поиск - это простейший способ доступа к текстовым данным, и все же это ближе к про- цедуре подбора информации, чем к процедуре извлечения знаний. Типичная поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю. Этой простой возможности при росте объемов текстовых баз становится совершенно не- достаточно, и в последнее время поисковые машины начинают оснащаться средствами извле- чения знаний. В первую очередь новшества появляются в поисковых машинахИнтернет, а за- тем постепенно проникают в средства поиска, входящие в корпоративные системы документо- оборота. Рассмотрим некоторые из этих новшеств. Итеративный поиск: функция «найти похожие». Данная возможность позволяет посте- пенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения до- кумента в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских - «Яндексом» (www.yandex.ru) и «Рамблером» (www.rambler.ru). Существует процедура поиска по выборке. Если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в ис- полнении и реализована в большинстве популярных машин Интернет, включая российские «Яндекс» и «Рамблер». Запрос на естественном языке – очень распространенная процедура. В отличие от фор- мальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме. Эта процедура реа- лизуется во всех поисковых системах. Тезаурусы (словари) служат для так называемого расширения запроса и включают сино- нимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия. Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока боль- шинство поисковых машин тезауруса не имеют. По всей видимости, организация такого поиска требует создания сложных алгоритмов и развитого тезауруса. Все выше перечисленные функции основаны на статистике и морфологическом анализе текста. Реализация принципиально новых функциональных возможностей поисковых систем и повышение их интеллектуальности требует использования полного лингвистического анализа текстов. Первые шаги в этом направлении сделаны в системе AskNet,где реализован полный лингвистический анализ русских и англоязычных текстов. |