Главная страница
Навигация по странице:

  • 4. Анализ текстовых документов 4.1 Информационные основы

  • 4.2 Информационная модель документа

  • Санктпетербургский


    Скачать 1.2 Mb.
    НазваниеСанктпетербургский
    Дата23.05.2023
    Размер1.2 Mb.
    Формат файлаpdf
    Имя файлаUch_Sis_anal_prin_resh_2021.pdf
    ТипУчебное пособие
    #1154744
    страница6 из 8
    1   2   3   4   5   6   7   8
    3.5 Рекурсивные цифровые фильтры
    Рекурсивным называется цифровой фильтр, для которого значение процесса на выходе определяется не только конечным числом значений входного процесса, но также и предше- ствующими величинами выходного процесса. В технике такое свойство называется обратной связью (рис. 3.5). Типичное выражение рекурсивного фильтра имеет вид:
    Рис. 3.5 Схема рекурсивного фильтра
    Такой фильтр использует М значений выходного процесса и только одно — входного. В общем случае число значений выходного процесса не меняется, а число значений входного процесса возрастает. Уравнение (3.9) иллюстрирует схему фильтра, представленного на рис. 3.5, где тре-
    k
    n
    M
    k
    k
    n
    y
    h
    cx

    =

    +
    =
    1
    n y
    3.9

    Системный анализ и принятие решений Макаров Л.М.
    53 угольники обозначают операцию умножения на соответствующие величины, прямоугольники
    — задержку по времени на t между смежными точками и, наконец, окружность соответствует операции суммирования.
    Преобразование Фурье уравнения (3.9) записывается в виде:
    Причем сумма содержит многочлен по степеням экспоненты. Обозначая последнее вы- ражение символом z можно воспользоваться для изучения свойств цифровых фильтров теорией z -преобразований. Как следует из формулы (3.10), частотная характеристика всей системы имеет вид:
    Таким образом, изучение свойств частотной характеристики H(f) сводится к определе- нию положения и характера полюсов в знаменателе выражения (3.11).
    Рассмотрим пример. В качестве примера рассмотрим рекурсивный цифровой фильтр, заданный выражением: где
    )
    RC
    t exp(- a

    =
    . Формально это условие представляет низко частотный RC фильтр. Действи- тельно, согласно формуле (3.11) имеем:
    Квадрат амплитудной характеристики представляется выражением:
    )
    2
    exp(
    h
    X(f)
    cX(f)
    Y(f)
    M
    1
    k k

    =


    +
    =
    t
    fk

    3.10

    =



    =
    =
    M
    k
    k
    t
    fk
    h
    c
    1
    )
    2
    exp(
    1
    X(f)
    Y(f)
    H(f)

    3.11 1
    n
    )
    1
    (
    y

    +

    =
    n
    n
    ay
    x
    a
    3.12
    )
    t f
    2
    aexp(-
    -
    1 1
    H(f)

    =


    Системный анализ и принятие решений Макаров Л.М.
    54
    Отметим, что если
    t
    RC


    , то и
    При условии:
    0 1
    t
    2



    справедливо приближенное равенство:
    В таком случае имеем:
    Действительно получаем низко частотный фильтр. Фильтр низких частот должен эффек- тивно пропускать частоты сигнала ниже частоты среза, и уменьшать или подавлять частоты сигнала выше частоты среза. Идеальный фильтр нижних частот полностью подавляет все ча- стоты входного сигнала выше частоты среза и пропускает без изменений все частоты ниже ча- стоты среза. Степень подавления каждой частоты зависит от типа фильтра.
    Фильтр Баттерворта — один из типов электронных фильтров. Фильтры этого класса от- личаются от других методом проектирования. Фильтр Баттерворта проектируется так, чтобы его амплитудная частотная характеристика была максимально гладкой на частотах полосы про- пускания.
    )
    t f
    2 2acos(-
    - a)
    (1
    a)
    -
    (1
    H(f)
    2 2

    +
    =

    )
    (
    1
    )
    exp(
    RC
    t
    RC
    t
    a





    =
    RC
    t
    a


    − )
    1
    (
    t
    t
    f







    2 1
    )
    2
    exp(
    fRC
    f
    H

    2 1
    1
    )
    (
    +

    и
    2 2
    )
    2
    (
    1
    )
    (
    fRC
    f
    H



    Системный анализ и принятие решений Макаров Л.М.
    55
    Синтез рекурсивных цифровых фильтров, дающих хорошее приближение к фильтрам
    Баттерворта, может быть выполнен при помощи формулы (3.11) путем нахождения последова- тельности весов {h k
    } и коэффициента с
    , таких, что соблюдается соотношение:
    Заметим, что при f= 0 значение
    1
    H(f)
    2
    =
    , а при f= f
    0
    квадрат модуля частотной характеристики равен 1/2. На частоте t
    2 1
    f

    =
    величина
    2
    H(f)
    | при больших значениях М стремится к единице.
    Таким образом, в интервале [0, (
    t
    2 1

    )], наиболее важном в дискретном случае, фильтр, описы- ваемый уравнением (3.13), ведет себя как низкочастотный фильтр Баттерворта, обладающий характеристикой: где f
    0
    — частота, соответствующая половинной энергии, а величина К определяет наклон кри- вой
    2
    H(f)
    Низкочастотные фильтры используются для сокращения объема выборки, что позволяет уменьшить длину анализируемых реализаций. По определению сокращение порядка r дискрет- ной реализации заключается в сохранении лишь каждого r-го наблюдения.
    Поясним это замечание. Предположим, как обычно, что наблюдения отстоят друг от друга на интервал t и произведено сокращение порядка r. Тогда новый интервал дискретности будет составлять t' = rt, а частота Найквиста станет равной:
    M
    t
    f
    H
    2 0
    2
    )
    )
    /
    sin(f t)
    /
    sin(
    (
    1 1
    )
    (


    +
    =

    и
    t
    f



    2 1
    0 3.13
    K
    f
    H
    )
    f f
    (
    1 1
    )
    (
    0 2
    +
    =
    t r
    5
    ,
    0
    f
    Д

    =

    Системный анализ и принятие решений Макаров Л.М.
    56
    Следовательно, все частоты, больше t
    r
    5
    ,
    0
    f
    Д

    =
    , будут замаскированы (свернуты) в интервал [0, (1/2 rt)]. Чтобы избежать маскировки, исходную реализацию следует отфильтро- вать при помощи соответствующего низкочастотного фильтра.
    Наряду с фильтрами низких частот на практике используются другие типы фильтров.
    Так, например, хорошо известен фильтр Чебышева. Фильтр Чебышева, отличительной особенностью которого является более крутой спад амплитудно-частотной характеристики
    (АЧХ) и существенные пульсации амплитудно-частотной характеристики на частотах полос пропускания (фильтр Чебышева I рода) и подавления (фильтр Чебышева II рода), чем у филь- тров других типов. Фильтр получил название в честь известного русского математика П. Л.
    Чебышева, так как характеристики этого фильтра основываются на многочленах Чебышева.
    Также распространены фильтры низких и высоких частот, полосовые фильтры и ре- жекторные (заграждающие) фильтры.
    Фильтр верхних частот пропускает высокие частоты входного сигнала, при этом подав- ляя частоты сигнала меньше, чем частота среза. Степень подавления зависит от конкретного вида фильтра.
    Полосно-пропускающий фильтр пропускает частоты, находящиеся в нужном диапазоне и вырезает все остальные частоты.
    Полосно-заграждающий фильтр не пропускает колебания некоторой определенной по- лосы частот, и пропускает колебания с частотами, выходящими за пределы этой полосы.
    4. Анализ текстовых документов
    4.1 Информационные основы
    Информация всегда связана с материальным носителем. Носителем информации явля- ются: материальный объект, излучения различной природы. Машинными носителями инфор- мации являются: перфоленты, перфокарты, магнитные ленты, и т.д. Сигнал - способ передачи информации. Формирование, регистрация и обработка сигнала - физический процесс, имеющий информационное значение. Сигнал может быть непрерывным или дискретным.
    Сигнал называется дискретным, если он может принимать лишь конечное число значе- ний на конечном интервале времени. Аналоговый сигнал - сигнал, непрерывно изменяющийся по амплитуде и во времени. Сигналы, несущие текстовую, символическую информацию, дис- кретны. Информация, представленная в некотором формате может быть охарактеризована па- кетом сообщения. В качестве пакета сообщения могут рассматриваться как аналоговые, так и дискретные сигналы. Аналоговые сигналы широко используют в телефонной связи, радиове-

    Системный анализ и принятие решений Макаров Л.М.
    57 щании, телевидении.
    Информатика – область человеческой деятельности, связанная с процессами преобразо- вания информации с помощью компьютеров и других средств вычислительной техники, где используются математические методы регистрации, анализа и синтеза различных сигналов.
    Информатика как совокупность средств преобразования информации включает техниче- ские средства (hardware), программные продукты (software), математические методы, модели и типовые алгоритмы (brainware). В состав технических средств входят компьютеры и связанные с ними периферийные устройства (мониторы, клавиатуры, принтеры и плоттеры, модемы и т.д.), линии связи, средства оргтехники. Все эти группы устройств представляют материальные ресурсы, которые обеспечивают преобразование информации, причем главенствующую роль в этом списке играет компьютер. По своей специфике компьютер нацелен на решение очень ши- рокого круга задач по преобразованию информации, при этом выбор конкретной задачи при использовании компьютера определяется программным средством, под управлением которого функционирует компьютер.
    К программным продуктам относятся операционные системы и их интегрированные оболочки, системы программирования и проектирования программных продуктов, различные прикладные пакеты, такие, как текстовые и графические редакторы, бухгалтерские и издатель- ские системы. Конкретное применение каждого программного продукта специфично и служит для решения определенного круга задач прикладного или системного характера. Математиче- ские методы, модели и типовые алгоритмы являются тем базисом, который положен в основу проектирования и изготовления программного, технического средства или другого объекта.
    Перечисленные выше три ресурсных компонента информатики играют разную роль в процессе познания окружающего мира. Информатика как фундаментальная наука занимается разработкой абстрактных методов, моделей и алгоритмов, а также связанных с ними математи- ческих теорий. Ее прерогативой является исследование процессов преобразования информации и на основе этих исследований разработка соответствующих теорий, моделей, методов и алго- ритмов, которые затем применяются на практике.
    На протяжении длительного периода времени цивилизация накапливала различные по содержанию информационные материалы, которые сегодня благодаря развитой сети связи и компьютерным технологиям образуют многочисленные информационные ресурсы. Обращение к информационным ресурсам, размещенным удаленно от пользователя или на персональном компьютере, требует создания специальных инструментов по организации работы с ними. Об- мен сообщениями между терминалами пользователей и получение необходимой информации усиливает интерес к решению задач по обработке сообщений.
    Сообщение является производным понятием от сигнала и может быть представлено ли-

    Системный анализ и принятие решений Макаров Л.М.
    58 бо в формате аналогового, либо цифрового сигнала. В таком понимании термин сообщение позволяет рассматривать широкий перечень вопросов по передаче, приему и обработке сигна- лов посредством традиционных статистических методов.
    Взаимодействие отдельных элементов или функциональных узлов сложной технической системы осуществляется посредством электрических сигналов – сообщений. Взаимодействие человека с технической системой, например, с компьютером осуществляется на основе рецеп- торных систем человека и набора интерфейсов. Современные интерактивные системы позво- ляют организовывать процессы обмена сообщениями, представленными в текстовом формате.
    Возможность организации диалога в интерактивной системе реализуется с учетом се- мантических и статистических свойств текстов. На этих принципах реализуются поисковые си- стемы, осуществляющие подбор ссылок на информационные ресурсы сети Интернет по запросу пользователя. В огромном перечне возможностей организации коммуникации для человека вы- деляется работа с текстовым материалом с использованием компьютера.
    Компьютерная лингвистика задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, никак не ограничивая способы ре- шения этих задач.
    4.2 Информационная модель документа
    Важной задачей науки является создание инструментария научного исследования – его понятийного аппарата, технических средств и методов их применения. Инструментарий иссле- дования, созданный одной отраслью науки, может с успехом применяться другими. Математи- ка и информатика создали инструментарий научного исследования, применимый в любых от- раслях науки. Этому способствуют следующие особенности этих наук:
    • высокая абстрактность рассматриваемых в них понятий и свойств, позволяющая приме- нять их к содержанию других наук (например, множества, изучаемые в математике, имеют од- ни и те же свойства, независимо от того, являются ли они множествами людей, частиц или гос- ударств).
    • формальность рассуждений (вычислений), заключающаяся в точном следовании законам логического вывода без привлечения каких-либо содержательных соображений (в этом состоит суть аксиоматического метода). Благодаря этой особенности математика и информатика имеют статус строгих и точных наук.
    • высокая процедурность (или операциональность, или алгоритмичность) знания, т.е. воз- можность получения новых знаний с помощью автоматизируемых процедур – алгоритмов.
    Содержанием информатики является разработка методов хранения, обработки и переда-

    Системный анализ и принятие решений Макаров Л.М.
    59 чи информации с помощью компьютерных систем. Применяемые в информатике формальные преобразования информации ориентированы на извлечение семантической основы. Именно по- этому формальные модельные исследования сигналов и текстов основываются на известных статистических законах.
    Процесс применения методов математики и информатики заключается в построении ма- тематической и информационной моделей исследуемой предметной области, проведении ком- пьютерной обработки этих моделей и последующей содержательной интерпретации получен- ных результатов. Использование этого подхода начинается с формирования содержательной модели, формулируемой в вербальной форме или в смешанном вербально-визуальном пред- ставлении. Обращение к такой модели происходит всегда, когда возникает необходимость по- лучить или извлечь некоторую информацию из текстового массива. Часто создание содержа- тельной модели предшествует операции поиска, например, средствами традиционных поиско- вых систем Интернет. Рассмотрим основные составляющие процесса перехода от содержатель- ной к информационной модели (рис. 4.1).
    Выделим набор терминов - запись, правила, алфавит, который отождествляет семанти- ческую конструкцию (СК). Кроме этого в выделенной конструкции укажем пару терминов - правила и алфавит, которые характеризуют язык записи. Под СК будем понимать некоторую запись, выполненную на каком-либо физическом носителе, реализованную в рамках некоторых правил, являющуюся упорядоченной последовательностью элементов избранного алфавита. В результате работы с СК происходит либо редуцирование исходного текстового массива, либо исполняется процедура бустинга.
    Рис. 4.1. Схема математического и информационного моделирования
    Рис. 4.2. Схема информационного моделирования

    Системный анализ и принятие решений Макаров Л.М.
    60
    Понятие бустинга сформировалось в области компьютерных технологий ориентирован- ных на добычу знаний и связано с генерацией моделей обработки данных. В рамках таких мо- делей постулируется возможность организации добычи данных в соответствии с запросом.
    Термин «предсказывающая добыча данных» обычно применяется для обозначения проектов добычи данных, цель которых состоит в определении статистической модели или модели нейронных сетей или набора таких моделей, которые могут быть использованы для предсказа- ния некоторых интересующих откликов – реплик модели.
    Обсуждение возможности воспроизведения моделей обработки данных, в частности, для задач извлечения знаний, начнем с перечисления некоторых характеристических параметров базы знаний. Эти параметры представим в следующей последовательности:

    Структурированность. Знания должны быть классифицированы.

    Удобство доступа и усвоения. Для человека - это способность быстро понять и запом- нить или, наоборот, вспомнить в прошлом известные факты. Для компьютерной базы знаний - средства доступа, средства организации поиска, наличие аннотаций и индексов документов.

    Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает «коэффициент полезного использования».

    Непротиворечивость. «Хорошие» данные/знания не должны противоречить друг другу, что очевидно или по крайней мере желательно. Однако для многих областей сбора знаний это изначально не так - на вход хранилища знаний может поступать разноречивая информация. За- дача собирателя знаний обнаружить противоречия и разрешить их на этапе сбора знаний либо присвоить разным элементам данных различную оценку достоверности.

    Оценка достоверности. Безусловно, усваивая или используя знания, хочется знать, насколько они достоверны. Хорошее хранилище знаний должно иметь такую оценку для своих элементов.

    Процедуры обработки. Знания нужны для того, чтобы их использовать - строить новые знания. Для этого должны существовать процедуры обработки знаний. Способность делать вы- воды означает для машины наличие процедур обработки и вывода и подготовленность струк- тур данных для такой обработки.
    Отличия процедур извлечения знаний человека и машины в настоящее время определя- ется не только большим числом используемых правил продукции в процессе обобщения и ло- гического вывода, более эффективной реализацией этих процедур, но также и в наличии у че- ловека функций самообучения, то есть автоматического формирования новых правил логиче- ского вывода.

    Системный анализ и принятие решений Макаров Л.М.
    61
    Поиск - это простейший способ доступа к текстовым данным, и все же это ближе к про- цедуре подбора информации, чем к процедуре извлечения знаний. Типичная поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю.
    Этой простой возможности при росте объемов текстовых баз становится совершенно не- достаточно, и в последнее время поисковые машины начинают оснащаться средствами извле- чения знаний. В первую очередь новшества появляются в поисковых машинахИнтернет, а за- тем постепенно проникают в средства поиска, входящие в корпоративные системы документо- оборота. Рассмотрим некоторые из этих новшеств.
    Итеративный поиск: функция «найти похожие». Данная возможность позволяет посте- пенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения до- кумента в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских - «Яндексом» (www.yandex.ru) и «Рамблером»
    (www.rambler.ru).
    Существует процедура поиска по выборке. Если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в ис- полнении и реализована в большинстве популярных машин Интернет, включая российские
    «Яндекс» и «Рамблер».
    Запрос на естественном языке – очень распространенная процедура. В отличие от фор- мальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме. Эта процедура реа- лизуется во всех поисковых системах.
    Тезаурусы (словари) служат для так называемого расширения запроса и включают сино- нимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия.
    Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока боль- шинство поисковых машин тезауруса не имеют. По всей видимости, организация такого поиска требует создания сложных алгоритмов и развитого тезауруса.
    Все выше перечисленные функции основаны на статистике и морфологическом анализе текста. Реализация принципиально новых функциональных возможностей поисковых систем и повышение их интеллектуальности требует использования полного лингвистического анализа текстов. Первые шаги в этом направлении сделаны в системе AskNet,где реализован полный лингвистический анализ русских и англоязычных текстов.

    Системный анализ и принятие решений Макаров Л.М.
    62
    1   2   3   4   5   6   7   8


    написать администратору сайта