Главная страница
Навигация по странице:

  • Процесс распознавания

  • 2 практическая. Практическая работа 2 Задание 1 Изучить и описать технологии штрихового кодирования (Bar Code Technologies) сбора информации


    Скачать 26.11 Kb.
    НазваниеПрактическая работа 2 Задание 1 Изучить и описать технологии штрихового кодирования (Bar Code Technologies) сбора информации
    Дата24.10.2022
    Размер26.11 Kb.
    Формат файлаdocx
    Имя файла2 практическая.docx
    ТипПрактическая работа
    #750896

    Зырянов Саша

    334-ИСП

    Практическая работа № 2

    Задание №1

    Изучить и описать технологии штрихового кодирования (Bar Code Technologies) сбора информации.

    Технология штрихового кодирования (Bar Code Technologies) - сегодня самая известная из всех технологий бесконтактной идентификации. В соответствии с ней для эффективного учета движения материальных ценностей каждому товару присваивают уникальный код и обеспечивают его быстрое считывание при минимальных ошибках.

    Задание №2

    Изучить и описать технологии радиочастотной̆ идентификации (RFID – Radio Frequency IDentification) сбора информации.

    RFID-технология автоматической радиочастотной идентификации объектов. С ее помощью можно прослеживать не только продукцию и ТМЦ (торгово-материальные ценности), но и мобильность людей.

    RFID - системы широко применяются для контроля доступа персонала — на территорию предприятия, гостей и посетителей — на различные мероприятия.

    Устройство представляет собой мини-прибор, состоящий из микрочипа для сохранения информации и антенны, которая направляет полученные данные на считывающее устройство. Для защиты чипа и антенны от действия внешней среды применяется оболочка, которая помещается в пластиковый корпус с креплениями к товарам или объектам.

    Считыватель бывает ручным или стационарным и может работать с антеннами любых типов. Программное обеспечение включает в себя движок и дополнительные серверные и клиентские модули, которые обеспечивают простое развертывание системы радиочастотной идентификации любой сложности.

    Задание №3

    Изучить и описать карточные технологии (Card Technologies) сбора информации.

    Карточные технологии делятся на три класса: технологии на основе магнитной полосы, смарт-карты, оптической карты.

    Первая карточка с магнитной полосой появилась в 1960-х гг. на проездных билетах, а в 1970-х гг. - на банковских карточках. Магнитная полоса ограничена по объему информации, которая может быть записана на нее, также остро стоит вопрос надежности считывания и безопасности данных. Принято различать пассивные смарт-карты, другое название - «молчаливые» и активные смарт-карта, другое название - «умные», интеллектуальные. Смарт-карты первого типа содержат только микросхему памяти и используются только для хранения информации. Второй тип смарт-карт содержит наряду с микросхемой памяти - микропроцессор. В этом случае карта имеет возможность принимать решения о хранящейся информации и обеспечивать различные методы для защиты доступа к информации. Именно безопасность в свое время рассматривалась как основная причина замены других технологий смарт-картой.

    Смарт-карта, содержащая микропроцессор, также делится на два вида: контактная и бесконтактная. Оба вида имеют встроенный микропроцессор, однако последняя не имеет контактов, покрытых золотом. Она использует технологии обмена информацией между картой и считывающим устройством без какого-либо физического контакта, ее преимуществом является больший срок службы, для нее исключена возможность уничтожение информации в процессе считывания. Самым большим преимуществом смарт-карт является большой объем информации, который может быть записан на ней и безопасность информации, которую также обеспечивает карта.

    Карты с оптической памятью основаны на том же принципе, что и музыкальные диски. На карту прикрепляется лазерная панель, покрытая золотом, и она используется для хранения информации. Материал, используемый для этой панели, состоит из нескольких слоев и активизируется, когда на них попадает лазерный луч. Лазер выжигает крошечное отверстие в этом материале, которое потом будет различаться в процессе считывания. Наличие или отсутствие таких выжженных точек означает «единица» или «ноль». Оптическая карта может хранить информацию объемом от 4 до 6,6 Мб.

    Задание № 4

    Изучить и описать технологии сбора данных (Data Communications Technologies)

    Сбор данных — это процесс преобразования сигналов из внешнего мира в цифровую область для отображения, хранения и анализа. Поскольку физические явления существуют в аналоговой области, т.е. физическом мире, в котором мы живем, их необходимо сначала измерить, а затем преобразовать в цифровую область.

    Этот процесс осуществляется с помощью различных датчиков и преобразователей сигналов. Выходные значения отбираются аналогово-цифровым преобразователем (АЦП) и записываются во временном потоке на цифровой накопитель, как уже было сказано выше. Обычно такие системы называются системами измерения.

    Задание № 5

    Изучить и описать технологии распознавания голоса, оптического и магнитного и распознавания текста, биометрические технологии и некоторые другие.

    Автоматическое распознавание голоса является динамично развивающимся направлением в области искусственного интеллекта. Трудность использования голоса в качестве входного параметра заключается в фундаментальных различиях между человеческой речью и более традиционными формами ввода информации в компьютер.

    Сначала необходимо было «обучить» информационную систему распознать голос пользователя, когда он несколько раз говорит определённое слово или фразу в микрофон.

    Далее программа вычисляет среднее статистическое из нескольких выборок одного и того же слова и сохраняет усредненный образец в качестве шаблона в структуре данных программы. При таком подходе к распознаванию голоса программа формирует «словарь» объемом порядка нескольких сотен слов и коротких фраз, и точность распознавания может составлять около 98 процентов.

    Основным преимуществом систем с распознаванием голоса является более дружественный к пользователю интерфейс. Именно естественно-языковой интерфейс призван избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

    Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.

    Технология ABBYY FineReader OCR проста в использовании – процесс распознавания в целом состоит из трех этапов: открытие (или сканирование) документа, распознавание и сохранение в наиболее подходящем формате (DOC, RTF, XLS, PDF, HTML, TXT и т. д.) либо перенос данных напрямую в офисные программы, такие как Microsoft® Word®, Excel® или приложения для просмотра PDF.

    Процесс распознавания

    В соответствии с алгоритмом MDA, собственно распознавание начинается сверху-вниз, с уровня страницы. Понятно, что чем больше неверных решений будет сделано на ранних этапах этого процесса, тем больше будет на следующих. Именно поэтому точность распознавания так сильно зависит от качества оригиналов, но и алгоритмы их предварительной обработки могут иметь существенное значение. Так, по мере роста популярности цветных документов в FineReader появилась процедура адаптивной бинаризации (adaptive binarization, AB). Если отсканировать сразу в черно-белом режиме документ, где присутствуют водяные знаки либо текст расположен на текстурной или цветной подложке, то на изображении неизменно появится «мусор», который затем будет довольно сложно отделить от «полезного» изображения (т. к. исходная информация о нем уже потеряна). Именно поэтому FineReader предпочитает работать с цветными или полутоновыми изображениями, самостоятельно преобразуя их в черно-белые (этот процесс и называется бинаризацией). Но и это не всё. Поскольку цвета текста и фона могут различаться в пределах страницы и даже отдельных строк, AB выделяет слова с более-менее одинаковыми характеристиками и подбирает для каждого оптимальные с точки зрения качества распознавания параметры бинаризации. Именно в этом и состоит адаптивность алгоритма, который, таким образом, является примером использования обратной связи в MDA. Понятно, что эффективность AB сильно зависит от оформления исходных документов — на тестовой базе ABBYY этот алгоритм обеспечил повышение точности распознавания на 14,5%.

    Но наиболее интересное, конечно, начинается, когда процесс распознавания опускается на самые нижние уровни. Так называемая процедура линейного деления разбивает строки на слова, а слова на отдельные буквы; далее, в соответствии с принципом IPA, формирует набор гипотез (т. е. возможных вариантов того, что́ это за символ, на какие символы разбито слово и т. д.) и, снабдив каждую оценкой вероятности, передает на вход механизма распознавания символов. Последний состоит из ряда так называемых классификаторов, каждый из которых также формирует ряд гипотез, ранжированных по предполагаемой степени вероятности. Важнейшей характеристикой любого классификатора является среднее положение правильной гипотезы. Понятно, что чем выше она находится, тем меньше работы для последующих алгоритмов — к примеру, словарной проверки. Но для достаточно отлаженных классификаторов чаще всего оценивают такие характеристики, как точность распознавания по первым трем гипотезам или только по первой — т. е., грубо говоря, способность угадать верный ответ с трех или с одной попытки. ABBYY в своих системах применяет следующие типы классификаторов: растровый, признаковый, признаковый дифференциальный, контурный, структурный и структурный дифференциальный — которые сгруппированы на двух логических уровнях.

    Принцип действия РК, или растрового классификатора, основан на попиксельном сравнении изображения символа с эталонами. Последние формируются в результате усреднения изображений из обучающей выборки и приводятся к некой стандартной форме; соответственно, для распознаваемого изображения также предварительно нормализуются размер, толщина элементов, наклон. Этот классификатор отличается простотой реализации, скоростью работы и устойчивостью к дефектам изображений, но обеспечивает сравнительно низкую точность и именно поэтому используется на первом этапе — для быстрого порождения списка гипотез.

    Признаковый классификатор (ПК), как и следует из его названия, основывается на наличии в изображении признаков того или иного символа. Если всего таких признаков N, то каждую гипотезу можно представить точкой в N-мерном пространстве; соответственно, точность гипотезы будет оцениваться расстоянием от нее до точки, соответствующей эталону (который также нарабатывается на обучающей выборке). Понятно, что типы и количество признаков в значительной степени определяют качество распознавания, поэтому обычно их достаточно много. Этот классификатор также сравнительно быстр и прост, но не слишком устойчив к различным дефектам изображения. Кроме того, ПК оперирует не исходным изображением, а некой моделью, абстракцией, т. е. не учитывает часть информации: скажем, сам факт наличия каких-то важных элементов ничего не говорит об их взаимном расположении. По этой причине ПК используется не вместо, а вместе с РК.

    Контурный классификатор (КК) представляет собой частный случай ПК и отличается тем, что анализирует контуры предполагаемого символа, выделенные из исходного изображения. В общем случае его точность ниже, чем у полновесного ПК.

    Признаковый дифференциальный классификатор (ПДК) также похож на ПК, однако используется исключительно для различения похожих друг на друга объектов, таких как «m» и «rn». Соответственно, он анализирует только те области, где скрываются отличия, а на вход ему подаются не только исходные изображения, но и гипотезы, сформированные на ранних стадиях распознавания. Принцип его работы, однако, несколько отличается от ПК. На этапе обучения в N-мерном пространстве формируются два «облака» (групп точек) возможных значений для каждого из двух вариантов, затем строится гиперплоскость, отделяющая «облака» друг от друга и примерно равноудаленная от них. Результат распознавания зависит от того, в какое полупространство попадает точка, соответствующая исходному изображению.

    Сам по себе ПДК не выдвигает гипотез, а лишь уточняет имеющиеся (список которых в общем случае сортируется пузырьковым методом), так что прямая оценка его эффективности не проводится, а косвенно ее приравнивают к характеристикам всего первого уровня OCR-распознавания. Однако понятно, что она зависит от корректности подобранных признаков и представительности выборки эталонов, обеспечение чего является достаточно трудоемкой задачей.

    Структурно-дифференциальный классификатор (СДК) первоначально применялся для обработки рукописных текстов. Его задача состоит в различении таких похожих объектов, как «C» и «G». Таким образом, СДК основывается на признаках, характерных для каждой пары символов, процесс его обучения еще сложнее, чем у ПДК, а скорость работы ниже, чем у всех предыдущих классификаторов.

    Структурный классификатор (СК) является предметом гордости компании ABBYY, первоначально он был разработан для распознавания так называемого рукопечатного текста, т. е. когда человек пишет «печатными» буквами, но впоследствии был применен и для печатного. Он используется на завершающих этапах распознавания и вступает в действие достаточно редко, а именно, только в том случае, когда до него доходят как минимум две гипотезы с достаточно высокими вероятностями.

    Качественные характеристики всех классификаторов собраны в следующую таблицу. Они, впрочем, позволяют лишь оценить эффективность алгоритмов друг относительно друга, т. к. не являются абсолютными, а получены на основе обработки конкретной тестовой выборки. Может создаться впечатление, что на последних этапах распознавания борьба идет буквально за доли процента, но на самом деле каждый классификатор вносит существенную лепту в повышение точности распознавания — так, к примеру, СК снижает количество ошибок на ощутимые 20%.

    Любопытно, однако, что, несмотря на довольно высокую точность, алгоритм собственно распознавания не принимает окончательного решения. В соответствии с принципом MDA, гипотезы выдвигаются на каждом логическом уровне, и число их может расти в геометрической прогрессии. Соответственно, последовательная проверка всех гипотез вряд ли окажется эффективной, и потому в OCR-системах ABBYY применяется метод структурирования гипотез, т. е. отнесения их к тем или иным моделям. Последних существует пара десятков, вот только несколько их типов: словарное слово, несловарное слово, арабские цифры, римские цифры, URL, регулярное выражение — а в каждый может входить множество конкретных моделей (к примеру, слово на одном из известных языков, латиницей, кириллицей и т. д.).

    Все финальные действия выполняются уже именно с гипотезами, построенными по моделям. К примеру, контекстная проверка определит язык документа и сразу же существенно понизит вероятность моделей с использованием неправильных алфавитов, а словарная компенсирует погрешности при неуверенном распознавании некоторых символов: так, слово «turn» присутствует в словаре английского языка — в отличие от «tum» (во всяком случае, оно отсутствует среди популярных). Хотя приоритет словаря выше, чем у любого классификатора, он не обязательно является последней инстанцией, и в общем случае не останавливает дальнейшие проверки: во-первых, как говорилось выше, имеется модель несловарного слова, во-вторых, специальная организация словарей позволяет с высокой долей вероятности предположить, может ли какое-то неизвестное слово относиться к тому или иному языку. Тем не менее, словарная проверка (и полнота словарей) оказывает существенное влияние на результат распознавания, и в тестах самой ABBYY сокращает количество ошибок практически вдвое.

    Биометрические технологии основаны на биометрии, измерении уникальных характеристик отдельно взятого человека. Это могут быть как уникальные признаки, полученные им с рождения (ДНК, отпечатки пальцев, радужная оболочка глаза), так и характеристики, приобретённые со временем или же способные меняться с возрастом или внешним воздействием (почерк, голос или походка).

    Дактилоскопия — наиболее популярная технология биометрической аутентификации, основанная на сканировании и распознавании отпечатков пальцев.

    Данный метод активно поддерживается правоохранительными органами, с целью привлечения в свои архивы электронных образцов. Также, метод сканирования отпечатков пальцев легок в использовании и надежен универсальностью данных. Главным устройством этого метода биометрической аутентификации есть сканер, который сам по себе имеет небольшие размеры и является относительно недорогим в цене. Такая аутентификация осуществляется достаточно быстро за счет того, что система не требует распознавания каждой линии узора и сравнения её с исходными образцами, находящимися в базе. Системе достаточно определить совпадения в масштабных блоках и проанализировать раздвоения, разрывы и прочие искажения линий (минуции).

    Аутентификация по сетчатке глаза.

    Сканирование сетчатки глаза предусматривает использование инфракрасного низкоинтенсивного излучения, которое направляется к кровеносным сосудам глазного дна через зрачок. Сигнал отображает несколько сотен характерных точек, которые записываются в шаблон. Самые современные сканеры вместо инфракрасного света направляют лазер мягкого действия.

    Верификация подписи.

    Биометрический метод аутентификации по подписи имеет два способа:

    на основе анализа визуальных характеристик подписи. Данным способом предполагается сравнение двух изображений подписи на соответствие идентичности — это может осуществляться как системой, так и человеком;

    способ компьютерного анализа динамических характеристик написания подписи. Аутентификация таким способом происходит после тщательного исследования сведений о самой подписи, а также о статистических и периодических характеристиках ее написания.

    Формирование шаблона подписи осуществляется в зависимости от требуемого уровня защиты. Всего одна подпись анализируется по 100-200 характерным точкам. Если же, подпись ставится с использованием светового пера, то помимо координат пера, учитывается и угол его наклона, нажатие пера. Угол наклона пера исчисляется относительно планшета по часовой стрелке.

    Задание № 6

    В зависимости от целей, сферы деятельности и располагаемых технических средств можно выделить методы сбора данных, применяемые:

    1) в экономических информационных системах (например, маркетинга):

    • опрос и интервью — групповой, индивидуальный или телефонный опрос, опрос в форме анкетирования, формализованные и неформализованные интервью;

    • регистрация (наблюдение) — систематическое, планомерное изучение поведения того или иного объекта или субъекта;

    • эксперимент — исследование влияния одного фактора на другой при одновременном контроле посторонних факторов;

    • панель — повторяющийся сбор данных у одной группы, опрашиваемых через равные промежутки времени;

    • экспертная оценка — оценка исследуемых процессов квалифицированными специалистами-экспертами;

    2) в геоинформационных системах:

    • сбор информации из нормативной и методической документации;

    • сбор пространственных (координатных и атрибутивных) данных;

    • мониторинг потоков данных, поступающих с научно-исследовательских воздушных и морских судов, береговых станций и буев в оперативном и задержанном режиме;

    • сбор данных, поступающих по каналам удаленного доступа к данным;

    3) в статистических информационных системах:

    • сбор данных с первичных документов;

    • заполнение собственных форм и шаблонов при сборе данных;

    • сбор данных из подотчетных организаций с помощью заполнения ими предписанных форм отчетности;

    4) в информационных системах управления производственными процессами широко применяются методы сбора данных, основанные на технологии автоматической идентификации

    Задание № 7

    Для заданной предметной области (см. практическую работу № 1) опишите устройства и методы автоматизированного сбора информации.

    Анализ документов;

    Заполнение собственных форм и шаблонов при сборе данных;

    Метод экспертных оценок

    Задание № 8

    Оформить отчет.

    Изучил и описал технологии штрихового кодирования сбора информации.

    Изучил и описал технологии радиочастотной̆ идентификации сбора информации.

    Изучил и описал карточные технологии сбора информации.

    Изучил и описал технологии сбора данных.

    Изучил и описал технологии распознавания голоса, оптического и магнитного и распознавания текста, биометрические технологии и некоторые другие.

    Изучил методы сборы информации

    Описал устройства и методы автоматизированного сбора информации.


    написать администратору сайта