Текст на английском на тему Система сбора информации и данных, с переводом. 30000 знаков с переводом. Задачи и понятие сбора информации
Скачать 490.49 Kb.
|
ЗАДАЧИ И ПОНЯТИЕ СБОРА ИНФОРМАЦИИ Задача сбора и статистического анализа численных данных возникает во многих областях деятельности человека: в медицине, промышленности, науке и в информационных технологиях. Уже было разработано достаточно систем сбора и анализа данных в конкретных областях. Однако универсальных систем, позволяющих собирать и анализировать данные из разных источников немного, а систем позволяющих производить не только мониторинг, но и статистический анализ полученных данных, единицы. Целью данной работы является создание универсальной кросс-платформенной модульной системы сбора и статистического анализа численных данных с открытым исходным кодом. Универсальность системы достигается за счет: 1. Использования модульной архитектуры (это позволит менять последовательность передачи данных между модулями, территориально разносить их по разным серверам, добавлять дополнительные модули к общей системе). 2. Возможности запускать внешние приложения сторонних производителей для получения необходимых данных. 3. Использования специального языка описания источника данных, что позволит привести данные из любого источника к требуемому программой виду Система состоит из следующих модулей: 1. Модуля сбора данных 2. Модуля анализа, модуля классификации и базы данных, составляющих вместе основное ядро системы. 3. Модуля анализа актуальности выбираемых из хранения данных 4. Модуля для проведения статистического анализа выбранных данных 5. Пользовательских модулей для составления отчетов и построения моделей Опишем функциональное назначение каждого из модулей подробнее. Модуль сбора данных. Этот модуль служит для периодического опроса источников данных с целью получения текущей информации. Для описания источников данных применяется специальный язык, позволяющий сделать базовую обработку полученных данных, т.е. привести их к виду, который может быть использован другими модулями. Модуль анализа данных. Служит для первичной проверки полученных модулем сбора данных на достоверность и на выброс по заданным программе критериям. В простейшем случае данными критериями могут являться максимальное и минимальное значения получаемых параметров. Модуль классификации данных. Необходим для разделения получаемых данных на группы (Пример 1: нормальное давление, высокое давление и критическое давление. Пример 2: студент, аспирант, сотрудник). Признаки, используемые для классификации задаются в конфигурационных файлах модуля с использованием специального языка описания. База данных. Обработанные и классифицированные данные передаются на хранение СУБД. Для того, чтобы сделать программу универсальной используется СУБД MySQL. Это также позволяет организовать постоянное резервирование хранимой информации, а также постоянную поддержку целостности базы данных в целом. Кроме того к плюсам данной СУБД относится кросс-платформенность и возможность организации кластеров для хранения больших объемов данных. Анализ актуальности данных. На этапе классификации, каждому из классов сопостовляется срок, в течение которого полученные данные будут актуальны. Данный модуль является своего рода фильтром, не допускающим попадание устаревших данных в текущие отчеты. Однако, при построении достоверной модели развития необходимо учитывать все данные, в том числе и исторического характера. Поэтому использование данного модуля в системе не обязательно. Модуль статистического анализа. Является, пожалуй, самым сложным модулем системы. Он представляет из себя комбинацию различных функций, реализующих различные методы статистического анализа изучения. На выходе модуль будет выдавать данные, полученные при помощи выбранного метода статистического анализа, либо модели, построенные для различных классов переменной по выбранному пользователем алгоритму. Планируется также разработка модуля нейросетевого анализа. Пользовательские модули для составления текущих отчетов и отчетов с предсказанием динамики развития переменной фактически представляют собой интерфейс пользователя для работы с программой. Модули являются Web-ориентированными поэтому не требуют установки дополнительного программного обеспечения на компьютере пользователя системы. Большая часть данных будет представлена пользователю в графическом виде, что значительно упрощает процесс анализа и принятия решения пользователем. Модулем, несущим основную нагрузку, является модуль анализа данных. Типовыми задачами, которые будут решаться данным модулем, являются: 1. Описание данных (компактное и информативное представление полученных данных) 2. Установление совпадения групп данных (например совпадения данных по месяцам, по источникам) 3. Установление различия групп данных Описание данных. В задачах, решаемых программой обычно будут иметься большие совокупности измеренных данных (сотни, а иногда – тысячи результатов измерений индивидуальных характеристик), поэтому возникает задача компактного описания имеющихся данных. Для этого используют методы описательной статистики – описания результатов с помощью различных агрегированных показателей и графиков. Кроме того, некоторые показатели описательной статистики используются в статистических критериях при определении достоверности совпадений и/или различий характеристик нескольких групп данных. Показатели описательной статистики можно разбить на несколько групп: • показатели положения описывают положение экспериментальных данных на числовой оси. Примеры таких данных – максимальный и минимальный элементы выборки, среднее значение, медиана, мода и др.; • показатели разброса описывают степень разброса данных относительно своего центра (среднего значения). К ним относятся: выборочная дисперсия, разность между минимальным и максимальным элементами (размах, интервал выборки) и др.• показатели асимметрии: положение медианы относительно среднего и др. • графики, диаграммы и др. Данные показатели используются для наглядного представления и первичного ("визуального") анализа результатов. Общие подходы к определению достоверности совпадений и различий. Как отмечалось выше, типовой задачей анализа данных в педагогических исследованиях является установление совпадений или различий характеристик различных групп данных. Для этого формулируются статистические гипотезы: • гипотеза об отсутствии различий (так называемая нулевая гипотеза); • гипотеза о значимости различий (так называемая альтернативная гипотеза). Для принятия решений о том, какую из гипотез (нулевую или альтернативную) следует принять, используют решающие правила – статистические критерии. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной группы) вычисляется число, называемое эмпирическим значением критерия. Это число сравнивается с известным (например, заданным таблично) эталонным числом, называемым критическим значением критерия. Критические значения приводятся, как правило, для нескольких уровней значимости. Уровнем значимости называется вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны. Обычно используют уровни значимости (обозначаемые a), равные 0,05, 0,01 и 0,001. Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза – считается, что на заданном уровне значимости (то есть при том значении a, для которого рассчитано критическое значение критерия) характеристики групп данных совпадают. В противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза – характеристики групп данных считаются различными с достоверностью различий (1 – a). Другими словами, чем меньше эмпирическое значение критерия (чем левее оно находится от критического значения), тем больше степень совпадения характеристик сравниваемых объектов. И наоборот, чем больше эмпирическое значение критерия (чем правее оно находится от критического значения), тем сильнее различаются характеристики сравниваемых объектов. СПОСОБЫ ПРИМЕНЕНИЯ И ВИДЫ СИСТЕМЫ СБОРА ИНФОРМАЦИИ В ЭВМ. Система сбора данных (ССД) — комплекс средств, предназначенный для работы совместно с персональным компьютером, либо специализированной ЭВМ и осуществляющий автоматизированный сбор информации о значениях физических параметров в заданных точках объекта исследования с аналоговых и/или цифровых источников сигнала, а также первичную обработку, накопление и передачу данных. Совместно с персональной ЭВМ, оснащенной специализированным программным обеспечением, система сбора данных образует информационно-измерительную систему (ИИС). ИИС — это многоканальный измерительный прибор с широкими возможностями обработки и анализа данных. На основе ИИС могут быть построены различные автоматизированные системы управления (АСУ), среди которых: информационно-логические комплексы (их называют АСУ технологическими процессами — АСУ ТП), информационно-вычислительные комплексы (автоматизированная система научных исследований — АСНИ), информационно-диагностические комплексы и информационно-контролирующие системы. Классификация По способу сопряжения с компьютером системы сбора данных можно разделить на: ССД на основе встраиваемых плат сбора данных со стандартным системным интерфейсом (наиболее распространен интерфейс PCI). ССД на основе модулей сбора данных с внешним интерфейсом (RS-232, RS-485, USB). ССД, выполненные в виде крейтов (магистрально-модульные ССД — КАМАК, VXI). Группы цифровых измерительных приборов или интеллектуальных датчиков: для их организации применяются интерфейсы GPIB, 1-wire, CAN, HART. По способу получения информации ССД делятся на: сканирующие, мультиплексные (мультиплексорные, иногда говорят «многоточечные»), параллельные, мультиплицированные. Последний тип ССД практически не используется в силу своего исключительно низкого быстродействия. Единственное достоинство ССД этого типа — относительная простота — полностью нивелируется современными технологиями изготовления интегральных схем. Характеристики Сканирующий принцип построения ССД используется там, где надо измерить поле распределения параметров: тепловизор, аппарат УЗИ, томограф используют для получения первичной информации именно ССД сканирующего типа. Параллельными системами сбора данных следует считать ССД на основе т. н. интеллектуальных датчиков (ИД). Каждый ИД суть одноканальная ССД со специализированным интерфейсом. Исторически первыми параллельными ССД были ССД, где у каждого датчика «личным» был только АЦП, а сбор и обработка данных осуществлялась многопроцессорной ЭВМ. В настоящее время для сбора и обработки измерительной информации как правило вполне хватает вычислительных характеристик «обычной» ЭВМ. Параллельные системы пока еще не вытесняют мультиплексорные, в силу своей аппаратурной избыточности. Однако в ряде случаев параллельный принцип привлекателен: когда есть недорогие готовые ИД и недорогой канал связи (например система на интерфейсе 1-Wire) либо при небольшом числе каналов (выпускаются счетверенные сигма-дельта АЦП) и т. п. Мультиплексная (мультиплексорная) ССД имеет на каждый измерительный канал индивидуальные средства аналоговой обработки сигнала и общий для всех каналов блок аналого-цифрового преобразования (помимо самого АЦП в него обязательно входит «антиалиасинговый» ФНЧ, устройство выборки хранения, опционально — схема защиты и схема формирования знакового разряда). Наибольшее распространение в настоящее время имеют именно мультиплексные системы сбора данных. Типовая система сбора данных является мультиплексной и содержит в себе следующие узлы: датчики, аналоговый коммутатор, измерительный усилитель, аналого-цифровой преобразователь, контроллер сбора данных, модуль интерфейса. Также ССД часто оснащаются цифровыми линиями ввода-вывода и цифро-аналоговым преобразователем (ЦАП). ПРИМЕРЫ источников информации, использующихся при автоматизированном сборе и обработке данных: 1. Датчики, регистрирующие затраты сырья, выпуск продукции и простои оборудования. 2. Различные измерительные потоковые устройства, например, топливомеры на автоматических автомобильных заправочных станциях. 3. Современные электронные весы, которые используют оптовые поставщики и отделы расфасовки товаров в крупных продовольственных сетях. 4. Автоматизированные системы учета рабочего времени, основанные на смарт-картах. 5. Счетчики банкнот и электронные кассы. 6. Видеокамеры, установленные в городах – помимо функций безопасности они могут быть задействованы также в сборе данных для дальнейшего анализа транспортных потоков. 7. Первичные данные с бумажных носителей (документы, таблицы, графики) заносятся в системы автоматизированного сбора и обработки данных непосредственно из персональных компьютеров, либо с помощью сканнеров. Информация с этих и многих других источников информации поступает непосредственно в систему автоматизированного сбора и обработки данных. Полученные данные обрабатываются, в том числе расшифровываются в случае необходимости и конвертируются в вид, удобный для принятия управленческих решений. Как работают системы автоматизированного сбора и обработки данных? На вход поступают аналоговые сигналы с датчиков физических величин, установленных на различных физических объектах, в том числе природных. Разнообразные устройства, входящие в состав комплекса, усиливают сигнал, убирают посторонние шумы, фильтруют его и преобразуют в цифровой. Затем, уже в цифровом виде, информация поступает в контроллер для первоначальной обработки. Различные дополнительные устройства также участвуют в сборе данных: Сканеры собирают печатную информацию или графические изображения. На производствах это могут быть сканеры штрих-кодов, автоматические датчики давления, температуры, влажности. Аудио и видеоинформацию собирают диктофоны и видеокамеры, специальные устройства для записи сигналов радио и телевидения. Комплексы сбора и обработки данных применяются довольно широко, практически во всех сферах промышленности и сельского хозяйства, а также в научных исследованиях. Геологоразведка в труднодоступных местах и сбор информации с искусственных спутников земли, предупреждения о природных катаклизмах и расчет нагрузки на электросети при их проектировании, управление крупным заводом и контроль потребления ресурсов в ЖКХ – все это было бы невозможным без комплексов сбора и обработки информации. Где применяются? Книги с бухгалтерскими проводками, списки поставщиков и перечней продукции – все это осталось в прошлом веке вместе с забытыми счетами и ведомостями по зарплате. Большинство современного поколения менеджеров и владельцев бизнесов даже не знают, как выглядят эти, бывшие когда-то необходимыми, вещи. Автоматизация бизнеса началась как раз с бухгалтерского учета. И если еще пару десятилетий назад автоматически учитывались бухгалтерские проводки, что облегчало составление баланса, то современные платформы для автоматизации бизнеса помогают вести, в том числе, учет поставщиков, покупателей, групп товаров и отдельных наименований, получать отчеты в любых сочетаниях данных. Автоматическое формирование деклараций, отчетов для государственных органов, зарплатных ведомостей значительно облегчило труд бухгалтеров, сократило технические ошибки, сэкономило немалые суммы за счет оптимизации количества персонала, сокращения штрафов. Современные платформы для автоматизации бизнеса внедряются и для управленческого учета. Многие из них предоставляют возможности управления бизнес-процессами компании, постановки задач и контроля их исполнения. Работа менеджеров по закупкам, которые оперируют с данными сотен поставщиков и десятками тысяч наименований товаров также невозможна вручную. Платформы для автоматизации бизнеса предлагают не только автоматизировать процесс заказа товара в определенные сроки у определенных поставщиков, они также могут отслеживать снижение цен и предлагать замену поставщика того или иного наименования товара к выгоде компании. Работа крупных медицинских центров, в том числе частных, в настоящее время значительно облегчена внедрением платформ для автоматизации бизнеса – медицинскими информационными системами. В этих системах хранится вся информация о пациентах, назначениях, препаратах, операциях. Врачи не тратят время на заполнение вручную большого количества отчетов, поиск информации о пациенте и проведенном лечении. В заключении, в настоящее время есть возможность автоматизировать процессы даже для микробизнеса и самозанятых – многие банки наряду с ведением счетов предоставляют необходимые услуги по онлайн-бухгалтерии, автоматическим отчислениям налогов. ТЕХНИЧЕСКАЯ ЧАСТЬ АНАЛИЗА ССД Можно представить, что процессор вместо того, чтобы выполнять набор инструкций, будет перестраиваться под каждую программу и превращать алгоритм непосредственно в «железо». Именно так и работают FPGA. FPGA расшифровывается как field-programmable gate array, по-русски — программируемые пользователем вентильные матрицы, ППВМ. В более общем случае они называются ПЛИС — программируемые логические интегральные схемы. С помощью FPGA можно в буквальном смысле проектировать цифровые микросхемы, сидя у себя дома с доступной отладочной платой на столе и софтом разработчика за пару килобаксов. Впрочем, есть и бесплатные варианты. Стоит учесть: именно проектировать, а не программировать, потому что на выходе получается физическая цифровая схема, выполняющая определенный алгоритм на аппаратном уровне, а не программа для процессора. Работает это примерно так. Есть готовая печатная плата с набором интерфейсов, которые подключены к установленной на плате микросхеме FPGA, вроде крутой платы для дата-центра или отладочной платы для обучения. Пока мы не сконфигурируем FPGA, внутри микросхемы просто нет логики для обработки данных с интерфейсов, и потому работать ничего, очевидно, не будет. Но в результате проектирования будет создана прошивка, которая после загрузки в FPGA создаст нужную нам цифровую схему. Например, так можно создать контроллер 100G Ethernet, который будет принимать и обрабатывать сетевые пакеты. Важная особенность FPGA — возможность реконфигурации. Сегодня нам нужен контроллер 100G Ethernet, а завтра эта же плата может быть использована для реализации независимых четырех интерфейсов 25G Ethernet. Существуют два крупных производителя FPGA-чипов: Xilinx и Intel, которые контролируют 58 и 42% рынка соответственно. Основатели Xilinx изобрели первый чип FPGA в далеком 1985 году. Intel пришла на рынок недавно — в 2015 году, поглотив компанию Altera, которая была основана в то же время, что и Xilinx. Технологии Xilinx и Altera во многом схожи, как и среды разработки. FPGA широко применяются в разных устройствах: потребительской электронике, оборудовании телекома, платах-ускорителях для применения в дата-центрах, различной робототехнике, а также при прототипировании микросхем ASIC. Пару примеров я разберу чуть ниже. Также рассмотрим технологию, которая обеспечивает аппаратную реконфигурацию, познакомимся с процессом проектирования и разберем простой пример реализации аппаратного счетчика на языке Verilog. |