Главная страница
Навигация по странице:

  • Р ис. 4.1.

  • Р ис. 4.2.

  • Линейные объекты.

  • Атрибутивные данные

  • пространственного анализа

  • Данные - сведения, необходимые для формулирования выводов и принятия решений

  • Экзамен по информатике. информатика экзамен. 1. Понятие эо Экологическая оценка


    Скачать 148.57 Kb.
    Название1. Понятие эо Экологическая оценка
    АнкорЭкзамен по информатике
    Дата20.10.2022
    Размер148.57 Kb.
    Формат файлаdocx
    Имя файлаинформатика экзамен.docx
    ТипДокументы
    #745367
    страница5 из 6
    1   2   3   4   5   6

    Подготовка и преобразование данных


    Этот технологический модуль является входным для геоинформационной технологии, использующей цифровые (компьютерные) методы обработки данных. На его выходе формируется размещенный на машиночитаемых носителях набор цифровых данных, имеющих корректную топологическую и логическую структуру и обладающих требуемой точностью и достоверностью.

    При дальнейшем изложении будем рассматривать традиционную организацию данных: раздельное представление графической и аналитической (семантической) информации при наличии связей между графическими объектами и записями в аналитической базе данных. В последнее время появились ГИС, совмещающие позиционные (графические) и непозиционные данные, что представляется достаточно перспективным, однако возможность их практического применения, особенно в производственном режиме, требует проверки.

    Подавляющее большинство ГИС оперирует с графическими материалами, представленными в векторном виде, поэтому процесс получения векторных карт наиболее отработан с производственной точки зрения. Существует, правда, один вопрос, не имеющий однозначного решения: какая технология векторизации предпочтительнее - векторизация по растровой подложке с использованием программных средств автоматизации этого процесса (рис. 1) или ручная оцифровка с применением планшетных дигитайзеров, полярных планиметров и т.п.

    По мнению большинства авторов, первая технология более перспективна и позволяет получать качественные материалы при относительно невысокой квалификации операторов, однако наличие высококвалифицированного персонала и необходимости цифровать специальные карты с высокой тематической нагрузкой делают ручную оцифровку предпочтительнее. Так или иначе, в каждой конкретной ситуации нужно принимать решение о выборе подходящей методики.

    В целом способы и организация векторизации существующих карт достаточно широко освещены в литературе, для очень многих прикладных задач крайне важной представляется проблема соответствия ситуации, изображенной на цифровой карте, фактическому состоянию территории. Это приводит к необходимости динамичного обновления цифровых карт, которое должно осуществляться непрерывно. Отсюда возникает вопрос: а стоит ли вообще цифровать старые карты, которые затем будут обновляться. Ответ на этот вопрос может быть сформулирован скорее всего исходя из экономических соображений.

    Для решения задач обновления карт ГИС должна располагать функциями обработки исходных материалов для получения актуальной на данный момент карты. При этом вовсе не обязательно использовать весь возможный набор входной информации. Целесообразно включить в состав ГИС средства обработки данных, поступающих от основных источников информации. Например, при проведении массовых полевых работ с использованием GPS оборудования необходимо наличие в составе программного обеспечения ГИС соответствующих интерфейсных модулей, позволяющих считывать данные и преобразовывать их в формат, пригодный для дальнейшей обработки, а также программ обработки информации, осуществляющих формирование соответствующих графических объектов и размещение их в цифровой карте.

    В ряде случаев, например для обработки результатов аэрофотосъемки, требуется организация специальных геоинформационных технологий с соответствующим программно-аппаратным составом ГИС.

    Ввод аналитических данных, необходимых для функционирования прикладных систем, может быть организован в виде самостоятельного технологического процесса либо совмещен с процессом формирования картографических данных.

    Принципиальным является наличие классификатора объектов карты и программных средств контроля корректности вводимых данных. При этом система контроля должна быть спроектирована с учетом возможности использования неполных данных, что присуще реальной информации и людям, ее собирающим.

    В настоящее время в ГИС, как правило, применяют коммерческие базы данных реляционного типа с достаточно развитыми механизмами управления данными, однако процедура их настройки с учетом требований конкретных систем и необходимостью функционирования совместно с графической базой данных требует наличия в составе программного обеспечения ГИС специального интерфейсного модуля.

    С технической точки зрения ввод информации в реляционные таблицы осуществляют, как правило, путем ручного набора с клавиатуры. Реже применяют автоматизированный способ, включающий сканирование исходных бумажных носителей с последующим применением программного обеспечения для распознавания текстов. При включении в состав программного обеспечения модуля конвертации полученного текстового файла во внутренний формат, применяемый в базе данных, можно говорить о создании автоматизированной технологии, схожей по функциям с векторизатором картографической информации.

    Если необходимые данные существуют в цифровом виде, например при приеме информации из других автоматизированных систем, возникает чисто техническая задача конвертации, которая решается достаточно просто, если используются стандартные форматы. Более сложной представляется проблема согласования структуры данных, но и она находит свое решение в выборочном занесении информации путем формирования шаблонов, масок или расширения исходной схемы данных. Наиболее серьезные трудности могут возникнуть вследствие несовпадения базовых классификаторов, используемых в различных информационных системах.

    В процессе формирования баз данных следует стремиться к обеспечению потокового режима работы, ориентированного на сокращение времени подготовительного этапа, каким, как правило, является этап наполнения баз данных.

    Объединение (привязка) графических и семантических данных может осуществляться на этапе формирования каждой из баз данных или быть выделено в самостоятельную операцию. В последнем случае целесообразно совместить ее с проведением контроля введенных данных.

    34

    Класс координатных моделей можно разбить на типы. При этом сле­дует учесть, что попытка включить в описание широкий набор групп приводит к усложнению базы данных и процессов обработки. В ГИС используют меньшее число атомарных моделей по сравнению с САПР.

    В ГИС, как и в САПР, применяют набор базовых геометрических типов моделей, из которых создают все остальные, более сложные. С учетом предметной области карт ограничиваются лишь описанием та­ких типов (структур географических данных), которые относятся к пред­ставлению топографии и к тематическому упорядочению.

    В ГИС включают следующие основные типы координатных данных (рис. 4.1):

    • точка (узлы, вершины);

    • линия незамкнутая;

    • контур (замкнутая линия);

    • полигон (ареал, район) - группы примыкающих друг к другу зам­кнутых участков.

    Р ис. 4.1. Основные типы координатных данных

    В некоторых системах в описание основных типов моделей включа­ют понятие пространственная сеть, которая является развитием типа данных район. Контуры и линии часто объединяют общим термином - "линейные объекты". Таким образом, в разных ГИС число основных типов координатных моделей меняется от трех до пяти. Проводя сравне­ние с технологиями САПР, отметим, что основные типы координатных данных являются аналогами атомарных моделей в САПР, которые назы­вают примитивами.

    Приведенные выше понятия носят концептуальный характер. На практике для построения реальных объектов используют большее чис­ло составных координатных моделей. В разных ГИС они незначительно отличаются, поэтому рассмотрим в качестве примера набор данных в системе ГеоДраф:

    • точка - пара координат X, Y;

    • отрезок - линия, соединяющая две точки;

    • вершина (вертекс) - начальная или конечная точка отрезка;

    • дуга (линия) - упорядоченный набор связных отрезков (или вер­шин);

    • узел - начальная или конечная вершина дуги;

    • висячий узел - узел, принадлежащий только одной дуге, у которой начальная и конечная вершины не совпадают;

    • псевдоузел - узел, принадлежащий только двум дугам либо одной замкнутой дуге, у которой начальная и конечная вершины совпадают. Исключением является узел, принадлежащий двум дугам, одна из кото­рых самозамкнута в этом узле, а другая примыкает к ней (такой узел является нормальным);

    • нормальный узел - узел, принадлежащий трем (и более) дугам. Нормальным также является узел, принадлежащий двум дугам, одна из которых самозамкнута в этом узле, а другая примыкает к ней;

    • висячая дуга - дуга, имеющая висячий узел;

    • замкнутая дуга - дуга, у которой совпадают начальная и конечная вершины (у такой дуги имеется только один узел);

    • полигон - единичная область, ограниченная (находящаяся внутри) замкнутой дугой или упорядоченным набором связных дуг, которые об­разуют замкнутый контур;

    • покрытие - набор файлов, фиксирующий в виде цифровых запи­сей пространственные объекты (точки, дуги , полигоны) и структуру отношений между ними;

    • пустое покрытие - покрытие, в котором отсутствуют простран­ственные объекты;

    • слой - покрытие, рассматриваемое в контексте его содержатель­ной определенности (растительность, рельеф, административное деле-йие и т.п.) или его статуса в среде редактора (активный слой, пассивный слой);

    • внутренний идентификатор пространственного объекта - целое чис­ло, являющееся служебным идентификатором системы (уникальное для йждого объекта данного покрытия и назначаемое автоматически в процес­се работы редактора). Может изменяться системой в процессе работы;

    • пользовательский идентификатор (внутренний ключ) простран­ственного объекта - целое число, служащее для связи объектов цифро­вой карты с базой (таблицами) тематических данных. Назначается и из­меняется только пользователем.

    На рис. 4.2 показаны основные из рассмотренных элементы вектор­ных данных ГИС.

    Р ис. 4.2. Основные элементы векторных данных ГИС

    Точечные объекты. Простейший тип пространственного объекта задают точечные данные, к которым относятся не только точки, но и все точечные условные знаки. Выбор объектов, представляемых в виде то­чек, зависит от масштаба карты или исследования. Например, на круп­номасштабной карте точками показываются отдельные строения, а на мелкомасштабной карте - города.

    Особенность точечных объектов состоит в том, что они хранятся и в виде графических файлов, как другие пространственные объекты, и в виде таблиц, как атрибуты. Последнее обусловлено тем, что координаты каждой точки описывают как два дополнительных атрибута. В силу это­го информацию о наборе точек можно представить в виде развернутой таблицы или таблицы, содержащей помимо координат наборы атрибу­тов (идентификационные номера, тематические характеристики и т.д.). В таких таблицах каждая строка соответствует точке - в ней собрана вся информация о данной точке. Каждый столбец - это признак, содержащий типизированные данные: координаты или атрибуты. Каждая точка незави­сима от всех остальных точек, представленных отдельными строками.

    Линейные объекты. Они широко применяются для описания се­тей, для которых в отличие от точечных объектов характерно присут­ствие топологических признаков.

    Любая сеть состоит из узлов (вершин) - соединений, концов обо­собленных линий и звеньев (дуг) - цепей в модели базы данных.

    Для каждого узла существует специальная характеристика, называ­емаявалентностью, определяемая количеством звеньев в нем. Концы обособленных линий одновалентны. Для уличных сетей (пересечения типа "крест") наиболее характерны четырехвалентные узлы. В гидроло­гии чаще всего встречаются трехвалентные узлы.

    В древовидной сети (Е-дерево) каждая пара узлов имеет лишь одно соединение, не допускаются петли и замкнутые контуры, большая часть речных сетей имеет древовидную структуру.

    Линейные объекты, как и точечные, имеют свои атрибуты, причем разные для дуг (звеньев) и узлов. Атрибутами для дуг являются:

    • направление движения, интенсивность движения, протяженность;

    • количество полос, время пути вдоль звена;

    • диаметр трубы, направление движения газа;

    • напряжение в ЛЭП, высота опор;

    • количество путей, уклон, ширина тоннеля, грузоподъемность и др. Атрибуты для узла:

    • наличие перехода, названия пересекающихся улиц;

    • наличие автоматического регулирования перекрестков;

    • тип (ручной или автоматический) перевода стрелок;

    • характеристики трансформаторов ЛЭП;

    • мощность компрессора.

    Некоторые атрибуты (например, названия пересекающихся улиц) служат для связи одного типа объектов с другими (узлы со звеньями), другие характеризуют только участки звеньев сети.

    Во многих ГИС для включения дополнительных атрибутов в сеть необходимо разбиение существующих звеньев и создание новых узлов. Например, звено улицы, часть которой ремонтируется, разрывается на месте начального и конечного участка ремонта, его атрибуты присваиваются новому (двухвалентному) узлу. Другой пример: для отрезка до­роги, проходящей через мост, создаются новое звено и два новых узла. Такой подход может привести к появлению недопустимо большого чис­ла звеньев и двухвалентных узлов, поэтому он имеет ограничение, оп­ределяемое ресурсами конкретной ГИС.

    Сети часто используют как системы линейной адресации. В этих случаях точки размещают в сети по данным о номере звена и о расстоя­нии от его начала. Это более удобно, чем использовать X, Y координаты точки из таблицы, поскольку такие данные непосредственно указывают положение точки в сети.

    Данный подход определяет метод присвоения атрибутов отдельным участкам звеньев. При этом линейные объекты (здания, тоннели) хра­нятся в отдельных таблицах, а с сетью они увязаны путем указания номера звена и расстояния от его начала.

    Для точечных объектов необходимо указать одно значение коорди­нат, для линейных - два (для начальной и конечной точек). Это позволя­ет при необходимости рассчитать X, Y координаты этих объектов и ис­ключает необходимость дробить звенья и вводить двухвалентные узлы.

    Ареалы. В настоящее время в ГИС может быть представлено не­сколько типов ареалов: зоны в приложении к окружающей среде или природным ресурсам, социально-экономические зоны, данные об угодьях и др.

    +Для ареальных объектов границы могут определяться свойством или явлением, а также независимо от явления (затем перечисляются значе­ния атрибутов). Кроме того, границы могут устанавливаться искусст­венно, например для микрорайонов.

    35

    Атрибутивные данные представляют собой совокупность непозиционных характеристик (атрибутов) пространственного объекта. Атрибутивные данные определяют смысловое содержание (семантику) объекта и могут содержать качественные или количественные значения.

    Атрибутивные данные также очень полезны для проведения пространственного анализа. Пространственный анализ комбинирует пространственную информацию, хранимую в геометрии объектов, с их атрибутивной информацией. Это позволяет изучать, как одни объекты относятся к другим. Существует множество вопросов, на которые отвечает пространственный анализ. Например, Вы можете использовать ГИС, чтобы выяснить, сколько домов с красными крышами находится на определенной территории. Если у Вас есть слой деревьев, Вы можете использовать ГИС, чтобы понять, какие виды деревьев будут затронуты, если будет произведена застройка в конкретном месте. Вы можете использовать атрибуты проб воды, взятых по течению реки, и найти отрезок, на котором расположен потенциальный источник загрязнения. Возможности бесконечны! Пространственный анализ будет подробнее описан в соответствующем разделе.

    36

    Данные представляют собой способ представления, хранения и элементарных операций обработки информации. Данные - это основа информации. Понятие "данные" - относительно новый срок. Обычно данные являются входной информацией для информационного процесса.

    Данные - сведения, необходимые для формулирования выводов и принятия решений

    Данные, как вещество или энергию, можно собирать, обрабатывать, хранить, изменять форму их представления. Они могут создаваться, уничтожаться, многократно использоваться. Главной особенностью данных сегодня является то, что их становится очень много. При массовом применении компьютеров возникла гигантское количество источников данных. Для примера можно взять объем данных во всемирной сети Интернет, увеличивается ежеминутно.

    Ключевым понятием манипулирования данными является структура типа "файл", представляющий собой множество однотипных элементов (записей). Также файл занимает определенный участок на носители памяти и характеризуется именем, типом и другими атрибутами. В свою очередь запись - это структура, которая состоит из полей (минимальной структуры данных).

    Основными этапами жизненного цикла данных является возникновение, хранения, применения и уничтожения. Уничтожение, с точки зрения жизненного цикла данных, не представляет интереса, поскольку причиной удаления является потеря информативности данных. Фаза использования данных включает три этапа:

    o поиск;

    o обработку;

    o анализ.

    Результатом использования данных является информация.

    Существует несколько методов сбора, необходимых для анализа данных:

    1. Учетные системы. Как правило, в учетных системах механизмы построения отчетов и экспорта данных, поэтому получение нужной информации является относительно несложной операцией.

    2. Косвенные данные. О факторах можно составить оценку и по косвенным признакам. Например, реальное финансовое положение жителей определенного региона можно оценить следующим образом. В большинстве случаев товары с одинаковым назначением (но разной цене) делятся на группы: товары для покупателей с низким уровнем достатка, средним и высоким. Если проанализировать отчет о продажах товара в нужном регионе с точки зрения пропорционального распределения суммы продаж для каждой категории достатка покупателей, то можно предположить, что чем больше доля от продажи дорогих изделий из одной товарной группы, тем больше средняя платежная способность жителей данного региона.

    3. Открытые источники. Большое количество данных имеется в открытых источниках, таких как статистические выборки, отчеты корпораций, опубликованные результаты маркетинговых исследований и т.

    4. Проведение независимых маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогим способом, однако, такой вариант сбора данных не исключен.

    5. Внутренние данные. Информация заносится в базу за разного рода экспертным оценкам сотрудниками организации. Трудоемкий метод.

    Собранные данные преобразуются к единому формату, например, таблиц Excel, текстовых файлов, или компонентов произвольной базы данных. Одной из важных действий при этом является определение способа представления данных. Как правило, выбирают один из следующих видов - число, строка, дата, логическая переменная (да / нет). Определить способ представления (формализовать) некоторые данные бывает легко - например, объем продаж в рублях - это определенное число. Но, как правило, возникает ситуация, когда представления фактора неизвестен. Чаще всего такие проблемы возникают с качественными характеристиками. Например, известно, что на объемы продаж влияет качество товара (как для продажи бытовой техники или одежды).

    Качество - сложное понятие, и если этот показатель является важным, то необходимо ввести способ его формализации. Например, определять качество по количеству брака на тысячу единиц продукции, или экспертно оценивать, разбив на несколько категорий - отлично / хорошо / удовлетворительно / плохо.

    Также данные должны быть унифицированными - одни и те же данные везде должны описываться одинаково. Часто при добыче знаний основное внимание уделяют механизмам анализа данных, не считая важность предварительной обработки и очистки данных. Очевидно, что некорректные исходные данные приводят к некорректным выводам. Отметим, что в большинстве случаев источником информации для аналитических систем является хранилище данных, в котором аккумулируются сведения из разнородных источников, поэтому острота проблемы существенно возрастает.

    Для исследования процессов различной природы данные должны быть подготовлены специальным образом. Остановимся подробнее на двух типах данных: упорядоченных и неупорядоченных. Упорядоченные данные нужны для решения задач прогнозирования - когда определяют ход того или иного процесса в будущем на основе имеющихся хронологических данных. Как правило, одним из параметров выступает дата или время, однако могут использоваться произвольные отсчета, например, показания счетчиков, снятые с определенной периодичностью.

    37
    1   2   3   4   5   6


    написать администратору сайта