Главная страница
Навигация по странице:

  • Хранение и редактирование данных

  • * Если вы знакомы со структурой данных ГИС ARC / INFO

  • ОБНАРУЖЕНИЕ И УСТРАНЕНИЕ ОШИБОК РАЗНЫХ ТИПОВ

  • Псевдоузел изолированного полигона

  • Незамкнутый полигон "Недолит"

  • "Перелёт" Рисунок 6.2.

  • Майкл ДМерс ГИС. Инициаторы проведения этого новаторского события надеются привлечь к нему внимание мировой общественности и широких масс пользователей географических информационных систем из всех стран.


    Скачать 4.47 Mb.
    НазваниеИнициаторы проведения этого новаторского события надеются привлечь к нему внимание мировой общественности и широких масс пользователей географических информационных систем из всех стран.
    АнкорМайкл ДМерс ГИС.doc
    Дата14.03.2018
    Размер4.47 Mb.
    Формат файлаdoc
    Имя файлаМайкл ДМерс ГИС.doc
    ТипДокументы
    #16650
    страница14 из 38
    1   ...   10   11   12   13   14   15   16   17   ...   38

    ВНЕШНИЕ БАЗЫ ДАННЫХ

    Эффективным подходом к построению БД ГИС является прежде всего ограничение времени и стоимости разработки БД. К счастью, появляется все больше общедоступных цифровых баз данных. Цифровые модели рельефа, цифровые ортофото и другие цифровые материалы могут быть получены у USGS и третьих сторон (см. Приложение 1). Бюро переписи США имеет файлы TIGER и DIME, как и его канадские коллеги (см. Приложение 1). Департамент сельского хозяйства США выпускает карты почв, доступные в цифровой форме. Есть, конечно, множество и других примеров. По существу, рост числа членов все более активной и заметной группы предпринимателей в области цифровых данных обещает обеспечить столь нужные для ГИС-аналитиков данные. Эти организации, чья реклама регулярно появляется в таких коммерческих журналах по геоинформационным системам, как GISWorldи GeoinfoSystems, заполняют существенный пробел в инфраструктуре ГИС.

    Но наличие готовых баз данных привносит другие проблемы, включая некоторые из тех, с которыми вы столкнетесь при вводе данных в ГИС. Мы рассмотрим эти технические проблемы с точки зрения того, как мы, как потенциальные поставщики БД, можем их избежать. Первой проблемой является тип и формат носителя. Можно потратить дни, и даже месяцы, на поиск цифровых данных в нужном виде. Как мы увидим в следующей главе, существуют множество типов и форматов, от магнитных лент до компакт-дисков, от простейших до весьма экзотических структур файлов. Вам же нужно получить данные в том виде, который "понимают" ваше устройство чтения и программа. Хотя это кажется очевидным, но если вы не укажете нужный вам формат файла и тип носителя явным образом, поставщик может предоставить вам данные "в стандартной упаковке", что будет для вас бесполезным. Мы не будем здесь вдаваться в подробности форматов и стандартов обмена данными [Moellering, 1992], однако, вам необходимо будет знать, какие форматы данных ваша система может считывать и записывать. Технические подробности вы узнаете по мере приобретения опыта работы с вашей системой.

    Более коварная проблема с внешними БД связана с качеством данных. Хотя некоторые вторичные поставщики данных могут предложить более легкий к доступ к данным, нежели государственные учреждения, вам нужно знать, что они могут поставлять данные не в исходном формате. Данные, независимо от источника, могут содержать заметные ошибки, одни из которых систематические и исправимые, а другие - нет. Вам нужно быть в курсе процедур контроля качества, используемых каждым поставщиком. Кроме того, вам нужно знать о наличии возможности возврата в случае плохого качества данных. Спросите, где данные были получены. Были они созданы фирмой квалифицированных профессионалов или получены из потогонных цифровых мастерских, часто управляемых низкооплачиваемыми и необученными личностями?

    Все эти вопросы важны с точки зрения пригодности данных. К сожалению, сегодня средний уровень довольно низок. Одни поставщики не желают открывать свои процедуры контроля качества, другие не могут сделать этого просто из-за отсутствия таковых. Даже описания самих данных часто не точны или неправильны. Как и при любой покупке, вы должны требовать полного отчета о том, что получаете. Детали должны включать конкретный используемый формат данных, процедуры контроля качества, при которых они были созданы, ожидаемое качество, процедуры возврата поставщику брака и все другие сведения, которые обеспечат вам гарантию успешной интеграции данных в вашу ГИС. Поставщиков, которые не соответствуют этим требованиям, следует избегать.

    Одна большая проблема, которая часто встречается при использовании внешних БД, должна быть вами воспринята близко к сердцу при подготовке ваших собственных БД. Базам данных требуется информация об их собственном содержимом; такие метаданные являются информацией об информации. Распространены две формы метаданных: активные и пассивные словари данных.

    Пассивные словари данных могут включать масштаб, разрешение, названия полей в БД, используемые коды и их значения. Представьте себе человека, получающего от поставщика БД, которая содержит категорию, называемую "увлажненные земли" (wetlands, заболоченные и т.п. территории). Это определение может быть самоочевидным для вас, но вам нужно больше знать о критериях поставщика для создания данной категории. То, что является "увлажненными землями" для одного человека, может быть мокрой лужайкой для другого. Метаданные должны дать достаточно подробностей, чтобы гарантировать, что любой анализ, основанный на описываемых ими данных, будет корректным. Это, конечно, должно напомнить вам о необходимости кратко и ясно фиксировать ваши операции в форме, которая позволит любому человеку, не знакомому с вашими исходными процедурами ввода БД, воссоздать их.

    Активные словари данных работают с БД ГИС, выполняя проверки корректности запросов и вводимых данных во время функционирования системы. Например, если СУБД вашей векторной ГИС настроена на только четырехзначные коды для определенных объектов, то активный словарь данных может проверить каждую операцию, чтобы гарантировать, что это четырехзначное ограничение повсюду соблюдено. Такие проверки весьма полезны для обеспечения должного функционирования системы и предупреждения ошибочных результатов по причине некорректных входных запросов.

    Помимо технических, использование внешних БД связано с рядом фундаментальных законодательных и организационных проблем. Более подробно мы рассмотрим их позднее, но их необходимо упомянуть для полноты и здесь. Главной организационной проблемой является то, что эти БД трудно найти, особенно если они создавались в государственных агентствах, которым может быть поручено распространение, но не продвижение на рынке и реклама. В настоящее время не предпринимаются значительные усилия для объединения каталогов БД ГИС для облегчения поиска, хотя в Интернете постоянно появляются все новые материалы. Но все это делается по кусочкам, и неосведомленность о существующих БД часто приводит к дорогостоящему дублированию работы и данных. Стоимость данных также является организационной проблемой, которая может ограничить доступ. Причем не столько стоимость отдельных категорий, сколько частая практика предложения данных большими блоками, которые покрывают гораздо большие потребности, чем имеет конкретный пользователь.

    Среди более тернистых вопросов, с которыми имеет дело сегодня пользователь ГИС, является справедливость платы за данные, созданные при государственном финансировании. С этим, конечно, связаны проблемы доступа к данным и секретности [Dando, 1991; Davies, 1982; Rhind, 1992]. Хотя многие полагают, что опубликованные данные должны быть легко доступны для всех, проблема потенциально опасных данных, таких как точные местоположения животных исчезающих видов или военных объектов, делает этот вопрос гораздо менее простым. Даже когда данные могут быть получены в соответствии с Актом о свободе информации США, время, необходимое для подготовки всех требуемых документов, может превысить жизненный цикл проекта, для которого эти данные нужны. Эти проблемы не решаются легко, но вы так или иначе столкнетесь с ними в своем путешествии в мир компьютерной географии.
    Вопросы

    1. Какие общие характеристики присущи каждому из четырех методов ввода данных в ГИС?

    2. Каковы пять параметров, помимо цены, которые должны быть рассмотрены при выборе дигитайзера? Опишите их.

    3. Каковы принципиальные различия между различными типами сканеров? Какие потенциальные проблемы являются источником ошибок при использовании сканеров?

    4. Преобразование между растровым и векторным представлением
    данных может ухудшить их качество. Какая главная проблема может возникнуть при векторно-растровом преобразовании? Где это может случиться скорее всего? Какая проблема часто возникает при растрово-векторном преобразовании?

    1. Опишите преобразования, имеющие место при переходе от координат оцифровываемой карты к географическим координатам и, в конце концов, к выходной карте. Что такое обратная картографическая проекция?

    2. Проиллюстрируйте процессы переноса, поворота и масштабирования (гомотетии). Почему они важны для подсистемы ввода ГИС?

    3. Почему подготовка карт важна для ввода данных в ГИС? Для чего используются точки привязки?

    4. Зачем нужно помечать объекты карты перед оцифровкой? Какую информацию вы должны поместить на подготавливаемую карту? Почему вы должны включать информацию о проекции и координатной сетке, если дигитайзер работает в декартовых координатах?

    5. Что такое расстояние неразличимости точек? Каково его значение? Какие сложности могут возникнуть, если оно установлено слишком низким? Если слишком высоким?

    6. Каково потенциальное воздействие материала карты на процесс оцифровки? Что можно предпринять для уменьшения погрешности, вызванной деформацией материала?

    7. Как вы выберете, что вводить в ГИС? Что такое пространственно-информационный продукт и как он связан с вводом в ГИС?

    8. Перечислите и объясните семь правил, определяющих, что должно вводиться в ГИС.

    9. Каково практическое правило, помогающее определить, как много информации следует вводить? Что мы имеем в виду, когда говорим, что оцифровка является разновидностью отбора?

    10. Что общего между вводом данных и теорией информации? Какое общее правило предлагает теория информации для ввода данных?

    11. Что такое масштабно-зависимая ошибка? Как она связана с подсистемой ввода ГИС?

    12. Почему нужно читать руководства по программному обеспечению при вводе векторных данных? Нельзя ли обойтись указанием на точку и нажатием на кнопку? Для чего используются пронумерованные кнопки на курсоре дигитайзера? Что вы можете сделать во время оцифровки, чтобы в дальнейшем сократить редактирование?

    13. Что есть критичного во вводе атрибутивных данных для векторных объектов? Какова основная проблема, которая может возникнуть, если он выполнен недостаточно тщательно? Почему эту ситуацию так трудно обнаружить в дальнейшем?

    1. Каковы основные методы ввода растровых данных? Чем они различаются? Каковы преимущества и недостатки каждого?

    2. Какие технические проблемы связаны с использованием данных аэрофотосъемки для ввода в ГИС? Как насчет цифровых спутниковых данных? Что такое опорные точки и почему они важны при использовании ДДЗ? Какие организационные проблемы связаны с использованием ДДЗ для ввода в ГИС?

    3. Какое положительное воздействие могут оказать внешние БД на рост геоинформационной индустрии? Каковы некоторые из наиболее крупных технических и организационных проблем в использовании внешних БД? Почему так важны метаданные и словари данных? Какова разница между активными и пассивными словарями данных?


    Хранение и редактирование данных





    Мы закончили подготовку к исследованию нашего цифрового мира. Но перед тем как начать, хорошо бы проверить то, что мы подготовили. Не забыли ли мы чего? Нет ли в чем ошибок? Доступны ли нам введенные нами данные? Любой анализ должен базироваться на хороших данных, правильно организованных и в должном формате. В цифровом окружении подготовительные операции обширны, потребляя большую часть нашего времени. Каждая точка, линия, область должны быть корректно введены, иначе мы будем путешествовать по бесконечным тропам, искать области, которые должны быть, но их нет. Мы должны быть уверены, что к каждому объекту присоединены корректные атрибуты, дабы избежать поисков отношений, которых не может быть. Возможность ошибки существует для любого создаваемого нами тематического покрытия. А наши БД, скорее всего, будут содержать множество покрытий, дополнительно увеличивая риск внесения ошибок.

    Подсистема хранения и редактирования ГИС обеспечивает набор средств для хранения и поддержки цифрового представления наших данных. Она имеет также средства для проверки покрытий на ошибки, которые могли пробраться в наши данные. Перед тем, как мы сможем успешно применять эти средства, нам нужно узнать, каковы эти возможные ошибки, как их обнаруживать и исправлять. Если мы были внимательны при вводе, то количество ошибок не должно быть большим. Но, как мы видели, даже выбор неподходящей величины расстояния неразличимости точек может приводить к ошибкам. Многие из этих ошибок не проявятся, пока не будут организованы завершенные покрытия ГИС. Например, в растре нам может потребоваться отображения каждого тематического покрытия для выявления смещенных ячеек растра при сравнении их со входными документами. В векторных системах может потребоваться построение топологии после начального ввода данных для обнаружения любых незамкнутых областей, линий, которые оканчиваются в ненадлежащих местах, точек, которые оказываются не там, где должны быть. Для проверки соответствия графики и атрибутов нам может потребоваться вывести пробные участки карты для сравнения с исходным материалом.

    Как видите, есть множество аспектов обнаружения и исправления ошибок. Читая эту главу, вы встретите термины, которые пригодятся вам не только для построения вашего географического языкового фильтра, но и для подбора методов для обнаружения ошибок и их исправления. При встрече с каждым типом ошибок постарайтесь соотнести его с материалом Главы 5 о вводе. Спросите себя, как можно было бы избежать этих ошибок, прежде всего, с помощью планирования и подготовки перед началом ввода. Составьте список методов, которые способствуют более легкому обнаружению ошибок и последующей идентификации типа каждой ошибки, которая вам встретится. Это могут быть как стандартные подходы, так и подстроенные под ваши нужды, типы используемых данных и типы ошибок, которые вы совершаете систематически. Это в чем-то сходно с созданием собственных макросов текстового редактора для работы с опечатками, которые вы совершаете наиболее часто. Может оказаться, например, что вы постоянно не доводите линии до пересечения с другими объектами. Или вы можете делать ошибки при вводе атрибутов из-за того, что печатаете более медленно, чем читаете. Было бы неплохо потренироваться во вводе на пробных БД и отследить виды ошибок, которые вы делаете. Эта простая предосторожность может помочь избежать многих ошибок до того, как они случились бы, благодаря тому, что ваша осведомленность о собственных слабых местах сделает вас более осторожными при оцифровке.

    Некоторые из вас могли иметь возможность поработать с ГИС до начала курса геоинформатики. Этот опыт может привести к почти невыносимому нетерпению поскорее перейти к "деланию" географического анализа, нежели пустой трате времени на это скучное редактирование. Но помните, что, хотя вы и могли увидеть некоторые ошибки и даже исправить их, многие ГИС-профессионалы борются годами со своими ошибками, продолжая совершать их снова и снова. В часто лихорадочном мире коммерческих ГИС-приложений редко находится время для систематического анализа ваших рабочих привычек, когда вам нужно завершить проект "еще вчера". Потратьте дополнительное время сейчас, когда оно не будет стоить денег вам или вашему клиенту., В то же время поделитесь своим опытом с товарищами и преподавателем. Это поможет вам распознать ваши постоянные ошибки и придумать методы их устранения. К тому же, это существенно поднимет уровень понимания во всей вашей группе. И скоро может наступить момент, когда уже вы должны будете учить новых сотрудников построению баз данных. Этот опыт будет неоценимым для вас и вашей работы с ГИС.


    ХРАНЕНИЕ БД ГИС

    Анализ конкретных компьютерных методов хранения баз данных ГИС далеко выходит за рамки данной книги, также как и всё новых типов аппаратуры, используемой для записи данных. Сами методы также сильно зависят от модели данных, используемой в вашей системе (см. Главу 4). Тем не менее, часть подсистемы хранения и редактирования, относящаяся к хранению, заслуживает упоминания, по меньшей мере, в связи с ее отношением к нуждам редактирования и обновления баз данных.

    В растровых системах главными данными являются значения атрибутов ячеек растра, которые хранятся в компьютере обычно на жестком диске, будь то рабочая станция под управлением UNIX или персональный компьютер. Положение каждой ячейки растра определяется относительно положений других ячеек растра. По этой причине редактирование связано главным образом с правильным относительным положением каждой ячейки растра. Некоторые растровые системы, как мы видели в Главе 4, используют методы сжатого хранения, такие как групповое и блочное кодирование, кодирование цепочек растра и квадродеревья. Для действительного определения относительных положений отдельных ячеек растра вы должны иметь возможность выборки данных из запоминающего устройства для отображения таким образом, который позволяет идентифицировать каждую отдельную ячейку растра по номерам колонки и ряда, а также по коду атрибута.

    Если ваша растровая система обеспечивает связь с внешней СУБД, вопрос становится несколько сложнее в том, что каждой ячейке растра присоединено несколько различных кодов атрибутов. В зависимости от того, как это реализуется конкретно в вашей ГИС, вам может потребоваться отображать и анализировать набор атрибутов каждого тематического покрытия как отдельной карты. Другие системы могут давать вам возможность просматривать список кодов атрибутов для каждой ячейки растра при доступе к ней. Вам необходимо познакомиться с возможностями и подходами редактирования в вашем конкретном случае.

    В случае векторов графика и атрибуты хранятся либо как отдельные таблицы внутри одной БД, либо как самостоятельные наборы данных, связанные набором указателей. Разделение графики и атрибутов требует от вас внимания к процедурам редактирования, применяемым к графике, атрибутам и базам данных. Вы можете сделать выборку графических объектов и отобразить их для обнаружения пропусков объектов, отсутствующих связей и незамкнутых полигонов. Делая выборки из таблиц атрибутов, вы сможете просмотреть их отдельно от связанных с ними графических объектов на предмет выявления опечаток, неправильных кодов или даже помещение правильных атрибутов в неправильные колонки таблицы. Наконец, вы сможете делать выборку части или всей БД, т.е. частей графики и/или частей атрибутов, для проверки их соответствия. Чаще всего у вас будет возможность выделения отдельных графических объектов и отображения на том же экране соответствующих значений атрибутов.

    Многие векторные ГИС позволяют хранить отдельно части БД как большие секции для целей архивирования. Эта процедура, называемая мозаичным размещением (tiling), чаще всего используется для уменьшения объема данных, необходимых для единовременного анализа в очень больших БД*. Допустим, вы создаете подробную БД для целой страны. Возможно, вы пожелаете разделить всю БД на мозаичные блоки (tiles), основываясь на координатах отдельных карт (таких как топографические листы), которые вы вводили. Хотя мозаика не требует применения такой формальной схемы, многие считают ее полезной для упрощения управления данными. Кроме того, некоторые проводимые анализы могут потребовать выбора только определенной части БД для работы. А выборка только нужных блоков из всей БД уменьшает вычислительные затраты и ускоряет реакцию системы. Другой важной целью мозаики является обеспечение контроля администратора БД над процедурами редактирования и обновления через разрешение доступа только к определенным частям БД. Когда малые БД части доступны для модификации, система поддерживает оригинальную копию всей БД, пока администратор не убедится, что изменения внесены корректно. Таким образом, разрешая доступ только для тех, кому позволено вносить изменения, можно предотвратить порчу всей БД.

    Чаще всего БД полностью редактируется и вычищается перед мозаичным разбиением, архивацией и определением доступа для обновления и анализа. Но так бывает не всегда, и тогда вам придется выбирать подходящие блоки для редактирования. В некоторых случаях может потребоваться выполнение операции увязки по границам блоков для обеспечения стыковки частей объектов, которые пересекают границы блоков.


    * Если вы знакомы со структурой данных ГИС ARC/INFO, то наверняка сталкивались с понятием "покрытие", которым там обозначается один лист одного тематического слоя (один блок мозаики). В тексте этой книги покрытие имеет более общее значение, соответствующее тематическому слою или теме карты. — прим. ред.

    В общем, современное программное обеспечение ГИС, будь то растровое, векторное или на квадродереве, обеспечивает механизм визуального отображения, который повышает ваши возможности визуализации ошибок. Конкретные методы будут зависеть от используемой модели данных и сложности системы. Поскольку большинство систем дают возможность интерактивного редактирования внутри подсистемы визуализации, то обычно имеется также и возможность корректировать ошибки непосредственно при обнаружении каждой из них. Это было мечтой в прежние времена компьютеризованной картографии, когда приходилось распечатывать координаты каждого объекта и сравнивать их с записанными для ввода. Все же, несмотря на сложность современного программного обеспечения геоинформационных систем и его способность находить некоторые очевидные ошибки, процесс не является полностью автоматическим. Вы должны активно взаимодействовать с программой, как для обнаружения, так и для устранения ошибок. Это еще один довод в пользу лучшей подготовки карты ко вводу. Подготовленные карты гораздо легче использоваться для проверки цифровой БД.
    ВАЖНОСТЬ РЕДАКТИРОВАНИЯ БД ГИС

    Хотя некоторые ошибки могут происходить в результате недостатков вычислительных алгоритмов, ошибок кодирования программ и ошибок округления, и это действительно случается время от времени, все же большинство ошибок в БД обусловлены неправильным вводом.

    Даже при самых педантичных процедурах подготовки карт, прекрасном оборудовании и отлично обученном персонале ошибки будут случаться. Среди причин - просто нажатие не той кнопки на курсоре дигитайзера, дрожание руки из-за усталости, опечатки при вводе атрибутов и даже трудности позиционирования курсора. Фактически, потенциальных источников ошибок — множество, включая проблемы с самими вводимыми картами [Laurini, 1994]. Но наиболее утомительным аспектом ошибок является не их источник, а то, что, поскольку такие ошибки обычно очень малы и чрезвычайно трудны для обнаружения даже с наилучшим программным обеспечением, их корректировка требует много времени и денег. Вполне возможно, что на корректировку даже небольшого числа ошибок будет потрачено времени больше, чем на подготовку и ввод карты. Ваш преподаватель может предложить упражнение в редактировании для того, чтобы познакомить вас с тщетностью часового поиска единственной ошибки, которая в принципе может быть исправлена. Такой урок - хорошее напоминание о том, что нужна тщательная подготовка перед вводом, так как редактирование еще более утомительно, чем ввод.

    Мы затронули три распространенных типа ошибок. Чтобы хорошенько их запомнить, повторим их сейчас. Первый относится главным образом к векторным системам и называется графической ошибкой. Такие ошибки встречаются трех видов: пропуск объекта, неправильное положение объекта (ошибка положения, positional error) и неправильный порядок объектов (disordered entities). Позже мы обсудим это подробнее. Второй тип ошибок это ошибки атрибутов (attribute error). Они встречаются и в векторных и в растровых системах, с одинаковой частотой. Чаще всего они являются опечатками, а огромный объем работы, требующийся для больших БД, часто оказывается главным источником ошибок. В векторных системах ошибки атрибутов включают использование неправильного кода для атрибута, ошибки записи одинаковых по произношению, но разных по написанию слов, что делает невозможной выборку атрибута, если в запросе использована корректная запись. В случае растра ввод чаще всего состоит из атрибутов, поэтому результатом набора неправильного кода или помещения его в неправильную ячейку растра является карта, которая показывает эти неправильно кодированные ячейки в неправильных местах. Такие неправильно расположенные атрибутивные данные образуют третий тип ошибок, ошибки согласования графики и атрибутов (entity-attribute agreement error, or logical consistency), которые случаются и в векторных системах, когда правильно набранные коды атрибутов связываются с неправильными графическими объектами.

    Из трех основных типов ошибок в БД ГИС последние два, оба связанные с атрибутами, наиболее труднообнаружимы. Неправильно набранные атрибуты, помещенные в корректные позиции (например, в правильное место внешней БД) могут быть обнаружены, если в составе системы имеется активный словарь данных, который эффективен при попытках нарушить установленное в нем правило, например, запрет ввода цифр в поля, допускающие только буквы, или ввода пятизначного числа в четырехзначное поле. Однако, не все неправильно набранные атрибуты могут обнаружиться, до того, как вы начнете выполнять реальный анализ. Ошибки согласования графики и атрибутов обнаружить часто еще труднее, чем неправильный набор или неправильные коды. В растре единственным способом отслеживания проблем этого типа является отображение карты для определения неправильно расположенных ячеек растра. В случае векторов вы чаще всего сможете указать на объект и получить на экране его атрибуты. Однако, сама ГИС вряд ли сможет сказать вам, что вы присоединили неправильные атрибуты к какому-либо объекту, если они не противоречат правилам словаря данных или базы знаний. Вместо этого вам придется держать под рукой копию введенной карты при просмотре данных о каждом объекте.

    Как вы могли догадаться, если вы создали очень сложную базу данных, то можете потратить месяцы на проверку и сравнение с оригиналом каждого из тысяч объектов. Гораздо лучше выполнять ее небольшими порциями по мере заполнения БД. По той простой причине, что вы лучше помните данные, пока их вводите, чем будете помнить, когда вернетесь к ним намного позже. Вдобавок, вводимый документ уже перед вами. По этой причине некоторые поставщики программ позволяют использовать для ввода подсистему редактирования вместо подсистемы ввода. Некоторые поступают иначе, встраивая возможности редактирования в подсистему ввода. В любом случае вы можете просматривать карту на предмет ошибок графики, атрибутов и их согласования, когда они случаются. Хотя эти шаги замедляют процесс ввода, напомним еще раз, что гораздо лучше сделать правильно сразу, чем тратить часы на правку ошибок после того, как было введено целое тематическое покрытие.

    Хотя вы это уже слышали, ничего страшного не случится, если вы услышите это еще раз. Ошибочные данные ведут к ошибочным результатам анализа. И хотя отдельные ошибки могут выглядеть вполне безобидными, даже самые мелкие из них могут приводить к результатам, которые существенно некорректны. В качестве простого примера представьте себе БД, содержащую более 8000 полигонов, некоторые из которых изображают положения высокотоксичных материалов; а один полигон (скажем, номер 2003) имеет неправильный код атрибута, показывающий, что в это месте нет токсичных материалов. В вашем анализе вы ищете области, которые соответствуют наибольшей смертности от рака. И оказывается, что ее наибольшая величина в покрытии статистики смертности соответствует полигону 2003 в покрытии с токсическими веществами. Таким образом, хотя соображения здравого смысла говорят вам о прямой пространственной корреляции между наибольшей смертностью от рака и высокотоксичными веществами, ваш анализ не сможет это продемонстрировать. Сначала ваш географический анализ дал неправильные результаты. Потом могут оказаться неправильными решения по очистке от токсических веществ. Такие ошибочные решения являются одной из тем идущей в наши дни дискуссии о юридической ответственности авторов баз данных ГИС для принятия решений [Epstein, 1989; Seipel, 1989]. И хотя этот пример может выглядеть крайностью, он должен показать, что всегда возможно получить большие ошибки анализа из мелких ошибок в данных. Боязнь судебного иска — хорошая причина для того, чтобы потратить время, необходимое на достижение целостности и точности базы данных.
    ОБНАРУЖЕНИЕ И УСТРАНЕНИЕ ОШИБОК РАЗНЫХ ТИПОВ

    Как мы видели, БД ГИС подвержена ошибкам графики, атрибутов и их согласования. Хотя все они заметно различаются, в дальнейшем мы рассмотрим вначале графические ошибки, а затем, в одном разделе, ошибки атрибутов и согласования. Чаще всего ошибки атрибутов обнаруживаются из-за их несогласованности с графикой. Не всегда бывает именно так, и обнаружение чисто атрибутивных ошибок чаще всего выполняется через проверку атрибутивной БД. Хотя это тоже часть общего процесса устранения ошибок, полное описание всех возможных вариантов таких ошибок не требуется. Примеры для каждого типа ГИС заняли бы немалую часть книги, поэтому мы посмотрим, как обнаруживаются ошибки в одной-двух наиболее распространенных системах, а вы сможете изменить эти процедуры соответственно используемой вами ГИС.
    Графические ошибки в векторных системах

    По окончании оцифровки, векторно-топологические ГИС требуют построения топологии (если это не было частью самого процесса оцифровки). В любом случае, топология, содержащая явную информацию об отношениях графических объектов в БД, должна позволить вам идентифицировать графические ошибки некоторых типов. Одни из них будут обозначены текстовыми сообщениями, другие должны быть выявлены в результате просмотра статистики БД, отображающей количества типов и объектов, или проверки изображения для поиска ошибок, которые данная ГИС не может обнаружить сама. Вам нужно будет искать ошибки шести основных типов, соответствующих отрицаниям следующих утверждений (Environmental Systems Research Institute, 1992):

    1. Присутствуют все графические объекты, которые должны быть
    введены.

    2. Не оцифровано объектов сверх того.

    3. Объекты находятся на должных местах и имеют должные форму и
    размеры.

    1. Соединены все объекты, которые должны быть соединены.

    2. Все области имеют ровно одну метку для идентификации.

    6. Все объекты находятся в пределах рабочей области, определенной
    опорными точками.

    Крупная коммерческая ГИС должна быть способна обеспечивать эти общие топологические отношения, и вы можете использовать их для обнаружения ошибок. Хорошей процедурой для сравнения оцифрованных объектов и исходной карты является отображение на экране или даже вывод твердой копии. Последний позволит вам физически наложить и сравнить две карты на копировальном столе с подсветкой. Помимо этого, многие ГИС имеют набор символов для индикации некоторых ошибок. Чтобы сэкономить время, познакомьтесь с ними до начала редактирования. Теперь мы пройдем по конкретным типам ошибок, которые мы можем найти в связи с этими шестью общими типами.

    Как вы помните из нашего обсуждения векторных моделей данных, узлы - это специальные точки для индикации связи между линиями, составленными из отдельных отрезков. В таких векторных моделях данных, как POLYVRT и DIME, например, узлы часто обозначаются как узел "от" и узел "к", показывая направление линейного объекта. Узлы - это не просто

    точки между отрезками линии, которые показывают изменение ее направления, они имеют определенное топологическое значение. Узлы могут использоваться для обозначения пересечения двух улиц или слияния реки и озера, но они должны появляться не на каждом отрезке линии или границы полигона. Возможны также так называемые псевдоузлы (pseudo node), в которых линия соединяется сама с собой или когда в узле соединяются только две линии. Поэтому первым типом ошибок, которые могут быть обнаружены, являются псевдоузлы, которые мы не намеревались создавать, то есть когда мы не трактуем линию как две самостоятельных дуги. Создание псевдоузла при отсутствии пересечения с другой линией чаще вызывается необходимостью смены значений атрибутов где-то в промежутке между двумя обычными узлами*. Мелкие изолированые полигоны часто изображаются одной замкнутой на себя в псевдоузле дугой; такие псевдоузлы как правило не являются ошибочными (Рисунок 6.1). Ваша ГИС должна быть способна отмечать псевдоузлы с помощью легко различимого графического символа. При построении своей первой БД ГИС вы можете быть сбиты с толку обилием появившихся псевдоузлов. Перед тем, как паниковать, вы должны знать, что не все псевдоузлы являются ошибками, а их символы всего лишь указывают на возможные проблемы.







    Псевдоузел

    изолированного полигона




    * Следует отметить, что для этой цели создан специальный механизм динамической сегментации, который обозначает такие точки как события, которые могут легко добавляться и удаляться, не влияя на топологию; это более корректное решение, так как топология и атрибуты не должны зависеть друг от друга; кроме того, отпадает необходимость введения этих похожих на ошибки псевдоузлов, что в целом упрощает проверку БД. — прим. перев.




    Псевдоузлы, которые не являются результатом намеренного создания изолированного полигона (в том числе одного полигона внутри другого), обусловлены чаще всего ошибками оператора дигитайзера. Другими словами, вы либо пытались создать незамкнутую фигуру, но поместили курсор не туда, куда надо, либо вы пытались создать полигон, который соединен с другими полигонами (т.е. имеет связывающую с ними дугу), но нажали не ту кнопку, что требовалось. В качестве средства избежать ошибочных псевдоузлов вы можете пронумеровать ваши точки при подготовке карты или использовать специальный код или символ для обозначения мест, в которых находятся действительно необходимые псевдоузлы. Полезно использовать цифровой код, который совпадает с числами на кнопках курсора дигитайзера, которые соответствуют узлам.

    Если программа сообщает, что ваше покрытие содержит один или более псевдоузлов, то для исправления ошибок можно использовать подготовленную карту. Во-первых, вам нужно определить, являются ли псевдоузлы на самом деле ошибками. Законные псевдоузлы (т.е. такие, которые присутствуют для определенной цели) могут быть проигнорированы. Ошибочные узлы могут быть удалены или перемещены для восстановления корректности. В коммерческих системах это делается обычно легко.



    Незамкнутый полигон






    "Недолит"









    "Перелёт"




    Рисунок 6.2. Ошибки узлов. Ошибочные висящие узлы трех основных типов: при незамкнутости границы полигона; когда дуга не достигает объекта, к которому должна быть присоединена; когда дуга пересекает объект, к которому должна быть присоединена.


    1   ...   10   11   12   13   14   15   16   17   ...   38


    написать администратору сайта