англ12.09. Защищённость баз данных

Название	Защищённость баз данных
Дата	20.12.2022
Размер	18.43 Kb.
Формат файла
Имя файла	англ12.09.docx
Тип	Документы #855321

Защищённость баз данных

Аннотация Существенно растёт спрос со стороны аналитиков данных, компаний и широкой общественности на открытые данные. Тем не менее, когда базы данных, подлежащие публичной публикации, содержат информацию об отдельных респондентах (например, ответы на опросы, данные переписи, медицинские записи, и т.д.), они должны быть опубликованы таким образом, чтобы сохранить конфиденциальность этих респондентов: де-факто должно быть невозможно соотнести опубликованные данные с конкретными лицами. Для достижения этой цели дисциплина статистического контроля за раскрытием информации (SDC) предложила множество методов защиты конфиденциальности, известных под различными названиями такие как методы SDC, методы анонимизации или методы санитарной обработки. В этой главе представлен обзор проблем, связанных с конфиденциальностью базы данных, обзор наиболее известных методов SDC, обсуждение соответствующих компромиссов между конфиденциальностью данных и полезностью, а также описание моделей конфиденциальности, предложенных сообществом компьютерных наук в последние годы. Также выделены некоторые соответствующие бесплатные пакеты.

Введение

Растет социальный и экономический спрос на открытые данные для улучшения планирования, научных исследований, маркетинговых исследований и прочее. В частности, государственный сектор находится под давление, чтобы сделать как можно больше информации более прозрачной. К организациям, публикующим данные, относятся национальные статистические институты, органы здравоохранения (эпидемиология), или даже частные организации (например, потребительские опросы).

Когда опубликованные данные касаются отдельных респондентов, необходимо следить за тем, чтобы не нарушалась неприкосновенность личной жизни. Должно быть де-факто невозможно соотнести опубликованные данные с конкретными лицами. Действительно, предоставление данных в национальные статистики в большинстве стран является обязательным, но в обмен на это институты обязуются сохранять конфиденциальность респондентов. Следовательно, вместо того, чтобы публиковать точную информацию по каждому человеку, необходимо стремиться к предоставлению полезной статистической информацию, то есть максимально сохранить в опубликованных данных статистические свойства исходных данных. Именно поэтому базы данных, сохраняющие конфиденциальность информации о людях называются статистическими базами данных.

Статистические базы данных бывают трех основных форматов:
1. Табличные данные. То есть таблицы с подсчетами или величинами, которые являются классическим выходом официальной статистики.

2. Опрашиваемые базы данных. То есть онлайн базы данных, к которым пользователь может отправлять статистические запросы (суммы, средние значения и т. д.).

3. Микроданные. То есть файлы, где каждая запись содержит информацию о физическом лице (гражданине или компании).
Контроль логических выводов в статистических базах данных, также известный как контроль статистического раскрытия информации (SDC), ограничение раскрытия статистической информации (SDL), анонимизация базы данных или очистка базы данных, представляет собой дисциплину, направленную на защиту данных в статистических базах данных, чтобы их можно было публиковать без раскрытия конфиденциальной информации. которые могут быть связаны с конкретными лицами из числа тех, кому соответствуют данные. SDC применяется для защиты конфиденциальности респондентов в таких областях, как официальная статистика, статистика здравоохранения, электронная коммерция (обмен данными о потребителях) и т. д. Поскольку защита данных в конечном счете означает изменение данных, задача SDC состоит в обеспечении защиты с помощью минимальной потери точности, к которой стремятся пользователи базы данных.

В [16] проводится различие между SDC и другими технологиями конфиденциальности базы данных, такими как интеллектуальный анализ данных с сохранением конфиденциальности (PPDM) или поиск частной информации (PIR): разница между этими технологиями заключается в том, чью конфиденциальность они ищут. В то время как SDC нацелен на конфиденциальность респондентов, основной целью PPDM является защита конфиденциальности владельцев, когда несколько владельцев баз данных хотят сотрудничать в совместном анализе своих баз данных, не передавая друг другу свои исходные данные. Со своей стороны, основной целью PIR является конфиденциальность пользователя, то есть позволить пользователю базы данных извлекать некоторый элемент информации без того, чтобы база данных точно знала, какой элемент был восстановлен.

Литература по SDC началась в 1970-х годах, с основополагающего вклада Далениуса [12] в статистическое сообщество и работ Шлорера и Деннинга [62, 14] в сообщество баз данных. В 1980-х годах активность в этой области была умеренной. Отличный обзор состояния дел на конец 1980-х годов представлен в [1]. В 1990-х годах интерес статистического сообщества возродился, и эта дисциплина получила дальнейшее развитие под названиями "контроль раскрытия статистики" в Европе и "ограничение раскрытия статистики" в Америке. Ближе к концу века, с расцветом добычи данных, возобновилась активность в сообществе баз данных, где эта область называлась анонимизацией данных или санитаризацией данных и часто путалась с добычей данных с сохранением конфиденциальности. Последующая эволюция привела к появлению по крайней мере трех четко разграниченных поддисциплин:

Защита табличных данных. Целью здесь является публикация статической агрегированной информации, то есть таблиц, таким образом, чтобы не было возможности получить конфиденциальную информацию о конкретных лицах из числа тех, к кому относится таблица. Концептуальный обзор см. в [72].

Базы данных с возможностью запросов. Совокупная информация, полученная пользователем в результате последовательных запросов, не должна позволять ему делать выводы о конкретных лицах. С конца 1970-х годов известно, что это сложная проблема, подверженная атаке следящего [14]. Стратегии SDC здесь включают возмущение, ограничение запросов и маскировку (предоставление интервальных, а не точных ответов).

Защита микроданных. Только недавно сборщиков данных (статистические агентства и т.п.) убедили публиковать микроданные. Поэтому защита микроданных является самой молодой субдисциплиной и в последние годы переживает непрерывное развитие. Ее цель - замаскировать исходные микроданные таким образом, чтобы замаскированные микроданные все еще были аналитически полезны, но не могли быть связаны с исходными респондентами.

Остальная часть этой главы организована следующим образом. Раздел 2 знакомит с основными понятиями, используемыми на протяжении всей главы. В разделе 3 мы подробно описываем алгоритмы и механизмы очистки (т.е. анонимизации) записей в базе данных. Эти алгоритмы стремятся вывести очищенную версию данных, которая удовлетворяет определению конфиденциальности (предотвращает риски раскрытия информации) и обладает высокой полезностью. Раздел 4 посвящен способам измерения риска несанкционированного доступа и полезности очищенных данных, в то время как формальные определения конфиденциальности модели представлены в разделе 5. В разделе 6 рассматриваются нерешенные проблемы, которые необходимо решить в будущем и новые направления исследований. Заключительный раздел завершает главу и содержит список соответствующего программного обеспечения.