ЭССЕ по проблеме дифференциальной приватности. ЭССЕ для перевода.. положительное действительное число и A

Название	положительное действительное число и A
Анкор	ЭССЕ по проблеме дифференциальной приватности
Дата	30.11.2022
Размер	25.99 Kb.
Формат файла
Имя файла	ЭССЕ для перевода..docx
Тип	Документы #822115

В связи со всеобщей цифровизацией в современном мире остро встаёт вопрос о защите конфиденциальных данных каждого человека. Персональные электронные устройства, датчики, камеры и микрофоны в составе более масштабных систем собирают о пользователе деперсонализированные сведения. Однако, как показывает детальный анализ и практика использования различных цифровых сервисов, даже максимально деперсонализированные данные можно с высокой долей достоверности раскрыть и установить конечного субъекта, от которого эти данные были получены. Соответственно, перед аналитиками данных, массивов BigData, и разработчиками ПО возникает законодательная и этическая дилемма сохранения приватности собранных массивов данных без потери их ценности и точности для целевого использования. Проблема заключается в нахождении оптимального компромисса точности запросов из статистических баз данных при одновременной минимизации возможности раскрытия анонимности записей.

Для нахождения баланса между приватностью и точностью применяется дифференциальная приватность. Согласно определению, дифференциальная приватность является условием, накладываемым на механизм предоставления данных, а не на сам набор данных. Выполнение данного условия гарантирует, что наличие или отсутствие данных о конкретном субъекте значительно не повлияет на конечный результат обработки данных.

Пусть ε — положительное действительное число и A — вероятностный алгоритм, который принимает на вход набор данных (представляет действия доверенной стороны, обладающей данными). Образ A обозначим imA. Алгоритм A является ε-дифференциально приватным, если для всех наборов данных и , которые отличаются одним элементом (то есть данными одного человека), а также всех подмножеств S множества imA:

, где P – вероятность

Таким образом, чем меньше величина ɛ (эпсилон), тем более приватными являются собранные данные.

На современном этапе основными методами обеспечения дифференциальной приватности являются:

-опрос, осуществляемый по определённому алгоритму, состоящему из достоверного ответа респондента и его ответа, связанного с исходом случайного события. Данный предполагает добавление случайного шума к собранным данным;

-модели машинного обучения, внутри которых используются библиотеки обработки данных.

В библиотеках дифференциальной приватности реализуются математические подходы, использующие параметр эпсилон в качестве входного значения и добавляющие к значениям в исходном датасете случайный шум, обратно пропорциональный ε. Величина добавляемого шума обратно зависит от значения ε.В библиотеках используются дополнительные параметры и предлагаются средства управления случайным шумом.

В библиотеках дифференциальной приватности реализована концепция бюджета приватности, заключающаяся в том, что при каждом вызове функции в библиотеке, используется заранее заданное пользователем количество выделенного бюджета. Теоретическая основа такова: при каждой публикации новых данных возрастает вероятность того, что злоумышленник извлечёт информацию о людях из датасета. А с помощью бюджета приватности библиотека может вернуть ошибку вместо значения.

Методы машинного сбора и обработки приватных данных используются в бизнесе, медицине, образовании, телекоммуникации.Тем не менее, существует проблема нахождения компромисса между анонимностью и практической ценностью собранных данных и точности работы модели машинного обучения и систем искусственного интеллекта. Выбор разумного компромисса зависит от целевого применения обезличенных данных, что было доказано в исследованиях немецких учёных: Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon M. Lin, David Page, Thomas Ristenpart.

В экспериментальных работах данных исследователей была применена техника машинного обучения для разработки модели расчёта дозировок лекарств. Во время обучения они устанавливали различные значения бюджета приватности. Затем был оценен уровень утечки информации и потенциальная успешность применения модели для лечения пациентов. Результаты показали, что точность рекомендаций модели сильно зависит от величины бюджета приватности, установленного во время её обучения. Если бюджет приватности установлен слишком высоким, то происходит утечка большого количества конфиденциальной информации о пациентах, но при этом система принимает безопасные решения о дозировке. Когда бюджет уменьшен до уровня, при котором сохраняется приватность пациентов, обученная на сильно зашумлённых данных система склонна назначать смертельные дозировки! ¹

Крупные корпорации Apple, Google, Netflix, Microsoft заявляют, что сохраняют высокую приватность пользователей при сборе анонимной статистической информации, однако не предоставлено опубликованных данных открытого исходного кода их программных продуктов, доказывающих тот факт, что приватность сохраняется на приемлемом уровне.

На презентации WWDC 2016 “Engineering Privacy for Your Users” операционных систем macOS Х и iOS 10, проходившей в июне 2016, представителями компании Apple была заявлена величина параметра эпсилон в iOS 10 равная четырём. Учёные из университетов Южной Калифорнии, Индианы и Цинхуа подробно изучили код macOS и iOS корпорации Apple и выяснили, что в среднем, величина эпсилон равна четырнадцати в операционной системе macOS и десяти в iOS ² . Исходный код продуктов корпорации Micosoft является закрытым, соответственно, не представляется возможным проверить реальные значения параметров, влияющих на приватность данных.

Таким образом, заявления корпораций Apple и Microsoft о высокой конфиденциальности данных пользователей невозможно считать достоверными.

Итак, для сохранения продуктивности систем и устройств, использующих приватные данные, необходимо найти баланс между их конфиденциальностью и функциональностью. Исходя из этого, представляется необходимым создание специального приложения на основе ИИ, способного осуществлять правильный выбор соотношения точности и приватности используемых данных в библиотеках дифференциальной приватности, учитывая область конечного их применения.

1 Источник: Matthew Fredrikson. "Privacy in Pharmacogenetics: An End-to-End Case Study of Personalized Warfarin Dosing". 2014.

2 Источник: https://arxiv.org/pdf/1709.02753.pdf