CONCLUSIONS
This paper carries out a comprehensive survey on the development and application of AI across a broad range of fundamental sciences, including information science, mathematics, medical science, materials science, geoscience, life science, physics, and chemistry. Despite the fact that AI has been pervasively used in a wide range of applications, there still exist ML security risks on data and ML models as attack targets during both training and execution phases. Firstly, since the performance of an ML system is highly dependent on the data used to train it, these input data are crucial for the security of the ML system. For instance, adversarial example attacks188 providing malicious input data often lead the ML system into making false judgments (predictions or categorizations) with small perturbations that are imperceptible to humans; data poisoning by intentionally manipulating raw, training, or testing data can result in a decrease in model accuracy or lead to other error-specific attack purposes. Secondly, ML model attacks include backdoor attacks on DL, CNN, and federated learning that manipulate the model’s parameters directly, as well as model stealing attack, model inversion attack, and membership inference attack, which can steal the model parameters or leak the sensitive training data. While a number of defense techniques against these security threats have been proposed, new attack models that target ML systems are constantly emerging. Thus, it is necessary to address the problem of ML security and develop robust ML systems that remain effective under malicious attacks. Due to the data-driven character of the ML method, features of the training and testing data must be drawn from the same distribution, which is difficult to guarantee in practice. This is because, in practical application, the data source might be different from that in the training dataset. In addition, the data feature distribution may drift over time, which leads to a decline of the performance of the model. Moreover, if the model is trained with only new data, it will lead to catastrophic “forgetting” of the model, which means the model only remembers the new features and forgets the previously learned features. To solve this problem, more and more scholars pay attention on how to make the model have the ability of lifelong learning, that is, a change in the computing paradigm from “offline learning + online reasoning” to “online continuous learning,” and thus give the model have the ability of lifelong learning, just like a human being. ВЫВОДЫ
В этой статье проводится всесторонний обзор развития и применения ИИ в широком спектре фундаментальных наук, включая информатику, математику, медицину, материаловедение, науку о Земле, науки о жизни, физику и химию. Несмотря на то, что ИИ широко используется в широком спектре приложений, по-прежнему существуют риски безопасности ML для данных и моделей ML в качестве целей атак как на этапе обучения, так и на этапе выполнения. Во-первых, поскольку производительность системы машинного обучения сильно зависит от данных, используемых для ее обучения, эти входные данные имеют решающее значение для безопасности системы машинного обучения. Например, состязательные примеры атак188, предоставляющие вредоносные входные данные, часто приводят систему ML к ложным суждениям (прогнозам или категоризации) с небольшими возмущениями, которые незаметны для людей; Отравление данных путем преднамеренного манипулирования необработанными, обучающими или тестовыми данными может привести к снижению точности модели или привести к другим атакам, связанным с ошибками. Во-вторых, атаки модели ML включают бэкдор-атаки на DL, CNN и федеративное обучение, которые напрямую манипулируют параметрами модели, а также атаку кражи модели, инверсионную атаку модели и атаку с выводом членства, которая может украсть параметры модели или утечку конфиденциальных обучающих данных. Хотя был предложен ряд методов защиты от этих угроз безопасности, постоянно появляются новые модели атак, нацеленные на системы машинного обучения. Таким образом, необходимо решить проблему безопасности ML и разработать надежные ML-системы, которые остаются эффективными при вредоносных атаках. Из-за управляемого данными характера метода ML особенности обучающих и тестовых данных должны быть взяты из одного и того же распределения, что трудно гарантировать на практике. Это связано с тем, что в практическом применении источник данных может отличаться от источника в обучающем наборе данных. Кроме того, распределение признаков данных может дрейфовать во времени, что приводит к снижению производительности модели. Более того, если модель обучается только с новыми данными, это приведет к катастрофическому «забыванию» модели, а значит, модель только запоминает новые возможности и забывает ранее изученные особенности. Чтобы решить эту проблему, все больше ученых обращают внимание на то, как сделать так, чтобы модель обладала способностью к обучению на протяжении всей жизни, то есть изменению компьютерной парадигмы с «офлайн-обучение + онлайн-рассуждение» на «онлайн-непрерывное обучение», и таким образом дать модели возможность обучения на протяжении всей жизни, как и человеку.
|
|
|
|
|
|
|
|
|
|
|
|
| |