Перевод искусственный интеллект. Can machines think
Скачать 250.78 Kb.
|
AI IN MATHEMATICS Mathematics always plays a crucial and indispensable role in AI. Decades ago, quite a few classical AI-related approaches, such as k-nearest neighbor, support vector machine, and AdaBoost, were proposed and developed after their rigorous mathematical formulations had been established. In recent years, with the rapid development of DL, AI has been gaining more and more attention in the mathematical community. Equipped with the Markov process, minimax optimization, and Bayesian statistics, RL, GANs, and Bayesian learning became the most favorable tools in many AI applications. Nevertheless, there still exist plenty of open problems in mathematics for ML, including the interpretability of neural networks, the optimization problems of parameter estimation, and the generalization ability of learning models. In the rest of this section, we discuss these three questions in turn. | ИИ В МАТЕМАТИКЕ Математика всегда играет решающую и незаменимую роль в ИИ. Десятилетия назад довольно много классических подходов, связанных с ИИ, таких как k-ближайший сосед, машина опорных векторов, и AdaBoost, были предложены и разработаны после того, как были установлены их строгие математические формулировки. В последние годы, с быстрым развитием DL, ИИ завоевывает все больше внимания в математическом сообществе. Оснащенный процессом Маркова, минимаксной оптимизацией и байесовской статистикой, RL, GANs, и байесовское обучение стали наиболее благоприятными инструментами во многих приложениях ИИ. Тем не менее, в математике для ML все еще существует множество открытых проблем, включая интерпретируемость нейронных сетей, задачи оптимизации оценки параметров и способность к обобщению моделей обучения. В оставшейся части этого раздела мы обсуждаем эти три вопроса по очереди. |
The interpretability of neural networks From a mathematical perspective, ML usually constructs nonlinear models, with neural networks as a typical case, to approximate certain functions. The well-known Universal Approximation Theorem suggests that, under very mild conditions, any continuous function can be uniformly approximated on compact domains by neural networks, which serves a vital function in the interpretability of neural networks. However, in real applications, ML models seem to admit accurate approximations of many extremely complicated functions, sometimes even black boxes, which are far beyond the scope of continuous functions. To understand the effective-ness of ML models, many researchers have investigated the function spaces that can be well approximated by them, and the corresponding quantitative measures. This issue is closely related to the classical approximation theory, but the approximation scheme is distinct. For example, Bach finds that the random feature model is naturally associated with the corresponding reproducing kernel Hilbert space. In the same way, the Barron space is identified as the natural function space associated with two-layer neural networks, and the approximation error is measured using the Barron norm. The corresponding quantities of residual networks (ResNets) are defined for the flow-induced spaces. For multi-layer networks, the natural function spaces for the purposes of approximation theory are the tree-like function spaces introduced in Wojtowytsch. There are several works revealing the relationship between neural networks and numerical algorithms for solving partial differential equations. For example, He and Xu discovered that CNNs for image classification have a strong connection with multi-grid (MG) methods. In fact, the pooling operation and feature extraction in CNNs correspond directly to restriction operation and iterative smoothers in MG, respectively. Hence, various convolution and pooling operations used in CNNs can be better understood. | Интерпретируемость нейронных сетей С математической точки зрения ML обычно строит нелинейные модели с нейронными сетями в качестве типичного случая для аппроксимации определенных функций. Хорошо известная универсальная теорема о приближении предполагает, что при очень мягких условиях любая непрерывная функция может быть равномерно аппроксимирована на компактных доменах нейронными сетями, что выполняет жизненно важную функцию в интерпретируемости нейронных сетей. Однако в реальных приложениях модели машинного обучения, по-видимому, допускают точные приближения многих чрезвычайно сложных функций, иногда даже черных ящиков, которые выходят далеко за рамки непрерывных функций. Чтобы понять эффективность моделей ML, многие исследователи исследовали функциональные пространства, которые могут быть хорошо аппроксимированы ими, и соответствующие количественные показатели. Этот вопрос тесно связан с классической теорией аппроксимации, но схема аппроксимации отличается. Например, Bach обнаруживает, что модель случайных признаков естественным образом связана с соответствующим репродуцированием ядра гильбертова пространства. Таким же образом пространство Баррона идентифицируется как естественное функциональное пространство, связанное с двухслойными нейронными сетями, а погрешность приближения измеряется с помощью нормы Баррона. Для пространств, индуцированных потоком, определяются соответствующие величины остаточных сетей (ResNets). Для многослойных сетей естественными функциональными пространствами для целей теории аппроксимации являются древовидные функциональные пространства, введенные в Wojtowytsch. Существует несколько работ, раскрывающих взаимосвязь между нейронными сетями и численными алгоритмами решения дифференциальных уравнений в частных производных. Например, Хэ и Xu обнаружили, что CNN для классификации изображений имеют сильную связь с методами с несколькими сетками (MG). Фактически, операция пулинга и извлечение признаков в CNN напрямую соответствуют операции ограничения и итеративным сглаживателям в MG, соответственно. Следовательно, различные операции свертки и объединения, используемые в CNN, могут быть лучше поняты. |
The optimization problems of parameter estimation In general, the optimization problem of estimating parameters of certain DNNs is in practice highly nonconvex and often nonsmooth. Can the global minimizers be expected? What is the landscape of local minimizers? How does one handle the nonsmoothness? All these questions are nontrivial from an optimization perspective. Indeed, numerous works and experiments demonstrate that the optimization for parameter estimation in DL is itself a much nicer problem than once thought; see, e.g., Goodfellow et al. As a consequence, the study on the solution landscape (Figure 3), also known as loss surface of neural networks, is no longer supposed to be inaccessible and can even in turn provide guidance for global optimization. Interested readers can refer to the survey paper (Sun et al.45) for recent progress in this aspect. Recent studies indicate that nonsmooth activation functions, e.g., rectified linear units, are better than smooth ones in finding sparse solutions. However, the chain rule does not work in the case that the activation functions are non-smooth, which then makes the widely used stochastic gradient (SG)-based approaches not feasible in theory. Taking approximated gradients at non-smooth iterates as a remedy ensures that SG-type methods are still in extensive use, but that the numerical evidence has also exposed their limitations. Also, the penalty-based approaches proposed by Cui et al. and Liu et al. provide a new direction to solve the nonsmooth optimization problemsefficiently. | Задачи оптимизации оценки параметров В целом, задача оптимизации оценки параметров некоторых DNN на практике является очень невыпуклой и часто негладкой. Можно ли ожидать глобальных минимизаторов? Каков ландшафт локальных минимизаторов? Как справиться с негладкостью? Все эти вопросы нетривиальны с точки зрения оптимизации. Действительно, многочисленные работы и эксперименты демонстрируют, что оптимизация для оценки параметров в DL сама по себе является гораздо более приятной проблемой, чем когда-то считалось; См., например, Goodfellow et al. Как следствие, исследование ландшафта решений (рисунок 3), также известное как поверхность потерь нейронных сетей, больше не должно быть недоступным и даже может, в свою очередь, дать руководство для глобальной оптимизации. Заинтересованные читатели могут обратиться к обзорной работе (Sun et al.45) для недавнего прогресса в этом аспекте. Недавние исследования показывают, что негладкие функции активации, например, выпрямленные линейные единицы, лучше, чем гладкие, в поиске разреженных решений. Однако правило цепи не работает в том случае, если функции активации являются неровными, что делает широко используемые подходы, основанные на стохастическом градиенте (SG), невозможными в теории. Использование приближенных градиентов на негладких итерациях в качестве средства правовой защиты гарантирует, что методы типа SG все еще используются, но что числовые данные также выявили их ограничения. Кроме того, подходы, основанные на наказаниях, предложенные Cui et al.46 и Liu et al.47, обеспечивают новое направление для эффективного решения проблем негладкой оптимизации. |
The generalization ability of learning models A small training error does not always lead to a small test error. This gap is caused by the generalization ability of learning models. A key finding in statistical learning theory states that the generalization error is bounded by a quantity that grows with the increase of the model capacity, but shrinks as the number of training examples increases.48 A common conjecture relating generalization to solution landscape is that flat and wide minima generalize better than sharp ones. Thus, regularization techniques, including the dropout approach,49 have emerged to force the algorithms to bypass the sharp minima. However, the mechanism behind this has not been fully explored. Recently, some researchers have focused on the ResNet-type architecture, with dropout being inserted after the last convolutional layer of each modular building. They thus managed to explain the stochastic dropout training process and the ensuing dropout regularization effect from the perspective of optimal control. | Обобщающая способность моделей обучения Небольшая ошибка обучения не всегда приводит к небольшой ошибке теста. Этот разрыв обусловлен обобщающей способностью моделей обучения. Ключевой вывод в теории статичного обучения гласит, что ошибка обобщения ограничена величиной, которая растет с увеличением емкости модели, но уменьшается по мере увеличения числа обучающих примеров.48 Распространенная гипотеза, относящаяся к обобщению с ландшафтом решений, заключается в том, что плоские и широкие минимумы обобщают лучше, чем острые. Таким образом, появились методы регуляризации, включая подход к отсеву49, чтобы заставить алгоритмы обходить острые минимумы. Однако механизм, лежащий в основе этого, не был полностью изучен. В последнее время некоторые исследователи сосредоточились на архитектуре типа ResNet, при этом выпадение вставляется после последнего сверточного слоя каждого модульного здания. Таким образом, им удалось объяснить стохастический процесс обучения отсеву и последующий эффект регуляризации отсева с точки зрения оптимального контроля. |
AI IN MEDICAL SCIENCE There is a great trend for AI technology to grow more and more significant in daily operations, including medical fields. With the growing needs of health- care for patients, hospital needs are evolving from informationization networking to the Internet Hospital and eventually to the Smart Hospital. At the same time, AI tools and hardware performance are also growing rapidly with each passing day. Eventually, common AI algorithms, such as CV, NLP, and data mining, will begin to be embedded in the medical equipment market (Figure 4). | ИИ В МЕДИЦИНСКИХ НАУКАХ Существует большая тенденция к тому, чтобы технология ИИ становилась все более и более значимой в повседневной деятельности, включая медицинские области. С растущими потребностями здоровья- уход за пациентами, потребности больниц развиваются от информационной сети до Интернет-больницы и, в конечном итоге, до Умной больницы. В то же время инструменты ИИ и производительность аппаратного обеспечения также быстро растут с каждым днем. В конце концов, общие алгоритмы ИИ, такие как CV, NLP и интеллектуальный анализ данных, начнут внедряться в рынок медицинского оборудования (рисунок 4). |
AI doctor based on electronic medical records For medical history data, it is inevitable to mention Doctor Watson, devel- oped by the Watson platform of IBM, and Modernizing Medicine, which aims to solve oncology, and is now adopted by CVS & Walgreens in the US and various medical organizations in China as well. Doctor Watson takes advan- tage of the NLP performance of the IBM Watson platform, which already collected vast data of medical history, as well as prior knowledge in the liter- ature for reference. After inputting the patients’ case, Doctor Watson searches the medical history reserve and forms an elementary treatment pro- posal, which will be further ranked by prior knowledge reserves. With the multiple models stored, Doctor Watson gives the final proposal as well as the confidence of the proposal. However, there are still problems for such AI doc- tors because,51 as they rely on prior experience from US hospitals, the proposal may not be suitable for other regions with different medical insurance policies. Besides, the knowledge updating of the Watson platform also relies highly on the updating of the knowledge reserve, which still needs manual work. | ИИ врача на основе электронных медицинских карт Для данных истории болезни неизбежно упомянуть Doctor Watson, разработанную платформой Watson IBM, и Modernizing Medicine, которая направлена на решение онкологии, и в настоящее время принята CVS & Walgreens в США и различными медицинскими организациями в Китае. Доктор Ватсон рассказывает о НЛП-производительности платформы IBM Watson, которая уже собрала обширные данные истории болезни, а также предварительные знания в литрах. атура для справки. После ввода случая пациентов доктор Уотсон просматривает резерв истории болезни и формирует элементарный пропозал лечения, который будет далее ранжироваться по предварительным резервам знаний. С сохранением нескольких моделей доктор Ватсон дает окончательное предложение, а также уверенность в предложении. Тем не менее, все еще существуют проблемы для таких документов ИИ, потому что,51, поскольку они полагаются на предыдущий опыт больниц США, предложение может не подходить для других регионов с другими полисами медицинского страхования. Кроме того, обновление знаний платформы Watson также в значительной степени зависит от обновления резерва знаний, который все еще нуждается в ручной работе. |
AI for public health: Outbreak detection and health QR code for COVID-19 AI can be used for public health purposes in many ways. One classical us- age is to detect disease outbreaks using search engine query data or social media data, as Google did for prediction of influenza epidemics52 and the Chinese Academy of Sciences did for modeling the COVID-19 outbreak through multi-source information fusion.53 After the COVID-19 outbreak, a digital health Quick Response (QR) code system has been developed by China, first to detect potential contact with confirmed COVID-19 cases and, secondly, to indicate the person’s health status using mobile big data.54 Different colors indicate different health status: green means healthy and is OK for daily life, orange means risky and requires quarantine, and red means confirmed COVID-19 patient. It is easy to use for the general public, and has been adopted by many other countries. The health QR code has made great contributions to the worldwide prevention and control of the COVID-19 pandemic. | ИИ для общественного здравоохранения: выявление вспышек и QR-код здоровья для COVID-19 ИИ может использоваться в целях общественного здравоохранения различными способами. Одним из классических американских возрастов является обнаружение вспышек заболеваний с использованием данных запросов поисковых систем или данных социальных сетей, как это сделал Google для прогнозирования эпидемий гриппа52 и Китайская академия наук для моделирования вспышки COVID-19 с помощью слияния информации из нескольких источников.53 После вспышки COVID-19 Китай разработал цифровую систему кодов быстрого реагирования на здравоохранение (QR). Во-первых, для выявления потенциального контакта с подтвержденными случаями COVID-19 и, во-вторых, для обозначения состояния здоровья человека с помощью мобильных больших данных.54 Разные цвета указывают на разное состояние здоровья: зеленый означает здоровый и нормальный для повседневной жизни, оранжевый означает рискованный и требует карантина, а красный означает подтвержденного пациента с COVID-19. Он прост в использовании для широкой публики и был принят многими другими странами. QR-код здоровья внес большой вклад в глобальную профилактику и борьбу с пандемией COVID-19. |