10 самых популярных алгоритмов машинного обучения. 10 самых популярных алгоритмов машинного обучения Время чтения 8 минут
Скачать 0.8 Mb.
|
10 самых популярных алгоритмов машинного обучения Время чтения 8 минут Поделиться Популярное ЛИКБЕЗ Что такое озера данных и почему в них дешевле хранить big data ТРЕНДЫ Эволюция квантовых вычислений: от гипотез до реальных компьютеров РАЗРАБОТКА Три уровня автомасштабирования в Kubernetes: как их эффективно использовать Машинное обучение — целая вселенная, а каждый алгоритм в этой области — галактика со своими особенностями, сферами применения и стратегиями оптимизации. Сегодня мы коротко разберем самые популярные алгоритмы Machine Learning и посмотрим, где и когда их надо применять. 1. Линейная регрессия Что это. Если у вас есть последовательность чисел [100, 200, 300, 400, 500, x], то линейная регрессия легко предскажет, что на месте x должно быть число 600. Этот алгоритм предсказывает простые линейные зависимости в данных и значения в рамках трендов. Где применять. Простой анализ и предсказание линейных данных и трендов. Работа с переменными, линейно зависящими от одной-двух-трех других переменных. Плюсы. Очень простая и интуитивная модель машинного обучения. Проста в реализации, быстра в работе. Минусы. Хорошо работает только на очень простых зависимостях. Плохо предсказывает сложные зависимости. Линейная регрессия определяет корреляцию между переменными 2. Логистическая регрессия Что это. Простейший алгоритм классификации, пришел к нам из мира статистики. Позволяет разделять на два класса несложные объекты, чье состояние управляется и описывается небольшим числом параметров. Логистическая регрессия выдает ответ в виде числа в промежутке от 0 до 1. Если число ниже определенного порога значения — то объект относится к первому классу объектов, а если выше — то ко второму. Калибровка порогового значения для разделения объектов на классы подбирается в ходе калибровки алгоритма. Где применять. Там, где требуется несложная классификация малого числа объектов на малое число классов. Плюсы. Скорость и наглядность. Минусы. Может классифицировать только относительно простые объекты. Не подходит для разделения объектов на несколько классов, ответ этого алгоритма — по сути, двоичный сигнал типа «да-нет». Логистическая регрессия позволяет классифицировать простые объекты 3. K-средних Что это. Этот алгоритм машинного обучения может сгруппировать объекты по степени похожести. По сути — раскидать множество объектов на несколько классов с примерно похожими свойствами. Где применять. Поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных. Плюсы. Логичность, простота, надежность, высокая скорость работы. Минусы. Плохо отличает слишком похожие объекты. Иногда может неправильно определять класс объектов даже после тщательной калибровки модели. Алгоритм к-средних позволяет разделить схожие объекты на группы 4. Метод опорных векторов Что это. Еще один классификатор, по своему устройству радикально отличающийся от предыдущего — он пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов. Где применять. Классификация объектов. Плюсы. Простота реализации, работа с многомерными данными. Минусы. Как и алгоритм K-средних, легко может спутать объекты, которые похожи на объекты другого класса. Метод опорных векторов выбирает оптимальную линию, разделяющую классы объектов 5. Байесовский классификатор Что это. Как следует из названия, этот алгоритм определяет класс, к которому принадлежит объект. В основе механизмов классификации — расчет вероятности, с которой объект относится к тому или иному типу данных. Этот метод пришел к нам из мира статистики. Где применять. В задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет. Плюсы. Простота реализации. Минусы. Вероятностный подход с трудом справляется с классификацией сложных объектов. Есть несколько байесовских алгоритмов, основная задача которых — классификация простых объектов 6. Нейронные сети Что это. Королевский алгоритм среди всех алгоритмов машинного обучения. Подходит для предсказания, распознавания и классификации. А еще этот алгоритм может генерировать контент самостоятельно! Где применять. Практически везде — этому алгоритму по плечу любой класс задач. Плюсы. Универсальность. Работа со сложным данными — объектами с кучей параметров, звуком, фото, видео. Минусы. Часто требует высокой вычислительной мощности. Настолько высокой, что на вашем ноутбуке тренировка этого алгоритма может занять годы. Иногда требуется применение специализированного вычислительного железа, например видеокарт (хотя всегда есть возможность взять видеокарту в аренду в облаке). Для отладки и настройки алгоритма требуется большое число тестовых данных. Настройка сложной модели — дело трудное и требующее опыта. Однако, несмотря на минусы, альтернатив этому алгоритму мало, а облачные технологии позволяют использовать для его работы почти неограниченные мощности. Схема простой нейросети: на входные узлы поступают данные, затем они обрабатываются скрытыми узлами, а результат передается на выход 7. Сверточные нейросети Что это. Алгоритм-близнец традиционных нейросетей. Основное отличие — в хитрой группировке данных на группы и работа с этими группами внутри сети. Где применять. В основном — при работе с изображениями и видео. Такие алгоритмы лежат в основе систем компьютерного зрения и слуха. Плюсы. Самый качественный и точный алгоритм для работы с визуальным контентом. Минусы. Сложность в отладке и внушительные требования к вычислительной мощности. Упрощенно схема работы сверточной нейронной сети выглядит так: изображение проходит через несколько разных слоев, на выходе алгоритм выдает ответ 8. Деревья принятия решений Что это. Алгоритм представляет состояния объекта в виде дерева. Например, «если человек мужского пола, возраст больше сорока и есть вредные привычки, то шанс развития сердечных заболеваний — выше среднего». Подробнее об этом алгоритме мы рассказывали в отдельной статье. Где применять. Подходит для классификации и предсказания состояний на основе имеющихся данных. Плюсы. Надежность, простота применения, интуитивность. Минусы. Ограниченная сфера применения. Далеко не все модели можно описывать деревьями. Визуально алгоритм можно представить как карту возможных результатов из ряда взаимосвязанных выборов 9. Алгоритм случайного леса Что это. Идейный продолжатель метода деревьев решений. Из простых деревьев строится группа (лес), каждое дерево немного отличается от своих собратьев. Деревья в лесу голосуют за те или иные варианты решений, и самое часто встречающееся решение становится ответом системы. Где применять. Там же, где и простые решающие деревья — для предсказаний на основе параметров и для классификации. Плюсы. Объединение простых алгоритмов в группы часто дает впечатляющие результаты. Казалось бы, примитивные по своей сути решающие деревья вместе способны давать ответы на весьма сложные вопросы. Минусы. Как и у традиционных решающих деревьев, сфера применения весьма ограничена. Алгоритм случайного леса выдает самое популярное решение деревьев 10. Бустинг Что это. Суть этого метода в том, что сильный классификатор создают на основе слабых: каждая новая модель учится на ошибках предыдущей. То есть каждый раз добавляются все новые и новые модели, которые пытаются исправить ошибки своих предшественников. Так продолжается до тех пор, пока прогнозы не станут безошибочными либо не достигнется лимит на количество моделей. Где применять. Еще один универсальный боец, подходит для практически любых задач. Плюсы. Этот подход часто дает неожиданно точные и ценные результаты, стоит пробовать его в работе с самыми разными задачами. Минусы. Модели могут быть весьма большими — в бустинг нужно включать наборы из других моделей, что усложняет построение итоговой системы. Каждая следующая модель обучается на ошибках предыдущей, так можно сильно повысить точность прогнозов Это далеко не все алгоритмы машинного обучения, мы собрали самые основные, которые часто используют для решения основных задач классификации и прогнозирования. Что еще почитать по теме: Что такое Machine Learning и каким оно бывает. Как понять, что нейросеть решит вашу проблему. Прагматичное руководство. 17 примеров применения машинного обучения в 5 отраслях бизнеса. 17 примеров применения машинного обучения в 5 отраслях бизнеса Время чтения 11 минут Поделиться Автор: Елена Шпрингер 07 августа 2020 Популярное ЛИКБЕЗ Что такое озера данных и почему в них дешевле хранить big data ТРЕНДЫ Эволюция квантовых вычислений: от гипотез до реальных компьютеров РАЗРАБОТКА Три уровня автомасштабирования в Kubernetes: как их эффективно использовать Машинное обучение (machine learning) лежит в основе многих инновационных технологий искусственного интеллекта. Программы, разработанные с помощью ML, умеют предсказывать поломки оборудования, предугадывать поведение клиентов и принимать логические и аналитические решения почти как люди. Расскажем, как компании используют machine learning и покажем примеры применения машинного обучения на реальных кейсах. Машинное обучение в промышленности: управление производством, минимизация простоев и аварий Минимизация простоев на производстве. Простои из-за поломок, сбоев или нехватки сырья могут стоить заводу миллионы долларов. Машинное обучение помогает их предотвратить. Для этого с датчиков на оборудовании собирают данные, а потом смотрят, при каких показателях возникают сбои. В будущем с помощью этой информации можно предсказать, когда и почему случится простой, как его избежать. К примеру, может оказаться, что перед поломкой оборудования в цехе всегда поднимается температура. Тогда при повышении температуры система оповестит инженеров, а они вовремя предотвратят проблему. Чтобы избежать простоев при добыче полезных ископаемых, производитель нефтегазового оборудования GE Oil&Gas использует индустриальный интернет вещей и машинное обучение. Платформа компании собирает данные о состоянии нефтедобычи, а затем составляет расписание диагностических проверок и помогает выявлять неисправности до того, как они произойдут. Эта же платформа помогла Кувейтской нефтяной компании увеличить добычу газа на 2–5%, а нефтяной компании из Малайзии Petronas — снизить расходы на техобслуживание на 10%. Создание системы управления производством. С помощью датчиков и машинного обучения можно не только выполнять узкие задачи, например предотвращать поломки, но и управлять всем производством: снижать процент бракованных деталей: анализировать, почему происходит брак и как его избежать; оптимизировать отдельные этапы, чтобы они занимали меньше времени; использовать меньше материалов для производства, а значит, сократить расходы; отслеживать состояние оборудования, фиксировать его КПД и загруженность; автоматизировать отдельные этапы производства. Производитель микроконтроллеров Simatic использует платформу на базе IoT и машинного обучения. Она помогает собирать и анализировать информацию с датчиков на оборудовании в реальном времени. Это помогло на 75% автоматизировать производство тысяч видов продукции, в 9 раз увеличить объем производства при тех же площадях и персонале и почти на 100% сократить брак. Аналогичную IoT-платформу можно подключить в VK Cloud (бывш. MCS). Она позволяет собирать, обрабатывать и анализировать данные с миллионов любых устройств, использовать машинное обучение для прогнозирования работы оборудования и других задач. Выявление угроз безопасности. Машинное обучение помогает сделать производство безопаснее: выявлять незначительные изменения в работе оборудования и вовремя оповещать о возможной катастрофе. Например, энергетическая компания Shell использует машинное обучение, нейронные сети и IoT, чтобы автоматически выявлять угрозы безопасности и оповещать о них сотрудников. Так они успевают среагировать на проблему еще до того, как произойдет катастрофа. Кстати, Shell также использует machine learning для оптимизации производства и добычи полезных ископаемых. Разведка новых месторождений. Одна из главных проблем нефтегазовой и горнодобывающей промышленности — сложность в обнаружении новых месторождений. Машинное обучение помогает ускорить этот процесс. На основе данных о прошлых месторождениях искусственный интеллект строит модели, которые с высокой точностью предсказывают, где искать новые залежи газа или руды. У компании «Газпром» есть проект «Цифровой керн». Это цифровая лаборатория, где анализируют пробы пласта с помощью технологий машинного обучения. Алгоритмы моделируют условия там, откуда взята проба, и помогают создать цифровой двойник месторождения. С его помощью оценивают запасы полезных ископаемых и подбирают индивидуальный подход к разработке. Это позволяет в 1,5-2 раза увеличить добычу полезных ископаемых из конкретного месторождения, а также искать новые. Машинное обучение позволяет создавать сложные визуальные модели месторождений. Источник Машинное обучение в финансах: оценка рисков и борьба с мошенничеством Оценка кредитоспособности. Обычно в банках кредитоспособность клиента оценивают менеджеры. Сотрудники тратят на оценку много времени и часто ошибаются — отклоняют кредиты тем, кто мог бы их платить, и выдают неплатежеспособным. Алгоритм можно научить оценивать кредитоспособность клиентов банка. Для этого в него загружают информацию о ранее выданных кредитах: выплачены они или нет, были ли просрочки или досрочное погашение. Все это помогает банку автоматизировать выдачу кредитов. Например, Сбербанк создал «Кредитную фабрику» — систему, которая позволяет принимать решения о кредитоспособности клиента за несколько минут. В 2020 году банк запустил такую фабрику и для юридических лиц — она помогает принимать решения по кредитам для бизнеса за 7 минут. Сейчас 98% кредитов физлицам и 20% кредитов малому и среднему бизнесу выдают автоматически, что экономит миллиарды долларов. Борьба с мошенничеством. Банки и их клиенты регулярно теряют деньги из-за мошеннических операций. Распознавать такие операции помогает машинное обучение — специальные алгоритмы учатся выявлять признаки мошеннических операций и вовремя их блокировать. Примеры машинного обучения для предотвращения мошенничества есть у многих банков. Например, Сбербанк использует ИИ для блокировки подозрительных операций, а недавно поймал с его помощью мошенника. Зарубежный Danske Bank снизил процент ложных обвинений в мошенничестве на 60%. Банки могут использовать облачные сервисы машинного обучения VK Cloud (бывш. MCS), чтобы выявлять попытки мошеннических действий со счетами, определять личность клиента без паспорта, распознавать мошенников по камерам в банкоматах, анализировать кредитоспособность клиентов. Примеры машинного обучения в медицине: диагностика и роботизированные операции Улучшение клиентского сервиса. Чем быстрее в клинике проходит процесс регистрации на прием, тем меньше очереди, удобнее работать врачам и лояльнее пациенты. Сеть клиник «Инвитро» развернула систему распознавания лиц на базе облачной платформы VK Cloud (бывш. MCS). Как только пациент подходит к стойке, администратор видит на компьютере нужную карту и выдает направление в нужный кабинет. Это помогло избежать очередей в часы пик, упростить работу администраторов и обслуживать больше пациентов. Диагностика заболеваний. Если загрузить данные осмотра и диагностики в программу, ее можно научить ставить диагнозы примерно так же, как это делают врачи. Например, искусственный интеллект Corti прослушивает звонки в скорую помощь и распознает остановку сердца на основе ответов звонящих, их голоса и дыхания. В одном эксперименте программа распознала 93,1% остановок сердца, люди обычно распознают 72,9%. Кроме того, Corti работает быстрее — ставит диагноз за 48 секунд против 79 у диспетчеров-людей. Сейчас систему внедряют в нескольких европейских городах — она будет работать в службе спасения вместе с диспетчерами. На видео слышно, как ИИ разговаривает с человеком, позвонившим в скорую. Автоматические роботизированные операции. Машинное обучение помогает учить медицинских роботов самостоятельно оперировать пациентов, учитывая множество факторов. В Калифорнийском университете роботу «показали» 78 фильмов об операциях, чтобы научить его накладывать швы. Благодаря такому обучению робот смог зашивать поддельные раны, правда, с точностью около 85% — для реальной работы этого пока недостаточно. Возможно, в будущем таких роботов можно будет использовать для автоматизации некоторых операций. На видео — процесс обучения робота. Применение машинного обучения в ритейле и маркетинге: предсказание действий покупателей и контроль товарных остатков Прогнозирование действий покупателей, персонализированные предложения и реклама. Обученный алгоритм может предсказывать поведение клиентов: определять, кто в ближайшее время совершит покупку; понимать, кто какие товары предпочитает, чтобы их рекомендовать; предлагать персонализированные скидки, чтобы стимулировать покупки. Например, сеть косметических магазинов «Рив Гош» использует машинное обучение, чтобы рассылать клиентам персональные предложения. Программа определяет, кто из покупателей может совершить покупку в ближайшие две недели, какие товары им лучше предложить и на что выдать скидку. У покупателей, с которыми работала система, средний чек выше на 42%, а повторные обращения за покупками составили 47%. Банк Уралсиб тоже использует машинное обучение для персонализированных предложений. Например, система находит клиентов, которым не важен процент по кредитной карте, но важен кредитный лимит и продолжительность льготного периода. Им банк предлагает кредитки с повышенным лимитом. Персонализация уже помогла повысить продажи некоторых продуктов на 25%. Прогнозирование спроса и автоматизация закупок. Машинное обучение помогает анализировать действия покупателей и товарные остатки, чтобы понять, что, когда и в каких количествах закупить. Британская сеть супермаркетов Morrisons использует машинное обучение, чтобы предсказывать, какие товары и когда будут покупать. Система учитывает множество факторов, например, праздники и погоду. В итоге сети удалось на 30% сократить разрывы в поставках. Больше примеров применения машинного обучения в ритейле читайте в статье «Как Machine Learning повышает продажи». Зарегистрируйтесь на платформе VK, чтобы разрабатывать приложения на основе машинного обучения Начало формы Укажите корпоративную почту. Для адресов на бесплатных доменах может потребоваться дополнительная проверка. Пароль Регистрируясь, вы соглашаетесь с Условиями использования сервиса, Политикой конфиденциальности и соглашением об информационном взаимодействии Регистрация Конец формы Есть аккаунт? Войти Создавайте приложения на основе глубокого обучения без развертывания своей инфраструктуры Используйте популярные инструменты и фреймворки без трудоемких настроек Установленные и настроенные сервисы обучения нейронных сетей и драйверы. Все возможности платформы Машинное обучение в логистике: экономия ресурсов и предотвращение сбоев в поставках Экономия топлива и повышение производительности транспорта. Топливо — одна из главных статей расходов в логистике. С помощью машинного обучения можно сократить его расход: оптимизировать маршруты или понять, как сократить количество автомобилей, сохранив производительность. Морское подразделение компании Caterpillar внедрило машинное обучение, чтобы экономить ресурсы. Компания установила датчики на оборудование кораблей и выяснила: большее количество генераторов на меньшей мощности работают эффективнее, чем максимальное использование нескольких генераторов. Это решение сэкономило за год более 650 тысяч долларов. Предотвращение сбоев в поставках. Задержка даже одного транспортного средства приводит к сбою во всей цепочке поставок: простоям, потере денег и недовольству клиентов. Машинное обучение помогает этого избежать: предсказывает риски, помогает вовремя их предотвращать и корректировать время доставки с учетом всех факторов. Компания DHL использует искусственный интеллект Supply Watch. Он отслеживает различные риски: погодные условия, экологические факторы, загруженность дорог и даже уровень преступности, чтобы заранее информировать клиентов о возможных задержках в поставках. Перспективы применения машинного обучения В 2020 году 34% компаний в Европе, США и Китае используют искусственный интеллект и машинное обучение. По оценкам экспертов, к 2024 году рынок машинного обучения вырастет на 42%. Согласно опросу Algorithmia, в 2020 году компании чаще всего используют машинное обучение, чтобы сократить расходы, лучше понимать поведение клиентов и улучшать клиентский сервис. Читать по теме: В какие технологии инвестирует ритейл: новое исследование Forrester. Как понять, что нейросеть решит вашу проблему: прагматичное руководство. Как биометрия меняет индустрию IoT. |