Диссертация. Основам искусственного интеллекта и анализа данных в курсе информатики на уровне среднего общего образования Научная
Скачать 4.76 Mb.
|
Mining) – процесс аналитического исследования больших массивов информации (в основном экономического характера) с целью выявления важных (полезных) закономерностей и систематических взаимосвязей между объектами, которые можно применить к новым совокупностям данных [14]. Это наиболее практически значимая область больших данных. Е задачей является поиск практически полезных нетривиальных интерпретаций знаний, что актуально для экономических исследований, включая маркетинг, логистику и другие области, не имеющие прямой связи с экономикой. 30 Интеллектуальный анализ данных (Data Mining) и процедуры, её решающие, появились как расширение бизнес-анализа (англ. Business Intelligence), способное работать с большими данными, выявляя новые связи между признаками объектов и доступных интерпретаций знаний, которые необходимы для принятия решений в различных профессиональных областях деятельности человека [45]. В отличие от методов бизнес-анализа, Data Mining предусматривает обработку большего количества данных, имеет менее требовательные условия для входящих данных (большая универсальность алгоритмов и их масштабируемость для разных задач, но главное – позволяет выявить неочевидные для человека сведения и прогнозы. Например, с помощью генетических алгоритмов, которые могут развиваться безучастия учителя. Методы интеллектуального анализа – один из шагов исследования знаний в базах данных (англ. Knowledge Discovery in Databases (KDD)) [153]. В свою очередь, KDD является одним из компонентов науки о больших данных англ. Big Data), которые входят в науку о данных (Data Science). Вместе стем (наука о данных) в целом ив частности отличаются от остальной деятельности программных инженеров тем, что цель и задача исследования в них может итеративно обновляться и уточняться в зависимости от результатов первичного анализа данных. Данная область развивалась в тесной связи с запросами не только научного сообщества, но и бизнеса. Каково же состояние области сегодня, сохраняется ли её актуальность, идёт ли развитие Какие направления ИИ наиболее востребованы сегодня Интерес и материальная поддержка со стороны государства в значительной мере влияет на развитие отрасли в Российской Федерации. Основной клиент российских ИИ-копаний – это бизнес бизнес-аналитика или же применение ИИ-решений в сфере B2B. Среди областей 31 искусственного интеллекта лидирует решение вопросов компьютерного зрения и системы обработки естественного языка в медицинских целях. Дополнительным плюсом для развития области, несомненно, является тенденция, в том числе коммерческих компаний, занимающихся исследованиям в области ИИ, к обнародованию своих анализов и других проектов. В данном случае речь идёт не только о зарубежном опыте, но и о российских коллективах и брендах, например, «Яндекс». Заметна и тенденция к публикации изначально открытых проектов и открытого API и иных программных продуктов (TensorFlow, Theaono, Microsoft Cognitive Toolkit, Torch и другие, включая коммерческими компаниями, ранее не публиковавшими свои коды открыто, т.к. это приводит к использованию больших вычислительных возможностей и большему количеству вклада со стороны пользователей, их вовлечённости, но, главное, публикация даже для использования (а не редактирования) продуктов массово приводит к расширению данных для обучения и обратному отклику в случае проблем переобучения. Кроме распределённых вычислений, которые также стали использоваться чаще (особенно для проектов, связанных с индустрией медиа), стоит отметить возросшее количество загрузок кода в открытых проектах. Так в 2018 году к проекту Keras было добавлено 629 новых участников, а к PyTorch – 399 [188]. Общее количество активных разработчиков, участвующих в загрузках на GitHub в топ 20 проектах по искусственному интеллекту и машинному обучению, отображено на рис. 1. 32 Рис. Топ 20 открытых проектов пои машинному обучению на Github Поданным, в 2018 году около 500 экономически успешных проектов стали публичными. Массовость для проектов оказывается фактором, способствующим экономической выгоде, вопреки предыдущему опыту компаний, выпускающих проприетарное ПО. Естественно, что огромная часть потребления ИИ и машинного обучения отводится на сектор промышленной робототехники и носимых гаджетов. Несмотря на различие областей, они оказывают значительное влияние на нашу жизнь. Вместе с довольно оптимистичными прогнозами и результатами, в области AI/ML существует ряд острых проблем и приводящих к ним факторов. На первом месте среди факторов, ограничивающих развитие отрасли, относится общая неподготовленность бизнеса к внедрению подобных технологий. Кроме того, многие люди не осознают, что используют ИИ, поскольку не понимают, что это такое. Согласно отчётам Adobe, из опрошенных пользователей сервисов, использующих интеллектуальные алгоритмы, только 33% осознавали, что используют ИИ. 33 Хотя ранее было обозначено, что увеличивается число открытых проектов и открытых исследований, число последних всё ещё достаточно мало. Поданным, опубликованным в сентябре 2018, число публичных исследований в 2017 году было распределено неравномерно (см. рис. 2). К сожалению, в России мы можем выделить концентрированные очаги таких исследований, однако в целом по стране количество публичных исследований и проектов достаточно мало. Рис. 2. Количество опубликованных исследований по ИИ в 2017 году по странам Второй по значимости фактор касается нехватки квалифицированных специалистов – как в России, таки за рубежом. Поданным, типичный специалист со степенью доктора и темой по ИИ может рассчитывать на заработок от 300 000 до 500 000 долларов в год, однако даже такой высокий спрос не способствует увеличению специалистов. Несмотря на то, что вузы готовят выпускников, зачастую им не хватает практики на реальных больших данных и с реальными кейсами. 34 Дополнительным ограничением является нежелание во многих компаниях брать на должности, связанные с IT (включая AI/ML), женщин. В нашей стране мы также имеем низкую информированность и подготовленность среди абитуриентов. Несмотря на то, что ранее упоминалась нехватка практики у выпускников профильных вузов, следует учитывать, что в России в активной фазе находится проект по открытию и развитию инжиниринговых центров при высших учебных заведениях, занимающихся коммерческими и иногда военными заказами (например, инжиниринговый центр Композиты России при МГТУ им. Баумана в качестве основного заказчика сотрудничает с военным сектором (включая гособоронзаказ), успешно реализуя на практике робототехнические решения с элементами ИИ). Также повышается интерес к студенческим стартапам, включая проекты в области ИИ, которые могут быть приняты в качестве курсовой или выпускной работы в ряде вузов уже сегодня (например, ВШЭ). Дополнительной мотивацией для подобных студенческих активностей становятся конкурсы, проводимые бизнесом, например, в рамках EdCruch (для проектов. На 2017 год, согласно исследованию SAP (https://www.sap.com/), в 286 российских вузах реализовывались магистерские профильные программы по машинному обучению, анализу данных, компьютерной лингвистике и т.д. – это около 50 тысяч студентов по 65 специальностям. Зачастую вузы и НИИ становятся теми самыми географически неравномерно распределёнными центрами исследований и публикаций см. Табл. 1]. Это связано, в том числе, с вопросами финансирования на государственном уровне. 35 Таблица 1. Лидеры по количеству проектов среди вузов и НИИ на 2017 год Сфера применения ИИ Вуз или НИИ, лидирующий в области Количество проектов Анализ данных ИТМО 19 МГУ 17 Системы поддержки принятия решений ИТМО 27 МЭИ 12 Распознавание изображений и видео Институт систем обработки изображений РАН 17 Южно-Российский государственный университет экономики и сервиса 13 Распознавание текста и речи НИИ Прикладная семиотика 9 Центр речевых технологий 9 Также интересен факт, что искусственный интеллект и его применение непросто давно перестали быть достоянием секретных лабораторий — теперь в гаджеты и компьютеры встраиваются специальные сопроцессоры с искусственным интеллектом, в том числе в смартфонах, планшетах, колонках, носимых гаджетах, маршрутизаторах и сетевом оборудовании и т.д. На рисунке представлен прогноз от Deloitte, где показано увеличение установок чипов с искусственным интеллектом на различные устройства с 2020 по 2024 год в миллионах единиц. Например, мы видим, что количество смартфонов с дополнительным процессором для обработки ИИ вырастет вдвое (см. рис. 3) [178]. 36 Рис. 3. Прогнозируемые продажи устройств с чипами искусственного интеллекта в мире с 2020 погода в миллионах устройств Согласно отчётам исследовательской компании Gartner, к 2020 году ИИ в виде сервисов присутствует практически в каждом новом программном обеспечении или сервисе, включая облачные и использующие интерфейс. Через десять лет после этого, согласно статистике и прогнозам от PricewaterhouseCoopers, мировой ВВП вырастет на 14%, благодаря применению машинного обучения и других интеллектуальных алгоритмов. Согласно исследованиям Narrative Science, 61% компаний, имеющих стратегии в области инноватики, используют искусственный интеллект для выявления возможностей/закономерностей в данных, которые в противном случае были бы упущены, что уже повысило их продуктивность и охваты. В тоже время, агентство Accenture отмечает, что прогнозируется, что влияние технологий искусственного интеллекта на бизнес повысит 37 производительность труда дои позволит людям более эффективно использовать свое время. В настоящее время наблюдается значительный рост стартапов, связанных с искусственным интеллектом и разработкой продуктов для образования. Поданным, было два пика возникновения таких стартапов: 2013-2014 (основная тема контроль знаний и управление образовательной средой) и 2017-2018 (основная тема прокторинг и корпоративное обучение, характеризующиеся разной тематической направленностью. Область постоянно трансформируется в зависимости от потребностей потребителя. Сегодня мы наблюдаем рост проектов, связанных с анализом больших данных, формирующих цифровой след обучающегося и преподавателя. Проекты, связанные с машинным обучением, в основном, направлены на персонализацию обучения (включая составление индивидуального образовательного маршрута. Как ив случае с общим количеством исследований и стартапов в области ИИ, образовательные стартапы в данной области также в основном сосредоточены в США (50%), а второе место занимает Китай (5%). Кроме того, согласно тому же источнику, более 70% венчурного капитала EdTech в целом принадлежит Китаю и Индии, имеющих наиболее масштабную государственную политику в отношении ИИ и глубокого обучения. 38 1.2. Искусственный интеллект в образовании (AIEd) Искусственный интеллект в образовании (Artificial Intelligence in Education, вырос из одной из сфер прикладного применения науки об искусственном интеллекте, а также изучения её теоретических основ. Новая волна интереса к инженерным профессиям заимствовала из ИТ-сферы подходы и понятия в другие области. Например, манифест разработки программного обеспечения стал использоваться достаточно широко в экономике и образовании. Перенесённые в сферу образования, подобные методы и подходы получили приставку Ed (см. рис. 4). Рис. 4. Взаимное влияние технологий и содержания образования Первое упоминание об AIEd относится к 1975 году, где искусственный интеллект рассматривается не только как помощник в контроле, но и как часть содержания (сложное программирование, причём в разных источниках. В 1997 году создаётся International AIED Society (IAIED) – международное сообщество по искусственному интеллекту в образовании, действующее до сих пор. Сегодня существует множество международных 39 организаций, занимающихся вопросами искусственного интеллекта и школы. Искусственный интеллект в образовании (AIEd) можно разбить на две больших категории по сфере и принципу его применения (см. рис. 5): 1. Сопровождение учебного процесса и досуговой деятельности информатизация образования оценивание результатов тестирования, составление эмоциональных карт обучающихся, прогнозирование результатов, и прочее, относящееся к внешнему контролю со стороны преподавателей и психологов (на всех уровнях образования интеллектуальные помощники и тьюторы при дистанционном обучении, интеллектуальные компаньоны (в основном, чат-боты) для имитации групповой деятельности, напрямую взаимодействующие с обучающимися (начиная с начального общего образования или основного общего образования. 2. Изучение основ искусственного интеллекта в качестве содержания учебного предмета информатики (на уровне среднего общего образования • введение в науку об искусственном интеллекте изучение задач искусственного интеллекта, рассмотрение основных подходов и школ ИИ, знакомство с наукой о данных • робототехника переход от систем автоматизации к настоящей робототехнике (как одной из задач искусственного интеллекта, включающей применение алгоритмов компьютерного зрения и обработки больших массивов данных сюда же относится работа с Интернетом вещей (Internet of Things, IoT); 40 изучение интеллектуальных алгоритмов, применяемых в экономике, социологии и других областях, введение в Text Mining, Data Mining и т.д.: применение готовых решений (пакетов и библиотек) с графическим интерфейсом изучение с составлением алгоритмов на языках Python, C++ и других (углублённый уровень курса информатики на уровне среднего общего образования экспертные системы применение экспертных систем, создание онтологий; написание собственных информационных систем (углублённый уровень курса информатики нейронные сети изучение принципа работы нейронных сетей с применением готовых решений (например, CNTK или Microsoft Azure); написание простых реализаций персептрона, многослойной сети например, нас применением библиотеки keras). Рис. 5. Искусственный интеллект в образовании Компания HolonIQ выделяет следующее применение ИИ в образовании (области AIEd, исключая содержание образования, о котором мы будем говорить позднее отдельно 41 компьютерное зрение проверка вовлеченности студентов в образовательный процесс, контроль от списывания, создание безопасной среды и т.д.; голосовое взаимодействие речевые интерфейсы в целом, системы дебатов и т.д.; языковые средства помощь в обучении иностранным языкам, переводи т.д.; сложные алгоритмы глубинное обучение, исследование цифрового следа, индивидуализация в последующем персонализация) образовательного процесса аппаратные системы организация образовательной среды и т.д. В применении искусственного интеллекта для информатизации образования существуют две больших проблемы, которые на данный момент довольно трудно решить проблема выстраивания единой среды взаимодействия и проблема отделения шума в анализируемых больших данных. Кроме того, зачастую обычная школа не может позволить себе внедрение подобных систем экономически, поскольку, кроме покупки, они требуют постоянного дорогостоящего обслуживания и использования внешних мощностей (например, дата-центров). Существуют также трудности с правовой точки зрения — неоднозначно трактуемые формулировки об оказании услуг провайдерами и хранение и обработка данных о несовершеннолетних третьими лицами. Говоря о внедрении технологии искусственного интеллекта для сопровождения образовательного процесса, обычно подразумевают комплексные решения, касающиеся всего образовательного учреждения или даже комплексов из множества учреждений. Однако такие решения обычно требуют не только больших денежных ресурсов, долгого времени на согласование и внедрение, но и юридически оформляются сложнее, чем точечное применение инструментов машинного обучения. Частные 42 инструменты оказываются в более выгодном положении, поскольку они могут быть применены непосредственно школьным учителем или преподавателем ссуза или вуза, не требуя полного подключения всего учебного заведения ив случае работы с обезличенными данными, дополнительных согласований. Для понимания, рассмотрим пример такого частного случая как анализа данных обучающихся преподавателем робототехники. Поскольку в обязанности учителя входит урочная и внеурочная деятельность, в том числе подготовка к соревнованиям в рамках внеурочной деятельности по информатике или технологии, рассмотрим применение инструментов, которые бы уменьшили затраты временных ресурсов учителя. Допустим, требуется разбить обучающихся на группы для участия в различных соревнованиях в зависимости от их предпочтений. Группы могут пересекаться, поэтому в качестве классификатора для будущей модели был выбран алгоритм нечёткой кластеризации методом средних центроидов (fuzzy c-means), так как он предусматривает пересечение кластеров, а также является достаточно простым в использовании, поскольку входит в состав готовых модулей для Python. Иначе fuzzy c-means в сокращенном названии звучит как FCM. Данный инструмент встречается в ряде известных программных продуктов, например, MATLAB [138]. Этот алгоритм встречается в следующих модулях • Fuzzy Logic Toolbox, иначе scikit-fuzzy; • fuzzy-c-means; • PEACH; • другие. При анализе данных обычно рассматриваются большие данные, но такие алгоритмы также можно применять на небольших выборках. Данные ответов могут быть внесены с клавиатуры как готовая таблица, либо импортированы как файлы csv с разделителем-запятой. 43 Для работы с таблицами потребуется установить в среду пакет pandas. pip install pandas Небольшой скрипт ввода данных с клавиатуры может иметь следующий вид import csv import pandas as pd ДОБРО ПОЖАЛОВАТЬ В ИНСТРУМЕНТ ОБРАБОТКИ ОПРОСА) with open('review.csv', mode='w', encoding="UTF-8") as table: table_editor = csv.writer(table, delimiter=',', quotechar='"', quoting=csv.QUOTE_NONNUMERIC) header = Введите названия столбцов таблицы, разделяя их запятой \n') table_editor.writerow(header.split(',')) Заполните таблицу. Каждый ответ начинайте с новой строки, внутри используйте запятую. Для прекращения записи введите "стоп) while True: answers = input() if answers == 'стоп Ввод данных завершён. Спасибо) 44 break table_editor.writerow(answers.split(',')) Работа с таблицей завершена. Таблица сохранена) Введенные данные в таблицу "Ответы' ) df = pd.read_csv('review.csv') print(df) Допустим, опрос предусматривал ответы в формате «да/нет» овладении тем или иным инструментом языком программирования, программной и аппаратной платформой. Рассмотрим поля таблицы – это цифровой код обучающегося, в данном случае совпадал с номером строки в формате «001». Является строковой переменной, может содержать любое содержание внутри, например, номер класса. Здесь используется для демонстрации учителю возможностей работы с отсечением лишних данных |