2 главы. Введение анализ проблемы и ее современного состояния
Скачать 436.2 Kb.
|
1 2 2.2.1. Структура решения задачиДекомпозиция контекстной диаграммы определяет подзадачи системы (рис. 3). Всего выделены четыре подзадачи из верхнего уровня: предварительная обработка текстов, создание векторного представления слов, извлечения аспектов и тональностей и расчет оценок тональностей. В первой подзадаче на вход поступают научные тексты , проводится их предварительная обработка путем удаления стоп-слов, удаления знаков пунктуации и приведение в нормальную форму. В качестве управления выступают требования к предобработке текста, в качестве механизма – модуль предобработки. Создание векторного представления слов создает представление слов, полученных с предыдущей задачи, выход подзадачи является входом для задачи извлечения аспектов и тональностей, выполняет задачу соответствующий модуль ПО, в качестве управления используется дистрибутивная семантика. На последнем этапе полученные множества аспектов и тональностей объединяются, и вычисляется оценки тональности по каждому отзыву, а затем общие оценки тональности для каждой категории на уровне вуза. В управлении находятся требования к расчету тональности, в механизмах – методы статистики. Рисунок 2.2.– Структура решения задачи 3.2. Концептуальные положения реализации тематического моделирования Предлагаемое программное решение для достижения цели должно выполнять ряд последовательных задач (рис. 3): осуществление сбора данных; выполнение предобработки данных; извлечение аспектных терминов и определение тональностей; агрегирование извлеченных аспектных терминов и тональностей; производить расчет оценки тональности по каждой категории; выдавать полученный результат в удобном виде. Сбор данных должен производиться путем парсинга с сайтов в сети Интернет, затем собранные данные должны быть предобработаны, путем использования методов предобработки: удаления стоп-слов, удаление знаков пунктуации, представления в нормальной форме. После чего и представлены в виде векторного представления слов для последующей обработки методами машинного обучения, планируется использование нейронной сети в качестве модели. На выходе этапа «Извлечение аспектных терминов и определение тональности» будет множество аспектных терминов и множество соответствующих им тональностей, которые на этапе «Агрегирование аспектов и тональностей» объединяются в пары аспектная категория – тональность. Расчет общей оценки по аспектным категориям проводится с использованием соответствующего разработанного метода. На последнем этапе данные представляются пользователю в удобном визуальном представлении. В качестве модели выступает рекуррентная нейронная сеть, принцип – принцип работы нейросети. Ограничения основаны на типах входных данных и на основе имеющегося аппаратного обеспечения. Рисунок 1.3. - Концепция определения тональности аспектных категорий 3.4. Требования к программному обеспечению Требования к программному обеспечению. Функциональные требования к программному обеспечениюФункциональные требования определяют поведение системы, описывая действия, которые система способна выполнять. Исходя из целей программного обеспечения, должны поддерживаться следующие функциональные требования (рис. 6): Проведение анализа: Предобработка текстов; Извлечение аспектов и тональностей; Агрегирование аспектов и тональностей; Расчет оценки тональности по аспектным категориям; Предоставление выбора текста; Представление возможности просмотра выбранного текста по аспектным категориям; Импорт и экспорт данных. Рисунок 3.4. - Диаграмма вариантов использования В существующих вариантах использования программного обеспечения есть несколько акторов. За исключением модулей являющихся частью системы, выделено два актора: пользователь и администратор. У пользователя есть только два варианта использования программного обеспечения: выбор интересующего вуза и просмотр отзывов и оценок тональности по аспектным категориям. У администратора доступны варианты использования: загрузка и выгрузка данных, запуск процесса анализа, направленного на получения оценок тональности по аспектным категориям. Процесс анализа включает в себя несколько вариантов: предобработка данных, извлечение аспектов и тональностей, агрегирования и расчета оценок тональностей. Для каждого варианта использования администратором или пользователем составлена диаграмма последовательности (рис. 7-9). Рисунок 3.5. - Диаграмма последовательности загрузки данных Рисунок 3.6. - Диаграмма последовательности проведения анализа для определения оценок тональностей по аспектным категориям Рисунок 3.7. –Диаграмма последовательности выбор текста и тональностей по аспектным категориям Нефункциональные требования Нефункциональные требования описывают, какими характеристиками и свойствами система должна обладать, в данном случае ставятся следующие требования: простотой и удобный пользовательский интерфейс программного обеспечения; безопасность: разграничения доступа к функциям системы; надежность: устойчивость к внештатным ситуациям; переносимость: возможность использования программного обеспечения с разных платформ. Системные требования Под системными требованиями понимают характеристики, которыми должен обладать компьютер, чтобы программное обеспечение могло на нем работать. На стороне сервера и сервера приложений должны выполняться следующие системные требования: жёсткий диск объемом не менее 500 Гб; процессор с частотой не менее 4,2 ГГЦ; оперативная память объемом не менее 8 Гб. наличие Python 3.7+, библиотеки для python – Scikit-learn, NLTK, PyTorch, Django, pymorphy2, pandas, Gensim, Django REST framework, Node.JS; операционная система — Windows 10, Windows Server 2019 ,Windows Server 2016; Компьютер клиента должен соответствовать следующим системным требованиям: жёсткий диск объемом не менее 2 Гб; процессор с частотой не менее 2.2 ГГЦ; оперативная память объемом не менее 1 Гб; операционная система — Windows 7/8/10, Linux, MacOS, Android, iOS. наличие современного веб-браузера (не поддерживается Internet Explorer). Организационные требования к системе защиты регулируют административные и процедурные мероприятия, программное обеспечение должно удовлетворять следующим требованиям: Серверная часть приложения должна быть разработана на языке программирования Python с использованием фреймворка Django; Клиентская часть приложения должная быть написана на HTML, CSS, JavaScript, ReactJS. Выводы по второй главеРазработана концепция программного обеспечения, определены ограничения и принципы в соответствии, с которыми должна работать программа, в качестве моделей определены нейронная сеть и дистрибутивно-семантическая сеть, описана последовательность решаемых задач. Сформулирована формальная постановка задачи и описана структура решения задачи в виде диаграммы IDEF0. Структура решения задачи состоит из четырех последовательных этапов: предобработки данных, создание векторного представления, извлечения аспектов и тональностей, агрегирования аспектов и тональностей и расчета оценок тональностей по аспектным категориям. Сформулированы требования к программному обеспечению: функциональные, нефункциональные, системные, организационные. 3. Математическое, (методическое), информационное, программное обеспечение 3.1. Методика определение тематики текста (Может быть лучше математическое обеспечение) 1 2 |