Курсовая по лингвистике. курсовая работа. Пояснительная записка к курсовой работе (проекту)
Скачать 197.54 Kb.
|
Минобрнауки России Федеральное государственное бюджетное образовательное учреждение высшего образования «Волгоградский государственный технический университет» Факультет ______Электроники и вычислительной техники_______ Кафедра ___Системы автоматизированного проектирования и ______________ ___________Поискового Конструирования______________________ ПОЯСНИТЕЛЬНАЯ ЗАПИСКАк курсовой работе (проекту) по дисциплине ______Компьютерная лингвистика_______________ на тему____Парсинг сайта новостей «Волгоградская Правда»_____________ _______________________________________________________________ Студент _______Гордеев Павел Львович____________________________ (фамилия, имя, отчество)Группа______ИВТ-365___ Руководитель работы (проекта) ________________________ ___Коробкин Д. М.____ (подпись и дата подписания) (инициалы и фамилия) Члены комиссии: _____________________ ____________________________ (подпись и дата подписания) (инициалы и фамилия) _____________________ ____________________________ (подпись и дата подписания) (инициалы и фамилия) _____________________ ____________________________ (подпись и дата подписания) (инициалы и фамилия) Нормоконтролер ______________________________ _____________________________ (подпись, дата подписания) (инициалы и фамилия) Волгоград 2021 г.Минобрнауки России Федеральное государственное бюджетное образовательное учреждение высшего образования «Волгоградский государственный технический университет» Факультет _____Электроники и вычислительной техники_______ Направление (специальность)_____Информатика и вычислительная техника__ Кафедра _____ Системы автоматизированного проектирования и_______ _________________________Поискового Конструирования_________ Дисциплина ____Компьютерная лингвистика___________________
Заданиена курсовую работу (проект)Студент ________Гордеев Павел Львович_______________ (фамилия, имя, отчество)Группа____ИВТ-365______ 1. Тема: ________ Парсинг сайта новостей «Волгоградская Правда»_____ Утверждена приказом от «_____» ______________ 20___ г. № _________ 2. Срок представления работы (проекта) к защите «___»_______________20__ г. 3. Содержание расчетно-пояснительной записки: __________________________ ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 4. Перечень графического материала: ____________________________________ ________________________________________________________________________________________________________________________________________ 5. Дата выдачи задания «_____» ____________________20 ___ г. Руководитель работы (проекта)_______________________ ___Коробкин Д.М_ подпись, дата инициалы и фамилия Задание принял к исполнению________________________ __________________ подпись, дата инициалы и фамилия 1 Модуль парсинга сайта Вариант: 4 Задание: Распарсить сайт из списка и вывести в web-интерфейсе данные согласно номеру задания. Краулер должен считывать новостную ленту с первой страницы сайта. Периодичность повторения устанавливается пользователем. Данные заполняются в БД MongoDB. Обязательные поля для текста новости: - Название новости - Дата новости - Ссылка на новость - Текст новости - Ссылка на видео (если есть) - Количество просмотров новости (если есть) - Количество комментариев новости (если есть) При очередном проходе краулера для существующих в БД новостей (определяется по -Название новости, Дата новости, Ссылка на новость) поля количества просмотров и комментариев обновляются. Сайт: http://vpravda.ru/ Библиотеки использованные в программе PyMongo – библиотека для работы с базой данных MongoDB в Python. Requests – библиотека для отправки запросов к сайту. BeatifulSoup – библиотека для извлечения данных из HTML. Описание работы программы парсинга сайта новостей Программа получает ссылки на страницы новостей, затем парсит из них нужную информацию. После получения информации о новостной статье, идет запись этой новости в БД. База данных MongoDB: Рисунок 1 – база данных с новостями Вывод новостей в консоль: Рисунок 2 – вывод таблиц из базы данных в консоль |