Главная страница

Отчет по практике. Отчёт по практике. Отчет по учебной практике "Парсер контента" Студент группы оаб 09. 03. 03 31э Кузнецов Станислав Анатольевич


Скачать 0.71 Mb.
НазваниеОтчет по учебной практике "Парсер контента" Студент группы оаб 09. 03. 03 31э Кузнецов Станислав Анатольевич
АнкорОтчет по практике
Дата20.05.2020
Размер0.71 Mb.
Формат файлаdocx
Имя файлаОтчёт по практике.docx
ТипОтчет
#124072

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФГБОУ ВО «Удмуртский государственный университет»

Институт математики, информационных технологий и физики

Кафедра теоретических основ информатики

Сроки прохождения практики: с 01.06.2019 г. по 14.06.2019 г.

(в соответствии с календарным учебным графиком)

ОТЧЕТ ПО УЧЕБНОЙ ПРАКТИКЕ

"Парсер контента"

Студент группы ОАБ 09.03.03 31э__________Кузнецов Станислав Анатольевич

Руководитель практики

от университета __________________________ Логов Алексей Генритович

Дата сдачи

Дата защиты

Оценка __________________

Ижевск 2020

Оглавление

Оглавление


Введение 3

Постановка задач 4

Описание метода решения 5

Заключение 7

Список источников 8

Приложения 9


Введение


Современный сайт на просторах сети Интернет — это, прежде всего, источник уникальной и полезной информации. Люди в сети ищут нужную им информацию, будь то погода, новости, товары или услуги.

Для поиска по Всемирной паутине используют, специально сделанные для этого, поисковики. Каждому сайту необходим свой поисковик, который помогает найти, нужную для пользователя, информацию.

Парсер позволяет собирать и анализировать информацию с интересующего нас сайта. Другими словами, мы можем добыть все необходимые нам данные — тексты, изображения, номера телефонов и другую информацию которая есть сайтах.

Постановка задач


Для достижения результата определены следующие задачи:

1. Изучить тематический материал;

2. Проанализировать методы извлечения информации со сторонних

веб-сайтов;

3. Разработать парсер;

Описание метода решения


В качестве примера возьмем новости футбола с сайта bombardir.ru. Цель - спарсить главные новости и статьи из центральной блока (Рис. 1).

Рис. 1

Работа парсера основана на библиотеке phpQuery.

  1. Url сайта помещаем в переменную $site.



  1. С помощью file_get_contents считываем весь контент с сайта.



  1. Создаем объект phpQuery и вызываем метод newDocument. В качестве входящего параметра мы передаем контент, который находится в переменной $file.




  1. В инспекторе кода на сайте выясняем, что блок с новостями находится в контейнере с классом .soc-news. Каждая новость находится в блоке .soc-text a. Из этой ссылки мы вытащим заголовок новости и ссылку на новость.




  1. В переменную $newsItems заносим элементы новостей.




  1. Воздаем пустой массив $news, в который запишем нужные нам данные.



  1. В цикле на каждый элемент создаем объект $newsItem. Затем вытаскиваем заголовок и ссылку в $title и $link и проверяем наличие строки домена в ссылке.



  1. И в конце полученные данные помещаются в массив $news. Со статьями из центрального блока делаем то же самое.

Результат работы парсера:



Рис. 2

Заключение


Благодаря этой работе я приобрел навыки разработки простейшего парсера. Познакомился с библиотекой phpQuery, которая значительно упрощает труд разработчика. И в целом обновил свои знания языка PHP.

Список источников





  1. Портал по PHP MySQL и другим веб-технологиям [Электронный ресурс] / http://www.php.su/

  2. Руководство по PHP [Электронный ресурс] / https://www.php.net/manual/ru/index.php


Приложения





Рис. 3



Рис. 4



Рис. 5



Рис. 6

Рис. 7


написать администратору сайта