ИЗВЛЕЧЕНИЕ ОСНОВНОГО СОДЕРЖИМОГО ИЗ ВЕБ-СТРАНИЦ НА ОСНОВЕ АНАЛИЗА ВИЗУАЛЬНЫХ ХАРАКТЕРИСТИК ЭЛЕМЕНТОВ И ПРЕОБРАЗОВАНИЯ В JSON ФОРМАТ

УДК 004.023

  • Каргин Николай Сергеевич – магистрант кафедры информационных систем и технологий. Белорусский государственный технологический университет (220006, г. Минск, ул. Свердлова, 13а, Республика Беларусь). E-mail: hello@karh.in

  • Гурин Николай Иванович − кандидат физико-математических наук, доцент кафедры информационных систем и технологий. Белорусский государственный технологический университет (220006, г. Минск, ул. Свердлова, 13а, Республика Беларусь). E-mail: ngourine@mail.ru

Ключевые слова: веб, браузеры, HTML, CSS, JSON. 

Для цитирования: Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60.  DOI: https://doi.org/10.52065/2520-2669-2021-242-2-54-60.

Аннотация

В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц.

Список литературы

  1. State of the Web [Электронный ресурс] // HTTPArchive, 2020. URL: https://httparchive.org/reports/state-of-the-web (дата обращения: 05.11.2020).
  2. AMP on Google [Электронный ресурс] // Google Developers. URL: https://developers.google.com/ amp (дата обращения: 05.11.2020).
  3. Турбо-страницы для владельцев сайтов [Электронный ресурс] // Яндекс. URL: https://yandex.ru/adv/turbo (дата обращения: 05.11.2020).
  4. SPA (Single-page application) [Электронный ресурс] // MDN. URL: https://developer.mozilla.org/en-US/docs/Glossary/SPA (дата обращения: 05.11.2020).
  5. Top 15 Most Popular News Websites [Электронный ресурс] // eBiz, 2020. Август. URL: http://www.ebizmba.com/articles/news-websites (дата обращения: 05.11.2020).
  6. Custom Elements [Электронный ресурс] // W3C, 2018. 3 мая. URL: https://www.w3.org/ TR/custom-elements/ (дата обращения: 05.11.2020).
  7. Puppeteer v 5.4.1 [Электронный ресурс] // Puppeteer. URL: https://pptr.dev (дата обращения: 05.11.2020).
  8. The Open Graph protocol [Электронный ресурс] // Facebook, 2010. URL: https://ogp.me (дата обращения: 05.11.2020).
Поступила 12.01.2021