2021-08-18 15:37:32
Новый парсер в A-Parser'еПосле моего вопроса в публичном чате A-Parser'а о возможности подключения библиотеки
Readability.js (лучшая альтернатива устаревшей библиотеке
Boilerpipe), которая в большинстве случаев вытаскивает тело контента из документа, команда A-Parser внедрили полноценный парсер
HTML::ArticleExtractor в альфа-версии! Приятно, что принес пользу коллегам.
Судя по переменным, которые доступны, можно извлекать контент, как с html тегами, так и без них, получать title страницы, длину статьи, автора, название сайта, description или короткую выжимку контента, в общем, доступен весь функционал библиотеки + настройки как в парсере
HTML::TextExtractor, благодаря которым я паршу даже самые стойкие сайты.
Использовать данный парсер можно:
- Для извлечения контента с сайтов собранных из топа поисковых систем и последующего использования для генерации контента.
- На автомате извлекать и затем анализировать контент посредством API сервисов, библиотек обработки естественных языков (NLP).
- Извлекать контент, затем прогонять через встроенный в A-Parser
Deepl::Translator, чтобы на автомате переводить тексты на другие языки.
- Также для контента, который прогнали через переводчики, можно сделать обратный перевод, что в ряде случаев приводит к рерайту статьи на языке оригинала.
И многие другие варианты применения...
Кстати, для очистки контента от ненужных пробельных символов нужно в выводе результата прибавить collapse, например $p1.textContent.collapse.
P.S. Поставил рефку в ссылку в начале статьи, раз уж есть партнерка, но за рекламу мне не платили, пишу только об инструментах, которыми пользуюсь сам. Считаю, что это один из самых нужных инструментов вебмастера, хоть и довольно сложный. Конечно, можно самому писать парсеры и постоянно их обновлять, либо платить программисту, но я предпочитаю экономить время и деньги.
2.8K viewsDárt, edited 12:37