Получи случайную криптовалюту за регистрацию!

Новый парсер в A-Parser'е После моего вопроса в публичном чат | Black Hat SEO

Новый парсер в A-Parser'е

После моего вопроса в публичном чате A-Parser'а о возможности подключения библиотеки Readability.js (лучшая альтернатива устаревшей библиотеке Boilerpipe), которая в большинстве случаев вытаскивает тело контента из документа, команда A-Parser внедрили полноценный парсер HTML::ArticleExtractor в альфа-версии! Приятно, что принес пользу коллегам.

Судя по переменным, которые доступны, можно извлекать контент, как с html тегами, так и без них, получать title страницы, длину статьи, автора, название сайта, description или короткую выжимку контента, в общем, доступен весь функционал библиотеки + настройки как в парсере HTML::TextExtractor, благодаря которым я паршу даже самые стойкие сайты.

Использовать данный парсер можно:

- Для извлечения контента с сайтов собранных из топа поисковых систем и последующего использования для генерации контента.

- На автомате извлекать и затем анализировать контент посредством API сервисов, библиотек обработки естественных языков (NLP).

- Извлекать контент, затем прогонять через встроенный в A-Parser Deepl::Translator, чтобы на автомате переводить тексты на другие языки.

- Также для контента, который прогнали через переводчики, можно сделать обратный перевод, что в ряде случаев приводит к рерайту статьи на языке оригинала.

И многие другие варианты применения...

Кстати, для очистки контента от ненужных пробельных символов нужно в выводе результата прибавить collapse, например $p1.textContent.collapse.

P.S. Поставил рефку в ссылку в начале статьи, раз уж есть партнерка, но за рекламу мне не платили, пишу только об инструментах, которыми пользуюсь сам. Считаю, что это один из самых нужных инструментов вебмастера, хоть и довольно сложный. Конечно, можно самому писать парсеры и постоянно их обновлять, либо платить программисту, но я предпочитаю экономить время и деньги.