R
R
rvller2013-09-11 08:26:32
Java
rvller, 2013-09-11 08:26:32

Getting the text of articles (posts) from a page without tags

Hello!

Can anyone recommend libraries (preferably written in java) for extracting the main text and related images from the html page?

Example: by passing a link to the page habrahabr.ru/post/193226/ to the input , the output will be:

This
Всего час назад случайно попалась на глаза новость о том, что Яндекс ввел возможность оплаты своего мобильного счета прямо через страничку поисковой системы. При этом в поисковой строке нужно набрать примерно то, что видно на анонсном скрине. Помимо всего прочего, можно вводить поисковые запросы типа «Пополнить счет МТС», или аналогичные запросы на украинском языке (да, работает и в/на Украине).

Оплату при этом можно провести как со своего счета в «Яндекс. Деньги», при условии наличия такового, либо с кредитной карты (тут уж каждый решает сам, насколько это безопасно).

<картинка>

По словам разработчиков, такая тразакция полностью безопасна, поскольку оплата происходит «на странице, защищенной по международному стандарту PCI DSS». Если оплата проводится ЯД-ом, тогда нужно вводить либо платежный пароль, либо пароль из СМС. Если же оплата счета проводится кредиткой, само собой, нужно вводить и номер кредитки, и CVV, и код, присылаемый на телефон пользователю его банком.

Answer the question

In order to leave comments, you need to log in

3 answer(s)
R
rvller, 2013-09-11
@rvller

Found it myself: code.google.com/p/boilerpipe/
Allows you to pull out the main content of the page (without all the secondary blocks).

P
psylostlife, 2013-09-11
@psylostlife

You can try to search with the same jQuery in the page code for a block with a lot of text, remove formatting tags from it, parse img tags and remove their code, replacing it with a simple link. Something like this.

V
valkiriy, 2013-09-11
@valkiriy

In the browser console - $('.content').text()
I have not tried it, but any html parser should be able to do this. For example jsoup.org/

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question