D
D
dan_gi2020-06-14 21:10:52
Python
dan_gi, 2020-06-14 21:10:52

How to clean up html code?

need this

a:3:{s:6:"update";i:1591804805;s:8:"encoding";s:12:"utf-8";s:4:"urls";a:4:{i:991;a:2:{i:0;s:1:"/";i:1;s:66:"<a href="https://site1.com">фильмы онлайн</a>";}i:1113;a:2:{i:0;s:1:"/";i:1;s:108:"Смотреть <a href="https://site2.net">кино</a> онлайн без регистрации";}i:1793;a:2:{i:0;s:1:"/";i:1;s:149:"Советую фильмы на сайте <a href="http://site3.online">site3.online</a>";}i:1822;a:2:{i:0;s:1:"/";i:1;s:73:"<a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a> ";}}}


turn into this

<a href="https://site1.com">фильмы онлайн</a> | Смотреть <a href="https://site2.net">кино</a> онлайн без регистрации | Советую фильмы на сайте <a href="http://site3.online">site3.online</a> | <a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a>

Answer the question

In order to leave comments, you need to log in

2 answer(s)
S
soremix, 2020-06-14
@dan_gi

import re

content = 'a:3:{s:6:"update";i:1591804805;s:8:"encoding";s:12:"utf-8";s:4:"urls";a:4:{i:991;a:2:{i:0;s:1:"/";i:1;s:66:"<a href="https://site1.com">фильмы онлайн</a>";}i:1113;a:2:{i:0;s:1:"/";i:1;s:108:"Смотреть <a href="https://site2.net">кино</a> онлайн без регистрации";}i:1793;a:2:{i:0;s:1:"/";i:1;s:149:"Советую фильмы на сайте <a href="http://site3.online">site3.online</a>";}i:1822;a:2:{i:0;s:1:"/";i:1;s:73:"<a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a> ";}}}'

chunks = re.findall(r'i:1;s:.+?:\"(.+?)";}', content)
text = ' | '.join(chunks)

print(text)

I
Ivan Yakushenko, 2020-06-14
@kshnkvn

Regular expression as an option:

In [1]: foo = 'a:3:{s:6:"update";i:1591804805;s:8:"encoding";s:12:"utf-8";s:4:"urls";a:4:{i:991;a:2:{i:0;s:1:"/";i
   ...: :1;s:66:"<a href="https://site1.com">фильмы онлайн</a>";}i:1113;a:2:{i:0;s:1:"/";i:1;s:108:"Смотреть <a hr
   ...: ef="https://site2.net">кино</a> онлайн без регистрации";}i:1793;a:2:{i:0;s:1:"/";i:1;s:149:"Советую фильмы
   ...:  на сайте <a href="http://site3.online">site3.online</a>";}i:1822;a:2:{i:0;s:1:"/";i:1;s:73:"<a href="http
   ...: s://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a> ";}}}'

In [2]: import re

In [3]: a_link_pattern = re.compile(r'\<a\s.+?\<\/a\>')

In [4]: for elem in a_link_pattern.findall(foo):
   ...:     print(elem)
   ...:
<a href="https://site1.com">фильмы онлайн</a>
<a href="https://site2.net">кино</a>
<a href="http://site3.online">site3.online</a>
<a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a>

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question