[pyar] Parseando HTML dentro de XML

Sebastian Bassi sebastian.bassi en globant.com
Dom Oct 28 01:15:13 ART 2012


2012/10/27 Sebastian Bassi <sebastian.bassi en globant.com>:
> 2012/10/27 Juan BC <jbc.develop en gmail.com>:
>> beautiful soup :)
>
> Acabo de ver que soporta Python 3, eso es nuevo, asi que la voy a
> considerar. Gracias.

Bueno, al final lo usé (BS4), Como te decia no lo usaba porque crei
que estaba discontinuado.
Por un lado me encontré con el problema que convierte el nombre de los
elementos en atributos, lo cual es practico hasta que un elemento
tiene un - (dash), cosa que evitas poniendo a.find("b-b") en lugar de
a.b-b

Con respecto a mi tema, ahora esto mejora porque el atributo text del
elemento recuperado es:

Polymorphisms in the Receptor Tyrosine Kinase MERTK Gene Are
Associated with Multiple Sclerosis Susceptibility

Ya no se corta cuando encuentra <italic>.
El problema es que pierdo esa info.
Pero si hago str(elem), tengo:

<article-title>Polymorphisms in the Receptor Tyrosine Kinase
<italic>MERTK</italic> Gene Are Associated with Multiple Sclerosis
Susceptibility</article-title>

En ese caso tengo el tag de adentro (<italic>), pero también el de afuera.

Asi que ante mejor idea , formateare el output de str(elem) que me genera el BS4


Gracias a todos
-- 
Sebastián Bassi. sebastian.bassi en globant.com
Lic. en Biotecnología con orientación en genética molecular.
Software Developer @ Globant.



More information about the pyar mailing list