[pyar] Hola mundo y primera consulta con lxml.

Alejandro Santos listas en alejolp.com
Jue Sep 9 15:48:52 ART 2010


2010/9/9 Martín Gaitán <gaitan en gmail.com>:
> 2010/9/8 Matias Eduardo Bordone Carranza <mebordone en gmail.com>
>>
>> Hola gente!! Bueno ,como es debido a ca va mi hola mundo.
>> /**********************************/
>> hola = 'h' + 'o' + 'l' + 'a' + ' '
>> hola = hola + 'm' + 'u' + 'n' + 'd' + 'o'
>> print '%s' % (hola)
>> /**********************************/
>>
>> Estoy empezando a jugar  / aprender python y estoy empezando un
>> pryectito. Asi que como buen
>> newbie acepto todas las criticas que me hagan para ir mejorando.
>> Necesito sacar información de una página de internet y lo primero que
>> se me ocurrio fue tratarlo como xml y usar xpath.
>> Para eso encontre la librería lxml y decidí usarla.
>> La idea es sacar información de un articulo de un diario (en este caso
>> de La Voz el interior por ejemplo) y guardar la informacion relevante
>> en un xml.
>
>
> Mi enfática recomendación: http://pyquery.org/
>
> Está basado en lxml pero abstrayendo toda la parte sucia y dejando un
> completa API de selectores de jQuery. Si sabés un poquito de jQuery estás
> hecho. Si no, es muy muy fácil de aprender.
>

No lo conocia. Estoy leyendo muy rapidamente la documentación de LXML
y promete bastante, gracias por el dato. Por ejemplo, parece que LXML
*entiende* HTML, y sabe que body va adentro de html pero fuera de
head. Aca explica cómo parsear HTML sucio:

http://codespeak.net/lxml/parsing.html#parsing-html

Y a pyquery se le puede decir qué parser de LXML usar:

http://packages.python.org/pyquery/tips.html

Saludos,

-- 
Alejandro Santos
http://alejolp.com.ar



More information about the pyar mailing list