[pyar] Scrapear boletin oficial

Sebastián Seba ssebastianj en gmail.com
Jue Mayo 26 16:18:21 ART 2016


El 26 de mayo de 2016, 15:41, requisitos minimos <rminimos en gmail.com>
escribió:

> Hola buenas tardes,
>
> Estoy con ganas de scrapear el boletin oficial de ARGENTINA
>
> https://www.boletinoficial.gob.ar/
>
> De la primera seccion necesitariia "chupar" los siguientes datos
> nombre y apellido
> dni
> ministerio
> + una condicion laboral
>
> Que consideran lo mejor?
> Python + scrapy
> python +  Beautiful Soup
> Otra opcion
>
> Mi experiencia en python es limitada , complete hace un tiempo el
> tutorial learn python the hard way y despues no tuve mas tiempo para
> experimentar.
>
> Por ende valoro mas que el script funciona y listo , no me importa si
> no es con la herramienta mas modernosa con todo el hype , etc
>
> Les dejo mi email para gtalk rminimos en gmail.com
>
> Gracias por la orientacion
> SALUDOS
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar


Hola, dado que recién comenzás, yo empezaría desde lo más básico hasta
llegar a algo más elaborado, algo como:

1°) Instalar Jupyter [0] e iniciar una nueva consola o notebook.
2°) Dentro de una consola de Jupyter (o notebook)
    2.1) Probar el scraping con requests [1] + pyquery (BeautifulSoup es
otra alternativa)
    2.2) Probar el scraping con Scrapy.
3°) Consolidar todo en algún script (y algunos tests)
4°) ¡Disfrutar!

Según algunos hay un manual del "buen scrapeador" del estilo "no realizarás
demasiadas requests seguidas al servidor" y así :P

Saludos.

[0] jupyter.readthedocs.io
[1] http://docs.python-requests.org/en/master/

-- 
Sebastián J. Seba (ssebastianj)
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20160526/858496de/attachment.html>


Más información sobre la lista de distribución pyar