[pyar] Pedido de ayuda para Encuentro - No me puedo loguear y sacar la URL del video

Angel Freire cuerty en gmail.com
Jue Abr 17 01:42:52 ART 2014


2014-04-17 0:22 GMT-03:00 Facundo Batista <facundobatista en gmail.com>:

> Me cambiaron todo de nuevo en el backend de Encuentro, y estoy
> tratando de encontrarle la vuelta para bajar el video usando
> mechanize.
>
> Ejemplo con un capítulo: La URL origen es:
>
>
> http://www.encuentro.gob.ar/sitios/encuentro/Programas/ver?rec_id=120761
>
> Si traen ese HTML van a ver que hay un "Descargar video" que apunta a
> una URL de login. La idea es loguearse automáticamente, volver a ir a
> la URL del capítulo (o ser redirigido automáticamente), y encontrar la
> URL propia del video:
>
>
> http://repositoriovideo-download.educ.ar/repositorio/Video/descargar?t=534f48b0ecd339.22097191
>
> Si me pueden dar una mano con esto, les agradezco muchísimo.
>
> Gracias, slds!!
>
> --
> .    Facundo
>
> Blog: http://www.taniquetil.com.ar/plog/
> PyAr: http://www.python.org/ar/
> Twitter: @facundobatista
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>

Extremadamente sucio y propenso a romperse, pero esto puede servir:

>>> import requests
>>> url = "
http://www.encuentro.gob.ar/sitios/encuentro/Programas/ver?rec_id=120761"
>>> res = requests.get(url)
>>> res2 = requests.get("
http://repositoriovideo-download.educ.ar/repositorio/Video/streaming?rec_id=120761&file_id="
+
res.text[res.text.find("descargable")+25:res.text.find("descargable")+61],
allow_redirects=False)
>>> res2.headers["Location"]
'
http://videostreaming.educ.ar/video_descargable/94/66/20dda908-8dd7-4098-8858-56890d2b5878/MercedesSosalavozdelatinoam\xc3\xa9ricaT01C03_DW_PA-PP-37594PA-PP-37599.mp4
'

"descargable" es un elemento de un JSON que se crea dentro de un bloque
<script> del html, no se puede evaluar con una libreria para parsear json
porque incluye codigo en Javascript, asi que caemos en buscar la posicion y
sumarle el offset hasta tener el valor ¿Ya dije que es muy fragil esto?, en
fin, ¿que scraping no lo es acaso?.


-- 
http://blog.cuerty.com

"If you want to set off and go develop some grand new thing, you don't need
millions of dollars of capitalization. You need enough pizza and Diet Coke
to stick in your refrigerator, a cheap PC to work on and the dedication to
go through with it."
- John Carmack
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140417/66c7d632/attachment.html>


More information about the pyar mailing list