[pyar] Web screenshot

Augusto adtononi en gmail.com
Dom Ene 12 12:35:48 -03 2020


Finalmente lo hice on demand, y funciona bien. El único problema es que una
sola caputra me consume 500mb de memoria aprox, estuve monitoreando los
procesos con htop al momento de solicitar la captura. Obviamente, al
finalizar la captura mato el proceso.
El tema es que con 10 usuarios que soliciten una captura al mismo tiempo
esto hará que explote la memoria jaja
Hay forma de que el proceso sea más ligero? Ya estoy hablando respecto al
proceso de selenium en sí. Quizás algunos parámetros que hagan más ligera
la captura

Respecto a la opción de obtener las capturas previamente, por ahora no la
considero ya que al final por ordenes de arriba quieren que sea on demand.

Saludos!

El jue., 9 ene. 2020 a las 15:31, Sebastian Bassi (<sbassi en gmail.com>)
escribió:

> Estaba pensando en la 2da opción (precomputar las screenshots), podrías
> pensar en escalar horizontalmente en lugar de verticalmente, con mas
> instancias si estas usando una infra dinamica tipo AWS. En ese caso lo mas
> economico creo que seria usando Lambdas.
> Aca hay un ejemplo de uso de Selenium en Lambda:
>
> https://github.com/ManivannanMurugavel/selenium-python-aws-lambda
>
> Lo que te puede salir caro relacionado al lambda es la activación, si la
> haces por ej via API Gateway, pagas cada request mas caro que el lambda y
> te suma mucho. pero si es precomputado, lo activas por tiempo (como si
> fuese un cronjob) y solo pagas el lambda que como te decia es económico.
>
>
>
>
> On Thu, Jan 9, 2020 at 8:22 AM Augusto <adtononi en gmail.com> wrote:
>
>> Buenos días grupo,
>>
>> Estoy queriendo obtener una screenshot de varios sitios. Actualmente lo
>> estoy haciendo con selenium y on demand, es decir que lo hago en el
>> instante que el usuario lo solicita en la página.
>> No me gusta mucho la idea de que se así ya que el usuario tendría que
>> esperar unos segundos hasta que este disponible la imagen y esto afecta a
>> su navegación dentro del sitio. Sin embargo, me permite obtener solo
>> aquellos que verdaderamente se requieren (ya que son miles de sitios,
>> podría generar miles al dope).
>> La otra opción es obtener las screenshots previamente y que ya estén
>> cargadas. El problema es que son miles, y con selenium no había podido
>> lograr que sea escalable, había procesos que no terminaban de morirse y
>> chau ram. Otro problema es que las páginas podrían tomarme como spam y
>> bloquear mi ip, ya que primero scrapeo las noticias de un sitio y luego
>> obtendría una captura de cada noticia.
>>
>> Alguien afrontó algún problema similar? Debería dejar que sea on demand y
>> tratar de optimizar la respuesta?
>>
>> Saludos!
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
>
>
> --
>
>
> Non standard disclaimer: READ CAREFULLY. By reading this email,
> you agree, on behalf of your employer, to release me from all
> obligations and waivers arising from any and all NON-NEGOTIATED
> agreements, licenses, terms-of-service, shrinkwrap, clickwrap,
> browsewrap, confidentiality, non-disclosure, non-compete and
> acceptable use policies ("BOGUS AGREEMENTS") that I have
> entered into with your employer, its partners, licensors, agents and
> assigns, in perpetuity, without prejudice to my ongoing rights and
> privileges. You further represent that you have the authority to release
> me from any BOGUS AGREEMENTS on behalf of your employer.
> Google ads remover words: suicide, murder
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20200112/013b15c4/attachment.html>


Más información sobre la lista de distribución pyar