[pyar] Scrapear sitios con distinta estructura HTML

Moises Rangel moises.rangel en gmail.com
Mie Jul 3 18:38:49 -03 2019


Hola, justo estos días he estado trabajando en un scraper con BS y Django
para sitios de venta de inmuebles, igual a Augusto le servir algo de ahí,
justo hay un template base  y de ahí se pueden fabricar muchos módulos (uno
por cada web) y homologarlos según tu propia BD.

https://bitbucket.org/moisesrangel/realestate/src

Saludos desde México!


El mié., 3 jul. 2019 a las 13:20, Martin Alejandro Castro Álvarez (<
martincastro.10.5 en gmail.com>) escribió:

> Juan Carriza, el código no es Open Source.
> Pero fijate que si es un sitio hecho por Wordpress (o equivalente), toda
> la info. que buscás está en los <meta/>
>
>
>
>
>
> Martín Alejandro Castro Álvarez
> *Software Carpentry*
>
> https://www.martincastroalvarez.com
>
>
>
>
>
> On Wed, 3 Jul 2019 at 15:16, Augusto <adtononi en gmail.com> wrote:
>
>> Si, había visto lo de newspaper. Pero no estaba seguro que tan bien
>> funcionaría con el español, además de que las páginas que scrapeo suelen
>> ser sitios pequeños entonces no tienen como un standard.
>>
>> Debería probarla de todas formas, gracias!
>>
>> El mié., 3 jul. 2019 12:13, Juan Carizza <juan.carizza en gmail.com>
>> escribió:
>>
>>> Muy bueno lo de newspaper.
>>>
>>> Martin Alejandro, tenés un linkal código  de ese proyecto que nombras?
>>>
>>>
>>>
>>> El mié., 3 de jul. de 2019 a la(s) 12:09, Martin Alejandro Castro
>>> Álvarez (martincastro.10.5 en gmail.com) escribió:
>>>
>>>> Lo que hacemos nosotros es probabilidades en base a NLP, regex y
>>>> distribución de palabras; y para los componentes para los que tenemos un
>>>> dataset grande, aplicamos modelos de predicción con sklearn.
>>>> El accuracy es bastante bueno, para sitios relacionados al tema que
>>>> conocemos.
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> On Wed, 3 Jul 2019 at 12:06, Martín Gaitán <gaitan en gmail.com> wrote:
>>>>
>>>>> On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi en gmail.com> wrote:
>>>>>
>>>>>> Es buena esa, hacer una subclase para cada sitio.
>>>>>> Quedaría un enchastre porque los sitios que tengo que scrappear
>>>>>> pueden superar los 100, pero es buena idea.
>>>>>>
>>>>>>
>>>>> Creo que la lib newspaper es lo que buscás.
>>>>> https://newspaper.readthedocs.io/en/latest/
>>>>>
>>>>> scrapea automáticamente aplicando heuristica y la semántica del html
>>>>> para determinar donde está el contenido, titulo, imagenes, etc, similar a
>>>>> lo que hace readability que te mencionaron antes. De yapa podes obtener
>>>>> keywords, resumenes y otras yerbas via nlp
>>>>>
>>>>> saludos
>>>>> _______________________________________________
>>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>>> Sitio web: http://www.python.org.ar/
>>>>>
>>>>> Para administrar la lista (o desuscribirse) entrar a
>>>>> http://listas.python.org.ar/listinfo/pyar
>>>>>
>>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>>> Argentina - http://www.usla.org.ar
>>>>
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar



-- 
____________________
Moisés Rangel Narváez
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/89f14f15/attachment-0001.html>


Más información sobre la lista de distribución pyar