[pyar] Consulta Web Scraping

Juan Francisco Mosquera juan.francisco.mosquera en gmail.com
Mar Ago 29 20:47:11 ART 2017


Amigo ,  te envío un ejemplo que te puede servir mucho ,  hace algunos
meses  jugué con ese tema por aprendizaje .
adjunto ejemplos.

Engineering in Computer Science
Juan Francisco Mosquera
3168101369
google:maxiplux en gmail.com
msn:juan.francisco en live.com
yahoo:juan.francisco en ymail.com
juanmosquera en javerianacali.edu.co
Member:Cam javeriana, Puj-clue
skype:juan.francisco.mosquera
Linux user number 493403
CV:http://vida.juanfrancisco.net/
Desarrollador 5 estrellas nivel 4

____________________________________________________________________
__________________________________________________________________________________

El SOCIALISMO es la Filosofía del FRACASO, el credo de los IGNORANTES La
prédica de la ENVIDIA y la distribución de la MISERIA en forma igualitaria
para el PUEBLO. Wiston Churchill

____________________________________________________________________
__________________________________________________________________________________



Si eres agradecido, no eres temeroso, y si no tienes miedo, no eres
violento.
Si eres agradecido, actúas con un sentido de suficiencia y no con una
sensación de escasez, y estás dispuesto a compartir.
Si eres agradecido, disfrutas las diferencias entre las personas, y eres
respetuoso con todo el mundo, y eso cambia esta pirámide de poder bajo la
cual vivimos.
David Steindl-Rast

 May your dreams come true and May God bless you

El 29 de agosto de 2017, 18:28, Lucho Martingaste<
martingasteluciano en gmail.com> escribió:

> Muchas gracias por sus recomendaciones, si estoy empezando con scrapy,
> veremos que sale.
>
> Gracias a todos..
>
> El 28 de agosto de 2017, 22:37, Leonardo Lazzaro <
> lazzaroleonardo en gmail.com> escribió:
>
>> Scrapy te puede servir si necesitas scrapear recorriendo los links del
>> website.
>> Si solo necesitas consultar una o dos paginas o si tenes que hacer posts
>> te conviene requests
>>
>> El 28 de agosto de 2017, 17:07, Cristhian Boujon <
>> cristhianboujon en gmail.com> escribió:
>>
>>> Buen día gente,
>>>
>>> Yo también estoy por comenzar con éste tema y por lo que he visto, la
>>> herramienta que más se suele usar es Scrapy. Esto es correcto? Si es así,
>>> cual es la razón? Está de moda, tiene características que realmente la
>>> diferencian de las otras herramientas y/o bajo qué circunstancias es
>>> recomendable usarla?
>>>
>>> Saludos!
>>>
>>>
>>> ---
>>> *If you want to know more about me, you can check:*
>>> * <http://github.com/Overflow012> [image:
>>> https://www.linkedin.com/in/cristhian-boujon/]
>>> <https://www.linkedin.com/in/cristhian-boujon/> [image:
>>> http://overflow012.wordpress.com/] <http://overflow012.wordpress.com/>*
>>>
>>>
>>> 2017-08-28 16:58 GMT-03:00 Lucas Paiva <lucaspaiva.ar en gmail.com>:
>>>
>>>> Podes traerte el html con requests y manipular ese resultado con lxml y
>>>> xpath o bautifulsoup .
>>>>
>>>> Saludos.
>>>>
>>>> El 28 de agosto de 2017, 16:31, Lucho Martingaste <
>>>> martingasteluciano en gmail.com> escribió:
>>>>
>>>>> Buenas tardes, alguien sabe como sacar información, de noticias es
>>>>> decir fragmento de texto lo necesito, para analizar datos, a través de un
>>>>> modulo de machine learning.
>>>>>
>>>>> Muchas gracias desde ya.
>>>>>
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>>> Sitio web: http://www.python.org.ar/
>>>>>
>>>>> Para administrar la lista (o desuscribirse) entrar a
>>>>> http://listas.python.org.ar/listinfo/pyar
>>>>>
>>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>>> Argentina - http://www.usla.org.ar
>>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>>
>>>
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>>
>>
>>
>>
>> --
>> https://github.com/llazzaro
>>
>> gpg/pgp key: 0x45e1ecde06521134
>> <http://pgp.mit.edu:11371/pks/lookup?op=get&search=0x45e1ecde06521134>
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170829/2192fcf8/attachment-0001.html>
------------ próxima parte ------------
import urllib
import re
import requests
from bs4 import BeautifulSoup



def get_page():
    archivo = open('base.html', 'w')
    html = urllib.urlopen('http://econpy.pythonanywhere.com/ex/001.html')
    html = html.read()
    archivo.write(html)
    archivo.close()

# get_page()


def get_title():
    archivo = open('base.html', 'r')
    regex = '<div title="buyer-name">'
    regex_end = '</div>'
    for line in archivo.readlines():
        line = line.replace('\n', '')
        if regex in line:
            posini = line.find(regex)
            posini = posini + len(regex)
            posfin = line.find(regex_end)
            print line[posini:posfin]
    archivo.close()


# get_title()

def get_page_regex():
    html = urllib.urlopen('http://econpy.pythonanywhere.com/ex/001.html')
    html = html.read()
    regex = '<div title="buyer-name">(.+?)</div>'
    titulos = re.findall(regex, html)
    for titulo in titulos:
        print titulo


# get_page_regex()

GOOGLE_NEWS = 'https://news.google.com/'


def scrappingfast():
    peticion = requests.get(GOOGLE_NEWS)
    if peticion.status_code == 200:
        bs = BeautifulSoup(peticion.text, 'html.parser')
        if bs:
            articulos = bs.find_all('span', 'titletext')
            for articulo in articulos:
                print dir(articulo)
        else:
            print "ops"
    print "fin"
# scrappingfast()


def fincaraiz():
    peticion = requests.get(
        'https://www.vvvm.co/apartamentos/alquiler/cali/')
    #with open('index.html','w') as f:
    #    f.write(peticion.text)
    if peticion.status_code == 200:
        bs = BeautifulSoup(peticion.text, 'html.parser')
        if bs:
            articulos = bs.find_all('ul', {'class': 'advert'})            
            for articulo in articulos:
                articulo= articulo.find('h2',{'class': 'h2-grid'})
                print articulo.text
        else:
            print "ops"
    print "fin"


#fincaraiz()

def pokemon():
    peticion = requests.get('http://pokeapi.co/api/v2/pokemon-form/')
    if peticion.status_code==200:
        peticion=peticion.json()
        resultados=peticion.get('results',[])
        for item in resultados:
            print item.get('name','No disponible')

#pokemon()        


Más información sobre la lista de distribución pyar