[pyar] Consulta Web Scraping
Juan Francisco Mosquera
juan.francisco.mosquera en gmail.com
Mar Ago 29 20:47:11 ART 2017
Amigo , te envío un ejemplo que te puede servir mucho , hace algunos
meses jugué con ese tema por aprendizaje .
adjunto ejemplos.
Engineering in Computer Science
Juan Francisco Mosquera
3168101369
google:maxiplux en gmail.com
msn:juan.francisco en live.com
yahoo:juan.francisco en ymail.com
juanmosquera en javerianacali.edu.co
Member:Cam javeriana, Puj-clue
skype:juan.francisco.mosquera
Linux user number 493403
CV:http://vida.juanfrancisco.net/
Desarrollador 5 estrellas nivel 4
____________________________________________________________________
__________________________________________________________________________________
El SOCIALISMO es la Filosofía del FRACASO, el credo de los IGNORANTES La
prédica de la ENVIDIA y la distribución de la MISERIA en forma igualitaria
para el PUEBLO. Wiston Churchill
____________________________________________________________________
__________________________________________________________________________________
Si eres agradecido, no eres temeroso, y si no tienes miedo, no eres
violento.
Si eres agradecido, actúas con un sentido de suficiencia y no con una
sensación de escasez, y estás dispuesto a compartir.
Si eres agradecido, disfrutas las diferencias entre las personas, y eres
respetuoso con todo el mundo, y eso cambia esta pirámide de poder bajo la
cual vivimos.
David Steindl-Rast
May your dreams come true and May God bless you
El 29 de agosto de 2017, 18:28, Lucho Martingaste<
martingasteluciano en gmail.com> escribió:
> Muchas gracias por sus recomendaciones, si estoy empezando con scrapy,
> veremos que sale.
>
> Gracias a todos..
>
> El 28 de agosto de 2017, 22:37, Leonardo Lazzaro <
> lazzaroleonardo en gmail.com> escribió:
>
>> Scrapy te puede servir si necesitas scrapear recorriendo los links del
>> website.
>> Si solo necesitas consultar una o dos paginas o si tenes que hacer posts
>> te conviene requests
>>
>> El 28 de agosto de 2017, 17:07, Cristhian Boujon <
>> cristhianboujon en gmail.com> escribió:
>>
>>> Buen día gente,
>>>
>>> Yo también estoy por comenzar con éste tema y por lo que he visto, la
>>> herramienta que más se suele usar es Scrapy. Esto es correcto? Si es así,
>>> cual es la razón? Está de moda, tiene características que realmente la
>>> diferencian de las otras herramientas y/o bajo qué circunstancias es
>>> recomendable usarla?
>>>
>>> Saludos!
>>>
>>>
>>> ---
>>> *If you want to know more about me, you can check:*
>>> * <http://github.com/Overflow012> [image:
>>> https://www.linkedin.com/in/cristhian-boujon/]
>>> <https://www.linkedin.com/in/cristhian-boujon/> [image:
>>> http://overflow012.wordpress.com/] <http://overflow012.wordpress.com/>*
>>>
>>>
>>> 2017-08-28 16:58 GMT-03:00 Lucas Paiva <lucaspaiva.ar en gmail.com>:
>>>
>>>> Podes traerte el html con requests y manipular ese resultado con lxml y
>>>> xpath o bautifulsoup .
>>>>
>>>> Saludos.
>>>>
>>>> El 28 de agosto de 2017, 16:31, Lucho Martingaste <
>>>> martingasteluciano en gmail.com> escribió:
>>>>
>>>>> Buenas tardes, alguien sabe como sacar información, de noticias es
>>>>> decir fragmento de texto lo necesito, para analizar datos, a través de un
>>>>> modulo de machine learning.
>>>>>
>>>>> Muchas gracias desde ya.
>>>>>
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>>> Sitio web: http://www.python.org.ar/
>>>>>
>>>>> Para administrar la lista (o desuscribirse) entrar a
>>>>> http://listas.python.org.ar/listinfo/pyar
>>>>>
>>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>>> Argentina - http://www.usla.org.ar
>>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>>
>>>
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>>
>>
>>
>>
>> --
>> https://github.com/llazzaro
>>
>> gpg/pgp key: 0x45e1ecde06521134
>> <http://pgp.mit.edu:11371/pks/lookup?op=get&search=0x45e1ecde06521134>
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170829/2192fcf8/attachment-0001.html>
------------ próxima parte ------------
import urllib
import re
import requests
from bs4 import BeautifulSoup
def get_page():
archivo = open('base.html', 'w')
html = urllib.urlopen('http://econpy.pythonanywhere.com/ex/001.html')
html = html.read()
archivo.write(html)
archivo.close()
# get_page()
def get_title():
archivo = open('base.html', 'r')
regex = '<div title="buyer-name">'
regex_end = '</div>'
for line in archivo.readlines():
line = line.replace('\n', '')
if regex in line:
posini = line.find(regex)
posini = posini + len(regex)
posfin = line.find(regex_end)
print line[posini:posfin]
archivo.close()
# get_title()
def get_page_regex():
html = urllib.urlopen('http://econpy.pythonanywhere.com/ex/001.html')
html = html.read()
regex = '<div title="buyer-name">(.+?)</div>'
titulos = re.findall(regex, html)
for titulo in titulos:
print titulo
# get_page_regex()
GOOGLE_NEWS = 'https://news.google.com/'
def scrappingfast():
peticion = requests.get(GOOGLE_NEWS)
if peticion.status_code == 200:
bs = BeautifulSoup(peticion.text, 'html.parser')
if bs:
articulos = bs.find_all('span', 'titletext')
for articulo in articulos:
print dir(articulo)
else:
print "ops"
print "fin"
# scrappingfast()
def fincaraiz():
peticion = requests.get(
'https://www.vvvm.co/apartamentos/alquiler/cali/')
#with open('index.html','w') as f:
# f.write(peticion.text)
if peticion.status_code == 200:
bs = BeautifulSoup(peticion.text, 'html.parser')
if bs:
articulos = bs.find_all('ul', {'class': 'advert'})
for articulo in articulos:
articulo= articulo.find('h2',{'class': 'h2-grid'})
print articulo.text
else:
print "ops"
print "fin"
#fincaraiz()
def pokemon():
peticion = requests.get('http://pokeapi.co/api/v2/pokemon-form/')
if peticion.status_code==200:
peticion=peticion.json()
resultados=peticion.get('results',[])
for item in resultados:
print item.get('name','No disponible')
#pokemon()
Más información sobre la lista de distribución pyar