Diferencia entre revisiones de «Usuario:Lmorillas/modulo programacion/python/web scraping»

De WikiEducator
Saltar a: navegación, buscar
(Página creada con '{{DISPLAYTITLE:Web Scraping}} ==¿Qué es?== ==Herramientas== Podemos leer una página web como si fuera un fichero <source lang="python"> from urllib2 import urlopen doc = ur…')
(Sin diferencias)

Revisión de 04:50 29 nov 2011


¿Qué es?

Herramientas

Podemos leer una página web como si fuera un fichero

from urllib2 import urlopen
doc = urlopen('http://www.cpilosenlaces.com').read()

Y procesar el texto.

Usaremos herramientas especiales.

BeautifulSoup

from BeautifulSoup import BeautifulSoup
 
url = 'http://plan.aragon.es/MapaRec.nsf/fmrListado'  # Listado cursos formación empleo ...
doc = BeautifulSoup(urllib2.urlopen(url))
# mostrar documento indentado
print doc.prettify()  
 
# Analizamos el doc. Los cursos están almacenados:
#    * en tablas (elemento td)
#    * que tienen clase "textoApl1"
 
cursos = doc.findAll('td', attrs={'class': "textoApl1"})
for curso in cursos:
    # Imprimimos nombre y url del curso:
    print curso.a.string, curso.a.get('href')