Web Scraping

De WikiEducator
< Usuario:Lmorillas‎ | modulo programacion‎ | python
Revisión a fecha de 05:50 29 nov 2011; Lmorillas (Discusión | contribuciones)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar


¿Qué es?

Herramientas

Podemos leer una página web como si fuera un fichero

from urllib2 import urlopen
doc = urlopen('http://www.cpilosenlaces.com').read()

Y procesar el texto.

Usaremos herramientas especiales.

BeautifulSoup

from BeautifulSoup import BeautifulSoup
 
url = 'http://plan.aragon.es/MapaRec.nsf/fmrListado'  # Listado cursos formación empleo ...
doc = BeautifulSoup(urllib2.urlopen(url))
# mostrar documento indentado
print doc.prettify()  
 
# Analizamos el doc. Los cursos están almacenados:
#    * en tablas (elemento td)
#    * que tienen clase "textoApl1"
 
cursos = doc.findAll('td', attrs={'class': "textoApl1"})
for curso in cursos:
    # Imprimimos nombre y url del curso:
    print curso.a.string, curso.a.get('href')