Web Scraping
De WikiEducator
¿Qué es?
Herramientas
Podemos leer una página web como si fuera un fichero
from urllib2 import urlopen doc = urlopen('http://www.cpilosenlaces.com').read()
Y procesar el texto.
Usaremos herramientas especiales.
BeautifulSoup
- http://www.crummy.com/software/BeautifulSoup
- Documentación: http://www.crummy.com/software/BeautifulSoup/documentation.html
Un ejemplo: Cursos de formación del INAEM
from BeautifulSoup import BeautifulSoup url = 'http://plan.aragon.es/MapaRec.nsf/fmrListado' # Listado cursos formación empleo ... doc = BeautifulSoup(urllib2.urlopen(url)) # mostrar documento indentado print doc.prettify() # Analizamos el doc. Los cursos están almacenados: # * en tablas (elemento td) # * que tienen clase "textoApl1" cursos = doc.findAll('td', attrs={'class': "textoApl1"}) for curso in cursos: # Imprimimos nombre y url del curso: print curso.a.string, curso.a.get('href')