Diferencia entre revisiones de «Usuario:Lmorillas/modulo programacion/python/web scraping»

Última revisión de 11:29 29 nov 2011

Contenido

1 ¿Qué es?
2 Herramientas
3 BeautifulSoup
- 3.1 Más ejemplos interesantes

¿Qué es?

Herramientas

Podemos leer una página web como si fuera un fichero

from urllib2 import urlopen
doc = urlopen('http://www.cpilosenlaces.com').read()

Y procesar el texto.

Usaremos herramientas especiales.

BeautifulSoup

Un ejemplo: Cursos de formación del INAEM

from BeautifulSoup import BeautifulSoup
 
url = 'http://plan.aragon.es/MapaRec.nsf/fmrListado'  # Listado cursos formación empleo ...
doc = BeautifulSoup(urllib2.urlopen(url))
# mostrar documento indentado
print doc.prettify()  
 
# Analizamos el doc. Los cursos están almacenados:
#    * en tablas (elemento td)
#    * que tienen clase "textoApl1"
 
cursos = doc.findAll('td', attrs={'class': "textoApl1"})
for curso in cursos:
    # Imprimimos nombre y url del curso:
    print curso.a.string, curso.a.get('href')

@@ Línea 35: / Línea 35: @@
      print curso.a.string, curso.a.get('href')
 </source>
+=== Más ejemplos interesantes ===
+* http://pythonadventures.wordpress.com/tag/beautifulsoup/
+* https://bitbucket.org/chemacortes/calibre-scrap/overview

Diferencia entre revisiones de «Usuario:Lmorillas/modulo programacion/python/web scraping»

Última revisión de 11:29 29 nov 2011

Contenido

¿Qué es?

Herramientas

BeautifulSoup

Más ejemplos interesantes

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar