Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011»
De WikiEducator
Línea 27: | Línea 27: | ||
doc = html.parse(URL) | doc = html.parse(URL) | ||
</source> | </source> | ||
− | + | {{Tip|'''doc''' tiene toda la información del documento}} | |
}} | }} | ||
Línea 34: | Línea 34: | ||
Title=Ejemplo base| | Title=Ejemplo base| | ||
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm | Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm | ||
+ | {{Tip| Para el taller usaremos una copia local, para no saturar el servidor}} | ||
}} | }} | ||
+ | |||
+ | {{Actividad| | ||
+ | TOCdepth=2| | ||
+ | Title=Acceso al contenido de la página| | ||
+ | <source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" > | ||
+ | from amara.bindery import html | ||
+ | from amara.lib import U | ||
+ | |||
+ | URL = '<introduce la dirección de la copia local>' | ||
+ | |||
+ | doc = html.parse(URL) | ||
+ | print U(doc.html.body) # doc permite recorrer el documento con sintaxis python | ||
+ | </source> | ||
+ | {{Tip|'''doc''' tiene toda la información del documento}} | ||
}} | }} |
Revisión de 04:22 7 nov 2011
Contenido
Actividad
Configuración del entorno
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)
|
Lectura básica de un documento
Ejemplo | |
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm Tip: Para el taller usaremos una copia local, para no saturar el servidor
|
Acceso al contenido de la página