Taller de Web Scraping LWSC 2011
De WikiEducator
Contenido
Planteamiento del taller de scraping
En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.
Configuración
Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.
Configuración del entorno
$ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)
|
Lectura de una página html
El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:
amara.parse amara.bindery.parse amara.bindery.html.parse
Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.
Lectura básica de un documento
Ejemplo | |
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm Tip: Para el taller usaremos una copia local, para no saturar el servidor
|
Acceso al contenido de la página