Contenido

1 Planteamiento del taller de scraping
2 Objetivo
- 2.1 Configuración
  - 2.1.1 Actividad
3 Actividad
- 3.1 Lectura de una página html
- 3.2 Actividad
4 Actividad
5 Ejemplo
- 5.1 Un ejemplo más complejo: análisis de los cursos de formación para el empleo
6 Actividad

Planteamiento del taller de scraping

En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.

Objetivo

Introducción a las técnicas básicas de scraping usando Python y Amara
Herramientas de ayuda (firebug, curl, ...)

Configuración

Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.

Actividad

Instalación de python.

$ sudo apt-get install python2.7 python2.7-dev python-pip  idle-python2.7

Instalación de amara

$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2

Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)

Instalar firebug

https://addons.mozilla.org/es-es/firefox/addon/firebug/

Lectura de una página html

El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:

amara.parse
amara.bindery.parse
amara.bindery.html.parse

Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.

Actividad

Escribe este ejemplo para leer un documento. Modifica URL para que tenga una dirección real. ¿Qué vemos en la pantalla?

```
from amara.bindery import html
```
```
URL = 'http://pagina.destino.com'
```
```
 
```
```
doc = html.parse(URL)
```
```
print doc
```

Tip: doc tiene toda la información del documento

Vamos a practicar con un ejemplo muy sencillo, el ejemplo de la liga

	Ejemplo
	{{{1}}}

Un ejemplo más complejo: análisis de los cursos de formación para el empleo

Vamos a usar ahora un ejemplo real: el listado de cursos de formación para el empleo del INAEM recogido en http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm

Tip: Para el taller usaremos una copia local, para no saturar el servidor ;-)

Actividad

{{{1}}}

Taller de Web Scraping LWSC 2011

Contenido

Planteamiento del taller de scraping

Objetivo

Configuración

Actividad

Actividad

Lectura de una página html

Actividad

Actividad

Ejemplo

Un ejemplo más complejo: análisis de los cursos de formación para el empleo

Actividad

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar