Contenido

1 Planteamiento del taller de scraping
2 Objetivo
- 2.1 Configuración
  - 2.1.1 Configuración del entorno
3 Configuración del entorno
- 3.1 Lectura de una página html
- 3.2 Lectura básica de un documento
4 Lectura básica de un documento
5 Ejemplo
- 5.1 Acceso al contenido de la página
6 Acceso al contenido de la página

Planteamiento del taller de scraping

En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.

Objetivo

Introducción a las técnicas básicas de scraping usando Python y Amara
Herramientas de ayuda (firebug, curl, ...)

Configuración

Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.

Configuración del entorno

Instalación de python.

$ sudo apt-get install python2.7 python2.7-dev python-pip  idle-python2.7

Instalación de amara

$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2

Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)

Instalar firebug

https://addons.mozilla.org/es-es/firefox/addon/firebug/

Lectura de una página html

El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:

amara.parse
amara.bindery.parse
amara.bindery.html.parse

Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.

Lectura básica de un documento

```
from amara.bindery import html
```
```
URL = 'http://pagina.destino.com'
```
```
 
```
```
doc = html.parse(URL)
```

Tip: doc tiene toda la información del documento

Ejemplo

Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm

Tip: Para el taller usaremos una copia local, para no saturar el servidor

Acceso al contenido de la página

```
from amara.bindery import html
```
```
from amara.lib import U
```
```
 
```

URL = '<introduce la dirección de la copia local>'

```
 
```
```
doc = html.parse(URL)
```

print U(doc.html.body) # doc permite recorrer el documento con sintaxis python

Tip: doc tiene toda la información del documento

Taller de Web Scraping LWSC 2011

Contenido

Planteamiento del taller de scraping

Objetivo

Configuración

Configuración del entorno

Configuración del entorno

Lectura de una página html

Lectura básica de un documento

Lectura básica de un documento

Ejemplo

Acceso al contenido de la página

Acceso al contenido de la página

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar