Taller de Web Scraping LWSC 2011

De WikiEducator

< LSWC scraping the web

Revisión a fecha de 15:22 6 nov 2011; Lmorillas (Discusión | contribuciones)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)

Saltar a: navegación, buscar

Contenido

1 Actividad
2 Objetivo
- 2.1 Configuración del entorno
3 Configuración del entorno
- 3.1 Lectura básica de un documento
4 Lectura básica de un documento
5 Ejemplo
- 5.1 Acceso al contenido de la página
6 Acceso al contenido de la página

Actividad

Objetivo

Introducción a las técnicas básicas de scraping usando Python y Amara
Herramientas de ayuda (firebug, curl, ...)

Configuración del entorno

Configuración del entorno

Instalación de amara

$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2

Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)

Instalar firebug

https://addons.mozilla.org/es-es/firefox/addon/firebug/

Lectura básica de un documento

Lectura básica de un documento

```
from amara.bindery import html
```
```
URL = 'http://mypage.com'
```
```
 
```
```
doc = html.parse(URL)
```

Tip: doc tiene toda la información del documento

Ejemplo

Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm

Tip: Para el taller usaremos una copia local, para no saturar el servidor

Acceso al contenido de la página

Acceso al contenido de la página

```
from amara.bindery import html
```
```
from amara.lib import U
```
```
 
```

URL = '<introduce la dirección de la copia local>'

```
 
```
```
doc = html.parse(URL)
```

print U(doc.html.body) # doc permite recorrer el documento con sintaxis python

Tip: doc tiene toda la información del documento

Obtenido de «https://es.wikieducator.org/index.php?title=LSWC_scraping_the_web/taller_scraping_lwsc_2011&oldid=6342»