Revisión de 06:48 7 nov 2011

Contenido

1 Planteamiento del taller de scraping
2 Objetivo
- 2.1 Configuración
  - 2.1.1 Actividad
3 Actividad
- 3.1 Lectura de una página html
- 3.2 Actividad
4 Actividad
- 4.1 Example
5 Ejemplo
- 5.1 Un ejemplo más complejo: análisis de los cursos de formación para el empleo

Planteamiento del taller de scraping

En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.

Objetivo

Introducción a las técnicas básicas de scraping usando Python y Amara
Herramientas de ayuda (firebug, curl, ...)

Configuración

Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.

Actividad

Instalación de python.

$ sudo apt-get install python2.7 python2.7-dev python-pip  idle-python2.7

Instalación de amara

$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2

Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)

Instalar firebug

https://addons.mozilla.org/es-es/firefox/addon/firebug/

Lectura de una página html

El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:

amara.parse
amara.bindery.parse
amara.bindery.html.parse

Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.

Actividad

Escribe este ejemplo para leer un documento. Modifica URL para que tenga una dirección real. ¿Qué vemos en la pantalla?

```
from amara.bindery import html
```
```
URL = 'http://pagina.destino.com'
```
```
 
```
```
doc = html.parse(URL)
```
```
print doc
```

Tip: doc tiene toda la información del documento

Vamos a practicar con un ejemplo muy sencillo, el ejemplo de la liga

Example

Ejemplo

Lo primero que hay que hacer es ver la estructura del documento. Desde el navegador, accede al código fuente de la página web. Navegando al estilo Python

¿Cuál es el título del documento?

print doc.html.head.title

¿Cuáles son las ligas recogidas en el documento?

for liga doc.html.body.h2:
    print liga

¿Cuáles son los equipos de la Liga BBVA?

for equipo in doc.html.body.ul.li:
    print equipo

Un ejemplo más complejo: análisis de los cursos de formación para el empleo

Vamos a usar ahora un ejemplo real: el listado de cursos de formación para el empleo del INAEM recogido en http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm

Tip: Para el taller usaremos una copia local, para no saturar el servidor ;-)

Para selecciones más complejas podemos usar expresiones XPATH. Si no sabes XPATH, firebug te puede ayudar. Firebug copia la XPATH a cualquier elemento.

Listado de cursos:

from amara.bindery.html import parse
 
doc = parse('lista_cursos_inaem.html')
 
CURSOS = u'//td[@class="textoApl1"]'
lista_cursos = doc.xml_select(CURSOS)
for c in lista_cursos:
    print c

@@ Línea 46: / Línea 46: @@
 {{Ejemplo|
 TOCdepth=3|
+Lo primero que hay que hacer es ver la estructura del documento. Desde el navegador, accede al código fuente de la página web.
 '''Navegando al estilo Python'''
 * ¿Cuál es el título del documento?
@@ Línea 61: / Línea 62: @@
 {{Tip| Para el taller usaremos una copia local, para no saturar el servidor ;-) }}
-{{Actividad|
-TOCdepth=3
-<source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" >
+Para selecciones más complejas podemos usar expresiones XPATH. Si no sabes XPATH, firebug te puede ayudar. Firebug copia la XPATH a cualquier elemento.
-from amara.bindery import html
-from amara.lib import U
-URL = '<introduce la dirección de la copia local>'
+* Listado de cursos:
+<source lang="python">
+from amara.bindery.html import parse
-doc = html.parse(URL)
+doc = parse('lista_cursos_inaem.html')
-print U(doc.html.body) # doc permite recorrer el documento con sintaxis python
+CURSOS = u'//td[@class="textoApl1"]'
+lista_cursos = doc.xml_select(CURSOS)
+for c in lista_cursos:
+    print c
 </source>
-{{Tip|'''doc''' tiene toda la información del documento}}
-}}

Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011»

Revisión de 06:48 7 nov 2011

Contenido

Planteamiento del taller de scraping

Objetivo

Configuración

Actividad

Actividad

Lectura de una página html

Actividad

Actividad

Example

Ejemplo

Un ejemplo más complejo: análisis de los cursos de formación para el empleo

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar