Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011»
Línea 12: | Línea 12: | ||
Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux. | Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux. | ||
{{Actividad| | {{Actividad| | ||
− | |||
* Instalación de python. | * Instalación de python. | ||
$ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7 | $ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7 | ||
Línea 31: | Línea 30: | ||
{{Actividad| | {{Actividad| | ||
− | |||
Escribe este ejemplo para leer un documento. Modifica '''URL''' para que tenga una dirección real. ¿Qué vemos en la pantalla? | Escribe este ejemplo para leer un documento. Modifica '''URL''' para que tenga una dirección real. ¿Qué vemos en la pantalla? | ||
<source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" > | <source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" > | ||
Línea 45: | Línea 43: | ||
Vamos a practicar con un ejemplo muy sencillo, el [[/ejemplo liga | ejemplo de la liga]] | Vamos a practicar con un ejemplo muy sencillo, el [[/ejemplo liga | ejemplo de la liga]] | ||
{{Ejemplo| | {{Ejemplo| | ||
− | |||
Lo primero que hay que hacer es ver la estructura del documento. Desde el navegador, accede al código fuente de la página web. | Lo primero que hay que hacer es ver la estructura del documento. Desde el navegador, accede al código fuente de la página web. | ||
'''Navegando al estilo Python''' | '''Navegando al estilo Python''' |
Revisión de 08:17 7 nov 2011
Contenido
Planteamiento del taller de scraping
En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.
Configuración
Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.
$ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)
|
Lectura de una página html
El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:
amara.parse amara.bindery.parse amara.bindery.html.parse
Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.
Vamos a practicar con un ejemplo muy sencillo, el ejemplo de la liga
Ejemplo | |
Lo primero que hay que hacer es ver la estructura del documento. Desde el navegador, accede al código fuente de la página web. Navegando al estilo Python
print doc.html.head.title
for liga doc.html.body.h2: print liga
for equipo in doc.html.body.ul.li: print equipo
|
Un ejemplo más complejo: análisis de los cursos de formación para el empleo
Vamos a usar ahora un ejemplo real: el listado de cursos de formación para el empleo del INAEM recogido en http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm
Para selecciones más complejas podemos usar expresiones XPATH. Si no sabes XPATH, firebug te puede ayudar. Firebug copia la XPATH a cualquier elemento.
- Listado de cursos:
from amara.bindery.html import parse doc = parse('lista_cursos_inaem.html') CURSOS = u'//td[@class="textoApl1"]' lista_cursos = doc.xml_select(CURSOS) for c in lista_cursos: print c