Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011»
De WikiEducator
Línea 1: | Línea 1: | ||
{{MiTitulo| Taller de Web Scraping LWSC 2011}} | {{MiTitulo| Taller de Web Scraping LWSC 2011}} | ||
+ | |||
+ | == Planteamiento del taller de scraping == | ||
+ | En el taller vamos a usar [http://www.python.org Python] y [http://www.xml3k.org/Amara Amara] para hacer una práctica de web scraping. El nivel del taller es de iniciación. | ||
{{Objetivo| | {{Objetivo| | ||
− | |||
* Introducción a las técnicas básicas de scraping usando [http://www.python.org Python] y [http://www.xml3k.org/Amara Amara] | * Introducción a las técnicas básicas de scraping usando [http://www.python.org Python] y [http://www.xml3k.org/Amara Amara] | ||
* Herramientas de ayuda (firebug, curl, ...) | * Herramientas de ayuda (firebug, curl, ...) | ||
}} | }} | ||
+ | == Configuración == | ||
+ | Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux. | ||
{{Actividad| | {{Actividad| | ||
− | TOCdepth= | + | TOCdepth=3| |
Title=Configuración del entorno| | Title=Configuración del entorno| | ||
+ | * Instalación de python. | ||
+ | $ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7 | ||
* Instalación de amara | * Instalación de amara | ||
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 | $ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 | ||
Línea 17: | Línea 23: | ||
}} | }} | ||
+ | == Lectura de una página html == | ||
+ | |||
+ | El proceso básico consiste en utilizar un '''parser''' para analizar el documento. Amara tiene 3 parsers: | ||
+ | amara.parse | ||
+ | amara.bindery.parse | ||
+ | amara.bindery.html.parse | ||
+ | |||
+ | Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web. | ||
{{Actividad| | {{Actividad| | ||
Línea 23: | Línea 37: | ||
<source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" > | <source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" > | ||
from amara.bindery import html | from amara.bindery import html | ||
− | URL = 'http:// | + | URL = 'http://pagina.destino.com' |
doc = html.parse(URL) | doc = html.parse(URL) |
Revisión de 05:23 7 nov 2011
Contenido
Planteamiento del taller de scraping
En el taller vamos a usar Python y Amara para hacer una práctica de web scraping. El nivel del taller es de iniciación.
Configuración
Python y Amara son multiplataforma. En el taller vamos a indicar cómo instalar el entorno en linux.
Configuración del entorno
$ sudo apt-get install python2.7 python2.7-dev python-pip idle-python2.7
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2 Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)
|
Lectura de una página html
El proceso básico consiste en utilizar un parser para analizar el documento. Amara tiene 3 parsers:
amara.parse amara.bindery.parse amara.bindery.html.parse
Para usar documentos html usaremos el tercero, que además soporta documentos no válidos (tagsoup). El objeto que devuelve el parser es el que usamos para leer y modifcar un documento web.
Lectura básica de un documento
Ejemplo | |
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm Tip: Para el taller usaremos una copia local, para no saturar el servidor
|
Acceso al contenido de la página