Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011»

De WikiEducator
Saltar a: navegación, buscar
Línea 27: Línea 27:
 
doc = html.parse(URL)
 
doc = html.parse(URL)
 
</source>
 
</source>
[{Tip|'''doc''' tiene toda la información del documento}}
+
{{Tip|'''doc''' tiene toda la información del documento}}
 
}}
 
}}
  
Línea 34: Línea 34:
 
Title=Ejemplo base|
 
Title=Ejemplo base|
 
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm
 
Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm
 +
{{Tip| Para el taller usaremos una copia local, para no saturar el servidor}}
 
}}
 
}}
  
 +
 +
{{Actividad|
 +
TOCdepth=2|
 +
Title=Acceso al contenido de la página|
 +
<source lang="python" line="GESHI_NORMAL_LINE_NUMBERS" >
 +
from amara.bindery import html
 +
from amara.lib import U
 +
 +
URL = '<introduce la dirección de la copia local>'
 +
 +
doc = html.parse(URL)
 +
print U(doc.html.body) # doc permite recorrer el documento con sintaxis python
 +
</source>
 +
{{Tip|'''doc''' tiene toda la información del documento}}
 
}}
 
}}

Revisión de 04:22 7 nov 2011


Actividad

Icon objectives.jpg

Objetivo

  • Introducción a las técnicas básicas de scraping usando Python y Amara
  • Herramientas de ayuda (firebug, curl, ...)


Configuración del entorno

Icon activity.jpg

Configuración del entorno

  • Instalación de amara
$ sudo pip install http://files.akara.info/00-amara-latest.tar.bz2
Icon present.gif
Tip: Es necesario tener instalado un compilador de C y la cabeceras de python (en debian/ubuntu hay que instalar python-dev)


  • Instalar firebug
https://addons.mozilla.org/es-es/firefox/addon/firebug/






Lectura básica de un documento

Icon activity.jpg

Lectura básica de un documento

  1. from amara.bindery import html
  2. URL = 'http://mypage.com'
  3.  
  4. doc = html.parse(URL)
Icon present.gif
Tip: doc tiene toda la información del documento







Icon casestudy.gif

Ejemplo

Listado de cursos del INAEM: http://plan.aragon.es/MapaRec.nsf/fmrListado?OpenForm

Icon present.gif
Tip: Para el taller usaremos una copia local, para no saturar el servidor






Acceso al contenido de la página

Icon activity.jpg

Acceso al contenido de la página

  1. from amara.bindery import html
  2. from amara.lib import U
  3.  
  4. URL = '<introduce la dirección de la copia local>'
  5.  
  6. doc = html.parse(URL)
  7. print U(doc.html.body) # doc permite recorrer el documento con sintaxis python
Icon present.gif
Tip: doc tiene toda la información del documento