Última revisión de 20:31 10 nov 2011

Contenido

1 Screen Scraping :: Aumentando el poder de la web

Screen Scraping :: Aumentando el poder de la web

Luis Miguel Morillas <lmorillas at xml3k.org>

Zaragoza, 10 de noviembre de 2011

identi.ca: lmorillas

1. Intro

¿POR QUÉ HACER SCRAPING?

Web de datos

En la web hay mucha información
No siempre estructurada (opendata)
Divertido

¿DÓNDE/CÓMO ESTÁN LOS DATOS?

¿A qué hora es la charla de Jython?

CONDICIONES LEGALES

Uso responsable

Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar 
minería de datos ("data mining"), robots, screen scraping o herramientas 
similares de acumulación y extracción de datos en este sitio de red, 
salvo con nuestro consentimiento expreso y por escrito tal y 
como se indica a continuación.

http://www.imdb.es/help/show_article?conditions

¿POR QUÉ PYTHON?

Muy fácil para "no programadores"
Muchos módulos, herramientas, ejemplos y documentación.
Desarrollo muy rápido y eficiente
Open-source

2. ¿Cómo?

PROCESO GENERAL

Analizar
Buscar patrones
Extracción de datos

¿BÚSQUEDA EN EL TEXTO BRUTO?

import urllib2
 
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()

Proceso del texto (Búsqueda subcadenas ...)
Expresiones regulares

NO. MEJOR USAMOS LIBRERÍAS ...

Beautiful Soup
lxml
html5lib
mechanize
scrapemark
pyquery
scrapy

...

AMARA

http://akara.info
http://www.xml3k.org
Proyecto liderado por Uche Ogbuji / Zepheira
Combina el poder de Python y de las tecnologías XML

MÁS DETALLES

Implementada en C y Pyhton
Parser basado en Expat
API para recorrido de nodos muy eficiente y sencilla

Python, XPath, InfoSet

XPath (& binding dinámico de objetos)
XSLT (& enlazado con funciones en Python)
Aserciones basadas en Schematron (validación de modelos)
Licencia tipo Apache

CREANDO DATOS PARA LA WEB: AKARA

Akara es un framework para construir apps RESTful basadas en datos
Aplicando sencillos wrappers (decoradores) transformamos funciones en serviciios REST
Funciona como un repositorio de servicios con autodiscover

CASOS DE ÉXITO

http://viewshare.org/about/help/

http://viewshare.org/static/images/recollection-video-thumbnail.png

3. Práctica

Scraping the web with amara

@@ Línea 4: / Línea 4: @@
 = Screen Scraping :: Aumentando el poder de la web=
 Luis Miguel Morillas &lt;lmorillas at xml3k.org&gt;
+Zaragoza, 10 de noviembre de 2011
 identi.ca: lmorillas
@@ Línea 10: / Línea 12: @@
 <div class="slide">
 ==1. Intro  ==
 </div>
 <div class="slide">
-===¿Por qué hacer scraping?===
+===¿POR QUÉ HACER SCRAPING?===
+* Web de datos
 * En la web hay mucha información
 * No siempre estructurada (opendata)
-* Web de datos
 * '''Divertido'''
+</div>
+<div class="slide nobackground">
+===¿DÓNDE/CÓMO ESTÁN LOS DATOS?===
+''¿A qué hora es la charla de Jython?''
+[[Archivo:Lswc horario codigo.png]]
 </div>
 <div class="slide">
-=== Condiciones Legales ===
+=== CONDICIONES LEGALES ===
 * Uso responsable
   Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar
@@ Línea 31: / Línea 41: @@
 http://www.imdb.es/help/show_article?conditions
 </div>
 <div class="slide">
-=== ¿Por qué Python? ===
+=== ¿POR QUÉ PYTHON? ===
-* Crecimiento de los lenguajes dinámicos en la web.
+* Muy fácil para "no programadores"
 * Muchos módulos, herramientas, ejemplos y documentación.
 * Desarrollo muy rápido y eficiente
@@ Línea 41: / Línea 52: @@
 <div class="slide">
 ==2. ¿Cómo?  ==
+</div>
+<div class="slide">
+=== PROCESO GENERAL  ===
+* Analizar
+* Buscar patrones
+* Extracción de datos
 </div>
 <div class="slide">
-=== Búsqueda "bruta"  ===
+=== ¿BÚSQUEDA EN EL TEXTO BRUTO?  ===
 <source lang="python">
 import urllib2
@@ Línea 58: / Línea 75: @@
 <div class="slide">
-=== Librerías en Python ===
+=== NO. MEJOR USAMOS LIBRERÍAS ... ===
 * Beautiful Soup
-* mechanize
 * lxml
 * html5lib
+* mechanize
 * scrapemark
 * pyquery
@@ Línea 70: / Línea 87: @@
 <div class="slide">
-=== amara ===
+=== AMARA ===
-* Proyecto en torno a
+* http://akara.info
+* http://www.xml3k.org
+* Proyecto liderado por Uche Ogbuji / [http://zepheira.com/ Zepheira]
+* Combina el poder de Python y de las tecnologías XML
 </div>
 <div class="slide">
-===  ===
+=== MÁS DETALLES ===
+* Implementada en C y Pyhton
+* Parser basado en Expat
+* API para recorrido de nodos muy eficiente y sencilla<br/>
+: Python, XPath, InfoSet
+* XPath  (& binding dinámico de objetos)
+* XSLT (& enlazado con funciones en Python)
+* Aserciones basadas en Schematron (validación de modelos)
+* Licencia tipo Apache
+</div>
+<div class="slide">
+=== CREANDO DATOS PARA LA WEB: AKARA  ===
+* '''Akara''' es un framework para construir apps RESTful basadas en datos
+* Aplicando sencillos wrappers (decoradores) transformamos funciones en serviciios REST
+* Funciona como un repositorio de servicios con '''autodiscover'''
 </div>
 <div class="slide">
-==2. Práctica  ==
+=== CASOS DE ÉXITO  ===
+* http://viewshare.org/about/help/
+[http://outreach.zepheira.com/public/loc/recollection/video/recollection-intro.swf http://viewshare.org/static/images/recollection-video-thumbnail.png]
+</div>
+<div class="slide">
+==3. Práctica  ==
 </div>

Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»

Última revisión de 20:31 10 nov 2011

Contenido

Screen Scraping :: Aumentando el poder de la web

1. Intro

¿POR QUÉ HACER SCRAPING?

¿DÓNDE/CÓMO ESTÁN LOS DATOS?

CONDICIONES LEGALES

¿POR QUÉ PYTHON?

2. ¿Cómo?

PROCESO GENERAL

¿BÚSQUEDA EN EL TEXTO BRUTO?

NO. MEJOR USAMOS LIBRERÍAS ...

AMARA

MÁS DETALLES

CREANDO DATOS PARA LA WEB: AKARA

CASOS DE ÉXITO

3. Práctica

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar