Revisión de 09:46 6 nov 2011

Contenido

1 Screen Scraping :: Aumentando el poder de la web

Screen Scraping :: Aumentando el poder de la web

Luis Miguel Morillas <lmorillas at xml3k.org>

identi.ca: lmorillas

1. Intro

¿Por qué hacer scraping?

En la web hay mucha información
No siempre estructurada (opendata)
Web de datos
Divertido

Condiciones Legales

Uso responsable

Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar 
minería de datos ("data mining"), robots, screen scraping o herramientas 
similares de acumulación y extracción de datos en este sitio de red, 
salvo con nuestro consentimiento expreso y por escrito tal y 
como se indica a continuación.

http://www.imdb.es/help/show_article?conditions

¿Por qué Python?

Muy fácil para "no programadores"
Muchos módulos, herramientas, ejemplos y documentación.
Desarrollo muy rápido y eficiente
Open-source

2. ¿Cómo?

¿Búsqueda "bruta"?

import urllib2
 
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()

Proceso del texto (Búsqueda subcadenas ...)
Expresiones regulares

No. Librerías en Python

Beautiful Soup
lxml
html5lib
mechanize
scrapemark
pyquery
scrapy

...

amara

http://akara.info
http://www.xml3k.org
Proyecto liderado por Uche Ogbuji / Zepheira
Combina el poder de Python y de las tecnologías XML

Para los que quieran más detalles

Implementada en C y Pyhton
Parser basado en Expat
API para recorrido de nodos muy eficiente y sencilla
- Python
- XPath
- InfoSet
XPath (& binding dinámico de objetos)
XSLT (& enlazado con funciones en Python)
Aserciones basadas en Schematron (validación de modelos)
Licencia tipo Apache

2. Práctica

Scraping the web with amara

@@ Línea 33: / Línea 33: @@
 <div class="slide">
 === ¿Por qué Python? ===
-* Crecimiento de los lenguajes dinámicos en la web.
+* Muy fácil para "no programadores"
 * Muchos módulos, herramientas, ejemplos y documentación.
 * Desarrollo muy rápido y eficiente
@@ Línea 45: / Línea 45: @@
 <div class="slide">
-=== Búsqueda "bruta"  ===
+=== ¿Búsqueda "bruta"?  ===
 <source lang="python">
 import urllib2
@@ Línea 58: / Línea 58: @@
 <div class="slide">
-=== Librerías en Python ===
+=== No. Librerías en Python ===
 * Beautiful Soup
-* mechanize
 * lxml
 * html5lib
+* mechanize
 * scrapemark
 * pyquery
@@ Línea 71: / Línea 71: @@
 <div class="slide">
 === amara ===
-* Proyecto en torno a
+* http://akara.info
+* http://www.xml3k.org
+* Proyecto liderado por Uche Ogbuji / [http://zepheira.com/ Zepheira]
+* Combina el poder de Python y de las tecnologías XML
 </div>
 <div class="slide">
-===  ===
+=== Para los que quieran más detalles ===
+* Implementada en C y Pyhton
+* Parser basado en Expat
+* API para recorrido de nodos muy eficiente y sencilla
+** Python
+** XPath
+** InfoSet
+* XPath  (& binding dinámico de objetos)
+* XSLT (& enlazado con funciones en Python)
+* Aserciones basadas en Schematron (validación de modelos)
+* Licencia tipo Apache
 </div>
 <div class="slide">

Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»

Revisión de 09:46 6 nov 2011

Contenido

Screen Scraping :: Aumentando el poder de la web

1. Intro

¿Por qué hacer scraping?

Condiciones Legales

¿Por qué Python?

2. ¿Cómo?

¿Búsqueda "bruta"?

No. Librerías en Python

amara

Para los que quieran más detalles

2. Práctica

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar