Revisión de 09:33 6 nov 2011

Contenido

1 Screen Scraping :: Aumentando el poder de la web

Screen Scraping :: Aumentando el poder de la web

Luis Miguel Morillas <lmorillas at xml3k.org>

identi.ca: lmorillas

1. Intro

¿Por qué hacer scraping?

En la web hay mucha información
No siempre estructurada (opendata)
Web de datos
Divertido

Condiciones Legales

Uso responsable

Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar 
minería de datos ("data mining"), robots, screen scraping o herramientas 
similares de acumulación y extracción de datos en este sitio de red, 
salvo con nuestro consentimiento expreso y por escrito tal y 
como se indica a continuación.

http://www.imdb.es/help/show_article?conditions

¿Por qué Python?

Crecimiento de los lenguajes dinámicos en la web.
Muchos módulos, herramientas, ejemplos y documentación.
Desarrollo muy rápido y eficiente
Open-source

2. ¿Cómo?

Búsqueda "bruta"

import urllib2
 
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()

Proceso del texto (Búsqueda subcadenas ...)
Expresiones regulares

Librerías en Python

Beautiful Soup
mechanize
lxml
html5lib
scrapemark
pyquery
scrapy

...

amara

Proyecto en torno a

2. Práctica

Scraping the web with amara

@@ Línea 21: / Línea 21: @@
 </div>
+<div class="slide">
+=== Condiciones Legales ===
+* Uso responsable
+ Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar
+ minería de datos ("data mining"), robots, screen scraping o herramientas
+ similares de acumulación y extracción de datos en este sitio de red,
+ salvo con nuestro consentimiento expreso y por escrito tal y
+ como se indica a continuación.
+http://www.imdb.es/help/show_article?conditions
+</div>
 <div class="slide">
 === ¿Por qué Python? ===
 * Crecimiento de los lenguajes dinámicos en la web.
 * Muchos módulos, herramientas, ejemplos y documentación.
+* Desarrollo muy rápido y eficiente
 * Open-source
+</div>
+<div class="slide">
+==2. ¿Cómo?  ==
 </div>
@@ Línea 36: / Línea 52: @@
 source = urllib2.urlopen(URL).read()
 </source>
-* Proceso del texto
+* Proceso del texto (Búsqueda subcadenas ...)
 * Expresiones regulares
 </div>
 <div class="slide">
@@ Línea 55: / Línea 71: @@
 <div class="slide">
 === amara ===
+* Proyecto en torno a
 </div>

Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»

Revisión de 09:33 6 nov 2011

Contenido

Screen Scraping :: Aumentando el poder de la web

1. Intro

¿Por qué hacer scraping?

Condiciones Legales

¿Por qué Python?

2. ¿Cómo?

Búsqueda "bruta"

Librerías en Python

amara

2. Práctica

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar