Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»

De WikiEducator
Saltar a: navegación, buscar
Línea 21: Línea 21:
 
</div>
 
</div>
  
 +
<div class="slide">
 +
=== Condiciones Legales ===
 +
* Uso responsable
 +
Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar
 +
minería de datos ("data mining"), robots, screen scraping o herramientas
 +
similares de acumulación y extracción de datos en este sitio de red,
 +
salvo con nuestro consentimiento expreso y por escrito tal y
 +
como se indica a continuación.
 +
http://www.imdb.es/help/show_article?conditions
 +
</div>
 
<div class="slide">
 
<div class="slide">
 
=== ¿Por qué Python? ===
 
=== ¿Por qué Python? ===
 
* Crecimiento de los lenguajes dinámicos en la web.
 
* Crecimiento de los lenguajes dinámicos en la web.
 
* Muchos módulos, herramientas, ejemplos y documentación.
 
* Muchos módulos, herramientas, ejemplos y documentación.
 +
* Desarrollo muy rápido y eficiente
 
* Open-source
 
* Open-source
 +
</div>
 +
 +
<div class="slide">
 +
==2. ¿Cómo?  ==
 +
 
</div>
 
</div>
  
Línea 36: Línea 52:
 
source = urllib2.urlopen(URL).read()
 
source = urllib2.urlopen(URL).read()
 
</source>
 
</source>
* Proceso del texto
+
 
 +
* Proceso del texto (Búsqueda subcadenas ...)
 
* Expresiones regulares
 
* Expresiones regulares
 
</div>
 
</div>
 
  
 
<div class="slide">
 
<div class="slide">
Línea 55: Línea 71:
 
<div class="slide">
 
<div class="slide">
 
=== amara ===
 
=== amara ===
 
+
* Proyecto en torno a
 
</div>
 
</div>
  

Revisión de 22:33 6 nov 2011

1. Intro

¿Por qué hacer scraping?

  • En la web hay mucha información
  • No siempre estructurada (opendata)
  • Web de datos
  • Divertido

Condiciones Legales

  • Uso responsable
Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar 
minería de datos ("data mining"), robots, screen scraping o herramientas 
similares de acumulación y extracción de datos en este sitio de red, 
salvo con nuestro consentimiento expreso y por escrito tal y 
como se indica a continuación.

http://www.imdb.es/help/show_article?conditions

¿Por qué Python?

  • Crecimiento de los lenguajes dinámicos en la web.
  • Muchos módulos, herramientas, ejemplos y documentación.
  • Desarrollo muy rápido y eficiente
  • Open-source

2. ¿Cómo?

Búsqueda "bruta"

import urllib2
 
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()
  • Proceso del texto (Búsqueda subcadenas ...)
  • Expresiones regulares

Librerías en Python

  • Beautiful Soup
  • mechanize
  • lxml
  • html5lib
  • scrapemark
  • pyquery
  • scrapy

...

amara

  • Proyecto en torno a

2. Práctica