Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»

De WikiEducator
Saltar a: navegación, buscar
Línea 24: Línea 24:
  
 
<div class="slide">
 
<div class="slide">
===  ===
+
=== Búsqueda "bruta" ===
 +
<source lang="python">
 +
import urllib2
  
 +
URL = 'http://www.libresoftwareworldconference.com/'
 +
source = urllib2.urlopen(URL).read()
 +
</source>
 +
* Proceso del texto
 +
* Expresiones regulares
 +
</div>
 +
 +
 +
<div class="slide">
 +
=== Librerías en Python ===
 +
* Beautiful Soup
 +
* mechanize
 +
* lxml
 +
* html5lib
 +
* scrapemark
 +
* pyquery
 +
* scrapy
 +
...
 
</div>
 
</div>
  
 
<div class="slide">
 
<div class="slide">
=== ===
+
=== amara ===
  
 
</div>
 
</div>

Revisión de 08:51 6 nov 2011

Screen Scraping :: Aumentando el poder de la web

Luis Miguel Morillas <lmorillas at xml3k.org>

identi.ca: lmorillas

¿Por qué hacer scraping?

  • En la web hay mucha información
  • No siempre estructurada (opendata)
  • Web de datos
  • Divertido

¿Por qué Python?

  • Crecimiento de los lenguajes dinámicos en la web.
  • Muchos módulos, herramientas, ejemplos y documentación.
  • Open-source

Búsqueda "bruta"

import urllib2
 
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()
  • Proceso del texto
  • Expresiones regulares


Librerías en Python

  • Beautiful Soup
  • mechanize
  • lxml
  • html5lib
  • scrapemark
  • pyquery
  • scrapy

...

amara