|
|
Línea 63: |
Línea 63: |
| </div> | | </div> |
| <div class="slide"> | | <div class="slide"> |
− | ==2. Práctica === | + | ==2. Práctica == |
| | | |
| </div> | | </div> |
Revisión de 10:15 6 nov 2011
Screen Scraping :: Aumentando el poder de la web
Luis Miguel Morillas <lmorillas at xml3k.org>
identi.ca: lmorillas
1. Intro
¿Por qué hacer scraping?
- En la web hay mucha información
- No siempre estructurada (opendata)
- Web de datos
- Divertido
¿Por qué Python?
- Crecimiento de los lenguajes dinámicos en la web.
- Muchos módulos, herramientas, ejemplos y documentación.
- Open-source
Búsqueda "bruta"
import urllib2
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()
- Proceso del texto
- Expresiones regulares
Librerías en Python
- Beautiful Soup
- mechanize
- lxml
- html5lib
- scrapemark
- pyquery
- scrapy
...
amara
2. Práctica
Scraping the web with amara