|
|
Línea 8: |
Línea 8: |
| identi.ca: lmorillas | | identi.ca: lmorillas |
| </div> | | </div> |
| + | <div class="slide"> |
| + | ==1. Intro === |
| + | |
| + | </div> |
| + | |
| <div class="slide"> | | <div class="slide"> |
| ===¿Por qué hacer scraping?=== | | ===¿Por qué hacer scraping?=== |
Línea 55: |
Línea 60: |
| <div class="slide"> | | <div class="slide"> |
| === === | | === === |
| + | |
| + | </div> |
| + | <div class="slide"> |
| + | ==2. Práctica === |
| | | |
| </div> | | </div> |
Revisión de 10:14 6 nov 2011
Screen Scraping :: Aumentando el poder de la web
Luis Miguel Morillas <lmorillas at xml3k.org>
identi.ca: lmorillas
1. Intro =
¿Por qué hacer scraping?
- En la web hay mucha información
- No siempre estructurada (opendata)
- Web de datos
- Divertido
¿Por qué Python?
- Crecimiento de los lenguajes dinámicos en la web.
- Muchos módulos, herramientas, ejemplos y documentación.
- Open-source
Búsqueda "bruta"
import urllib2
URL = 'http://www.libresoftwareworldconference.com/'
source = urllib2.urlopen(URL).read()
- Proceso del texto
- Expresiones regulares
Librerías en Python
- Beautiful Soup
- mechanize
- lxml
- html5lib
- scrapemark
- pyquery
- scrapy
...
amara
2. Práctica =
Scraping the web with amara