LSWC scraping the web/presentacion lwsc 2011
De WikiEducator
Saltar a: navegación, buscar
Contenido
Screen Scraping :: Aumentando el poder de la web
Luis Miguel Morillas <lmorillas at xml3k.org>
identi.ca: lmorillas
1. Intro
¿Por qué hacer scraping?
- En la web hay mucha información
- No siempre estructurada (opendata)
- Web de datos
- Divertido
Condiciones Legales
- Uso responsable
Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar minería de datos ("data mining"), robots, screen scraping o herramientas similares de acumulación y extracción de datos en este sitio de red, salvo con nuestro consentimiento expreso y por escrito tal y como se indica a continuación.
¿Por qué Python?
- Crecimiento de los lenguajes dinámicos en la web.
- Muchos módulos, herramientas, ejemplos y documentación.
- Desarrollo muy rápido y eficiente
- Open-source
2. ¿Cómo?
Búsqueda "bruta"
import urllib2 URL = 'http://www.libresoftwareworldconference.com/' source = urllib2.urlopen(URL).read()
- Proceso del texto (Búsqueda subcadenas ...)
- Expresiones regulares
Librerías en Python
- Beautiful Soup
- mechanize
- lxml
- html5lib
- scrapemark
- pyquery
- scrapy
...
amara
- Proyecto en torno a
2. Práctica