Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»
De WikiEducator
Línea 14: | Línea 14: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | ===¿POR QUÉ HACER SCRAPING?=== |
* En la web hay mucha información | * En la web hay mucha información | ||
* No siempre estructurada (opendata) | * No siempre estructurada (opendata) | ||
Línea 22: | Línea 22: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === CONDICIONES LEGALES === |
* Uso responsable | * Uso responsable | ||
Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar | Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar | ||
Línea 33: | Línea 33: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === ¿POR QUÉ PYTHON? === |
* Muy fácil para "no programadores" | * Muy fácil para "no programadores" | ||
* Muchos módulos, herramientas, ejemplos y documentación. | * Muchos módulos, herramientas, ejemplos y documentación. | ||
Línea 45: | Línea 45: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === ¿BÚSQUEDA EN EL TEXTO BRUTO? === |
<source lang="python"> | <source lang="python"> | ||
import urllib2 | import urllib2 | ||
Línea 58: | Línea 58: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === NO. MEJOR USAMOS LIBRERÍAS ... === |
* Beautiful Soup | * Beautiful Soup | ||
* lxml | * lxml | ||
Línea 70: | Línea 70: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === AMARA === |
* http://akara.info | * http://akara.info | ||
* http://www.xml3k.org | * http://www.xml3k.org | ||
Línea 78: | Línea 78: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === MÁS DETALLES === |
* Implementada en C y Pyhton | * Implementada en C y Pyhton | ||
* Parser basado en Expat | * Parser basado en Expat | ||
Línea 90: | Línea 90: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === CREANDO DATOS PARA LA WEB: AKARA === |
* '''Akara''' es un framework para construir apps RESTful basadas en datos | * '''Akara''' es un framework para construir apps RESTful basadas en datos | ||
* Aplicando sencillos wrappers (decoradores) transformamos funciones en serviciios REST | * Aplicando sencillos wrappers (decoradores) transformamos funciones en serviciios REST | ||
Línea 97: | Línea 97: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === CASOS DE ÉXITO === |
* http://viewshare.org/about/help/ | * http://viewshare.org/about/help/ | ||