Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»
De WikiEducator
Línea 33: | Línea 33: | ||
<div class="slide"> | <div class="slide"> | ||
=== ¿Por qué Python? === | === ¿Por qué Python? === | ||
− | * | + | * Muy fácil para "no programadores" |
* Muchos módulos, herramientas, ejemplos y documentación. | * Muchos módulos, herramientas, ejemplos y documentación. | ||
* Desarrollo muy rápido y eficiente | * Desarrollo muy rápido y eficiente | ||
Línea 45: | Línea 45: | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === ¿Búsqueda "bruta"? === |
<source lang="python"> | <source lang="python"> | ||
import urllib2 | import urllib2 | ||
Línea 58: | Línea 58: | ||
<div class="slide"> | <div class="slide"> | ||
− | === Librerías en Python === | + | === No. Librerías en Python === |
* Beautiful Soup | * Beautiful Soup | ||
− | |||
* lxml | * lxml | ||
* html5lib | * html5lib | ||
+ | * mechanize | ||
* scrapemark | * scrapemark | ||
* pyquery | * pyquery | ||
Línea 71: | Línea 71: | ||
<div class="slide"> | <div class="slide"> | ||
=== amara === | === amara === | ||
− | * Proyecto | + | * http://akara.info |
+ | * http://www.xml3k.org | ||
+ | * Proyecto liderado por Uche Ogbuji / [http://zepheira.com/ Zepheira] | ||
+ | * Combina el poder de Python y de las tecnologías XML | ||
</div> | </div> | ||
<div class="slide"> | <div class="slide"> | ||
− | === | + | === Para los que quieran más detalles === |
− | + | * Implementada en C y Pyhton | |
+ | * Parser basado en Expat | ||
+ | * API para recorrido de nodos muy eficiente y sencilla | ||
+ | ** Python | ||
+ | ** XPath | ||
+ | ** InfoSet | ||
+ | * XPath (& binding dinámico de objetos) | ||
+ | * XSLT (& enlazado con funciones en Python) | ||
+ | * Aserciones basadas en Schematron (validación de modelos) | ||
+ | * Licencia tipo Apache | ||
</div> | </div> | ||
<div class="slide"> | <div class="slide"> |