Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»
De WikiEducator
| Línea 33: | Línea 33: | ||
<div class="slide"> | <div class="slide"> | ||
=== ¿Por qué Python? === | === ¿Por qué Python? === | ||
| − | * | + | * Muy fácil para "no programadores" |
* Muchos módulos, herramientas, ejemplos y documentación. | * Muchos módulos, herramientas, ejemplos y documentación. | ||
* Desarrollo muy rápido y eficiente | * Desarrollo muy rápido y eficiente | ||
| Línea 45: | Línea 45: | ||
<div class="slide"> | <div class="slide"> | ||
| − | === | + | === ¿Búsqueda "bruta"? === |
<source lang="python"> | <source lang="python"> | ||
import urllib2 | import urllib2 | ||
| Línea 58: | Línea 58: | ||
<div class="slide"> | <div class="slide"> | ||
| − | === Librerías en Python === | + | === No. Librerías en Python === |
* Beautiful Soup | * Beautiful Soup | ||
| − | |||
* lxml | * lxml | ||
* html5lib | * html5lib | ||
| + | * mechanize | ||
* scrapemark | * scrapemark | ||
* pyquery | * pyquery | ||
| Línea 71: | Línea 71: | ||
<div class="slide"> | <div class="slide"> | ||
=== amara === | === amara === | ||
| − | * Proyecto | + | * http://akara.info |
| + | * http://www.xml3k.org | ||
| + | * Proyecto liderado por Uche Ogbuji / [http://zepheira.com/ Zepheira] | ||
| + | * Combina el poder de Python y de las tecnologías XML | ||
</div> | </div> | ||
<div class="slide"> | <div class="slide"> | ||
| − | === | + | === Para los que quieran más detalles === |
| − | + | * Implementada en C y Pyhton | |
| + | * Parser basado en Expat | ||
| + | * API para recorrido de nodos muy eficiente y sencilla | ||
| + | ** Python | ||
| + | ** XPath | ||
| + | ** InfoSet | ||
| + | * XPath (& binding dinámico de objetos) | ||
| + | * XSLT (& enlazado con funciones en Python) | ||
| + | * Aserciones basadas en Schematron (validación de modelos) | ||
| + | * Licencia tipo Apache | ||
</div> | </div> | ||
<div class="slide"> | <div class="slide"> | ||
