Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»
De WikiEducator
Línea 21: | Línea 21: | ||
</div> | </div> | ||
+ | <div class="slide"> | ||
+ | === Condiciones Legales === | ||
+ | * Uso responsable | ||
+ | Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar | ||
+ | minería de datos ("data mining"), robots, screen scraping o herramientas | ||
+ | similares de acumulación y extracción de datos en este sitio de red, | ||
+ | salvo con nuestro consentimiento expreso y por escrito tal y | ||
+ | como se indica a continuación. | ||
+ | http://www.imdb.es/help/show_article?conditions | ||
+ | </div> | ||
<div class="slide"> | <div class="slide"> | ||
=== ¿Por qué Python? === | === ¿Por qué Python? === | ||
* Crecimiento de los lenguajes dinámicos en la web. | * Crecimiento de los lenguajes dinámicos en la web. | ||
* Muchos módulos, herramientas, ejemplos y documentación. | * Muchos módulos, herramientas, ejemplos y documentación. | ||
+ | * Desarrollo muy rápido y eficiente | ||
* Open-source | * Open-source | ||
+ | </div> | ||
+ | |||
+ | <div class="slide"> | ||
+ | ==2. ¿Cómo? == | ||
+ | |||
</div> | </div> | ||
Línea 36: | Línea 52: | ||
source = urllib2.urlopen(URL).read() | source = urllib2.urlopen(URL).read() | ||
</source> | </source> | ||
− | * Proceso del texto | + | |
+ | * Proceso del texto (Búsqueda subcadenas ...) | ||
* Expresiones regulares | * Expresiones regulares | ||
</div> | </div> | ||
− | |||
<div class="slide"> | <div class="slide"> | ||
Línea 55: | Línea 71: | ||
<div class="slide"> | <div class="slide"> | ||
=== amara === | === amara === | ||
− | + | * Proyecto en torno a | |
</div> | </div> | ||