Diferencia entre revisiones de «LSWC scraping the web/presentacion lwsc 2011»
De WikiEducator
| Línea 21: | Línea 21: | ||
</div> | </div> | ||
| + | <div class="slide"> | ||
| + | === Condiciones Legales === | ||
| + | * Uso responsable | ||
| + | Robots y Screen Scraping (raspado de pantalla): Usted no podrá usar | ||
| + | minería de datos ("data mining"), robots, screen scraping o herramientas | ||
| + | similares de acumulación y extracción de datos en este sitio de red, | ||
| + | salvo con nuestro consentimiento expreso y por escrito tal y | ||
| + | como se indica a continuación. | ||
| + | http://www.imdb.es/help/show_article?conditions | ||
| + | </div> | ||
<div class="slide"> | <div class="slide"> | ||
=== ¿Por qué Python? === | === ¿Por qué Python? === | ||
* Crecimiento de los lenguajes dinámicos en la web. | * Crecimiento de los lenguajes dinámicos en la web. | ||
* Muchos módulos, herramientas, ejemplos y documentación. | * Muchos módulos, herramientas, ejemplos y documentación. | ||
| + | * Desarrollo muy rápido y eficiente | ||
* Open-source | * Open-source | ||
| + | </div> | ||
| + | |||
| + | <div class="slide"> | ||
| + | ==2. ¿Cómo? == | ||
| + | |||
</div> | </div> | ||
| Línea 36: | Línea 52: | ||
source = urllib2.urlopen(URL).read() | source = urllib2.urlopen(URL).read() | ||
</source> | </source> | ||
| − | * Proceso del texto | + | |
| + | * Proceso del texto (Búsqueda subcadenas ...) | ||
* Expresiones regulares | * Expresiones regulares | ||
</div> | </div> | ||
| − | |||
<div class="slide"> | <div class="slide"> | ||
| Línea 55: | Línea 71: | ||
<div class="slide"> | <div class="slide"> | ||
=== amara === | === amara === | ||
| − | + | * Proyecto en torno a | |
</div> | </div> | ||
