Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011/liga traza completa»
De WikiEducator
(Página creada con '{{MiTitulo| Traza ejemplo liga}} <source lang="python"> >>> from amara.bindery import html >>> from amara.lib import U >>> doc = html.parse('liga.html') >>> print doc.xml_enco…') |
|||
Línea 58: | Línea 58: | ||
>>> len(doc.html.body.ul[1].li) | >>> len(doc.html.body.ul[1].li) | ||
22 | 22 | ||
+ | # Cambiamos el título: en mayúscula | ||
>>> h1 = U(doc.html.body.h1) | >>> h1 = U(doc.html.body.h1) | ||
>>> doc.html.body.h1.xml_first_child.xml_value = h1.upper() | >>> doc.html.body.h1.xml_first_child.xml_value = h1.upper() |
Última revisión de 11:20 10 nov 2011
>>> from amara.bindery import html >>> from amara.lib import U >>> doc = html.parse('liga.html') >>> print doc.xml_encode() <?xml version="1.0" encoding="UTF-8"?> <!----><html lang="en"><head> <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <meta content="Docutils 0.7: http://docutils.sourceforge.net/" name="generator"/> <title>Equipos de fútbol</title> </head> <body> <h1 class="title">Equipos de fútbol</h1> <h2>Liga BBVA</h2> <ul id="primera"> <li>Athletic</li> <li>Atlético</li> ... >>> print doc.html.body.h1 Equipos de fútbol >>> print doc.html.body.h2 Liga BBVA >>> for h in doc.html.body.h2: print h Liga BBVA Liga Adelante >>> for equipo in doc.html.body.ul.li: print equipo Athletic Atlético Barcelona Betis Espanyol Getafe Granada Levante Mallorca Málaga Osasuna Madrid R. Sociedad Racing Rayo Sevilla Sporting Valencia Villarreal Zaragoza # Equipos de primera división >>> len(doc.html.body.ul.li) 20 # Equipos de segunda división >>> len(doc.html.body.ul[1].li) 22 # Cambiamos el título: en mayúscula >>> h1 = U(doc.html.body.h1) >>> doc.html.body.h1.xml_first_child.xml_value = h1.upper() >>> print doc.xml_encode() ... <body> <h1 class="title">EQUIPOS DE FÚTBOL</h1> ...