Traza ejemplo liga
De WikiEducator
< LSWC scraping the web | taller scraping lwsc 2011
Revisión a fecha de 12:19 10 nov 2011; Lmorillas (Discusión | contribuciones)
>>> from amara.bindery import html >>> from amara.lib import U >>> doc = html.parse('liga.html') >>> print doc.xml_encode() <?xml version="1.0" encoding="UTF-8"?> <!----><html lang="en"><head> <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/> <meta content="Docutils 0.7: http://docutils.sourceforge.net/" name="generator"/> <title>Equipos de fútbol</title> </head> <body> <h1 class="title">Equipos de fútbol</h1> <h2>Liga BBVA</h2> <ul id="primera"> <li>Athletic</li> <li>Atlético</li> ... >>> print doc.html.body.h1 Equipos de fútbol >>> print doc.html.body.h2 Liga BBVA >>> for h in doc.html.body.h2: print h Liga BBVA Liga Adelante >>> for equipo in doc.html.body.ul.li: print equipo Athletic Atlético Barcelona Betis Espanyol Getafe Granada Levante Mallorca Málaga Osasuna Madrid R. Sociedad Racing Rayo Sevilla Sporting Valencia Villarreal Zaragoza # Equipos de primera división >>> len(doc.html.body.ul.li) 20 # Equipos de segunda división >>> len(doc.html.body.ul[1].li) 22 >>> h1 = U(doc.html.body.h1) >>> doc.html.body.h1.xml_first_child.xml_value = h1.upper() >>> print doc.xml_encode() ... <body> <h1 class="title">EQUIPOS DE FÚTBOL</h1> ...