Traza ejemplo liga

De WikiEducator
< LSWC scraping the web‎ | taller scraping lwsc 2011
Revisión a fecha de 12:20 10 nov 2011; Lmorillas (Discusión | contribuciones)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar


>>> from amara.bindery import html
>>> from amara.lib import U
 
>>> doc = html.parse('liga.html')
>>> print doc.xml_encode()
<?xml version="1.0" encoding="UTF-8"?>
<!----><html lang="en"><head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Docutils 0.7: http://docutils.sourceforge.net/" name="generator"/>
<title>Equipos de fútbol</title>
</head>
<body>
<h1 class="title">Equipos de fútbol</h1>
<h2>Liga BBVA</h2>
<ul id="primera">
<li>Athletic</li>
<li>Atlético</li>
...
>>> print doc.html.body.h1
Equipos de fútbol
>>> print doc.html.body.h2
Liga BBVA
>>> for h in doc.html.body.h2:
	print h
 
Liga BBVA
Liga Adelante
>>> for equipo in doc.html.body.ul.li:
	print equipo
 
Athletic
Atlético
Barcelona
Betis
Espanyol
Getafe
Granada
Levante
Mallorca
Málaga
Osasuna
Madrid
R. Sociedad
Racing
Rayo
Sevilla
Sporting
Valencia
Villarreal
Zaragoza
# Equipos de primera división
>>> len(doc.html.body.ul.li)
20
# Equipos de segunda división
>>> len(doc.html.body.ul[1].li)
22
# Cambiamos el título: en mayúscula
>>> h1 = U(doc.html.body.h1)
>>> doc.html.body.h1.xml_first_child.xml_value = h1.upper()
>>> print doc.xml_encode()
...
<body>
<h1 class="title">EQUIPOS DE FÚTBOL</h1>
...