Diferencia entre revisiones de «LSWC scraping the web/taller scraping lwsc 2011/liga traza completa»

De WikiEducator
Saltar a: navegación, buscar
(Página creada con '{{MiTitulo| Traza ejemplo liga}} <source lang="python"> >>> from amara.bindery import html >>> from amara.lib import U >>> doc = html.parse('liga.html') >>> print doc.xml_enco…')
 
 
Línea 58: Línea 58:
 
>>> len(doc.html.body.ul[1].li)
 
>>> len(doc.html.body.ul[1].li)
 
22
 
22
 +
# Cambiamos el título: en mayúscula
 
>>> h1 = U(doc.html.body.h1)
 
>>> h1 = U(doc.html.body.h1)
 
>>> doc.html.body.h1.xml_first_child.xml_value = h1.upper()
 
>>> doc.html.body.h1.xml_first_child.xml_value = h1.upper()

Última revisión de 11:20 10 nov 2011


>>> from amara.bindery import html
>>> from amara.lib import U
 
>>> doc = html.parse('liga.html')
>>> print doc.xml_encode()
<?xml version="1.0" encoding="UTF-8"?>
<!----><html lang="en"><head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Docutils 0.7: http://docutils.sourceforge.net/" name="generator"/>
<title>Equipos de fútbol</title>
</head>
<body>
<h1 class="title">Equipos de fútbol</h1>
<h2>Liga BBVA</h2>
<ul id="primera">
<li>Athletic</li>
<li>Atlético</li>
...
>>> print doc.html.body.h1
Equipos de fútbol
>>> print doc.html.body.h2
Liga BBVA
>>> for h in doc.html.body.h2:
	print h
 
Liga BBVA
Liga Adelante
>>> for equipo in doc.html.body.ul.li:
	print equipo
 
Athletic
Atlético
Barcelona
Betis
Espanyol
Getafe
Granada
Levante
Mallorca
Málaga
Osasuna
Madrid
R. Sociedad
Racing
Rayo
Sevilla
Sporting
Valencia
Villarreal
Zaragoza
# Equipos de primera división
>>> len(doc.html.body.ul.li)
20
# Equipos de segunda división
>>> len(doc.html.body.ul[1].li)
22
# Cambiamos el título: en mayúscula
>>> h1 = U(doc.html.body.h1)
>>> doc.html.body.h1.xml_first_child.xml_value = h1.upper()
>>> print doc.xml_encode()
...
<body>
<h1 class="title">EQUIPOS DE FÚTBOL</h1>
...