Contenidos

De WikiEducator
< Curso Python DGA 2011‎ | acceso a datos
Revisión a fecha de 04:57 20 ago 2011; Lmorillas (Discusión | contribuciones)

(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar



Introducción

Una de las tareas más frecuentes que tenemos es el tratamiento de información. Muchas veces esa información está bien estructurada y almacenada en herramientas estándar (bases de datos relacionales), pero otras veces los datos están en hojas de cálculo, páginas web y formatos menos estructurados. En este bloque vamos a ver cómo podemos usar python para manipular:

  • Hojas de cálculo
  • Bases de datos
  • Documentación web

Además de las formas de acceso y manipulación de los datos introduciremos mecanismos de presentación de los datos (templates, gráficos, pdf, ...)


Hojas de cálculo

Mucha información está almacenada en | hojas de cálculo.

Ficheros CSV

La información de una hoja de cálculo se puede exportar/importar desde un fichero csv. Python tiene soporte para tratar ficheros csv. Un fichero csv es un fichero de texto.

Lectura

import csv
with open('zaragoza_2010_10.csv') as fin:
    reader = csv.reader(fin, delimiter=";")
    for fila in reader:
        print fila
['Países', 'HOMBRES', 'MUJERES', 'TOTAL']
['Rumania', '16704', '14487', '31191']
['Ecuador', '5612', '5713', '11325']
['Marruecos', '5042', '3007', '8049']

Escritura

with open('codigo_ascii.txt', 'w') as fout:
    writer = csv.writer(fout)
    ascii_a = ord('a')
    for n in range(26):
        writer.writerow((chr(ascii_a+n), ascii_a + n))

Quoting

writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)

Dialectos

>>> csv.list_dialects()
['excel-tab', 'excel']

Se pueden crear dialectos:

csv.register_dialect(nombre, delimiter="|")

Usando nombres de campos

with open('zaragoza_2010_10.csv') as fin:
    # cuidado, toma la primera fila como títulos
    # usad parámetro fieldnames si no
    reader = csv.DictReader(fin, delimiter=";")

Hojas de cálculo Excel

Algunas librerías interesantes:

Sin embargo es necesario usar COM para :

  • manipular gráficos
  • celdas con texto enriquecido
  • leer fórmulas
  • trabajar con macros y nombres

xlrd

# ejemplo lectura
import xlrd
datos = {} # Dicc. vacío
book = xlrd.open_workbook('sampledata.xls')
hoja = book.sheet_by_index(0)
for i in range(1,sh.nrows): #salta la primera línea
    datos[hoja.cell_value(rowx=i, colx=1)] = hoja.cell_value(rowx=i, colx=2)

xlwt

# ejemplo escritura
import xlwt
lista1 = [1,2,3,4,5]
lista2 = [234,267,281,301,331]
wb = xlwt.Workbook()
ws = wb.add_sheet('Primera hoja')
ws.write(0,0,'Column A')
ws.write(0,1,'Column B')
i = 1
for x,y in zip(lista1,lista2): # Recorre las dos listas a la vez
    ws.write(i,0,x) # Fila, Columna, Datos.
    ws.write(i,1,y)
    i += 1
wb.save('hoja.xls')

Bases de Datos Relacionales

Plantilla:Preconocimiento

Usar bases de datos relacionales con Python es muy fácil. Python proporciona un estándar para acceder a bases de datos. La DB API 2.0 es la versión vigente (PEP 249) Módulos compatibles:

  • MySQLdb (MySQL)
  • psycopg2 (PostgreSQL)
  • cx_Oracle (Oracle)
  • mxODBC (SQL Server, DB2, Sybase, Oracle, etc.)

Estructura

La DB API usa dos conceptos para realizar los procesos:

  • Objeto Conexión
    • conexión con la base de datos
    • Transacciones
  • Objeto Cursor
    • Ejecuta las sentencias
    • Accede a los resultados

Conexión

  • El objeto conexión se encarga de conectar con la base de datos
  • Proporciona acceso (red/RPC) a la base de datos.
  • Este objeto no permite lanzar sentencias.
  • Gestiona las transacciones (grupos lógicos de sentencias)

Cursor

  • Creado a partir de una conexión
  • Sentencias de manipulación y de consulta en la bbdd.
  • Método execute(), que acepta una secuencia de parámetros.
  • Almacena los datos del result set depués de lanzar la consulta.
  • Método fetch*() que lee los datos del result set

Transacciones

  • DB API 2.0 soporta transacciones (si el motor las soporta) desde el objeto conexión.
  • conexión: commit / rollback

Introspección del esquema

  • Busca el tipo de las columnas de una tabla:
    • Método sencillo:
cursor.execute(select * from testtable where 1=0)
# mira el atributo cursor.description
    • Método avanzado:
cursor.columns(table='testtable')
rows = cursor.fetchall()

Muy importante: Paso de parámetros

  • No hay ue hacer nunca sustitución de cadenas de caracteres para evitar inyección de código.
  • Hay una variable paramstyle que define cómo se pasan los parámetros.
  • Todos los módulos admiten al menos uno de:
    • 'qmark': Signo de interrogación, ej. '...WHERE name=?'
    • 'numeric': Numerico, posicional, ej. '...WHERE name=:1'
    • 'named': por Nombre, ej. '...WHERE name=:name'
    • 'format': Formato ANSI C, ej. '...WHERE name=%s'
    • 'pyformat': Formato Python, ej. '...WHERE name=%(name)s'

Ejemplo con sqlite

# Fuente: http://mundogeek.net/archivos/2008/06/25/bases-de-datos-en-python
import sqlite3 as dbapi
 
# 1. Creamos objeto conexión
bbdd = dbapi.connect("bbdd.dat")
 
# 2. Creamos un cursor
cursor = bbdd.cursor()
 
# 3. Usamos cursor para acceder a la  base de datos
# 3.1. create
cursor.execute("""create table empleados (dni text,
                  nombre text,
                  departamento text)""")
 
# 3.2. insert
cursor.execute("""insert into empleados
                  values ('12345678-A', 'Manuel Gil', 'Contabilidad')""")
 
bbdd.commit()
 
# 3.3 select
cursor.execute("""select * from empleados
                  where departamento='Contabilidad'""")
 
# extraer resultados de select --> están almacenados en cursor
for tupla in cursor.fetchall():
    print tupla

Ejemplo mysql

import MySQLdb
 
dbusername = "user" 
dbname = 'user_private' 
dbpassword = 'some_password'
 
# connect to the database 
db = MySQLdb.Connect(db = dbname, user = dbusername, passwd = dbpassword)
 
#To perform a query, you first need a cursor, and then you can execute queries on it. 
cursor = db.cursor()
 
# create the query 
query = "SELECT * FROM foo"
 
# execute the query 
cursor.execute(query)
 
# retrieve the result 
results = cursor.fetchall()
 
for firstname, age, city in results: 
    print firstname, age, city

Ampliación MySQL

Acceso a MySQL con Python

Persistencia de objetos

pickle

Pickle: convierte un objeto python en secuencia de bytes Funciones de pickle:

  • dumps(objeto, proto): serializa a una string
  • dump(objeto, archivo, proto): guarda en archivo
  • loads(cadena, proto): des-serializa una string
  • load(archivo, proto): carga desde archivo
>>> import pickle
>>> s = pickle.dumps({1:'a',2:'b'},0) >>> s
"(dp0\nI1\nS'a'\np1\nsI2\nS'b'\np2\ns."
>>> print pickle.loads(s) {1: 'a', 2: 'b'}

Shelve

Shelve: objeto similar a un diccionario persistente

  • open(filename, flag='c', protocol=None, writeback=False) #crea un diccionario persistente
  • flag= 'r': solo lectura, 'w': lectura/escritura, 'c':creación y lectura/escritura, 'n': nuevo
  • shelve.sync(): sincronizar (writeback=True)
  • shelve.close(): grabar y cerrar diccionario
>>>import shelve
>>> d = shelve.open('alumnos.dat') # abrir archivo 
>>> d['12cd'] = {'nombre': 'Luis', 'apellido': 'Pérez'}
>>> data = d['12cd'] # leer una COPIA de los datos 
>>> del d['12cd'] # borra los datos almacenados