Usuario:Luis.perez/sistemaspyaytozgz/watchdog

Contenido

1 Monitorización de servidores y recolección de datos con Watchdog

Monitorización de servidores y recolección de datos con Watchdog

¿ Qué es Watchdog ?

Librería para facilitar la monitorización de servicios y notificar o realizar acciones en respuesta a incidentes.
DSL propio para definir servicios y acciones
Api simple y pequeña

Instalación

Por ahora no está disponible por defecto en distribuciones. Basta con descargar:

https://raw.github.com/sebastien/watchdog/master/Sources/watchdog.py

e incluirlo en el pythonpath.

O bien clonar o descargar el repo https://github.com/sebastien/watchdog.git

e instalarlo mediante

$ python setup.py install

Estructura del DSL

Los servicios se registran en el monitor
Un servicio puede tener varias reglas, que se comprueban con una frecuencia de tiempo configurable
Se pueden definir acciones cuando las reglas terminan con éxito o fracaso.

Reglas y acciones

Reglas: HTTP (prueba un servicio http), SystemHealth(comprueba que los niveles de cpu, disco, y memoria están por debajo de los niveles que establecemos), ProcessInfo, SystemInfo, Bandwith, Mem, Delta.
Acciones: Log, Print, Restart (para reiniciar procesos), Email, XMPP, Incident (para ejectutar otras acciones en base a multiples fallos seguidos), ZMQPublish (para publicar mensajes en colas ZeroMQ).

Podemos crear acciones y reglas personalizadas, extendiendo de Action y Rule.

Ejemplos

Ejemplo básico:

from watchdog import *
 
Monitor(
    Service(
        name="apache-ensure-up",
        monitor=(
            HTTP(
                GET="http://localhost:80/",
                freq=Time.ms(500),
                fail=[
                      Print("Apache is down!!")
                ]
            )
        )
    )
).run()

Enviando emails:

  HTTP(
     GET="http://myservice.com/,
     freq=Time.ms(500),
     fail=[
         Email(
           "admin@company.com",
           "[Watchdog] Service unreachable", "Latency over 500ms",
           "smtp.company.com", "username", "password"
     ]
  )

Incidentes, varios errores en un determinado tiempo:

  HTTP(
     GET="http://myservice.com/,
     freq=Time.ms(500),
     fail=[
         Incident(
           errors = 5,
           during = Time.s(10)
           actions = [ ... ]
     ]
  )

Monitorizando la salud del sistema:

    SystemInfo(
        freq=Time.s(1),
        success = (
            LogResult("myserver.system.mem=",  extract=lambda r,_:r["memoryUsage"]),
            LogResult("myserver.system.disk=", extract=lambda r,_:reduce(max,r["diskUsage"].values())),
            LogResult("myserver.system.cpu=",  extract=lambda r,_:r["cpuUsage"]),
            )
    ),
    Delta(
        Bandwidth("eth0", freq=Time.s(1)),
        extract = lambda v:v["total"]["bytes"]/1000.0/1000.0,
        success = [LogResult("myserver.system.eth0.sent=")]
    ),
    SystemHealth(
        cpu=0.90, disk=0.90, mem=0.90,
        freq=Time.s(60),
        fail=[Print("Health compromised!!")]
    )

Usuario:Luis.perez/sistemaspyaytozgz/watchdog

Contenido

Monitorización de servidores y recolección de datos con Watchdog

¿ Qué es Watchdog ?

Instalación

Estructura del DSL

Reglas y acciones

Ejemplos

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Acciones

Buscar

Navegación

Herramientas

Imprimir/exportar