viernes, 16 de noviembre de 2018

Un monitorizado para controlarlos a todos

Alguna que otra vez ya he comentado por el blog lo importante que es monitorizar nuestros sistemas y servidores. Son muchas las cuestiones a tener en cuenta, yo siempre estoy aprendiendo sobre cómo monitorizar sistemas y servicios, pero si queréis tener un poco más de conocimiento o qué herramientas suelo utilizar yo, aquí os dejo una serie de posts donde comento cosillas de monitoreo de sistemas y servidores.




Como imagináis, esto es importante para tratar de predecir cuándo un fallo va a ocurrir. Por ejemplo, si sabemos que necesitamos unos archivos con las estadísticas de las ventas realizadas para que esos datos lleguen a la aplicación que utilice otro equipo de la empresa y esos archivos no llegan, ya sabemos que el equipo no va a poder ver esos datos, y ahí nos toca revisar y tratar de encontrar la root cause.

Los motivos pueden ser varios, desde que nuestra tienda online esté fallando, por lo que tendremos que revisar nuestro servidor web y configurarlo debiadamente como en "El server me sabe a poco".  Puede ser por un fallo en la Base de datos, puede que la base de datos esté llena, puede ser problema de espacio en el sistema de archivos, un fallo de conexión entre máquinas temporal que es lo que ha provocado ese fallo,etc. Pueden ser muchos fallos ¿Cómo encontrar la causa real?

Pues muchas veces es difícil, muy difícil, pero nos toca revisar los logs que tengamos (los logs son nuestros amigos fieles que nos lo cuentan todo) y tratar de ver los errores, entenderlos y llegar a una conclusión, y en función de esa conclusión tomar una decisión.

Of course que esto requiere de tiempo de análisis, esto no se hace en 2 minutos. Puede ser laborioso, pero estamos aquí para eso, además que la satisfacción de después es inmensa. Es un problema que has resuelto o que has evitado, porque esa es otra, si ves en tu Pandora FMS que el sistema que contiene la Base de datos al que debe llegar el csv está caido y el crontab de la máquina que lo envían lo va a hacer a las 23:00 y son las 22:30, pues simplemente puedes tratar de actuar en esa media hora o eliminar esa línea de forma temporal y en la máquina target, cambiar el script o programa que lo vaya a leer y decirle que lo lea una hora después.

Eso sí, esto depende del entorno, ya que ese movimiento puede provocar que si tenemos una estructura de árbol por el cuál ese archivo interactúe con 20 procesos, ojo, tenemos que tocar esos 20 procesos. Y esto es lo bello de nuestro trabajo.

¿Hackeamos el Mundo?

No hay comentarios:

Publicar un comentario

Related Posts Plugin for WordPress, Blogger...

Entrada destacada

El server me sabe a poco.

Soy un fanático del Rock y de Debian . (Creo que voy a inventar Rockbian, que suena bien y todo xD) Llevaba tiempo queriendo unir estos 2 c...