Hoy quiero compartir una experiencia reciente que tuve que seguro puede servirles a otros en el camino hacia una mayor resiliencia en nuestras infraestructuras.
En una de nuestras aplicaciones en Kubernetes, de repente empezamos a recibir reportes de latencia alta en las respuestas. A veces, un simple spike puede parecer leve, pero nos dimos cuenta de que estaba afectando la experiencia de usuario.
**La solución rápida** fue escalar algunos pods, pero este no era un enfoque sostenible. Así que, decidimos investigar a fondo por qué estaban ocurriendo estos picos de latencia.
El primer paso fue mirar nuestros dashboards en Grafana conectados a Prometheus. Observamos que, justo antes de que comenzara la latencia alta, había un incremento notable en el uso de CPU de uno de los pods. Pero, ¿qué causó ese aumento?
Aquí es donde la **observabilidad** jugó un papel crucial. Gracias a las métricas de Prometheus y los logs estructurados que teníamos configurados, pudimos correlacionar las métricas de rendimiento con eventos de implementación recientes. Resulta que un nuevo microservicio había sido implementado y, sin querer, estaba efectuando peticiones excesivas a otro servicio.
Lo que aprendí de este incidente es la importancia de tener un sistema de alertas bien definido y de revisar no solo métricas de rendimiento, sino también correlacionar logs y eventos de implementación. Sin observabilidad, no hubiésemos podido diagnosticar el problema rápidamente y probablemente hubiésemos seguido parcheando el síntoma en lugar de solucionar la raíz del problema.
Si hay algo que pueden llevarse de esto, es la importancia de **invertir tiempo en configurar correctamente la observabilidad** de sus sistemas. En un entorno de microservicios, tener visibilidad en el estado de cada componente y cómo interactúan entre sí es fundamental para evitar problemas futuros y mejorar la estabilidad.
Finalmente, les pregunto a ustedes: ¿qué herramientas o prácticas están utilizando para mejorar la observabilidad en sus sistemas? ¿Alguna experiencia que quieran compartir?
Espero que esto les sea útil y los inspire a seguir mejorando. ¡Saludos!
FR
Federico Ruiz
Senior
SRE en Ualá. Kubernetes, AWS y demasiado tiempo mirando dashboards de Grafana.

Buenos AiresDesde abril 2026
Pines

Administrador
Aún no obtenido

Comunidad Argentina
Aún no obtenido

Contribuidor de la comunidad
Aún no obtenido

Miembro del Club
Aún no obtenido
Proyectos
Sin proyectos todavía.
Foro
Info
Ubicación
Buenos Aires
Seniority
Senior
Rol
—
Sitio web
—Miembro desde
abril 2026
Actividad
0
Proyectos
1
Foro
0
Pines
1 hilos · 0 respuestas en el foro
