Mi secreto de escalado de Kubernetes para cargas de trabajo de agentes impredecibles

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 12 min read•2,381 words•Updated Mar 25, 2026

¡Hola, compañeros de la gestión de agentes! Maya Singh aquí, de vuelta con otra inmersión en los detalles del despliegue de agentes en agntup.com. Hoy, quiero hablar sobre algo que me quita el sueño casi tanto como decidir qué ver en mi servicio de streaming: escalar nuestros despliegues de agentes en Kubernetes.

Específicamente, quiero abordar los aspectos a menudo pasados por alto, pero críticos de escalado horizontal inteligente de pods para cargas de trabajo de agentes impredecibles. Todos sabemos que HPA es genial, pero cuando tus agentes están haciendo cosas muy diferentes, o cuando eventos externos causan picos súbitos y masivos, las métricas de CPU/memoria predeterminadas simplemente no funcionan. Es como intentar conducir un coche de Fórmula 1 solo con un velocímetro: te falta un montón de información crítica.

La fecha actual es 18 de marzo de 2026, y si todavía estás dependiendo únicamente de la utilización de CPU para escalar tu flota de agentes, probablemente estés gastando de más en recursos inactivos o siempre jugando a ponerte al día, lo que lleva a un rendimiento degradado y usuarios descontentos. Vamos a solucionar eso.

La trampa de CPU/Memoria: Por qué el HPA predeterminado no es suficiente para agentes inteligentes

Recuerdo que una vez, hace aproximadamente un año y medio, acabábamos de lanzar una nueva función para nuestros agentes de monitoreo. Estos agentes se suponía que debían recopilar logs y métricas muy específicos de la infraestructura del cliente, procesarlos localmente y luego enviarlos de vuelta a nuestra plataforma central. Suena simple, ¿verdad? Incorrecto.

El problema era que teníamos un puñado de clientes empresariales con configuraciones de logging monstruosamente verbosas. Un cliente en particular, una importante institución financiera, decidió habilitar el logging de depuración en toda su flota justo después de nuestro lanzamiento. De repente, nuestros agentes, que estaban funcionando felizmente al 20% de CPU para la mayoría de los clientes, comenzaron a dispararse al 90% y más para este único cliente. Nuestro HPA, configurado para un objetivo de CPU del 70%, se activó, añadiendo más pods. Pero aquí está el truco: el cuello de botella no era solo la CPU. También era la tasa a la que podían procesar y enviar datos, lo que a veces involucraba llamadas a APIs externas con límites de tasa.

Terminaron con docenas de pods para este único cliente, todos trabajando frenéticamente, sin mejorar la situación porque el cuello de botella externo seguía ahí. Nuestros costos se dispararon y la experiencia del cliente fue terrible. Estábamos escalando más, pero no escalando de manera más inteligente.

Esta experiencia subrayó una verdad fundamental: las métricas genéricas de recursos (CPU, memoria) son buenas para aplicaciones de propósito general, pero para agentes con tareas específicas, especialmente aquellos que interactúan con sistemas externos o procesan cargas de trabajo variables, necesitas profundizar más. Necesitas métricas personalizadas.

Más allá de lo básico: Métricas personalizadas para un escalado más inteligente

Aquí es donde ocurre la magia. Kubernetes HPA te permite escalar basado en métricas personalizadas que tú defines. Estas pueden ser cualquier cosa que realmente refleje la carga de trabajo que tus agentes están manejando. Piensa en lo que realmente estresa a tus agentes o indica un atraso. Para mis agentes de procesamiento de logs, no era solo CPU; era:

Líneas de log procesadas por segundo: Una medida directa del volumen de entrada.
Eventos pendientes en la cola interna: Un indicador de atraso interno antes de enviar datos.
Latencia/tasa de error de llamadas a APIs externas: Si tu agente se comunica con servicios externos, esto es crucial.

Tomemos los “eventos pendientes en la cola interna” como un ejemplo. Imagina que tu agente recolecta datos, los coloca en una cola en memoria y luego una rutina en segundo plano los procesa y envía. Si esa cola comienza a crecer rápidamente, significa que tu agente no está manteniéndose al día. Escalar basado en la longitud de esa cola aborda directamente el cuello de botella.

Cómo introducir métricas personalizadas en HPA

Esto generalmente involucra unos pocos componentes:

Tu Agente: Necesita exponer estas métricas. El formato de exposición de Prometheus es el estándar de facto aquí. Instrumenta el código de tu agente usando una biblioteca cliente (Go, Python, Java, etc.) para exponer métricas como agent_pending_events_total o agent_log_lines_processed_per_second.
Prometheus: Scrapea tus pods de agente y almacena estas métricas.
Adaptador de Prometheus o KEDA: Este es el puente.

Personalmente, me inclino por KEDA (Kubernetes Event-driven Autoscaling) para este tipo de escenario, especialmente al tratar con colas externas o fuentes de eventos. Mientras que el Adaptador de Prometheus es sólido para métricas personalizadas simples expuestas por tu aplicación, KEDA sobresale cuando tu desencadenante de escalado es un flujo de eventos real o la longitud de la cola de algo como Kafka, RabbitMQ, SQS, o incluso una API externa personalizada. Proporciona una forma más declarativa y a menudo más simple de definir estas reglas de escalado.

Supongamos que nuestro agente expone una métrica de Prometheus llamada agent_pending_events_total. Queremos escalar hacia arriba si el valor promedio de esta métrica en todos los pods para un despliegue dado sobrepasa 1000.

Primero, asegúrate de que tu agente está exponiendo esta métrica:


# Ejemplo de fragmento de Python usando la biblioteca cliente de Prometheus
from prometheus_client import Gauge, start_http_server
import time
import random

pending_events_gauge = Gauge('agent_pending_events_total', 'Número de eventos pendientes en la cola interna')

def run_agent_loop():
 while True:
 # Simular trabajo y cambios en la cola
 current_pending = random.randint(100, 1500) # Simulando atraso variable
 pending_events_gauge.set(current_pending)
 print(f"Eventos pendientes actuales: {current_pending}")
 time.sleep(5)

if __name__ == '__main__':
 start_http_server(8000) # Exponer métricas en el puerto 8000
 run_agent_loop()

Luego, configurarías tu configuración de Prometheus para scrape estas métricas de tus pods de agente. Suponiendo que tus Pods de agente tienen la anotación prometheus.io/scrape: "true" y prometheus.io/port: "8000", Prometheus las recogerá.

Ahora, miremos una definición de ScaledObject de KEDA. Esto asume que tienes KEDA instalado en tu clúster.


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment # Nombre de tu despliegue de agente
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30 # Comprobar métricas cada 30 segundos
 triggers:
 - type: prometheus
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090 # Tu punto final del servicio de Prometheus
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod) # Eventos pendientes promedio por pod
 threshold: "1000" # Escalar si los eventos pendientes promedio por pod superan 1000
 # Usa `query` en lugar de `metricName` y `threshold` para escenarios más complejos
 # Por ejemplo, para apuntar a un promedio en todo el despliegue en lugar de por pod:
 # query: |
 # sum(agent_pending_events_total) / count(agent_pending_events_total)
 # threshold: "1000"
 # Este ejemplo apunta a promedio por pod, que a menudo es más útil para la capacidad individual del agente.

Una nota sobre la consulta de Prometheus: He usado avg(agent_pending_events_total) by (pod). KEDA (y HPA con el Adaptador de Prometheus) generalmente agregará métricas a través de los pods pertenecientes al objetivo escalado. Si estás apuntando a un promedio *por pod*, esta es una buena manera de definir un umbral que realmente refleje la carga individual del agente. Si quisieras escalar basado en el atraso total en todo el despliegue, ajustarías la consulta en consecuencia.

Escenarios avanzados: Combinando métricas y escalado predictivo

¿Qué pasa si una métrica no es suficiente? ¿Qué pasa si necesitas considerar tanto la profundidad de la cola COMO la CPU? Aquí es donde las cosas se vuelven realmente interesantes. KEDA te permite definir múltiples desencadenantes. El ScaledObject se escalará según el desencadenante que solicite más réplicas.

Imagina que nuestro agente también realiza un procesamiento intensivo de imágenes, haciendo de la CPU un factor relevante nuevamente. Podríamos añadir otro desencadenante:


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30
 triggers:
 - type: prometheus # Desencadenante 1: Eventos pendientes
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod)
 threshold: "1000"
 - type: cpu # Desencadenante 2: Utilización de CPU
 metadata:
 value: "70" # Escalar si la utilización promedio de CPU supera el 70%

Ahora, KEDA asegurará que tu despliegue escale si los eventos pendientes por pod superan 1000 O si la utilización promedio de CPU supera el 70%. Esto te ofrece una estrategia de escalado automático más holística y sólida.

Escalado automático predictivo: Mirando hacia el futuro

Si bien KEDA y las métricas personalizadas abordan el escalado reactivo maravillosamente, a veces, incluso la reacción más rápida no es suficiente. Piensa en trabajos por lotes programados que afectan a tus agentes a las 3 AM todos los días, o una campaña de marketing conocida que generará un aumento de nuevas inscripciones de usuarios, cada una requiriendo interacción del agente. Aquí es donde entra el escalado automático predictivo.

El escalado automático predictivo no es algo que KEDA o el HPA nativo hagan directamente de forma predeterminada, pero pueden integrarse con sistemas externos. Normalmente, necesitarías:

Datos Históricos: Almacena tus métricas personalizadas y eventos de escalamiento a lo largo del tiempo.
Modelo de Pronóstico: Usa aprendizaje automático (por ejemplo, ARIMA, Prophet) para predecir futuros picos de carga de trabajo basados en patrones históricos.
Escalador Externo: Un controlador o script personalizado que utiliza estas predicciones para ajustar tu minReplicaCount o incluso escalar directamente tu implementación a través de la API de Kubernetes *antes* de que ocurra el pico.

He experimentado con una versión básica de esto usando un script de Python que extrae datos de Prometheus, ejecuta un modelo simple de Prophet y luego utiliza kubectl scale para ajustar la implementación. No está listo para producción para todos, pero para picos predecibles y recurrentes, puede salvarte de esos momentos frenéticos de “¿por qué se están muriendo todos nuestros agentes?!”. La clave es tener un buen bucle de retroalimentación y refinar continuamente tus predicciones.

Monitoreo de la Eficacia de Tu Escalamiento Automático

Desplegar escalamiento automático inteligente no es una operación de “configúralo y olvídalo”. Necesitas monitorear su eficacia. Siempre configuro paneles en Grafana para rastrear:

Contador de Réplicas: Cuántos pods están corriendo para cada implementación.
Métricas Objetivo: Los valores reales de las métricas personalizadas en las que estás escalando (por ejemplo, agent_pending_events_total, utilización de CPU).
Utilización de Recursos: Uso real de CPU y memoria de los pods.
Latencia/Errores de Agentes: Métricas de rendimiento de extremo a extremo para asegurar que el escalamiento realmente esté mejorando la experiencia del usuario.

Al correlacionar estos datos, puedes ver si tu estrategia de escalamiento está funcionando como se espera. ¿Estás escalando lo suficientemente rápido? ¿Estás sobreprovisionando? ¿La capacidad adicional realmente alivia el cuello de botella? Estas preguntas son cruciales para optimizar tanto el rendimiento como el costo.

Una cosa específica que busco es el comportamiento de “oscilación”: donde el contador de réplicas sube y baja rápidamente. Esto a menudo indica que tus umbrales son demasiado agresivos o que tu intervalo de sondeo es demasiado corto, llevando a inestabilidad. Quieres un escalamiento suave y receptivo, no una montaña rusa.

Conclusiones Prácticas para Tu Próxima Implementación de Agentes

Identifica los Verdaderos Cuellos de Botella: No asumas que la CPU siempre es el problema. Para las cargas de trabajo de los agentes, piensa en profundidades de cola, tasas de E/S, dependencias de API externas o tasas específicas de finalización de tareas.
Instrumenta Tus Agentes: Asegúrate de que tus agentes expongan métricas personalizadas relevantes en un formato estándar (como Prometheus). Esto es fundamental.
Acelera KEDA: Para escalamiento basado en eventos o métricas personalizadas, KEDA es una herramienta poderosa y flexible que simplifica la configuración en comparación con HPA en bruto con el Adaptador de Prometheus para escenarios complejos.
Combina Métricas: No tengas miedo de usar múltiples desencadenantes (CPU + métrica personalizada) para asegurar una cobertura de escalamiento amplia. KEDA maneja esto con gracia al escalar al mayor número de réplicas solicitado.
Monitorea e Itera: El escalamiento automático es un proceso iterativo. Monitorea continuamente tu comportamiento de escalamiento, utilización de recursos y rendimiento de la aplicación. Ajusta umbrales, intervalos de sondeo e incluso tus métricas personalizadas según sea necesario.
Considera el Escalamiento Predictivo (Con Cuidado): Para cargas de trabajo con patrones altamente predecibles, explora integrar modelos de pronóstico con un controlador externo para pre-escalar tus implementaciones. Comienza de manera simple y valida rigurosamente.

Escalar agentes de manera efectiva no se trata solo de lanzar más recursos de computación al problema; se trata de lanzar la cantidad correcta de recursos de computación en el momento adecuado, basado en lo que realmente impulsa la carga de trabajo de tu agente. Al ir más allá de métricas genéricas de CPU y memoria y adoptar señales personalizadas y específicas de la aplicación, puedes construir una flota de agentes verdaderamente resiliente, rentable y con buen rendimiento. Y créeme, tu horario de sueño te lo agradecerá.

Hasta la próxima, ¡mantén a esos agentes funcionando!

Maya Singh, agntup.com

Mi secreto de escalado de Kubernetes para cargas de trabajo de agentes impredecibles

La trampa de CPU/Memoria: Por qué el HPA predeterminado no es suficiente para agentes inteligentes

Más allá de lo básico: Métricas personalizadas para un escalado más inteligente

Cómo introducir métricas personalizadas en HPA

Escenarios avanzados: Combinando métricas y escalado predictivo

Escalado automático predictivo: Mirando hacia el futuro

Monitoreo de la Eficacia de Tu Escalamiento Automático

Conclusiones Prácticas para Tu Próxima Implementación de Agentes

Artículos Relacionados

Related Articles

La trampa de CPU/Memoria: Por qué el HPA predeterminado no es suficiente para agentes inteligentes

Más allá de lo básico: Métricas personalizadas para un escalado más inteligente

Cómo introducir métricas personalizadas en HPA

Escenarios avanzados: Combinando métricas y escalado predictivo

Escalado automático predictivo: Mirando hacia el futuro

Monitoreo de la Eficacia de Tu Escalamiento Automático

Conclusiones Prácticas para Tu Próxima Implementación de Agentes

Artículos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles