O meu segredo para a escalabilidade do Kubernetes para cargas de trabalho de agentes imprevisíveis

📖 12 min read•2,353 words•Updated Apr 5, 2026

Olá a todos, colegas gerentes de agentes! Maya Singh aqui, de volta com um aprofundamento sobre os detalhes do deploy dos agentes em agntup.com. Hoje, quero falar sobre algo que me mantém acordada à noite quase tanto quanto entender o que assistir em uma maratona no meu serviço de streaming: escalar nossos deployments de agentes no Kubernetes.

Em particular, quero abordar os aspectos muitas vezes negligenciados, mas críticos do escalonamento horizontal inteligente de pods para cargas de trabalho de agentes imprevisíveis. Todos sabemos que HPA é ótimo, mas quando seus agentes realizam tarefas muito diferentes ou quando eventos externos causam picos repentinos e massivos, as métricas de CPU/memória padrão não são suficientes. É como tentar dirigir um carro de Fórmula 1 com apenas um velocímetro: você falta muitas informações críticas.

A data atual é 18 de março de 2026, e se você ainda está contando apenas com o uso da CPU para escalar sua frota de agentes, provavelmente está gastando demais com recursos ociosos ou está constantemente tentando recuperar, o que leva a um desempenho degradado e usuários insatisfeitos. Vamos resolver essa situação.

A armadilha CPU/Memória: Por que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Eu me lembro de uma vez, cerca de um ano e meio atrás, que havíamos acabado de lançar uma nova funcionalidade para nossos agentes de monitoramento. Esses agentes precisavam coletar logs e métricas muito específicas da infraestrutura dos clientes, processá-los localmente e depois reencaminhá-los para nossa plataforma central. Parece simples, certo? Errado.

O problema era que tínhamos um punhado de clientes empresariais com configurações de logging monstruosamente verbosas. Um cliente em particular, uma grande instituição financeira, decidiu habilitar o logging de depuração em toda a sua frota logo após nosso lançamento. De repente, nossos agentes, que estavam funcionando alegremente a 20% de CPU para a maioria dos clientes, começaram a atingir 90% ou mais para esse único cliente. Nosso HPA, configurado para um alvo de CPU de 70%, ativou-se, adicionando mais pods. Mas aqui está o golpe de mestre: o gargalo não era apenas a CPU. Era também a velocidade com que conseguiam processar e enviar os dados, que às vezes envolvia chamadas a APIs externas com limites de taxa.

No final, nos encontramos com dezenas de pods para esse único cliente, todos lutando, sem melhorar muito a situação porque o gargalo externo permaneceu. Nossos custos dispararam, e a experiência do cliente foi terrível. Estávamos escalando mais, mas não estávamos escalando de forma mais inteligente.

Essa experiência destacou uma verdade fundamental: as métricas genéricas de recursos (CPU, memória) são boas para aplicações gerais, mas para agentes com tarefas específicas, especialmente aqueles que interagem com sistemas externos ou processam cargas de trabalho variáveis, é necessário ir mais a fundo. Você precisa de métricas personalizadas.

Além do Básico: Métricas Personalizadas para um Autoscaling Mais Inteligente

É aqui que a mágica acontece. O HPA do Kubernetes permite que você escale com base em métricas personalizadas que você define. Essas podem ser qualquer coisa que realmente reflita a carga de trabalho que seus agentes estão gerenciando. Pense no que realmente estressa seus agentes ou indica um acúmulo. Para meus agentes de processamento de logs, não era apenas a CPU; era:

Linhas de log processadas por segundo: Uma medida direta do volume de entrada.
Eventos pendentes na fila interna: Um indicador de acúmulo interno antes de enviar dados.
Latência/percentual de erro em chamadas de API externas: Se seu agente se comunica com serviços externos, isso é crucial.

Pegue como exemplo os “eventos pendentes na fila interna”. Imagine que seu agente coleta dados, coloca-os em uma fila na memória e, em seguida, uma rotina em segundo plano os processa e os envia. Se essa fila começa a crescer rapidamente, significa que seu agente não está acompanhando. Escalar com base no comprimento dessa fila aborda diretamente o gargalo.

Como Integrar Métricas Personalizadas no HPA

Isso geralmente envolve alguns componentes:

Seu agente: Deve expor essas métricas. O formato de exposição do Prometheus é o padrão de fato aqui. Instrumente o código do seu agente utilizando uma biblioteca cliente (Go, Python, Java, etc.) para expor métricas como agent_pending_events_total ou agent_log_lines_processed_per_second.
Prometheus: Realiza scraping dos pods do seu agente e armazena essas métricas.
Prometheus Adapter ou KEDA: Esta é a ponte.

Pessoalmente, eu costumo preferir KEDA (Kubernetes Event-driven Autoscaling) para esse tipo de cenário, especialmente quando se trata de filas externas ou fontes de eventos. Enquanto o Prometheus Adapter é sólido para métricas personalizadas simples expostas pela sua aplicação, KEDA se destaca quando o seu gatilho de escalabilidade é um verdadeiro fluxo de eventos ou a profundidade da fila de algo como Kafka, RabbitMQ, SQS ou até mesmo uma API externa personalizada. Ele fornece uma maneira mais declarativa e muitas vezes mais simples de definir essas regras de escalabilidade.

Digamos que nosso agente exponha uma métrica do Prometheus chamada agent_pending_events_total. Queremos escalar se o valor médio dessa métrica em todos os pods de um determinado deployment ultrapassar 1000.

Primeiro, certifique-se de que seu agente está expondo essa métrica:


# Exemplo de snippet Python usando a biblioteca cliente do Prometheus
from prometheus_client import Gauge, start_http_server
import time
import random

pending_events_gauge = Gauge('agent_pending_events_total', 'Número de eventos pendentes na fila interna')

def run_agent_loop():
 while True:
 # Simula trabalho e mudanças na fila
 current_pending = random.randint(100, 1500) # Simulando um backlog variável
 pending_events_gauge.set(current_pending)
 print(f"Eventos atualmente pendentes: {current_pending}")
 time.sleep(5)

if __name__ == '__main__':
 start_http_server(8000) # Expondo métricas na porta 8000
 run_agent_loop()

Depois, você deve configurar sua configuração do Prometheus para fazer scraping dessas métricas dos seus pods agentes. Supondo que seus pods agentes tenham a anotação prometheus.io/scrape: "true" e prometheus.io/port: "8000", o Prometheus as coletará.

Agora, vamos dar uma olhada em uma definição de ScaledObject do KEDA. Isso presume que você tenha o KEDA instalado em seu cluster.


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment # Nome do seu deployment de agentes
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30 # Checa as métricas a cada 30 segundos
 triggers:
 - type: prometheus
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090 # Seu endpoint do serviço Prometheus
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod) # Eventos pendentes médios por pod
 threshold: "1000" # Escala se o número médio de eventos pendentes por pod ultrapassar 1000
 # Use `query` em vez de `metricName` e `threshold` para cenários mais complexos
 # Por exemplo, para mirar em uma média em todo o deployment em vez de por pod:
 # query: |
 # sum(agent_pending_events_total) / count(agent_pending_events_total)
 # threshold: "1000"
 # Este exemplo mira na média por pod, que geralmente é mais útil para a capacidade de agentes individuais.

Uma observação sobre a consulta do Prometheus: usei avg(agent_pending_events_total) by (pod). O KEDA (e o HPA com o Prometheus Adapter) geralmente agregam as métricas entre os pods pertencentes ao alvo escalado. Se você está mirando em uma média *por pod*, essa é uma boa forma de definir um limiar que realmente reflita a carga individual dos agentes. Se você quiser escalar com base no backlog total em todo o deployment, deve modificar a consulta de acordo.

Cenários Avançados: Combinando Métricas e Escalabilidade Preditiva

O que acontece se uma métrica não for suficiente? O que acontece se você precisar considerar tanto a profundidade da fila QUANTO a CPU? Aqui as coisas ficam realmente interessantes. O KEDA permite que você defina vários gatilhos. O ScaledObject então escalará com base no gatilho que requer o maior número de réplicas.

Imagine que nosso agente também realiza um processamento de imagens pesado, tornando a CPU um fator relevante novamente. Poderíamos adicionar outro gatilho:

“`html


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30
 triggers:
 - type: prometheus # Trigger 1: Eventos pendentes
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod)
 threshold: "1000"
 - type: cpu # Trigger 2: Uso de CPU
 metadata:
 value: "70" # Escala se o uso médio da CPU ultrapassar 70%

Agora, KEDA garantirá que seu deployment escale se o número de eventos pendentes por pod ultrapassar 1000 OU se o uso médio da CPU ultrapassar 70%. Isso lhe dá uma estratégia de autoscaling mais holística e robusta.

Autoscaling Preditivo: Olhando para o Futuro

Se, por um lado, KEDA e as métricas personalizadas lidam maravilhosamente com o scaling reativo, às vezes, a reação mais rápida não é suficiente. Pense em trabalhos batch programados que atingem seus agentes às 3 da manhã todos os dias, ou em uma campanha de marketing conhecida que gerará um pico de novas inscrições de usuários, cada uma das quais requer interação com o agente. É aqui que entra em cena o autoscaling preditivo.

O autoscaling preditivo não é algo que KEDA ou o HPA nativo fazem diretamente fora da caixa, mas podem ser integrados com sistemas externos. Normalmente, você precisaria de:

Dados Históricos: Armazene suas métricas personalizadas e os eventos de escalabilidade ao longo do tempo.
Modelo de Previsão: Utilize aprendizado de máquina (por exemplo, ARIMA, Prophet) para prever picos de carga futuros com base em padrões históricos.
Scaler Externo: Um controlador ou script personalizado que utiliza essas previsões para modificar seu minReplicaCount ou até escalar diretamente seu deployment através da API do Kubernetes *antes* que o pico chegue.

Eu experimentei uma versão básica disso utilizando um script Python que extrai dados do Prometheus, executa um modelo Prophet simples e então usa kubectl scale para modificar o deployment. Não está pronto para produção para todos, mas para picos previsíveis e recorrentes, pode te salvar daqueles momentos frenéticos de “por que todos os nossos agentes estão morrendo?!”. A chave é ter um bom ciclo de feedback e refinar continuamente suas previsões.

Monitorando a Eficiência do Autoscaling

Implementar um autoscaling inteligente não é uma operação “configure e esqueça”. Você deve monitorar sua eficácia. Eu sempre configuro dashboards no Grafana para rastrear:

Contagem de Réplicas: Quantos pods estão em execução para cada deployment.
Métricas Alvo: Os valores reais das métricas personalizadas nas quais você está escalando (por exemplo, agent_pending_events_total, uso de CPU).
Uso de Recursos: Uso real de CPU e memória dos pods.
Latência/Erros dos Agentes: Métricas de desempenho de ponta a ponta para garantir que o scaling esteja realmente melhorando a experiência do usuário.

Correlacionando esses dados, você pode ver se sua estratégia de escalabilidade está funcionando como esperado. Você está escalando rápido o suficiente? Você está sobreprovisionando? A capacidade adicional realmente está aliviando o gargalo? Essas perguntas são cruciais para otimizar tanto o desempenho quanto os custos.

Uma coisa específica que eu observo é o comportamento “oscilante” – onde a contagem de réplicas sobe e desce rapidamente. Isso geralmente indica que seus limites estão muito agressivos ou que o intervalo de polling é muito curto, levando à instabilidade. Você quer um scaling suave e reativo, não uma montanha-russa.

Dicas Práticas para Seu Próximo Deployment de Agentes

“`

Identifique os Verdadeiros Gargalos: Não presuma que a CPU seja sempre o problema. Para as cargas de trabalho dos agentes, considere as profundidades das filas, as taxas de I/O, as dependências de APIs externas ou as taxas de conclusão de tarefas específicas.
Implemente Seus Agentes: Certifique-se de que seus agentes exponham métricas personalizadas relevantes em um formato padrão (como Prometheus). Isso é fundamental.
Abrace o KEDA: Para escalonamento baseado em eventos ou métricas personalizadas, o KEDA é uma ferramenta poderosa e flexível que simplifica a configuração em comparação ao HPA bruto com o Adaptador Prometheus para cenários complexos.
Combine as Métricas: Não tenha medo de usar vários gatilhos (CPU + métrica personalizada) para garantir uma cobertura de escalabilidade completa. O KEDA gerencia isso habilmente, escalando para o número mais alto de réplicas exigido.
Monitore e Itere: O autoscaling é um processo iterativo. Monitore continuamente seu comportamento de escalonamento, uso de recursos e desempenho da aplicação. Ajuste os limiares, os intervalos de polling e até mesmo suas métricas personalizadas conforme necessário.
Considere o Escalonamento Preditivo (com Cuidado): Para cargas de trabalho com padrões altamente previsíveis, explore a integração de modelos de previsão com um controlador externo para pré-escalar seus deployments. Comece simples e valide rigorosamente.

Escalonar efetivamente os agentes não se trata apenas de lançar mais poder de computação sobre o problema; trata-se de lançar a quantidade certa de poder de computação no momento certo, com base no que realmente impulsiona a carga de trabalho do agente. Ao ir além das métricas genéricas de CPU e memória e abraçar sinais personalizados e específicos para a aplicação, você pode construir uma frota de agentes verdadeiramente resiliente, econômica e com bom desempenho. E acredite, seu programa de sono agradecerá.

Até a próxima vez, mantenha esses agentes ativos!

Maya Singh, agntup.com

O meu segredo para a escalabilidade do Kubernetes para cargas de trabalho de agentes imprevisíveis

A armadilha CPU/Memória: Por que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além do Básico: Métricas Personalizadas para um Autoscaling Mais Inteligente

Como Integrar Métricas Personalizadas no HPA

Cenários Avançados: Combinando Métricas e Escalabilidade Preditiva

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficiência do Autoscaling

Dicas Práticas para Seu Próximo Deployment de Agentes

Artigos Relacionados

Related Articles

A armadilha CPU/Memória: Por que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além do Básico: Métricas Personalizadas para um Autoscaling Mais Inteligente

Como Integrar Métricas Personalizadas no HPA

Cenários Avançados: Combinando Métricas e Escalabilidade Preditiva

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficiência do Autoscaling

Dicas Práticas para Seu Próximo Deployment de Agentes

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles