Meu segredo para escalar Kubernetes para cargas de trabalho de agentes imprevisíveis

📖 12 min read•2,317 words•Updated Apr 5, 2026

Olá a todos, colegas gerentes de agentes! Maya Singh aqui, novamente para explorar as nuances do deployment de agentes no agntup.com. Hoje quero falar sobre algo que me mantém acordada à noite quase tanto quanto encontrar minha próxima série para assistir no meu serviço de streaming: a escalabilidade dos nossos deploys de agentes no Kubernetes.

Mais especificamente, quero abordar os aspectos frequentemente negligenciados, mas cruciais, de um autoscaling horizontal inteligente de pods para cargas de trabalho de agentes imprevisíveis. Todos sabemos que o HPA é fantástico, mas quando seus agentes realizam tarefas muito diferentes ou quando eventos externos causam picos repentinos e massivos, as métricas padrão de CPU/memória simplesmente não são suficientes. É como tentar dirigir um carro de Fórmula 1 com apenas um velocímetro: você perde uma tonelada de informações críticas.

A data atual é 18 de março de 2026, e se você ainda está apenas confiando no uso da CPU para escalar sua frota de agentes, provavelmente está gastando muito em recursos ociosos ou está constantemente correndo atrás do problema, causando degradação de desempenho e usuários insatisfeitos. Vamos corrigir essa situação.

O Truque CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Lembro que há cerca de um ano e meio, lançamos uma nova funcionalidade para nossos agentes de monitoramento. Esses agentes foram projetados para coletar logs e métricas muito específicas da infraestrutura do cliente, processá-los localmente e depois enviá-los para nossa plataforma central. Parece simples, certo? Resposta errada.

O problema era que tínhamos alguns clientes corporativos com configurações de logging incrivelmente verbosas. Um cliente em particular, uma grande instituição financeira, decidiu ativar o logging de debug em toda a sua frota logo após nosso lançamento. De repente, nossos agentes, que funcionavam tranquilamente a 20% de CPU para a maioria dos clientes, começaram a trabalhar a 90% ou mais para esse único cliente. Nosso HPA, configurado para um objetivo de 70% de CPU, foi ativado, adicionando mais pods. Mas aqui está o problema: o gargalo não era apenas a CPU. Era também a velocidade com que podiam processar e enviar os dados, o que às vezes envolvia chamadas API externas com limites de taxa.

Acabamos com dezenas de pods apenas para aquele cliente, todos sobrecarregados, que não melhoravam realmente a situação, uma vez que o gargalo externo permanecia. Nossos custos dispararam e a experiência do cliente foi terrível. Escalamos mais, mas não escalamos de forma mais inteligente.

Essa experiência destacou uma verdade fundamental: as métricas genéricas de recursos (CPU, memória) são boas para aplicações genéricas, mas para agentes com tarefas específicas, especialmente aqueles que interagem com sistemas externos ou processam cargas de trabalho variáveis, é necessário ir além. Você precisa de métricas personalizadas.

Além das Bases: Métricas Personalizadas para um Autoscaling mais Inteligente

É aqui que a mágica acontece. O HPA do Kubernetes permite que você escale com base em métricas personalizadas que você define. Essas podem ser qualquer coisa que realmente reflita a carga de trabalho que seus agentes estão gerenciando. Pense no que realmente estressa seus agentes ou indica um backlog. Para meus agentes de processamento de logs, não era apenas a CPU; era:

Linhas de log processadas por segundo: Uma medida direta do volume de entrada.
Eventos pendentes na fila interna: Um indicador de backlog interno antes de enviar os dados.
Latência/taxa de erro das chamadas API externas: Se seu agente se comunica com serviços externos, isso é crucial.

Vamos tomar “eventos pendentes na fila interna” como exemplo. Imagine que seu agente colete dados, coloque-os em uma fila na memória e depois uma rotina em segundo plano os processe e envie. Se essa fila começar a crescer rapidamente, significa que seu agente não consegue acompanhar. Escalar com base no comprimento dessa fila aborda diretamente o gargalo.

Como Integrar Métricas Personalizadas no HPA

Isso geralmente envolve alguns componentes:

Seu agente: Deve expor essas métricas. O formato de exposição do Prometheus é o padrão aqui. Instrumente o código do seu agente usando uma biblioteca cliente (Go, Python, Java, etc.) para expor métricas como agent_pending_events_total ou agent_log_lines_processed_per_second.
Prometheus: Recupere seus pods de agentes e armazene essas métricas.
Adaptador Prometheus ou KEDA: Esta é a ponte.

Pessoalmente, prefiro KEDA (Kubernetes Event-driven Autoscaling) para esse tipo de cenário, especialmente quando se trata de filas externas ou fontes de eventos. Embora o adaptador Prometheus seja sólido para métricas personalizadas simples expostas pela sua aplicação, o KEDA se destaca quando seu gatilho de escalabilidade é um verdadeiro fluxo de eventos ou o comprimento da fila de um elemento como Kafka, RabbitMQ, SQS, ou até mesmo uma API externa personalizada. Isso fornece uma forma mais declarativa e frequentemente mais simples de definir essas regras de escalabilidade.

Digamos que nosso agente exponha uma métrica Prometheus chamada agent_pending_events_total. Queremos escalar se o valor médio dessa métrica em todos os pods para um determinado deployment ultrapassar 1000.

Primeiro de tudo, certifique-se de que seu agente exponha essa métrica:


# Exemplo de snippet Python que utiliza a biblioteca cliente Prometheus
from prometheus_client import Gauge, start_http_server
import time
import random

pending_events_gauge = Gauge('agent_pending_events_total', 'Número de eventos em espera na fila interna')

def run_agent_loop():
 while True:
 # Simula trabalho e mudanças na fila
 current_pending = random.randint(100, 1500) # Simula um backlog variável
 pending_events_gauge.set(current_pending)
 print(f"Eventos em espera atuais: {current_pending}")
 time.sleep(5)

if __name__ == '__main__':
 start_http_server(8000) # Expõe as métricas na porta 8000
 run_agent_loop()

Em seguida, você deve configurar sua configuração Prometheus para recuperar essas métricas dos seus pods de agentes. Supondo que seus Pods de agentes tenham a anotação prometheus.io/scrape: "true" e prometheus.io/port: "8000", o Prometheus irá recuperá-los.

Agora, vamos dar uma olhada em uma definição ScaledObject do KEDA. Isso pressupõe que você tenha o KEDA instalado em seu cluster.


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment # Nome do seu deployment de agente
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30 # Verifica as métricas a cada 30 segundos
 triggers:
 - type: prometheus
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090 # Seu endpoint de serviço Prometheus
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod) # Eventos em espera médios por pod
 threshold: "1000" # Escalar se os eventos em espera médios por pod ultrapassarem 1000
 # Use `query` em vez de `metricName` e `threshold` para cenários mais complexos
 # Por exemplo, para mirar uma média através do deployment em vez de por pod:
 # query: |
 # sum(agent_pending_events_total) / count(agent_pending_events_total)
 # threshold: "1000"
 # Este exemplo mira a média por pod, o que é frequentemente mais útil para a capacidade individual dos agentes.

Uma nota sobre a query Prometheus: usei avg(agent_pending_events_total) by (pod). O KEDA (e o HPA com o adaptador Prometheus) geralmente agregam as métricas através dos pods pertencentes ao objeto escalado. Se você mira uma média *por pod*, é uma boa maneira de definir um limite que realmente reflita a carga individual dos agentes. Se você desejar escalar com base no backlog total através de todo o deployment, você deve ajustar a query de acordo.

Cenários Avançados: Combinando Métricas e Autoscaling Preditivo

O que acontece se uma métrica não for suficiente? O que fazer se você precisar considerar tanto a profundidade da fila quanto a CPU? É aqui que as coisas realmente ficam interessantes. O KEDA permite que você defina vários gatilhos. O ScaledObject escalará, então, com base no gatilho que requer o maior número de réplicas.

Imagine que nosso agente também realize um processamento de imagens pesado, tornando a CPU um fator relevante novamente. Poderíamos adicionar outro gatilho:

“`html


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30
 triggers:
 - type: prometheus # Trigger 1: Eventos pendentes
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod)
 threshold: "1000"
 - type: cpu # Trigger 2: Uso da CPU
 metadata:
 value: "70" # Escala se o uso médio da CPU exceder 70%

Agora, KEDA garantirá que seu deployment seja escalado se os eventos pendentes por pod superarem 1000, ou se o uso médio da CPU exceder 70%. Isso oferece uma estratégia de autoscaling mais holística e resiliente.

Autoscaling Preditivo: Olhando para o Futuro

Enquanto KEDA e as métricas personalizadas gerenciam magnificamente a escalabilidade reativa, às vezes até mesmo a reação mais rápida não é suficiente. Pense nos trabalhos de batch programados que atingem seus agentes às 3 da manhã todos os dias, ou em uma campanha de marketing conhecida que gerará um aumento nas inscrições dos usuários, cada uma requerendo uma interação com um agente. É aqui que entra em cena o autoscaling preditivo.

O autoscaling preditivo não é algo que KEDA ou o HPA nativo fazem diretamente, mas podem ser integrados com sistemas externos. Geralmente, você precisaria de:

Dados Históricos: Você armazenará suas métricas personalizadas e os eventos de escalonamento ao longo do tempo.
Modelo de Previsão: Use machine learning (por exemplo, ARIMA, Prophet) para prever os picos futuros da carga de trabalho com base nos modelos históricos.
Scaler Externo: Um controlador ou script personalizado que utiliza essas previsões para ajustar seu minReplicaCount ou escalonar diretamente seu deployment através da API Kubernetes *antes* que o pico ocorra.

Eu experimentei uma versão básica disso usando um script Python que extrai dados do Prometheus, executa um modelo Prophet simples e depois usa kubectl scale para ajustar o deployment. Não está pronto para produção para todos, mas para picos previsíveis e recorrentes, pode ajudá-lo a evitar aqueles momentos de pânico “por que todos os nossos agentes estão morrendo?!”. O importante é ter um bom ciclo de feedback e aprimorar continuamente suas previsões.

Monitorando a Eficácia do Seu Autoscaling

Implementar um autoscaling inteligente não é uma operação “para configurar e esquecer”. Você deve monitorar sua eficácia. Eu sempre instalo dashboards no Grafana para acompanhar:

Número de Réplicas: Quantos pods estão ativos para cada deployment.
Métrica Objetivo: Os valores reais das métricas personalizadas nas quais você está escalando (por exemplo, agent_pending_events_total, uso da CPU).
Uso de Recursos: Uso real da CPU e da memória dos pods.
Latência/Erros dos Agentes: Métricas de performance end-to-end para garantir que a escalabilidade realmente melhore a experiência do usuário.

Correlacionando esses elementos, você pode ver se sua estratégia de escalonamento está funcionando como previsto. Você está escalando rapidamente? Está em sobrecarga? A capacidade adicional realmente alivia o gargalo? Essas perguntas são cruciais para otimizar tanto o desempenho quanto os custos.

Uma coisa específica que observo é um comportamento “oscilante” – onde o número de réplicas sobe e desce rapidamente. Isso geralmente indica que seus limiares são muito agressivos, ou que o intervalo de polling é muito curto, levando à instabilidade. Você quer um escalonamento suave e reativo, não uma montanha-russa.

Dicas Práticas para Seu Próximo Deployment de Agentes

“`

Identificar os Verdadeiros Gargalos: Não presuma que a CPU seja sempre o problema. Para as cargas de trabalho dos agentes, pense nas filas de espera, nas taxas de I/O, nas dependências de API externas ou nas taxas de conclusão de tarefas específicas.
Instrumentar Seus Agentes: Certifique-se de que seus agentes exponham métricas personalizadas relevantes em um formato padrão (como Prometheus). Isso é fundamental.
Adotar KEDA: Para escalonamento baseado em eventos ou métricas personalizadas, KEDA é uma ferramenta poderosa e flexível que simplifica a configuração em relação a um HPA cru com o Adapter Prometheus para cenários complexos.
Combinar Métricas: Não tenha medo de usar vários gatilhos (CPU + métrica personalizada) para garantir uma cobertura completa do escalonamento. KEDA gerencia isso elegantemente ao passar para a demanda mais alta de réplicas.
Monitorar e Iterar: O autoscaling é um processo iterativo. Monitore continuamente o comportamento do seu escalonamento, a utilização de recursos e o desempenho da aplicação. Ajuste os limites, os intervalos de polling e também suas métricas personalizadas conforme necessário.
Considerar o Escalonamento Preditivo (com Cautela): Para cargas de trabalho com padrões muito previsíveis, explore a integração de modelos de previsão com um controlador externo para pré-escalar suas implantações. Comece de forma simples e valide rigorosamente.

Escalonar efetivamente os agentes não significa simplesmente adicionar mais poder de computação ao problema; trata-se de fornecer a quantidade certa de computação no momento certo, com base no que realmente impulsiona a carga de trabalho do seu agente. Indo além das métricas genéricas de CPU e memória e adotando sinais personalizados, específicos para a aplicação, você pode construir uma frota de agentes verdadeiramente resiliente, econômica e eficiente. E acredite, seu programa de sono vai agradecer.

Até a próxima, mantenha esses agentes ativos!

Maya Singh, agntup.com

Meu segredo para escalar Kubernetes para cargas de trabalho de agentes imprevisíveis

O Truque CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além das Bases: Métricas Personalizadas para um Autoscaling mais Inteligente

Como Integrar Métricas Personalizadas no HPA

Cenários Avançados: Combinando Métricas e Autoscaling Preditivo

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficácia do Seu Autoscaling

Dicas Práticas para Seu Próximo Deployment de Agentes

Artigos Relacionados

Related Articles

O Truque CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além das Bases: Métricas Personalizadas para um Autoscaling mais Inteligente

Como Integrar Métricas Personalizadas no HPA

Cenários Avançados: Combinando Métricas e Autoscaling Preditivo

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficácia do Seu Autoscaling

Dicas Práticas para Seu Próximo Deployment de Agentes

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles