Meu Segredo de Escalonamento do Kubernetes para Cargas de Trabalho de Agentes Improváveis

📖 12 min read•2,335 words•Updated Mar 31, 2026

Olá, colegas que lidam com agentes! Maya Singh aqui, de volta com outra exploração das minúcias do deployment de agentes em agntup.com. Hoje, quero falar sobre algo que me mantém acordada à noite quase tanto quanto decidir o que assistir em seguida no meu serviço de streaming: escalar nossos deployments de agentes no Kubernetes.

Especificamente, quero abordar os aspectos frequentemente negligenciados, mas críticos, do autoscaling horizontal inteligente de pods para cargas de trabalho de agentes imprevisíveis. Todos sabemos que o HPA é ótimo, mas quando seus agentes estão fazendo coisas completamente diferentes ou quando eventos externos causam picos repentinos e massivos, as métricas padrão de CPU/memória simplesmente não dão conta. É como tentar dirigir um carro de Fórmula 1 com apenas um velocímetro – você está perdendo uma tonelada de informações críticas.

A data atual é 18 de março de 2026, e se você ainda está confiando somente na utilização de CPU para escalar sua frota de agentes, provavelmente você está ou gastando demais em recursos ociosos ou constantemente tentando se recuperar, resultando em desempenho degradado e usuários insatisfeitos. Vamos corrigir isso.

A Armadilha do CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Eu lembro de uma vez, há cerca de um ano e meio, que acabamos de lançar um novo recurso para nossos agentes de monitoramento. Esses agentes deveriam coletar logs e métricas muito específicos da infraestrutura dos clientes, processá-los localmente e depois enviá-los de volta para nossa plataforma central. Parece simples, certo? Errado.

O problema era que tínhamos alguns clientes corporativos com configurações de logging monstruosamente verbosas. Um cliente em particular, uma grande instituição financeira, decidiu habilitar o logging de depuração em toda a sua frota logo após nossa liberação. De repente, nossos agentes, que estavam felizes trabalhando a 20% de CPU para a maioria dos clientes, começaram a subir para 90% e além para esse único cliente. Nosso HPA, configurado para uma meta de CPU de 70%, entrou em ação, adicionando mais pods. Mas aqui está o detalhe: o gargalo não era apenas a CPU. Era também a taxa na qual eles podiam processar e enviar dados, o que às vezes envolvia chamadas de API externas com limites de taxa.

Acabamos com dezenas de pods para este único cliente, todos agitados, sem realmente melhorar muito a situação, pois o gargalo externo permaneceu. Nossos custos dispararam, e a experiência do cliente foi terrível. Estávamos escalando mais, mas não escalando de forma mais inteligente.

Essa experiência enfatizou uma verdade fundamental: métricas de recursos genéricas (CPU, memória) são boas para aplicações de propósito geral, mas para agentes com tarefas específicas, especialmente aqueles que interagem com sistemas externos ou processam cargas de trabalho variáveis, você precisa ir mais fundo. Você precisa de métricas personalizadas.

Além do Básico: Métricas Personalizadas para Autoscaling Mais Inteligente

É aqui que a mágica acontece. O HPA do Kubernetes permite que você escale com base em métricas personalizadas que você define. Essas podem ser qualquer coisa que realmente reflita a carga de trabalho que seus agentes estão lidando. Pense sobre o que realmente estressa seus agentes ou indica uma fila acumulada. Para meus agentes de processamento de logs, não era apenas a CPU; eram:

Linhas de log processadas por segundo: Uma medida direta do volume de entrada.
Eventos pendentes na fila interna: Um indicador de backlog interno antes de enviar os dados.
Latência/taxa de erro de chamadas de API externas: Se seu agente se comunica com serviços externos, isso é crucial.

Vamos pegar os “eventos pendentes na fila interna” como exemplo. Imagine que seu agente coleta dados, coloca-os em uma fila em memória e então uma rotina em segundo plano processa e envia. Se essa fila começa a crescer rapidamente, isso significa que seu agente não está dando conta. Escalar com base no comprimento dessa fila aborda diretamente o gargalo.

Como Integrar Métricas Personalizadas ao HPA

Isso geralmente envolve alguns componentes:

Seu Agente: Ele precisa expor essas métricas. O formato de exposição do Prometheus é o padrão neste caso. Instrumente o código do seu agente usando uma biblioteca cliente (Go, Python, Java, etc.) para expor métricas como agent_pending_events_total ou agent_log_lines_processed_per_second.
Prometheus: Coleta os pods do seu agente e armazena essas métricas.
Adaptador Prometheus ou KEDA: Esta é a ponte.

Pessoalmente, eu prefiro o KEDA (Autoscaling orientado a eventos do Kubernetes) para esse tipo de cenário, especialmente ao lidar com filas externas ou fontes de eventos. Enquanto o Adaptador Prometheus é sólido para métricas personalizadas simples expostas pelo seu aplicativo, o KEDA se destaca quando seu gatilho de escalonamento é um fluxo de eventos real ou comprimento de fila de algo como Kafka, RabbitMQ, SQS ou até mesmo uma API externa personalizada. Ele fornece uma maneira mais declarativa e frequentemente mais simples de definir essas regras de escalonamento.

Digamos que nosso agente exponha uma métrica do Prometheus chamada agent_pending_events_total. Queremos escalar se o valor médio dessa métrica entre todos os pods para um determinado deployment ultrapassar 1000.

Primeiro, certifique-se de que seu agente esteja expondo essa métrica:


# Exemplo de snippet Python usando a biblioteca cliente do Prometheus
from prometheus_client import Gauge, start_http_server
import time
import random

pending_events_gauge = Gauge('agent_pending_events_total', 'Número de eventos pendentes na fila interna')

def run_agent_loop():
 while True:
 # Simular trabalho e mudanças na fila
 current_pending = random.randint(100, 1500) # Simulando backlog variável
 pending_events_gauge.set(current_pending)
 print(f"Eventos pendentes atuais: {current_pending}")
 time.sleep(5)

if __name__ == '__main__':
 start_http_server(8000) # Expor métricas na porta 8000
 run_agent_loop()

Depois, você configuraria sua configuração do Prometheus para coletar essas métricas dos seus pods de agente. Supondo que seus Pods de agente tenham a anotação prometheus.io/scrape: "true" e prometheus.io/port: "8000", o Prometheus irá coletá-las.

Agora, vamos olhar para a definição de um ScaledObject do KEDA. Isso assume que você tenha o KEDA instalado em seu cluster.


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment # O nome do seu deployment de agente
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30 # Verificar métricas a cada 30 segundos
 triggers:
 - type: prometheus
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090 # O endpoint do serviço Prometheus
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod) # Eventos pendentes médios por pod
 threshold: "1000" # Escalar se a média de eventos pendentes por pod exceder 1000
 # Use `query` em vez de `metricName` e `threshold` para cenários mais complexos
 # Por exemplo, para mirar uma média em todo o deployment em vez de por pod:
 # query: |
 # sum(agent_pending_events_total) / count(agent_pending_events_total)
 # threshold: "1000"
 # Este exemplo mira a média por pod, o que frequentemente é mais útil para a capacidade de um agente individual.

Uma nota sobre a consulta Prometheus: eu usei avg(agent_pending_events_total) by (pod). O KEDA (e HPA com Adaptador Prometheus) geralmente agregam métricas entre os pods pertencentes ao alvo escalonado. Se você estiver mirando uma média *por pod*, essa é uma boa maneira de definir um limite que realmente reflete a carga individual do agente. Se você quisesse escalar com base no backlog total em todo o deployment, você ajustaria a consulta de acordo.

Cenários Avançados: Combinando Métricas e Escalonamento Preditivo

O que fazer se uma métrica não for o suficiente? E se você precisar considerar tanto a profundidade da fila quanto a CPU? É aqui que as coisas ficam realmente interessantes. O KEDA permite que você defina múltiplos gatilhos. O ScaledObject então escalará com base no gatilho que solicitar mais réplicas.

Imagine que nosso agente também faz algum processamento intenso de imagens, tornando a CPU um fator relevante novamente. Poderíamos adicionar outro gatilho:


apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-agent-scaler
 namespace: agents
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment
 minReplicaCount: 1
 maxReplicaCount: 10
 pollingInterval: 30
 triggers:
 - type: prometheus # Gatilho 1: Eventos pendentes
 metadata:
 serverAddress: http://prometheus-kube-prometheus-thanos-proxy.monitoring.svc.cluster.local:9090
 metricName: agent_pending_events_total
 query: |
 avg(agent_pending_events_total) by (pod)
 threshold: "1000"
 - type: cpu # Gatilho 2: Utilização da CPU
 metadata:
 value: "70" # Escalar se a média de utilização da CPU exceder 70%

Agora, o KEDA garantirá que seu deployment escale para cima se os eventos pendentes por pod forem superiores a 1000 OU se a utilização média da CPU exceder 70%. Isso proporciona uma estratégia de autoscaling mais holística e sólida.

Autoscaling Preditivo: Olhando para o Futuro

Enquanto o KEDA e métricas personalizadas abordam o escalonamento reativo de forma brilhante, às vezes, mesmo a reação mais rápida não é suficiente. Pense em trabalhos em lote programados que atingem seus agentes às 3 da manhã todos os dias, ou uma campanha de marketing conhecida que gerará um aumento nas inscrições de novos usuários, cada uma requerendo interação do agente. É aqui que o autoscaling preditivo entra.

O autoscaling preditivo não é algo que KEDA ou o HPA nativo fazem diretamente, mas eles podem ser integrados a sistemas externos. Você normalmente precisaria:

Dados Históricos: Armazene suas métricas personalizadas e eventos de escalonamento ao longo do tempo.
Modelo de Previsão: Use aprendizado de máquina (por exemplo, ARIMA, Prophet) para prever picos de carga futura com base em padrões históricos.
Escalador Externo: Um controlador ou script personalizado que usa essas previsões para ajustar seu minReplicaCount ou até mesmo escalar diretamente sua implantação via API do Kubernetes *antes* que o pico aconteça.

Brinquei com uma versão básica disso usando um script em Python que extrai dados do Prometheus, executa um modelo simples do Prophet e depois usa kubectl scale para ajustar a implantação. Não está pronto para produção para todos, mas para picos previsíveis e recorrentes, pode te salvar daqueles momentos frenéticos de “por que todos os nossos agentes estão morrendo?!”. O fundamental é ter um bom ciclo de feedback e refinar continuamente suas previsões.

Monitorando a Eficácia do Seu Autoscaling

Implantar um autoscaling inteligente não é uma operação de “configure e esqueça”. Você precisa monitorar sua eficácia. Sempre configuro painéis no Grafana para acompanhar:

Contagem de Réplicas: Quantos pods estão rodando para cada implantação.
Métricas Alvo: Os valores reais das métricas personalizadas nas quais você está escalando (por exemplo, agent_pending_events_total, utilização de CPU).
Utilização de Recursos: Uso real de CPU e memória dos pods.
Latência/Erros dos Agentes: Métricas de desempenho de ponta a ponta para garantir que o escalonamento esteja realmente melhorando a experiência do usuário.

Correlacionando essas informações, você pode ver se sua estratégia de escalonamento está funcionando como esperado. Você está escalando rápido o suficiente? Está provisionando demais? A capacidade adicional está realmente aliviando o gargalo? Essas perguntas são cruciais para otimizar tanto o desempenho quanto o custo.

Uma coisa específica que procuro é o comportamento de “oscilações” – onde a contagem de réplicas sobe e desce rapidamente. Isso geralmente indica que seus limites estão muito agressivos, ou que seu intervalo de consulta é muito curto, levando à instabilidade. Você quer um escalonamento suave e responsivo, não uma montanha-russa.

Principais Lições para Sua Próxima Implantação de Agentes

Identifique Verdadeiros Gargalos: Não assuma que a CPU é sempre o problema. Para cargas de trabalho de agentes, pense em profundidades de fila, taxas de I/O, dependências de API externas ou taxas específicas de conclusão de tarefas.
Instrumente Seus Agentes: Certifique-se de que seus agentes expõem métricas personalizadas relevantes em um formato padrão (como Prometheus). Isso é fundamental.
Abrace o KEDA: Para escalonamento baseado em eventos ou métricas personalizadas, o KEDA é uma ferramenta poderosa e flexível que simplifica a configuração em comparação ao HPA puro com Prometheus Adapter para cenários complexos.
Combine Métricas: Não tenha medo de usar múltiplos gatilhos (CPU + métrica personalizada) para garantir uma cobertura adequada de escalonamento. O KEDA lida com isso de forma elegante escalando para a maior contagem de réplicas solicitada.
Monitore e Itere: O autoscaling é um processo iterativo. Monitore continuamente seu comportamento de escalonamento, utilização de recursos e desempenho da aplicação. Ajuste limites, intervalos de consulta e até mesmo suas métricas personalizadas conforme necessário.
Considere Escalonamento Preditivo (Com Cuidado): Para cargas de trabalho com padrões altamente previsíveis, explore a integração de modelos de previsão com um controlador externo para pré-escalar suas implantações. Comece simples e valide rigorosamente.

Escalonar agentes de forma eficaz não é apenas lançar mais computação sobre o problema; é lançar a quantidade certa de computação no momento certo, baseado no que realmente impulsiona a carga de trabalho dos seus agentes. Ao ir além das métricas genéricas de CPU e memória e adotar sinais personalizados e específicos para a aplicação, você pode construir uma frota de agentes verdadeiramente resiliente, econômica e de alto desempenho. E acredite, seu horário de sono vai te agradecer.

Até a próxima, mantenha esses agentes funcionando!

Maya Singh, agntup.com

Meu Segredo de Escalonamento do Kubernetes para Cargas de Trabalho de Agentes Improváveis

A Armadilha do CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além do Básico: Métricas Personalizadas para Autoscaling Mais Inteligente

Como Integrar Métricas Personalizadas ao HPA

Cenários Avançados: Combinando Métricas e Escalonamento Preditivo

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficácia do Seu Autoscaling

Principais Lições para Sua Próxima Implantação de Agentes

Artigos Relacionados

Related Articles

A Armadilha do CPU/Memória: Por Que o HPA Padrão Não É Suficiente para Agentes Inteligentes

Além do Básico: Métricas Personalizadas para Autoscaling Mais Inteligente

Como Integrar Métricas Personalizadas ao HPA

Cenários Avançados: Combinando Métricas e Escalonamento Preditivo

Autoscaling Preditivo: Olhando para o Futuro

Monitorando a Eficácia do Seu Autoscaling

Principais Lições para Sua Próxima Implantação de Agentes

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles