Infrastruktur des Auto-Scaling-Agenten: Praktische Tipps, Tricks und Beispiele

📖 11 min read•2,019 words•Updated Mar 29, 2026

Einführung: Die Notwendigkeit von Auto-Scaling für die Infrastruktur der Agenten

In der dynamischen Welt der Softwareentwicklung und -operationen ist der Bedarf an einer agilen, resilienten und kosteneffizienten Infrastruktur von größter Bedeutung. Die Infrastruktur der Agenten, die CI/CD-Pipelines, Überwachungssysteme, Datenverarbeitungsströme oder Sicherheits-Scanner unterstützt, erlebt oft unvorhersehbare Lastmuster. Manuelles Scaling ist nicht nur ineffizient, sondern auch anfällig für menschliche Fehler, was entweder zu Überprovisionierung (verschwendete Ressourcen) oder Unterprovisionierung (Leistungsengpässe und Dienstunterbrechungen) führt. Hier wird Auto-Scaling nicht nur zu einem Luxus, sondern zu einer kritischen Notwendigkeit.

Auto-Scaling ermöglicht es Ihrer Agenten-Infrastruktur, ihre Kapazität automatisch in Reaktion auf Nachfrageschwankungen anzupassen. Dieser Artikel bietet praktische Ratschläge, Tipps und konkrete Beispiele zur Implementierung eines effektiven Auto-Scalings für Ihre Agentenflotten. Wir werden die wichtigsten Überlegungen, häufige Fallstricke und Strategien zur Optimierung Ihrer Auto-Scaling-Mechanismen behandeln.

Die Grundprinzipien des Auto-Scalings verstehen

Bevor wir die Einzelheiten erkunden, lassen Sie uns kurz die grundlegenden Komponenten eines Auto-Scaling-Systems durchgehen:

Metriken: Dies sind quantifizierbare Datenpunkte, die die Last auf Ihren Agenten widerspiegeln. Beispiele sind die CPU-Auslastung, der Speicherverbrauch, die Länge der Warteschlange, aktive Jobs, Netzwerk-I/O und anwendungsspezifische Metriken.
Schwellenwerte: Vordefinierte Werte für die Metriken, die Scaling-Aktionen auslösen. Zum Beispiel, wenn die CPU-Auslastung 70 % für 5 Minuten überschreitet, sollte skaliert werden.
Scaling-Richtlinien: Die Regeln, die definieren, wie die Scaling-Aktionen durchgeführt werden. Dazu gehören die zu überwachende Metrik, der Zielwert, die Abkühlzeit und der gewünschte Bereich der Anzahl von Instanzen.
Scaling-Aktionen: Die tatsächlichen Operationen zum Hinzufügen (Scaling Out) oder Entfernen (Scaling In) von Agenteninstanzen.
Gewünschte Kapazität: Die Zielanzahl von Instanzen, die die Auto-Scaling-Gruppe aufrechterhalten möchte.

Die richtigen Metriken für Ihre Agenten auswählen

Der Erfolg Ihrer Auto-Scaling-Strategie hängt von der Auswahl der richtigen Metriken ab. Generische Metriken wie CPU und Speicher sind ein guter Ausgangspunkt, reichen jedoch oft nicht aus für nuancierte Agenten-Workloads.

Tipp 1: Priorisieren Sie unternehmensspezifische Metriken

Über die generische Ressourcennutzung hinaus sollten Sie Metriken in Betracht ziehen, die direkt die Arbeit widerspiegeln, die von Ihren Agenten erledigt wird. Für CI/CD-Agenten könnte dies die Anzahl der wartenden Builds in einer Warteschlange oder die durchschnittliche Dauer eines Builds sein. Für Überwachungsagenten könnte dies die Anzahl aktiver Prüfungen oder zu verarbeitender Datenpunkte sein. Diese Metriken sind oft prädiktiver für die zukünftige Last und ermöglichen ein proaktives Scaling.

Beispiel: CI/CD-Build-Agenten (z.B. Jenkins, GitLab CI, Buildkite)

Länge der Warteschlange: Der direkteste Indikator. Wenn die Warteschlange für Builds wächst, benötigen Sie mehr Agenten.
Aktive Jobs: Anzahl der laufenden Jobs. Wenn dies Ihre Agentenkapazität erreicht, skalieren Sie nach oben.
Inaktivitätszeit der Agenten: Wenn die Agenten über längere Zeit inaktiv bleiben, ist das ein Zeichen zum Scaling In.

Beispiel: Datenverarbeitungsagenten (z.B. Apache Spark Executor, Kafka Consumer)

Nachrichten im Thema/Warteschlange: Für Kafka-Consumer die Anzahl der nicht konsumierten Nachrichten.
Verzögerung: Der Zeitunterschied zwischen der letzten produzierten Nachricht und der letzten konsumierten Nachricht.
Aufgabenabschlussrate: Wenn sich Aufgaben anhäufen, skalieren Sie nach oben.

Tipp 2: Verstehen Sie die Kopf- und Verzögerungsindikatoren

Kopfindikatoren (wie die Länge der Warteschlange) sagen die zukünftige Last voraus und ermöglichen proaktives Scaling. Verzögerungsindikatoren (wie eine hohe CPU-Auslastung) reagieren auf die bestehende Last, was manchmal zu einer vorübergehenden Leistungsverschlechterung führen kann, bevor das Scaling ausgelöst wird.

Tipps: Kombinieren Sie Kopf- und Verzögerungsindikatoren. Verwenden Sie Kopfindikatoren für ein schnelles Scaling Out und Verzögerungsindikatoren für ein konservativeres Scaling In oder als Sicherheitsnetz für unerwartete Spitzen.

Effektive Scaling-Richtlinien entwerfen

Die Scaling-Richtlinien bestimmen, wie Ihre Infrastruktur auf Änderungen der Metriken reagiert. Hier definieren Sie das ‘Wie’ und ‘Wann’ des Scalings.

Tipp 3: Implementieren Sie ein gestuftes Scaling für granularen Kontrolle

Anstatt einfach eine Instanz auf einmal hinzuzufügen oder zu entfernen, verwenden Sie gestuftes Scaling, um mehrere Instanzen basierend auf der Schwere der Metrikverletzung hinzuzufügen oder zu entfernen. Dies verhindert ‘Thrashing’ (konstante Scaling-Aktionen nach oben/unten) und ermöglicht eine schnellere Erholung bei signifikanten Laständerungen.

Beispiel: Gestufte Scaling-Richtlinie der AWS Auto-Scaling-Gruppe (ASG)


{
 "AlarmName": "HighQueueLengthAlarm",
 "MetricName": "PendingBuilds",
 "Namespace": "Custom/BuildAgents",
 "Statistic": "Average",
 "Period": 60,
 "EvaluationPeriods": 2,
 "Threshold": 10,
 "ComparisonOperator": "GreaterThanOrEqualToThreshold",
 "AlarmActions": [
 "arn:aws:autoscaling:REGION:ACCOUNT_ID:scalingPolicy:POLICY_ID:autoScalingGroupName/MY_AGENT_ASG"
 ],
 "ScalingPolicies": [
 {
 "PolicyType": "StepScaling",
 "AdjustmentType": "ChangeInCapacity",
 "StepAdjustments": [
 { "MetricIntervalLowerBound": 0, "MetricIntervalUpperBound": 10, "ScalingAdjustment": 1 },
 { "MetricIntervalLowerBound": 10, "MetricIntervalUpperBound": 20, "ScalingAdjustment": 2 },
 { "MetricIntervalLowerBound": 20, "ScalingAdjustment": 5 }
 ],
 "Cooldown": 300
 }
 ]
}

Diese Richtlinie fügt 1, 2 oder 5 Agenten hinzu, je nachdem, wie die Metrik PendingBuilds den Schwellenwert von 10 überschreitet. Der Cooldown verhindert eine sofortige Neubewertung.

Tipp 4: Kühlzeiten präzise kalibrieren

Kühlzeiten verhindern, dass Ihr Auto-Scaling-System wild schwankt (schnelles Scaling nach oben und unten). Zu kurz riskieren Sie Thrashing; zu lang könnte Ihr System nicht schnell genug auf die nächsten Laständerungen reagieren.

Tipps: Verwenden Sie unterschiedliche Kühlzeiten für Scaling Out und Scaling In. Scaling Out profitiert oft von kürzeren Kühlzeiten, um schnell zu reagieren, während Scaling In längere Kühlzeiten haben kann, um eine anhaltend niedrige Last zu gewährleisten, bevor Ressourcen entfernt werden, um zu verhindern, dass Agenten, die bald wieder benötigt werden, vorzeitig entfernt werden.

Tipp 5: Implementieren Sie gezieltes Follow-Scaling für Einfachheit

Viele Cloud-Anbieter bieten gezieltes Follow-Scaling an (z.B. AWS, GCP, Azure). Damit können Sie einen Zielwert für eine Metrik festlegen (z.B. die CPU-Auslastung bei 75 % halten oder die Länge der Warteschlange bei 5 halten), und das Auto-Scaling-System passt die Kapazität automatisch an, um dieses Ziel zu erreichen. Dies ist oft einfacher zu konfigurieren und effizienter als gestuftes Scaling für viele gängige Anwendungsfälle.

Beispiel: Gezielte Follow-Scaling-Richtlinie von AWS


{
 "PolicyName": "TargetTrackingPendingBuilds",
 "PolicyType": "TargetTrackingScaling",
 "TargetTrackingConfiguration": {
 "PredefinedMetricSpecification": {
 "PredefinedMetricType": "ASGTargetTrackingMetric",
 "ResourceLabel": "Custom/BuildAgents/PendingBuilds"
 },
 "TargetValue": 5.0, // Ziel ist ein Durchschnitt von 5 wartenden Builds
 "ScaleOutCooldown": 60,
 "ScaleInCooldown": 600
 }
}

Den Start und Stopp der Agenten optimieren

Die Zeit, die ein Agent benötigt, um produktiv zu werden, und das reibungslose Management des Stopps von Agenten sind entscheidend für ein effektives Auto-Scaling.

Tipp 6: Optimieren Sie die Startzeit der Agenten

Lange Startzeiten machen die Vorteile eines schnellen Auto-Scalings zunichte. Minimieren Sie die Zeit, die ein Agent zwischen dem Start der Instanz und dem Moment benötigt, in dem er bereit ist, Arbeit anzunehmen.

Verwenden Sie vorinstallierte AMIs/Bilder: Anstatt Software beim Start zu installieren, erstellen Sie Gold-Images mit allen notwendigen Abhängigkeiten, die bereits vorinstalliert sind.
Containerisierung: Docker-Images sind in der Regel schneller zu ziehen und auszuführen als die Bereitstellung einer vollständigen VM.
Warm Pools: Halten Sie einen kleinen Pool von bereits laufenden, aber inaktiven Instanzen bereit, die sofort zur aktiven Flotte hinzugefügt werden können, wenn Sie skalieren. (Verfügbar bei einigen Cloud-Anbietern wie AWS ASG).
Minimal Viable Agent: Nur die wesentlichen Softwarekomponenten einbeziehen. Zusätzliche Tools erhöhen die Größe des Images und die Startzeit.

Tipp 7: Implementieren Sie ein sanftes Herunterfahren der Agenten

Beim Scaling In möchten Sie die Agenten, die eine Aufgabe bearbeiten, nicht abrupt unterbrechen. Dies führt zu Arbeitsverlusten, Verzögerungen und möglichen Inkonsistenzen der Daten.

Tipps: Verwenden Sie Lifecycle-Hooks und Drainage-Mechanismen.

Cloud-Anbieter Lifecycle-Hooks: AWS ASG, GCP-Instanzgruppen, Azure VM Scale Sets bieten alle Lifecycle-Hooks. Wenn eine Instanz zur Beendigung markiert wird, kann der Hook ein benutzerdefiniertes Skript auslösen.
Agenten-Dainage: Weisen Sie im Skript den Agenten (z. B. Jenkins-Agent, Kubernetes-Knoten) an, keine neuen Jobs mehr anzunehmen und die laufenden Aufgaben abzuschließen.
Timeout: Setzen Sie ein angemessenes Timeout für den Drainage-Prozess. Wenn der Agent seine Arbeit in dieser Zeit nicht abschließt, wird er zwangsweise beendet.

Beispiel: AWS ASG Lifecycle-Hook für die Beendigung mit Jenkins-Agenten-Dainage


#!/bin/bash

# Holen Sie sich die Instanz-ID (z. B. aus den EC2-Metadaten)
INSTANCE_ID=$(curl -s http://169.254.169.254/latest/meta-data/instance-id)

# Senden Sie ein Signal an Jenkins, um den Agenten offline zu setzen und zu drainen
# Dies setzt Zugriff auf die Jenkins-API und ein Skript auf dem Agenten voraus
/opt/jenkins-agent/scripts/drain_agent.sh $INSTANCE_ID

# Warten Sie, bis der Agent meldet, dass er inaktiv ist oder bis zu einem Timeout
# (z. B. die Jenkins-API abfragen oder eine lokale Datei überprüfen)
TIMEOUT=300 # 5 Minuten
ELAPSED=0
while [ $ELAPSED -lt $TIMEOUT ] && ! is_agent_idle; do
 sleep 10
 ELAPSED=$((ELAPSED + 10))
done

# Benachrichtigen Sie das ASG, dass die Instanz bereit zur Beendigung ist
/usr/bin/aws autoscaling complete-lifecycle-action \
 --lifecycle-action-token ${LIFECYCLE_ACTION_TOKEN} \
 --lifecycle-hook-name ${LIFECYCLE_HOOK_NAME} \
 --auto-scaling-group-name ${ASG_NAME} \
 --instance-id ${INSTANCE_ID}

Strategien und fortgeschrittene Überlegungen

Tipp 8: Legen Sie angemessene Mindest- und Höchstkapazitäten fest

Definieren Sie immer angemessene min-size und max-size für Ihre Auto-Scaling-Gruppen. min-size gewährleistet eine Grundkapazität für kritische Dienste, selbst in Zeiten geringer Auslastung. max-size verhindert unkontrollierte Kosten bei schlecht konfigurierten Skalierungsrichtlinien oder unerwarteten Spitzen.

Tipp: Verwenden Sie geplante Skalierung, um die min/max-Größe anzupassen. Für vorhersehbare Spitzenzeiten (z. B. Arbeitszeit für CI/CD) erhöhen Sie die min-size während dieser Zeiten und reduzieren Sie sie nachts, um Kosten zu sparen.

Tipp 9: Überwachen Sie Ihr Auto-Scaling-System

Überwachen Sie nicht nur Ihre Agenten; überwachen Sie den Auto-Scaling-Prozess. Verfolgen Sie:

Scaling-Ereignisse: Protokollieren Sie, wann Instanzen hinzugefügt oder entfernt werden.
Fehler beim Starten von Instanzen: Erkennen Sie Probleme mit Ihren Agenten- oder Bereitstellungs-Images.
Abweichungen von Metriken: Wenn Ihre Zielverfolgungsmetrik konstant von ihrem Ziel abweicht, kann dies auf ein Problem mit Ihrer Richtlinie oder der Metrik selbst hinweisen.

Tipp 10: Verwenden Sie Spot-Instanzen (oder vorübergehende VMs), um Kosten zu sparen

Für fehlertolerante Agenten-Workloads (bei denen Aufgaben wiederholt oder idempotent sein können) kann die Verwendung von Spot-Instanzen (AWS), vorübergehenden VMs (GCP) oder VMs mit niedriger Priorität (Azure) die Kosten erheblich senken. Auto-Scaling-Gruppen sind hervorragend geeignet, um dies zu verwalten, da sie automatisch unterbrochene Instanzen ersetzen können.

Tipp: Kombinieren Sie On-Demand-Instanzen und Spot-Instanzen. Setzen Sie Ihre min-size, um On-Demand-Instanzen für eine garantierte Kapazität zu verwenden, und erweitern Sie dann mit Spot-Instanzen für zusätzliche und kostengünstige Kapazität.

Tipp 11: Ziehen Sie den Horizontal Pod Autoscaler (HPA) für Kubernetes-Agenten in Betracht

Wenn Ihre Agenten in einem Kubernetes-Cluster ausgeführt werden, ist der Horizontal Pod Autoscaler (HPA Ihre bevorzugte Lösung. Er passt die Anzahl der Pods in einem Deployment oder Replica Set basierend auf der beobachteten CPU-Nutzung oder benutzerdefinierten Metriken an.

Beispiel: HPA für ein Kubernetes-Agenten-Deployment


apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
 name: my-agent-hpa
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-agent-deployment
 minReplicas: 2
 maxReplicas: 10
 metrics:
 - type: Resource
 resource:
 name: cpu
 target:
 type: Utilization
 averageUtilization: 70
 - type: Pods
 pods:
 metricName: pending_tasks
 target:
 type: AverageValue
 averageValue: 5

Dieser HPA passt das my-agent-deployment zwischen 2 und 10 Replikate an, mit dem Ziel von 70 % CPU-Nutzung und einem Durchschnitt von 5 pending_tasks pro Pod (vorausgesetzt, dass pending_tasks eine benutzerdefinierte Metrik ist, die von Ihren Agenten bereitgestellt wird).

Häufige Fallstricke, die es zu vermeiden gilt

Übermäßige Abhängigkeit von CPU/Arbeitsspeicher: Wie besprochen, können diese verzögerte Indikatoren sein und möglicherweise die anwendungsspezifische Last nicht genau widerspiegeln.
Unzureichende Ruhezeiten: Dies führt zu Schwankungen und Instabilität.
Kein sanftes Herunterfahren: Dies verursacht Datenverluste und fehlgeschlagene Aufgaben.
Keine Überwachung des Auto-Scaling selbst: Sie werden nicht wissen, ob Ihr Auto-Scaling schlecht funktioniert, bis es zu spät ist.
Ignorieren der Kostenimplikationen: Eine unkontrollierte Last kann zu hohen Rechnungen führen. Haben Sie immer eine max-size.
Ignorieren von Netzwerk/I/O-Disk: Einige Agenten-Workloads sind von I/O abhängig. Überwachen Sie diese Metriken, wenn dies relevant ist.

Fazit

Die Auto-Scaling-Infrastruktur für Agenten ist eine leistungsstarke Fähigkeit, die erhebliche Vorteile in Bezug auf Kosteneffizienz, Resilienz und Leistung bietet. Durch die sorgfältige Auswahl relevanter Metriken, das Design solider Skalierungsrichtlinien mit angemessenen Ruhezeiten, die Optimierung des Starts und Stopps der Agenten sowie die Nutzung fortgeschrittener Funktionen wie Lifecycle-Hooks und Spot-Instanzen können Sie eine hochreaktive und anpassungsfähige Flotte von Agenten aufbauen. Vergessen Sie nicht, Ihre Auto-Scaling-Strategien kontinuierlich zu überwachen und zu iterieren, um sicherzustellen, dass sie mit Ihren Arbeitslastmustern und sich ändernden Geschäftsanforderungen in Einklang bleiben. Mit diesen Tipps und Tricks sind Sie gut gerüstet, um die Kunst des Auto-Scaling für Ihre Agenteninfrastruktur zu meistern.

🕒 Published: March 29, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →