Auto-Scaling-Agent-Infrastruktur: Ein praktischer Schnellstart-Leitfaden

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 11 min read•2,163 words•Updated Mar 27, 2026

Einführung: Die Notwendigkeit von Auto-Scaling für moderne Agenten

In der dynamischen Softwarelandschaft von heute ist die Fähigkeit, schnell auf schwankende Arbeitslasten zu reagieren, keine Luxus, sondern eine Notwendigkeit. Für Systeme, die auf Agenten angewiesen sind – egal, ob es sich um CI/CD-Build-Agenten, Datenverarbeitungsarbeiter, Sicherheits-Scanner oder Monitoring-Collector handelt – muss die unterstützende Infrastruktur elastisch sein. Manuelle Bereitstellung und De-Bereitstellung von Agenten sind ineffizient, fehleranfällig und kostspielig. Hier kommt die Auto-Scaling-Agent-Infrastruktur ins Spiel. Auto-Scaling sorgt dafür, dass Sie zur richtigen Zeit die richtige Anzahl von Agenten haben, optimiert die Ressourcennutzung, minimiert die Betriebskosten und gewährleistet hohe Verfügbarkeit und Leistung.

Dieser Artikel bietet einen praktischen Schnellstartleitfaden zur Implementierung von Auto-Scaling für Ihre Agenteninfrastruktur. Wir werden grundlegende Konzepte, gängige Strategien untersuchen und konkrete Beispiele mit beliebten Cloud-Anbietern und Orchestrierungstools durchlaufen. Unser Ziel ist es, Sie mit dem Wissen und den ersten Schritten auszustatten, um eine solide, selbstverwaltete Agentenflotte aufzubauen.

Verständnis der Auto-Scaling-Grundlagen

Was ist Auto-Scaling?

Auto-Scaling ist eine Methode, die in der Cloud-Computing verwendet wird, um die Anzahl der Computing-Ressourcen, die einer Anwendung zugewiesen sind, basierend auf ihrer aktuellen Last dynamisch anzupassen. Für Agenteninfrastruktur bedeutet dies, dass neue Agenteninstanzen automatisch gestartet werden, wenn die Nachfrage steigt, und diese beendet werden, wenn die Nachfrage abnimmt.

Schlüsselfaktoren eines Auto-Scaling-Systems

Metriken: Quantifizierbare Datenpunkte, die die Last oder Gesundheit Ihres Systems anzeigen (z. B. CPU-Auslastung, Warteschlangen-Tiefe, Agenten-Leerlaufzeit).
Alarme/Trigger: Bedingungen basierend auf Metriken, die eine Skalierungsaktion auslösen (z. B. „wenn die Warteschlangen-Tiefe > 10 für 5 Minuten“).
Skalierungsrichtlinien: Regeln, die definieren wie skaliert wird (z. B. „2 Instanzen hinzufügen“, „25 % der Instanzen entfernen“).
Startkonfigurationen/Vorlagen: Blaupausen für neue Instanzen, einschließlich OS-Image, Instanztyp, Benutzerdaten-Skripte und Netzwerkeinstellungen.
Auto-Scaling-Gruppe (ASG): Eine logische Gruppierung von Instanzen, die gemeinsam vom Auto-Scaling-Dienst verwaltet wird. Sie definiert minimale, maximale und gewünschte Kapazität.

Vorzüge von Auto-Scaling-Agenten

Kostenoptimierung: Zahlt nur für die Ressourcen, die Sie nutzen. Vermeiden Sie Überprovisionierung während niedriger Nachfrage.
Verbesserte Leistung und Verfügbarkeit: Bewältigen Sie Spitzen in der Arbeitslast, ohne Leistungseinbußen oder Unterbrechungen des Dienstes.
Reduzierter betrieblicher Aufwand: Automatisieren Sie das Ressourcenmanagement und schaffen Sie Freiraum für Ingenieure.
Erhöhte Resilienz: Ersetzen Sie automatisch fehlerhafte Instanzen.

Übliche Auto-Scaling-Strategien für Agenten

Die Wahl der Strategie hängt stark von der Art Ihrer Agenten und den verfügbaren Metriken ab.

1. Reaktives Scaling (Metrik-basiert)

Dies ist der gängigste Ansatz. Agenten skalieren basierend auf Echtzeit-Betriebsmetriken ein oder aus.

Beispielmetriken:
- CPU-/Speicherauslastung: Wenn Agenten kontinuierlich eine hohe CPU-Auslastung haben, fügen Sie mehr hinzu. Wenn sie inaktiv sind, entfernen Sie einige.
- Warteschlangen-Tiefe: Für Agenten, die Aufgaben aus einer Warteschlange verarbeiten (z. B. SQS, RabbitMQ, Kafka), skalieren Sie nach außen, wenn der Warteschlangenrückstand wächst, und nach innen, wenn er schrumpft.
- Agenten-Leerlaufzeit: Wenn viele Agenten über längere Zeiträume inaktiv sind, skalieren Sie nach innen.
- Anzahl der ausstehenden Builds/Jobs: Spezifisch für CI/CD-Systeme, skalieren Sie nach außen, wenn die ausstehenden Jobs zunehmen.
Vorzüge: Reagiert auf die tatsächliche Last, in der Regel effizient.
Nachteile: Es kann eine geringe Verzögerung (Reaktionszeit) zwischen einem Lastanstieg und der Verfügbarkeit neuer Agenten auftreten.

2. Proaktives Scaling (Zeitplan-basiert)

Wenn Sie vorhersehbare Arbeitslastmuster haben (z. B. tägliche Spitzenzeiten, wöchentliche Berichte), können Sie Skalierungsaktionen planen.

Beispiel: Erhöhen Sie die Anzahl der Agenten an Wochentagen um 5 um 9 Uhr, verringern Sie sie um 3 um 18 Uhr.
Vorzüge: Eliminieren Sie die Reaktionsverzögerung für bekannte Muster.
Nachteile: Weniger flexibel für unvorhersehbare Spitzen, erfordert immer noch eine Metrik-basierte Skalierung für unerwartete Lasten.

3. Prädiktives Scaling (Maschinenlernen-basiert)

Nutzen Sie historische Daten und maschinelles Lernen, um die zukünftige Nachfrage vorherzusagen und proaktiv zu skalieren. Oft von Cloud-Anbietern als verwalteter Dienst angeboten.

Vorzüge: Kombiniert die Vorteile von proaktivem und reaktivem Scaling, hoch optimiert.
Nachteile: Komplexer einzurichten und zu verwalten, erfordert umfangreiche historische Daten.

Schnellstartbeispiel: AWS Auto Scaling für CI/CD-Agenten

Schauen wir uns ein praktisches Beispiel an, in dem wir AWS verwenden, um CI/CD-Build-Agenten automatisch zu skalieren. Wir konzentrieren uns auf eine reaktive, warteschlangenbasierte Skalierungsstrategie, wobei wir davon ausgehen, dass Ihr CI/CD-Orchestrator (z. B. Jenkins, GitLab CI, Buildkite) Jobs in eine SQS-Warteschlange einspeist, aus der Ihre Agenten dann ziehen.

Voraussetzungen:

Ein AWS-Konto mit entsprechenden Berechtigungen.
Eine Amazon SQS-Warteschlange für Ihre Build-Jobs.
Ein vorkonfiguriertes EC2-AMI (Amazon Machine Image), das Ihre CI/CD-Agentensoftware, Docker (falls erforderlich) und alle anderen Build-Abhängigkeiten enthält. Dieses AMI sollte nach dem Start in der Lage sein, eine Verbindung zu Ihrem CI/CD-Orchestrator und der SQS-Warteschlange herzustellen.

Schritt-für-Schritt-Implementierung:

1. Erstellen Sie eine EC2-Startvorlage

Die Startvorlage definiert, wie neue Agenteninstanzen bereitgestellt werden.

AWS Console Navigation: EC2 > Startvorlagen > Startvorlage erstellen

Name der Startvorlage: ci-cd-agent-template
AMI: Wählen Sie Ihr vorgefertigtes Agenten-AMI (z. B. ami-0abcdef1234567890).
Instanztyp: Wählen Sie einen geeigneten Typ (z. B. t3.medium, c5.large), basierend auf Ihren Build-Anforderungen.
Schlüsselpaar: Wählen Sie Ihr SSH-Schlüsselpaar für das Debugging aus.
Netzwerkeinstellungen:
- Subnetz: Wählen Sie Subnetze aus, in denen Ihre Agenten laufen können.
- Sicherheitsgruppen: Weisen Sie eine Sicherheitsgruppe zu, die ausgehenden Internetzugang (zum Abrufen von Abhängigkeiten) und eingehenden SSH-Zugriff, falls für das Debugging erforderlich, erlaubt.
Speicher (Volumes): Fügen Sie ausreichend Speicherplatz für Builds hinzu.
Erweiterte Details > IAM-Instanzprofil: Wichtig! Erstellen Sie eine IAM-Rolle (z. B. ci-cd-agent-role) mit Berechtigungen für:
- Zugriff auf die SQS-Warteschlange (sqs:ReceiveMessage, sqs:DeleteMessage, sqs:GetQueueAttributes).
- Sendung von Metriken an CloudWatch (cloudwatch:PutMetricData).
- (Optional) Interaktion mit S3 oder anderen AWS-Diensten, die Ihre Builds möglicherweise verwenden.

Erweiterte Details > Benutzerdaten: Dieses Skript wird ausgeführt, wenn die Instanz zum ersten Mal gestartet wird. Es kann verwendet werden, um den Agenten bei Ihrem CI/CD-Orchestrator zu registrieren, die neuesten Konfigurationen abzurufen oder eine letzte Einrichtung vorzunehmen.

#!/bin/bash
# Beispiel für einen Buildkite-Agenten
yum update -y
yum install -y docker # Falls nicht im AMI enthalten
systemctl start docker
systemctl enable docker

# Konfigurieren Sie den Buildkite-Agenten
# Ersetzen Sie dies durch Ihr tatsächliches Token und Ihren Organisationsnamen
export BUILDKITE_AGENT_TOKEN="your-buildkite-agent-token"
export BUILDKITE_ORGANIZATION_SLUG="your-org-slug"

# Oder für Jenkins, verbinden Sie sich mit dem Jenkins-Controller
# java -jar agent.jar -jnlpUrl http://your-jenkins-controller:8080/computer/YOUR_AGENT_NAME/slave-agent.jnlp -secret YOUR_SECRET -workDir "/tmp"

# Starten Sie den Agenten (Beispiel für Buildkite)
/usr/bin/buildkite-agent start

# Weitere Einrichtung...

2. Erstellen Sie eine Auto Scaling-Gruppe (ASG)

Die ASG verwaltet den Lebenszyklus Ihrer Agenteninstanzen.

AWS Console Navigation: EC2 > Auto Scaling-Gruppen > Auto Scaling-Gruppe erstellen

Name der Auto Scaling-Gruppe: ci-cd-agents-asg
Startvorlage: Wählen Sie ci-cd-agent-template aus.
Netzwerk:
- VPC: Ihre Standard- oder benutzerdefinierte VPC.
- Subnetze: Wählen Sie die gleichen Subnetze wie in Ihrer Startvorlage.
Gruppengröße:
- Gewünschte Kapazität: 0 (Wir wollen, dass es von null skaliert).
- Minimale Kapazität: 0 (Erlaubt vollständiges Scaling-in während Leerlaufzeiten).
- Maximale Kapazität: 10 (Basierend auf Ihrem Budget und der erwarteten Spitzenlast festlegen).
Skalierungsrichtlinien: Hier definieren wir die Auto-Scaling-Logik.
- Richtlinientyp: Target tracking scaling policy (für Einfachheit und Effektivität empfohlen).
- Richtlinienname: scale-out-on-queue-depth
- Metriktyp: SQS Queue Depth
- SQS-Warteschlange: Wählen Sie Ihre SQS-Warteschlange für Build-Jobs aus.
- Zielwert: 5 (Das bedeutet, dass die ASG versuchen wird, im Durchschnitt 5 Nachrichten in der Warteschlange pro Agent zu halten. Wenn Sie 0 Agenten und 10 Nachrichten haben, werden 2 Agenten gestartet, um auf 5 Nachrichten/Agent zu kommen). Passen Sie diesen Wert an, je nachdem, wie schnell Sie Jobs verarbeitet haben möchten.
- Richtlinienname: scale-in-on-idle-queue
- Metriktyp: SQS Queue Depth
- SQS-Warteschlange: Wählen Sie Ihre SQS-Warteschlange für Build-Jobs aus.
- Zielwert: 0 (Das bedeutet, dass die ASG skaliert, wenn die Warteschlange leer ist, und darauf abzielt, 0 Nachrichten pro Agent zu erreichen, wodurch inaktive Agenten effektiv entfernt werden).
Instanz-Warmup: Wichtig für Agenten! Wenn neue Agenten Zeit benötigen, um sich zu registrieren und bereit zu werden, setzen Sie eine Warmup-Periode (z.B. 300 Sekunden). So wird verhindert, dass die ASG zu aggressiv ausdehnt, während neue Instanzen noch initialisiert werden.
Gesundheitsprüfungen: Verwenden Sie EC2-Gesundheitsprüfungen.
Benachrichtigungen: (Optional) Konfigurieren Sie SNS-Themen für ASG-Ereignisse.
Tags: Fügen Sie nützliche Tags hinzu (z.B. Project: CI/CD, Role: Build Agent).

Testen der Einrichtung:

Beginnen Sie mit 0 gewünschter Kapazität in Ihrer ASG.
Schieben Sie einige Build-Jobs in Ihre SQS-Warteschlange.
Beobachten Sie die ASG: Sie sollte die Zunahme der Warteschlangentiefe erkennen und neue EC2-Instanzen starten.
Überprüfen Sie, ob Agenten sich bei Ihrem CI/CD-Orchestrator registrieren und Jobs zu verarbeiten beginnen.
Sobald alle Jobs verarbeitet sind und die Warteschlange leer ist, sollte die ASG zusammenschrumpfen und inaktive Agenten nach einer Abkühlphase beenden.

Über AWS hinaus: Auto-Scaling mit Kubernetes (KEDA)

Wenn Ihre Agenten als Container auf Kubernetes ausgeführt werden, ist KEDA (Kubernetes Event-driven Autoscaling) eine hervorragende Lösung. KEDA erweitert den Horizontal Pod Autoscaler (HPA) von Kubernetes um eine Vielzahl von Ereignisquellen (Warteschlangen, Datenbanken, Metrik-Server usw.).

KEDA Schnellstart für warteschlangenbasierte Agenten

Angenommen, Sie haben ein Agenten-Container-Image und ein Kubernetes-Deployment dafür.

1. KEDA installieren

kubectl apply -f https://github.com/kedacore/keda/releases/download/v2.12.1/keda-2.12.1.yaml

2. Erstellen Sie ein ScaledObject

Dieser Ressourcen-Typ sagt KEDA, wie die Bereitstellung basierend auf einer Ereignisquelle skaliert werden soll. Lassen Sie uns eine AWS SQS-Warteschlange als Beispiel verwenden, ähnlich wie im EC2-Beispiel.

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: my-sqs-agent-scaler
 namespace: default
spec:
 scaleTargetRef:
 apiVersion: apps/v1
 kind: Deployment
 name: my-sqs-agent-deployment # Ihr Agenten-Bereitstellungsname
 minReplicaCount: 0
 maxReplicaCount: 10
 pollingInterval: 30 # Alle 30 Sekunden SQS überprüfen
 cooldownPeriod: 300 # 5 Minuten warten, bevor nach der Abkühlung skaliert wird
 triggers:
 - type: aws-sqs
 metadata:
 queueURL: "https://sqs.us-east-1.amazonaws.com/123456789012/my-build-queue"
 queueLength: "5" # Ziel: 5 Nachrichten pro Agent-Pod
 awsRegion: "us-east-1"
 identityOwner: "pod"
 # Wenn IRSA (IAM-Rollen für Dienstkonten) zur Authentifizierung verwendet wird
 authenticationRef:
 name: keda-aws-sqs-auth
---
apiVersion: keda.sh/v1alpha1
kind: TriggerAuthentication
metadata:
 name: keda-aws-sqs-auth
 namespace: default
spec:
 podIdentity:
 provider: aws-eks # Verwenden Sie die AWS EKS Pod-Identität (IRSA)

Erklärung:

scaleTargetRef: Verweist auf Ihr Kubernetes-Deployment, das die Agenten ausführt.
minReplicaCount: 0, maxReplicaCount: 10: Definiert die Skalierungsgrenzen.
pollingInterval, cooldownPeriod: Steuern, wie oft KEDA überprüft und wie lange es wartet, bevor es skaliert.
triggers:
- type: aws-sqs: Gibt den SQS-Skaler an.
- queueURL, awsRegion: Ihre SQS-Warteschlangen-Details.
- queueLength: "5": KEDA wird versuchen, 5 Nachrichten in der Warteschlange pro Agent-Pod zu halten. Wenn die Warteschlange 10 Nachrichten hat und Sie 1 Pod haben, wird auf 2 Pods skaliert (10/5=2). Wenn die Warteschlange 0 Nachrichten hat, wird auf 0 Pods skaliert (wegen minReplicaCount: 0).
- identityOwner: "pod" und authenticationRef: Wichtig für den sicheren Zugriff auf AWS SQS. Dieses Beispiel verwendet die AWS EKS Pod-Identität (IRSA), wobei das Dienstkonto Ihres Agenten mit einer IAM-Rolle annotiert ist, die SQS-Berechtigungen hat.

Wenden Sie diese Manifeste an, und KEDA erstellt automatisch ein HPA für Ihre Bereitstellung, das Ihre Agent-Pods basierend auf der SQS-Warteschlangentiefe hoch- und herunter skalieren wird.

Best Practices und Überlegungen

Unveränderliche Infrastruktur: Erstellen Sie Ihre Agenten-AMIs/Docker-Images mit allen erforderlichen vorinstallierten Software. Verwenden Sie Benutzerdaten/Init-Skripte nur für die letzte Konfiguration (z.B. Registrierung beim Orchestrator).
Gesundheitsprüfungen: Implementieren Sie solide Gesundheitsprüfungen für Ihre Agenten. Wenn ein Agent ungesund wird, wird die ASG oder Kubernetes ihn automatisch ersetzen.
Sanfter Shutdown: Stellen Sie sicher, dass Ihre Agenten ordnungsgemäß heruntergefahren werden können und aktuelle Aufgaben beenden, bevor sie beendet werden. Dies verhindert Datenverlust oder unterbrochene Builds. Für CI/CD beinhaltet dies oft, dass der Orchestrator den Agenten als offline markiert und darauf wartet, dass aktuelle Jobs abgeschlossen sind.
Überwachung und Alarmierung: Überwachen Sie Ihre Skalierungsmetriken, ASG-Ereignisse (Instanzstarts/-beendigungen) und die Gesundheit der Agenten. Richten Sie Alarme für unerwartetes Skalierungsverhalten oder -fehler ein.
Kostenmanagement: Überprüfen Sie regelmäßig Ihre maximalen Kapazitätseinstellungen und Instanztypen, um sicherzustellen, dass Sie nicht zu viel ausgeben. Spot-Instanzen können eine kostengünstige Option für zustandslose, fehlertolerante Agenten sein.
Sicherheit: Verwenden Sie IAM-Rollen (AWS) oder Dienstkonten mit IAM-Rollen für Dienstkonten (IRSA auf EKS), um minimal notwendige Berechtigungen für Ihre Agenten-Instanzen/Pods zu gewähren. Vermeiden Sie das Hardcodieren von Anmeldedaten.
Warmup-Zeit: Konfigurieren Sie die Warmup-Zeiten für Instanzen genau, um ein Durcheinander (zu schnelles Skalieren) zu vermeiden und sicherzustellen, dass neue Instanzen nur dann zur Kapazität beitragen, wenn sie bereit sind.
Abkühlzeit: Setzen Sie angemessene Abkühlzeiten, um schnelle Skalierungszyklen (Flapping) zu vermeiden.
Metrikgranularität: Wählen Sie Metriken, die die Arbeitslast Ihrer Agenten genau widerspiegeln und häufig genug gesammelt werden können, um zeitnahe Skalierungsentscheidungen zu ermöglichen.

Fazit

Das Auto-Scaling der Agenteninfrastruktur ist ein grundlegendes Muster zum Aufbau widerstandsfähiger, kosteneffizienter und leistungsstarker Systeme. Durch die Nutzung der Leistungsfähigkeit von Cloud-Auto-Scaling-Diensten oder Kubernetes-Erweiterungen wie KEDA können Sie das Management Ihres Agenten-Pools automatisieren, um eine optimale Ressourcennutzung und Reaktionsfähigkeit auf die Nachfrage sicherzustellen. Beginnen Sie mit einem klaren Verständnis der Arbeitslast Ihrer Agenten und der verfügbaren Metriken, um eine praktische Auto-Scaling-Lösung zu implementieren, die sich an Ihre Bedürfnisse anpasst und Ihr Team von der manuellen Infrastrukturverwaltung entlastet, sodass es sich auf höherwertige Aufgaben konzentrieren kann. Nutzen Sie das Auto-Scaling, und sehen Sie, wie Ihr Agenten-Pool zu einer wirklich elastischen und effizienten Komponente Ihrer Architektur wird.

🕒 Published: March 27, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →