Ich habe Cloud-Agenten-Bereitstellungen skaliert: Hier ist meine Geschichte

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 11 min read•2,158 words•Updated Mar 27, 2026

Hallo, liebe Agenten-Bändiger! Maya Singh hier, zurück auf agntup.com, und wow, habe ich heute eine Geschichte für euch. Wir tauchen tief in ein Thema ein, das mich nachts wach hält, mich tagsüber begeistert und sowohl die Quelle meiner größten Triumphe als auch meiner frustrierendsten „Kopf-auf-der-Tastatur“-Momente war: die Skalierung von Agentenbereitstellungen in der Cloud.

Konkret werden wir über etwas sprechen, das ich bei zahllosen Teams, einschließlich meinem eigenen (damals, natürlich), beobachtet habe: die oft übersehene Kunst des sanften Autoskalierens für zustandsbehaftete Agenten.

Das zweischneidige Schwert des Autoskalierens: Warum zustandsbehaftete Agenten anders sind

Seien wir ehrlich, Autoskalierung ist ein Gottesgeschenk. Wer möchte um 3 Uhr morgens manuell VMs bereitstellen, weil ein plötzlicher Anstieg des Traffics deine Bot-Armee überwältigt hat? Ich nicht. Du auch nicht. Die Cloud-Anbieter haben uns einen Traum verkauft: unbegrenzte Kapazität, bezahle nach Nutzung, hochskalieren, herunter skalieren. Und für zustandslose Webdienste funktioniert es größtenteils gut. Deine Anfrage trifft auf einen verfügbaren Server, der Server verarbeitet sie, sendet sie zurück und vergisst sie. Ganz einfach.

Aber dann kamen die Agenten. Meine Leidenschaft. Unser tägliches Brot. Viele der Agenten, die wir bauen und bereitstellen – insbesondere die, die große Aufgaben übernehmen, lang laufende Prozesse ausführen oder dauerhafte Verbindungen aufrechterhalten – sind nicht zustandslos. Sie sind oft *hochgradig* zustandsbehaftet. Sie könnten sein:

Aufrechterhaltung offener WebSocket-Verbindungen zu externen Diensten.
Speichern von Aufgaben in einem internen Warteschlangen, die sie verarbeiten.
Speichern von Zwischenresultaten komplexer Berechnungen.
Authentifizieren von Sitzungen mit externen APIs, die Ratebegrenzungen an spezifische Client-IPs oder Instanzen binden.

Und das, meine Freunde, ist der Punkt, an dem der „sanfte“ Teil des Autoskalierens entscheidend wird. Denn während das Hochskalieren in der Regel einfach ist (einfach mehr Instanzen starten!), ist das Herunter skalieren von zustandsbehafteten Agenten ohne Datenverlust, abgebrochene Verbindungen oder verärgerte Benutzer eine ganz andere Herausforderung. Es ist, als würde man versuchen, einen Ziegelstein aus einem Jenga-Turm zu entfernen, während das Spiel noch läuft. Du musst überlegt, behutsam vorgehen und einen Plan haben.

Meine eigene Autoskalierungs-Horrorgeschichte: Der Vorfall „Plötzliche Trennung“

Ich erinnere mich an dieses Projekt, wahrscheinlich vor fünf Jahren. Wir bauten eine Flotte von Datenaufnahme-Agenten, die sich mit verschiedenen öffentlichen APIs verbanden. Diese Agenten stellten langlebige Verbindungen her, zogen Daten, verarbeiteten sie in Echtzeit und schoben sie dann in eine zentrale Datenbank. Wir betrieben sie auf AWS EC2-Instanzen, verwaltet durch eine Auto Scaling-Gruppe (ASG) und eine einfache CloudWatch-Metrik für die CPU-Auslastung.

Alles funktionierte während der Spitzenzeiten wunderbar. Mehr CPU? Starte eine weitere Instanz. Super. Aber dann, als der Traffic am Abend nachließ, begann die ASG, Instanzen zu terminieren, um Kosten zu sparen. Und dann begannen die Warnmeldungen zu schreien. Unsere Überwachung zeigte plötzliche Rückgänge im Datendurchsatz, Verbindungsfehler und frustrierte Nachrichten von Benutzern über fehlende Datenpunkte.

Was passierte da? Unsere Agenten, wenn eine Instanz beendet wurde, starben einfach… mitten im Prozess. Sie hatten aktive Verbindungen, teilweise verarbeiteten Datenmengen im Speicher und keine Möglichkeit, ihre Arbeit sanft zu übergeben. Die ASG, Gott sei Dank, sah einfach eine Instanz, die nicht mehr benötig wurde, und zog den Stecker. Es war ein Massaker an digitalen Arbeitern.

Es dauerte Wochen, das Chaos zu entwirren, geeignete Shutdown-Hooks einzuführen und eine Entwässerungsstrategie umzusetzen. Aber die Lektion war in mein Gedächtnis eingebrannt: Autoskalierung von zustandsbehafteten Agenten erfordert mehr als nur CPU-Metriken und gewünschte Kapazität.

Die Kunst des sanften Entwässerns: Ein How-To-Guide

Wie verhindern wir also, dass unsere Agenten ein plötzliches, schmachvolles Ende finden? Wir führen das Konzept des „Entwässerns“ ein. Entwässern ist der Prozess, einem Agenten sanft zu sagen: „Hey, du wirst bald beendet. Bitte beende, was du tust, akzeptiere keine neuen Aufgaben und schalte dich dann sauber aus.“

Hier ist, wie wir es angehen, meist in einer Kombination aus Anwendungslogik und Cloud-Infrastruktur-Konfiguration.

1. Anwendungsebene für sanfte Shutdown-Hooks

Das ist die absolute Grundlage. Dein Agent *muss* in der Lage sein, auf ein Beendigungssignal (wie SIGTERM auf Linux) zu reagieren, indem er:

Neue Arbeit stoppt: Sofort die Annahme neuer Aufgaben, Verbindungen oder Nachrichten einstellen.
Aktuelle Arbeit abschließt: Allen laufenden Vorgängen, offenen Verbindungen oder gepufferten Daten erlauben, abgeschlossen und verarbeitet zu werden. Dies könnte ein Timeout erfordern.
Kritischen Zustand speichert: Wenn es einen Zustand gibt, der unbedingt *überleben* muss, sicherstellen, dass er vor dem Shutdown in einem dauerhaften Speicher (Datenbank, S3, permanente Warteschlange) geschrieben wird.
Ressourcen freigibt: Schließen von Datenbankverbindungen, Dateihandles, Netzwerk-Sockets.
Sauber beendet: Sobald alle Arbeiten erledigt und Ressourcen freigegeben sind, mit einem Erfolgscode beenden.

Sehen wir uns ein vereinfachtes Python-Beispiel für einen Agenten an, der Aufgaben aus einer Warteschlange verarbeitet:


import signal
import sys
import time
from queue import Queue

class MyAgent:
 def __init__(self):
 self.task_queue = Queue()
 self.running = True
 self.processing_task = False
 signal.signal(signal.SIGTERM, self.handle_shutdown_signal)
 signal.signal(signal.SIGINT, self.handle_shutdown_signal) # Für lokale Tests

 def handle_shutdown_signal(self, signum, frame):
 print(f"[{time.time()}] Empfangenes Shutdown-Signal ({signum}). Starte sanftes Herunterfahren...")
 self.running = False

 def enqueue_task(self, task):
 if self.running:
 self.task_queue.put(task)
 print(f"[{time.time()}] Aufgabe eingeordnet: {task}")
 else:
 print(f"[{time.time()}] Agent wird heruntergefahren, Aufgabe verworfen: {task}")

 def process_task(self, task):
 self.processing_task = True
 print(f"[{time.time()}] Verarbeite Aufgabe: {task}...")
 time.sleep(5) # Simuliere Arbeit
 print(f"[{time.time()}] Verarbeitung der Aufgabe abgeschlossen: {task}")
 self.processing_task = False

 def run(self):
 print(f"[{time.time()}] Agent gestartet.")
 while self.running or not self.task_queue.empty() or self.processing_task:
 if not self.task_queue.empty():
 task = self.task_queue.get()
 self.process_task(task)
 elif not self.running and self.task_queue.empty() and not self.processing_task:
 # Alle Aufgaben verarbeitet, keine neue Arbeit und nichts wird verarbeitet
 break
 else:
 # Keine Aufgaben, Agent läuft noch oder wartet auf Abschluss der aktuellen Aufgabe
 time.sleep(1) # Verhindere beschäftigtes Warten
 print(f"[{time.time()}] Agent erfolgreich heruntergefahren.")

if __name__ == "__main__":
 agent = MyAgent()
 # Simuliere einige anfängliche Aufgaben
 agent.enqueue_task("Aufgabe A")
 agent.enqueue_task("Aufgabe B")
 time.sleep(2) # Lass es ein wenig arbeiten
 agent.enqueue_task("Aufgabe C")
 agent.run()

Dieses einfache Beispiel zeigt, wie das `running`-Flag und die Überprüfung des Warteschlangen-/Verarbeitungsstatus es dem Agenten ermöglichen, bestehende Arbeiten auch nach dem Erhalt eines Herunterfahr-Signals abzuschließen. Wichtige Sachen!

2. Entwässerungsmechanismen des Cloud-Anbieters (AWS-Beispiel)

Wie sagen wir dem Cloud-Anbieter, dass er *warten* soll, bis unser Agent sein sanftes Herunterfahren durchgeführt hat? Hier kommen cloud-spezifische Funktionen ins Spiel. Auf AWS nutzen wir:

EC2 Auto Scaling Gruppe Lifecycle Hooks: Diese sind Gold wert. Sie ermöglichen dir, eine Instanz in einem Zustand „Terminating:Wait“ zu pausieren, bevor sie tatsächlich aus der ASG entfernt wird. Während dieser Pause kannst du benutzerdefinierte Aktionen ausführen.
Target Group Deregistration Delay: Wenn deine Agenten hinter einem Application Load Balancer (ALB) oder Network Load Balancer (NLB) angeordnet sind, ist diese Einstellung wichtig. Wenn eine Instanz zur Beendigung markiert wird, wird der Load Balancer aufhören, neue Anfragen an sie zu senden, aber *warten*, bis eine konfigurierte Zeit vergangen ist, um bestehende Verbindungen abzuleiten, bevor sie aus der Zielgruppe entfernt wird.

Lifecycle Hooks einsetzen:

Hier ist der allgemeine Ablauf für eine AWS-Konfiguration:

Eine EC2-Instanz wird von der ASG zur Beendigung markiert (z. B. aufgrund eines Scale-In-Ereignisses).
Die ASG löst einen „Terminating:Wait“-Lifecycle-Hook aus.
Dieser Hook kann ein Ereignis senden (z. B. an eine SQS-Warteschlange oder eine Lambda-Funktion).
Ein Prozess auf der Instanz selbst (oder ein separater Überwachungsdienst) empfängt dieses Signal.
Nach Erhalt des Signals startet der Agent sein anwendungseitiges sanftes Herunterfahren (gemäß unserem obigen Python-Beispiel). Er hört auf, neue Arbeiten zu akzeptieren und schließt aktuelle Aufgaben ab.
Sobald der Agent fertig ist, sendet er ein Signal zurück an die ASG, dass er bereit zur Beendigung ist. Dies geschieht normalerweise durch den Aufruf von complete_lifecycle_action über die AWS CLI oder SDK.
Wenn der Agent innerhalb eines konfigurierbaren Timeouts kein Abschluss-Signal sendet, wird die ASG ihn letztendlich zwangsweise beenden (besser als nichts, aber nicht ideal).

Um dies über die AWS CLI zu konfigurieren (vereinfacht):


# 1. Erstellen Sie den Lifecycle-Hook
aws autoscaling put-lifecycle-hook \
 --lifecycle-hook-name MyAgentTerminatingHook \
 --auto-scaling-group-name MyAgentASG \
 --lifecycle-transition "autoscaling:EC2_INSTANCE_TERMINATING" \
 --heartbeat-timeout 300 \ # 5 Minuten für den vollständigen Shutdown
 --default-result CONTINUE \
 --notification-target-arn arn:aws:sqs:REGION:ACCOUNT_ID:MyAgentTerminationQueue \
 --role-arn arn:aws:iam::ACCOUNT_ID:role/ASGLifecycleHookRole

# 2. Auf der Instanz muss Ihr Agent oder ein Wrapper-Skript dies tun, wenn es bereit ist:
# (Dies muss von einer IAM-Rolle mit Berechtigungen zum Aufrufen von autoscaling:CompleteLifecycleAction ausgeführt werden)
aws autoscaling complete-lifecycle-action \
 --lifecycle-hook-name MyAgentTerminatingHook \
 --auto-scaling-group-name MyAgentASG \
 --lifecycle-action-result CONTINUE \
 --instance-id i-xxxxxxxxxxxxxxxxx

Der --heartbeat-timeout ist hier entscheidend. Er gibt Ihrem Agenten ein Zeitfenster (z. B. 300 Sekunden), um seine Arbeit abzuschließen. Wenn er mehr Zeit benötigt, kann Ihr Agent regelmäßig record_lifecycle_action_heartbeat aufrufen, um den Timeout zu verlängern, aber Sie sollten auf eine vorhersehbare Shutdown-Zeit abzielen.

3. Überwachung und Alarmierung

Selbst mit der besten Drainagestrategie kann etwas schiefgehen. Ihre Agenten könnten stecken bleiben, während des Shutdowns auf einen nicht behandelten Fehler stoßen oder ihre Drainage-Timeouts überschreiten. Eine solide Überwachung ist unerlässlich:

CloudWatch Alarme: Überwachen Sie Instanzen, die zu lange im „Terminating:Wait“ bleiben, ohne die Lifecycle-Aktion abzuschließen.
Anwendungsprotokolle: Stellen Sie sicher, dass Ihre Agenten ihren Shutdown-Prozess klar protokollieren. Stoppen sie neue Arbeiten? Beenden sie alte Arbeiten? Bewahren sie den Zustand?
Kennzahlen: Verfolgen Sie „Aufgaben in Bearbeitung“, „offene Verbindungen“ oder „Warteschlangentiefe“ während des Shutdowns. Diese sollten idealerweise vor der vollständigen Beendigung der Instanz gegen null tendieren.

Mein altes Team richtete schließlich einen Alarm ein, der auslöste, wenn eine Instanz mehr als 10 Minuten im Status `Terminating:Wait` verbrachte. Dies bedeutete normalerweise, dass unser Agent hängen blieb, und wir mussten untersuchen, warum er nicht signalte, dass er fertig war. Es hat uns mehr als einmal vor möglichen Dateninkonsistenzen gerettet.

Über die Grundlagen hinaus: Erweiterte Überlegungen

Idempotenz und Wiederholungen

Selbst mit elegantem Drainage sollte man von einem Fehler ausgehen. Gestalten Sie Ihre Agenten und die Dienste, mit denen sie interagieren, so, dass sie idempotent sind. Wenn ein Agent es schafft, eine Nachricht aufgrund eines kniffligen Shutdown-Szenarios zweimal zu senden, sollte der empfangende Dienst damit ohne Nebenwirkungen umgehen können. Implementieren Sie solide Wiederholungsmechanismen für externe Aufrufe, insbesondere während der Shutdown-Sequenz.

Verteilte Zustandsverwaltung

Für wirklich komplexe, hochgradig zustandsabhängige Agenten sollten Sie in Erwägung ziehen, kritischen Zustand in einen gemeinsamen, externen Speicher auszulagern. Denken Sie an Redis, eine persistente Nachrichtenwarteschlange wie Kafka oder eine Datenbank. So kann, wenn ein Agent *unerwartet* abstürzt, ein anderer Agent seine Arbeit aus einem bekannten guten Zustand wieder aufnehmen. Dies ist ein größerer architektonischer Wechsel, kann jedoch die Resilienz erheblich erhöhen.

Blue/Green Deployments für Updates ohne Ausfallzeiten

Obwohl es nicht ausschließlich um Autoscaling geht, ist elegantes Drainage ein Kernelement für die Realisierung von Updates ohne Ausfallzeiten für Ihre Agenten. Durch die Verwendung derselben Drainagemechanismen können Sie den Datenverkehr langsam von alten Versionen Ihrer Agenten auf neue umschalten und sicherstellen, dass bestehende Aufgaben auf der alten Flotte abgeschlossen werden, bevor sie außer Betrieb genommen wird.

Umsetzbare Erkenntnisse für Ihre nächste Agentenbereitstellung:

Implementieren Sie einen anwendungsbezogenen eleganten Shutdown: Das ist nicht verhandelbar. Ihr Agent muss SIGTERM (oder Ähnliches) behandeln, indem er neue Arbeiten stoppt, aktuelle Arbeiten beendet und Ressourcen freigibt. Testen Sie es gründlich!
Cloud-spezifische Drainagetools verwenden: Egal, ob es sich um AWS Lifecycle Hooks, Kubernetes Pod Disruption Budgets oder Azure Scale Set-Benachrichtigungen handelt, kennen und verwenden Sie die Mechanismen Ihres Cloud-Anbieters, um die Beendigung zu pausieren.
Realistische Timeouts festlegen: Konfigurieren Sie Ihre Drainage-Timeouts (z. B. heartbeat-timeout), damit sie lang genug sind, damit Ihr Agent seine längste erwartete Aufgabe abschließen kann, aber nicht so lange, dass ein hängender Agent Ressourcen unbegrenzt bindet.
Überwachen Sie den Drainageprozess: Gehen Sie nicht einfach davon aus, dass es funktioniert. Erstellen Sie Alarme für Instanzen, die nicht drainen oder zu lange dauern. Protokollieren Sie die Shutdown-Sequenz Ihres Agenten klar.
Für Idempotenz entwerfen: Gehen Sie von dem Schlimmsten aus. Wenn ein Agent nicht perfekt drainet, stellen Sie sicher, dass alle externen Aktionen, die er ausgeführt hat, sicher erneut versucht oder ignoriert werden können.
Regelmäßig Scale-In-Ereignisse testen: Warten Sie nicht auf einen Produktionsvorfall. Simulieren Sie Scale-In-Ereignisse in Ihrer Staging-Umgebung, um sicherzustellen, dass Ihre elegante Drainage wie erwartet funktioniert. Ich habe zu viele Teams gesehen, die nur Scale-Out testen!

Das Skalieren zustandsabhängiger Agenten ist ein nuancierter Tanz, keine brutale Operation. Indem Sie die Mühe investieren, elegantes Drainage zu implementieren, werden Sie sich unzählige Kopfschmerzen ersparen, Datenverlust verhindern und sicherstellen, dass Ihre Agentenflotte mit der Zuverlässigkeit arbeitet, die Ihre Benutzer erwarten. Bis zum nächsten Mal, halten Sie diese Agenten am Laufen!

🕒 Published: March 27, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →