Logo
Thomas Müller
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
4 months ago
Robert Neumann
4 months ago
In response Thomas Müller to his Publication
Bei uns sieht die Architektur aehnlich aus, aber wir nutzen Kafka statt RabbitMQ für das Event-Streaming. Bei unserem Durchsatz war das der bessere Fit.
Maximilian Scholz
4 months ago
In response Thomas Müller to his Publication
Hast du dabei auch die Total Cost of Ownership betrachtet? Oft sieht es auf den ersten Blick günstig aus, aber die versteckten Kosten kommen später.
Andreas Wolf
4 months ago
In response Thomas Müller to his Publication
Super hilfreich! Hast du zufällig ein GitHub-Repo oder ein Beispiel-Projekt? Würde das gerne hands-on nachvollziehen.