5 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Interessant dass ihr diesen Ansatz gewählt habt. In der Literatur wird oft das Gegenteil empfohlen. Schönes Beispiel dafür dass Praxis und Theorie manchmal auseinandergehen.
4 months ago
In response Stefan Klein to his Publication