Logo
Stefan Klein
5 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Patrick Schröder
Haben eine ähnliche Migration hinter uns. Der Tipp: Parallel-Betrieb für 2-4 Wochen einplanen, dann kann man jederzeit zurückschalten.
4 months ago
In response Stefan Klein to his Publication

No replys yet!

It seems that this publication does not yet have any comments. In order to respond to this publication from Patrick Schröder, click on at the bottom under it