Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
5 months ago
4 months ago
In response Stefan Klein to his Publication
Finde den Ansatz sehr gut. Ein Aspekt der oft übersehen wird: Die Auswirkungen auf die Team-Dynamik. Technische Entscheidungen sind auch Team-Entscheidungen.
4 months ago
In response Stefan Klein to his Publication
Toller Erfahrungsbericht! Was mir auffällt: Der kulturelle Aspekt ist mindestens genauso wichtig wie der technische. Tools allein lösen keine Probleme.
4 months ago
In response Stefan Klein to his Publication
Stimmt, das wird oft vernachlässigt. Bei uns haben wir jetzt quartalsweise Security Reviews eingeführt. Kosten wenig Zeit und finden immer etwas.
4 months ago
In response Stefan Klein to his Publication
Interessant dass ihr diesen Ansatz gewählt habt. In der Literatur wird oft das Gegenteil empfohlen. Schönes Beispiel dafür dass Praxis und Theorie manchmal auseinandergehen.
4 months ago
In response Stefan Klein to his Publication
Absolut richtig - das wird in der Branche viel zu oft unterschätzt. Ich sehe das als eine der größten Herausforderungen für 2026.
4 months ago
In response Stefan Klein to his Publication
Wie handhabt ihr das Thema Backward Compatibility? Bei unserer API müssen wir 3 Versionen parallel supporten und das ist ein erheblicher Wartungsaufwand.
4 months ago
In response Stefan Klein to his Publication
Haben eine ähnliche Migration hinter uns. Der Tipp: Parallel-Betrieb für 2-4 Wochen einplanen, dann kann man jederzeit zurückschalten.