Logo
Stefan Klein
4 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Thomas Müller
4 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Thomas Müller
4 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Stefan Klein
5 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Florian Koch
6 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Maximilian Scholz
6 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Maximilian Scholz
6 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience

Nothing found!

Sorry, but we could not find anything in our database for your search query {{search_query}}. Please try again by typing other keywords.