resilience

4 months ago

Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws

Thomas Müller

4 months ago

Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws

Thomas Müller

4 months ago

Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience

Stefan Klein

5 months ago

Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience

Florian Koch

6 months ago

Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience

Maximilian Scholz

6 months ago

Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.

Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws

Maximilian Scholz

6 months ago

Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.

Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience

Welcome Expert

Nothing found!