4 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
4 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
4 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
5 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
6 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
6 months ago
Disaster Recovery Test bestanden: Kompletter Failover von eu-west-1 nach eu-central-1 in unter 3 Minuten. RDS-Read-Replica zum Primary promoted, DNS-Failover via Route53 Health Checks, CDN-Origin umgestellt.
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
Was wir dabei gelernt haben: Der Test hat einen Bug in unserem Session-Management aufgedeckt - Sessions waren nicht repliziert. 200 User wären ausgeloggt worden. Jetzt im Redis-Cluster mit Cross-Region-Replication gelöst. DR-Tests sind keine Checkbox-Übung - sie finden echte Probleme. #disasterrecovery #resilience #aws
6 months ago
Chaos Engineering mit Litmus eingeführt. Erster Test: Zufällig einen Pod töten. Ergebnis: 2 von 8 Services hatten keine Health-Checks konfiguriert und wurden nicht automatisch neugestartet. Zweiter Test: Netzwerk-Latenz von 500ms injizieren. Ergebnis: Ein Service hatte kein Timeout und hat den gesamten Request-Chain blockiert.
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience
Kontrolliertes Chaos in der Staging-Umgebung zeigt Schwachstellen bevor sie in Produktion knallen. Jeder gefundene Bug hier ist ein vermiedener Incident dort. #chaosengineering #resilience