Keine Faulheit vor-schützen: Fault Tolerance in der Cloud

„Fault Tolerance“, also Ausfallsicherheit auch beim Versagen einer definierten Anzahl beliebiger Komponenten, ist ein Schlagwort, das schnell gesagt und versprochen ist. Dabei steigt die Komplexität, welche Abhängigkeiten und Pfade zu beachten sind, bei großen verteilten Systemen schnell sprunghaft an. Gerade Cloud-Anbieter müssen Redundanzen auf sehr vielen Ebenen vorhalten, um das Gesamtsystem in einer Vielzahl von Fehlerzuständen funktionsfähig zu halten. Aber auch Cloud-Kunden können vieles falsch machen in der Architektur und Konfiguration und sich so unnötige „Single Points of Failure“ bauen.

Amazon Web Services hat nun in einem 30-seitigen Whitepaper, das etwas technisch als „AWS Fault Isolation Boundaries“ betitelt ist, dargelegt, auf welche Arten welche Layer von AWS in sich zusammenfallen können, und welche architektonischen Ansätze dagegen helfen können.

https://docs.aws.amazon.com/whitepapers/latest/aws-fault-isolation-boundaries/abstract-and-introduction.html

Autor