Die beiden Autoren des Beitrags vor einer weißen industriellen Außenfassade© Julia Stankewitz/BWI GmbH
Resilienz by Design

BWI-Duo über sichere Rechenzentren durch robuste Apps

3 min
31. Oktober 2024

Was verbindet resiliente Rechenzentren mit Softwareengineering? Clever durchdachte Applikationen! Nur, wer bereits vor dem Development das künftige Design frühzeitig und sämtliche möglichen Szenarien antizipierend in die Planung mit einbezieht, ermöglicht Security by Design. Bei Rechenzentren mag der Bezug zu Apps nicht direkt auf der Hand liegen, dabei sind Data Center in Zeiten von Cybersecurity und Skalierbarkeit eklatant von smarter Software abhängig und umgekehrt. Mit dem Zusammenspiel von Mikro- und Makroebene haben sich Lars Friedrichs und Michael Wlodarek aus dem Rechenzentrumsverbund der BWI auseinandergesetzt.

„IT ist überall.“ In unserer vernetzten Welt trifft dieses Credo zu, doch wie verhalten sich IT-Systeme in großflächigen Katastrophen, beispielsweise bei Überschwemmungen? Dieser Artikel beleuchtet, wie Rechenzentren und Applikationen durch eine geplante Resilienz auch in Extremsituationen stabil bleiben.

Was bedeutet Resilienz?

Resilienz beschreibt in den Ingenieurwissenschaften die Fähigkeit eines technischen Systems, bei Störungen wichtige Funktionen aufrechtzuerhalten. Für Rechenzentren bedeutet dies, dass bei einem Teilausfall die IT-Services verfügbar bleiben und Nutzer*innen weiterhin zur Verfügung stehen. Besonders angesichts der zentralen Rolle, die IT in modernen Prozessen spielt, sind resiliente Systeme unverzichtbar.

Sensor im Rechenzentrum © Julia Stankewitz/BWI GmbH

Normierung von Rechenzentren

Vor Einführung der Rechenzentrumsnorm DIN EN 50600 gab es nur kommerzielle Leitfäden für die Bewertung von Rechenzentren. In den 2000er-Jahren entstand in Europa der Standard für Planung und Klassifizierung von Rechenzentren. Seit 2012 wurden verschiedene Teile dieser Norm veröffentlicht. Ab 2021 ergänzten auch Teile der internationalen Norm ISO/IEC 22237 den Standard, der weltweit vergleichbare Sicherheits- und Resilienzanforderungen festlegt.

© Gliederung der Norm DIN EN 50600 (Auszug aus der Norm)

Gemäß DIN EN 50600 und ISO/IEC 22237 können Rechenzentren in Verfügbarkeitsklassen eingeteilt werden, die Resilienz und Ausfallsicherheit messen. Fünf Sicherheitsklassen bieten zudem Informationen über das Sicherheitsniveau der Infrastruktur, wie Brandschutz oder Zugangssicherheit. Die Norm stellt auch Methoden zur Identifizierung von Standortrisiken bereit. Sie bewertet zum Beispiel Gefährdungen durch Erdbeben und Hochwasser. Damit ermöglichen die Normen, die Verfügbarkeit und Resilienz eines Rechenzentrums international vergleichbar zu machen und potenzielle Schwachstellen präzise zu analysieren.

Verfügbarkeitsklassen und Resilienzstufen

  • Verfügbarkeitsklasse 1: Systeme ohne Redundanz in den Versorgungspfaden (Strom, Kühlung). In diesen Systemen kann ein einzelner Fehler den gesamten IT-Service lahmlegen. Wartungen und Modernisierungen erfordern oft das vollständige Herunterfahren der Systeme. Sicherheitsmaßnahmen sind auf einem grundlegenden Niveau, sodass diese Systeme leicht angreifbar sind.
  • Verfügbarkeitsklasse 2: In dieser Kategorie wird die Infrastruktur zur Versorgung und für den Betrieb der IT-Komponenten redundant ausgelegt. Ein Fehler führt nicht direkt zum Ausfall, sondern erst ein zweiter Ausfall oder ein Versorgungsproblem, wie ein Kurzschluss oder eine Leckage.
  • Verfügbarkeitsklasse 3: Hier sind sowohl die Komponenten als auch die Versorgungspfade doppelt vorhanden. Bei einem Fehler in einer Komponente oder bei Wartungsarbeiten bleibt der Service vollständig funktionsfähig, weil die redundante Struktur den Betrieb automatisch aufrechterhält.
  • Verfügbarkeitsklasse 4: Rechenzentren dieser höchsten Klasse besitzen vollständige Redundanz und zusätzliche Notfallsysteme. Die Services fallen erst ab dem dritten Fehler in einem Versorgungssystem aus. Diese Struktur wird durch georedundante Systeme ergänzt, die externen Einflüssen widerstehen.

Die vier Verfügbarkeitsklassen erlauben eine präzise Einteilung von Rechenzentren nach ihrer Resilienz. Die höchste Stufe sieht georedundante Rechenzentren vor, die weder durch regionale Stromausfälle noch durch Umweltkatastrophen etwa Überflutungen und Erdbeben in Mitleidenschaft gezogen werden. 

Infrastruktur vs. Applikation

Ein resilientes Rechenzentrum allein garantiert noch keine robuste Applikation. Zum Beispiel kann der Ausfall einer Applikationsdatenbank auf einem Server die redundante Versorgung nutzlos machen. Selbst komplexe High Availability (HA)-Setups mit aktiver und passiver Synchronisation bieten oft keine vollständige Sicherheit. Datenfehler können synchronisiert und auf Backup-Systeme übertragen werden. Eine daraus resultierende fehlerhafte Datenbank kann eine Anwendung unbrauchbar machen. Die Applikation muss so entworfen sein, dass sie mit den Sicherheitsmaßnahmen der Infrastruktur effektiv arbeiten kann.

Entwicklung robuster (Cloud-)Applikationen

Durch Infrastructure as Code (IaC), also die Beschreibung der benötigten Infrastruktur für den Betrieb einer Applikation, und Infrastructure as a service (IaaS), also deren automatisierte Bereitstellung, kann das Backend-System unabhängig von Hardware-Abhängigkeiten laufen, wobei die Applikation ihre Umgebung selbst definiert. So entstehen skalierbare, modulare Servicebausteine, die ihre Funktion an verschiedenen Punkten der Infrastruktur (zum Beispiel Cloud-Instanzen) erfüllen. Durch die Trennung von Logik und Datenhaltung lassen sich Applikationen leichter skalieren und können performante Lese- und Schreibvorgänge ausführen.

Für die Datenhaltung bieten moderne Systeme Replikationsmechanismen, die der Applikation erlauben, auch auf unterschiedlichen Servern lauffähig zu bleiben. In dieser Form entstehen Applikationen, die parallel laufen und so eine schnelle Wiederaufnahme der Dienste ermöglichen, selbst bei einem Ausfall eines Servers. Die Kopplung zwischen Frontend und Backend erfolgt über APIs, wobei Gateways als Vermittler optimierte Kommunikationswege sicherstellen.

Ein weiterer Vorteil dieses Ansatzes ist die parallele Ausführung von Logikbausteinen, was die Lastverteilung und Ausfallsicherheit steigert. Client-Anfragen werden an verfügbare Logikbausteine weitergeleitet, so haben Serverausfälle nur kurzfristig Auswirkungen. Gleichzeitig sichert das Cloud-Management-System Reservekapazitäten, um Dienste bei Bedarf automatisch zu starten.

Durch diesen modularen Aufbau und die verteilte Lauffähigkeit über verschiedene Standorte (in der Cloud oft „Regionen“ genannt) wird es möglich, Applikationen unabhängig von einem Standort zu betreiben. Entscheidend für die vollständige Resilienz ist jedoch die gleichzeitige Datenreplikation in mehrere Rechenzentren, sodass keine zentralen Abhängigkeiten bestehen.

Robuste Schnittstellen und Kommunikation

Viele Anwendungen sind auf externe Schnittstellen angewiesen, was zusätzliche Resilienzanforderungen mit sich bringt. Eine fehlende Schnittstelle darf nicht die Funktionalität der Anwendung beeinträchtigen oder gar zum Absturz führen. Gleichzeitig sollten Nutzer über die Verfügbarkeit der Schnittstellen informiert werden und alternative Kommunikationswege nutzen können. Für mobile Applikationen bedeutet dies, dass grundlegende Funktionen auch offline verfügbar bleiben, wobei der Datenaustausch nachträglich synchronisiert wird, sobald die Verbindung wiederhergestellt ist.

Wiederaufnahme des Betriebs nach einem Ausfall

Auch bei katastrophalen Ausfällen kann der Betrieb einer Applikation durch Notfallauslagerung der Daten schnell wiederhergestellt werden. Dies erfordert jedoch, dass Differenzen in den Schnittstellendaten durch automatisierte Mechanismen erkannt und gelöst werden, um den Betrieb nahtlos aufzunehmen. Durch manuelle Prüfung können Administratoren eventuelle Fehler schnell beheben und einen ungestörten Betriebsablauf sicherstellen.

Fazit: Mehr Resilienz durch klare Strategie

Die Resilienz eines IT-Systems lässt sich durch verschiedene Maßnahmen erhöhen. Grundlegende Schritte wie regelmäßige Datensicherungen, Redundanz in der Infrastruktur und physischer Schutz vorvor Natur- und sonstigen Katastrophen schaffen die Basis für ein resilientes System. Eine umfassende Strategie, die auch die Applikationen einbezieht, ist jedoch entscheidend. Durch die Implementierung eines Resilienzmanagements und kontinuierliche Tests im Rahmen eines Business Continuity Managements kann ein Unternehmen Schwachstellen erkennen und gezielt beheben.

Mit einer langfristigen Strategie für die Beschaffung und Entwicklung von resilienten Rechenzentren und Applikationen können die Maßnahmen sukzessive umgesetzt werden, ohne dass radikale Veränderungen nötig sind. Unternehmen profitieren davon, Risiken genau zu kennen, regelmäßig zu prüfen und die eigene Resilienz Schritt für Schritt zu erhöhen.

Insgesamt sind Risikoeinschätzung und kontinuierliche Optimierung der Maßnahmen essenziell, um die Resilienz zu stärken und einen stabilen Betrieb langfristig zu sichern.

Das könnte Sie auch interessieren:
 

 
Schnellere, mobile Übertragung für eine höhere Einsatzfähigkeit
BWI erprobt 5G-Campusnetze
3 min
14. Juni 2023

Schnellere, mobile Übertragung für eine höhere Einsatzfähigkeit

#Bundeswehr

#Technologie

Ein Schlüssel für die Führungs- und Einsatzfähigkeit der Bundeswehr ist die sichere Vernetzung eigener Kräfte, damit die jederzeit und ohne Verzug Zugriff auf alle zur Verfügung stehenden Informationen haben. Und das auch in Einsatzgebieten, die…
3 min
14. Juni 2023
 
Projekt „VJTF(L)2023“: Nutzerausbildung und Rollout von Hard- und Software gestartet
2 min
15. März 2021

Projekt „VJTF(L)2023“: Nutzerausbildung und Rollout von Hard- und Software gestartet

#Bundeswehr

#Digitalisierungsprogramme

2023 wird die NATO-Eingreiftruppe „Very High Readiness Joint Task Force“ (VJTF) ein neues digitales Führungsinformationssystem im Einsatz nutzen. Im Mai 2020 wurde das neue „Battle Management System“ vorgestellt. Ende letzten Jahres haben Bundeswehr…
2 min
15. März 2021