Stellen Sie sich vor, ein systemrelevantes Unternehmen für eine Region hätte einen Blackout in der hauseigenen IT-Infrastruktur. Bei solchen kritischen Unternehmen muss ja die Datenverarbeitung Tag und Nacht störungs- und unterbrechungsfrei laufen.
Was passiert aber, wenn es doch zum Desaster kommt? Wenn die Rechentechnik oder gar das ganze Rechenzentrum ausfällt? Diese und andere Fragen hat sich in den letzten Tagen das Universitätsklinikum Leipzig gestellt.
Zwei Tage lang wurde im Uniklinikum Leipzig der Ernstfall geprobt, wenn die IT ausfällt. Umfangreiche IT-Prozesse der Medizin wurden von einem Rechenzentrum in das andere geschaltet. Das ist ein Test, den man hier und da mal durchführt, um die Ausfallsicherheit zu überprüfen.
Die Uniklinik hat mitgeteilt, dass der Schwenk ins zweite Rechenzentrum sauber ablief, und die Arbeit in den Abteilungen der Klinik mit kleinen Einschränkungen weitergehen konnte. Also war der Testlauf erfolgreich.
Man benötigt solche Tests, um für den richtigen Katastrophenfall gerüstet zu sein. Wenn zum Beispiel das komplette Rechenzentrum durch den Ausfall der Klimatechnik gestört ist. Um also jederzeit und rund um die Uhr auf alle Systeme zugreifen zu können, ist es notwendig, eine doppelte, also redundante IT-Infrastruktur vorzuhalten.
Eine redundante Infrastruktur bietet sich allerdings nur an, wenn man dafür geeignete Räumlichkeiten hat, die auch noch bestenfalls geografisch vom „Haupt“-Rechenzentrum getrennt sind. Durch diese beiden Rechenzentren kann jederzeit der Zugriff auf die rund 600 Server der Uniklinik gewährleistet werden. Bei einem kritischen Betrieb wie einem Klinikum eine wichtige Maßnahme für den Betrieb.
Die Uniklinik ist sicher beim Umschalten nach einem koordinierten Abschalt- und Wiederanlaufplan vorgegangen. Anders konnte es nicht funktionieren. Es wäre Chaos in der IT-Landschaft ausgebrochen, Prozesse hätten nicht mehr korrekt funktioniert. Der Leipziger Internetzeitung ist zu entnehmen, dass die Umschaltung der Infrastruktur „in einem Stufenverfahren“ ablief. Das genau war der erwähnte Plan.
Und ich bin der Meinung, dass hier und da Unternehmen ihr Geschäft durchführen, ohne Notfallszenarien überhaupt durchdacht zu haben. Das kann bei einem kritischen Unternehmen wie einem Krankenhaus gefährlich sein. Ich habe nichts davon, hier wilde Empfehlungen auszusprechen.
Nur sollte man immer daran denken, dass auch mal kritische Notfälle passieren können. Und da ist es gut, wenn man gewappnet ist. Darum sollte man Pläne durchdacht und vorliegen haben, wie bei kritischen Ausfällen die Systeme wieder gestartet werden sollen. Dabei bin ich noch gar nicht bei zwei räumlich getrennten Rechenzentren, zwischen denen man auch mal wie die Uniklinik einen Schwenk testen muss.
Viele Unternehmen denken da nicht dran. Aber gerade in der heutigen Zeit sollte man ein ganz spezielles Augenmerk auf die IT-Infrastruktur haben.
Das Problem an solchen Tests ist das sie nach „Plan“ ablaufen – da werden z.B. aus Rücksicht gegenüber der noch laufenden IP Telefonie die Netzwerkswitche eben nicht mitgetestet und dann im K. Fall schwenkt halt nichts weil man Kleinigkeiten (Switch IP ist Gateway und damit VMware HA Cluster „Quorum“) vergessen hat. Ich hab schon einige solcher Tests in ähnlich großen Umgebungen mitgemacht und die Pferde kotzen sehen.
Prinzipiell hast du ja Recht. Aber was wäre, wenn man nicht mal so einen Test machen würde und es zum Ernstfall kommt? Da finde ich solche Tests schon gut.