Sie sind hier: Startseite News & Störmeldungen Nachrichten Archiv Informationen zu den Störungen …

Informationen zu den Störungen der RZ-Services am 24.10.

Am Dienstag, den 24.10. waren eine Vielzahl von Diensten des Rechenzentrums zwischen ca. 11 Uhr morgens und 16 Uhr nachmittags nicht oder nur schlecht erreichbar. Wir möchten mit diesem Bericht die Hintergründe der Störung erläutern.

Fast alle Dienste des Rechenzentrums (z.B. ILIAS, Webserver, Groups/BSCW und Wiki-Server um nur einige zu nennen) greifen auf ein zentrales Speichersystem zu. Die RZ-Services sind daher von der korrekten Funktion des zentralen Speichers abhängig.  Dieses ist daher ein Hochleistungssystem mit hoher Redundanz bei der Datenhaltung und ebenfalls hoher Ausfallsicherheit. Die Störung am Dienstag ist folglich auch nicht einem Ausfall einer technischen Systemkomponente geschuldet. Auch hatten wir keine Wartung (geplante Systemarbeiten) angesetzt. Dies hätten wir erstens rechtzeitig angekündigt und zweitens zu Beginn des Semesters gar nicht erst geplant. Vielmehr gab es ein an sich kleineres technisches Problem, das den Umzug eines weiteren RZ-Dienstes auf das zentrale Speichersystem bisher verhinderte. Daher haben wir im Rahmen unseres Supportvertrages den Kontakt zum Hersteller des Systems aufgenommen und in einer Webkonferenz die Optionen zur Lösung des Problems besprochen. Die Empfehlung des Herstellers waren zunächst die Änderung einiger Optionen in den Systemeinstellungen mit nachfolgendem Start eines Prozesses zur Systemanalyse. Dies sollte lediglich marginale Auswirkungen auf die Performance des Systems haben. Leider war dem keineswegs so.

Nachdem das Storage-Team von den ersten Störungen der abhängigen Dienste hörte, wurde der Analyseprozess gestoppt. Dies führte aber nicht zu einer Verbesserung der Lage. Erst nach weiterer intensiver Fehlersuche zusammen mit dem Hersteller wurde ein Fehler aufgedeckt, der durch die besondere Konstellation in den Systemoptionen ursächlich und so nicht zu erwarten war. Er führte dazu, dass Anfragen an das Speichersystem nur stark verzögert beantwortet wurden. Durch Zurücknahme der Option konnte das normale Systemverhalten wiederhergestellt werden.
 
Dem Rechenzentrum ist bewusst, dass die Störung den Nutzerinnen und Nutzern der RZ-Services Unannehmlichkeiten bereitet hat. Wir bitten dafür um Entschuldigung.

Ihr RZ-Team