Sie sind hier: Startseite News & Störmeldungen Störmeldungen Final behoben: (Teil-)Ausfall …

Final behoben: (Teil-)Ausfall der bwCloud Standort Freiburg

Gegen Sonnabend ist eine Caching-NVMe (Volumes) ausgefallen. In Folge hat Ceph intern Daten re-balanciert, was eine weitere Caching NVMe mit sehr hoher Netzwerklast ebenfalls an den Rand eines Ausfalls gebracht hat. In Folge ist eine weitere HDD wegen sehr hoher Netzwerklatenzen für Ceph ausgefallen. In Folge sind einige Hypervisor offline gegangen, da sie auf Daten zugreifen wollten, die nicht mehr verfügbar schienen.
Final behoben: (Teil-)Ausfall der bwCloud Standort Freiburg

Defekte 1,6 TByte NVMe-Platte aus dem Volume-Cache, die nun geprüft und dann getauscht werden muss.

Update 12.5.: Der Ausfall sollte final behoben sein und VMs wieder starten. User sollten dieses bei Bedarf selbst über das Dash-Board antriggern.
Update 13.5.: Wo das nicht möglich sein könnte, erfolgt eine Reparatur des betroffenen Filesystems.<br><br>
Behoben: Damit ist die bwCloud am Standort Freiburg wieder nutzbar. Es gab einen Ausfall einer NVMe des Ceph-Pools, durch das automatische Rebalancing kam es zu einem weiteren Ausfall. Im Moment ist das System daher mit sich selbst beschäftigt. Warum die Komponente ausgefallen bzw. für das System nicht sichtbar ist, ist noch unklar und erfordert evtl. einen Hardwarereset bzw. Tausch, was erst ab Montag möglich sein wird.<br><br>Die Untersuchungen der Ursache und der evtl. notwendige Ausbau sind erfolgt. Ein Tausch wurde bereits eingeleitet. Bis dahin ist mit verschlechterter Caching-Performance zu rechnen.<br><br>Es gibt noch ein unklares Verhalten des Ceph2-Servers (einer von vieren), dessen Präsenz dafür sorgen kann, dass bestimmte Prozesse "hängen". Ein Neustart des Systems "befreit" diese. Hier konnte ein Hardware-Reset (Strom weg) eine rogue Netzwerkkarte wieder so resetten, dass keine Paketstürme mehr auftreten und Folgeprobleme verursachen.