website/content/blogposts/2024-02-07-outage.md

2.5 KiB

+++ title = "Incident 07.02.2024" date = "2024-02-07" +++

In der Nacht von Dienstag auf Mittwoch (06.02.24 - 07.02.24) ist in der Wurzner Straße der Strom ausgefallen und hat uns eine ungeplante Downtime geschenkt.

Unser Kernnetz, sowie die Kundenanschlusse, sind nach dem Stromausfall von selbst wieder hochgefahren.

Allerdings mussten wir bei beiden Hosting-Servern manuell eingreifen und bis in die Mittagsstunden des Folgetages Entstörungen durchführen.


Verlauf

  • 2024.02.06 23:30 CET: Stromausfall
    • gesamter Ausfall unserer Infrastruktur
  • 2024.02.07 00:20 CET: Stromausfall beendet
    • Kundenanschlüsse stehen wieder zur Verfügung
  • 2024.02.07 11:00 CET: hyper01 und sol unlocked
    • hyper01: Kunden VMs wieder online
    • sol: bootet ohne Netzwerkkonnektivität - Reverse-Proxies und interne VMs weiterhin offline
  • 2024.02.07 14:30 CET: sol entstört
    • Reverse-Proxies und interne VMs wieder Verfügbar

Seit 2024.02.07 14:30 CET ist das Reudnetz wieder uneingeschränkt online.


Entstörung sol

sol ist nach dem Freischalten der full-disk-encryption ohne Netzwerkkonnektivität gebootet. Eine fehlkonfigurierte Boot-Partiton hat einen veralteten Linux-Kernel gebootet für den das OS keine Kernel-Module mehr bereitgestellt hat.

Durch die fehlenden Module konnte sol seinen Netzwerk-Stack nicht konfigurieren da hierfür (unteranderem) das bonding Modul für 802.3ad (LACP) benötigt wird.

sol konnte über das IPMI entstört werden.

Der Grund für die defekte Boot-Partiton war eine Wartung im Juni 2023. Beim Austausch der HDDs in sol gegen SSDs wurde die Bootpartition per dd kopiert. Durch die gleichen FS/UU-IDs hat der Kernel das /boot auf der SSD gemountet, welches nicht in der Firmware als Boot-Device hinterlegt war. Somit haben sich das Boot-Device und die eigentliche /boot-Partition immer weiter voneinander entfernt.

Full-Disk-Encryption

Die Festplattenverschlüsselung von hyper01 und sol musste manuell durch einen admin freigeschaltet werden.

Das ist 11 Stunden nach Ende des Stromausfalls passiert.

PDU issues hyper01

Aufgrund von Netzteilproblemen ist hyper01 nicht automatisch gestartet. Weder die Betätigung des power-buttons, noch das IPMI konnten den Server starten.

Aus Energieeffiziengründen wird hyper01 nur mit einem Netzteil betrieben. Der Wechsel auf das Ersatznetzteil hat dem Server dann zum Starten verholfen.


Reflektion

In den folgenden Pläna werden wir erarbeiten an welchen Stellen wir Verbessrungen erzielen können um diese Form von Ausfall zu verhindern.