Merge pull request 'blog: add post for 2024.02.07 incident' (#10) from hirnpfirsich/website:add_2024-02-07-outage_blogpost into master
Reviewed-on: #10
This commit is contained in:
commit
edb36f89fc
1 changed files with 63 additions and 0 deletions
63
content/blogposts/2024-02-07-outage.md
Normal file
63
content/blogposts/2024-02-07-outage.md
Normal file
|
@ -0,0 +1,63 @@
|
||||||
|
+++
|
||||||
|
title = "Incident 07.02.2024"
|
||||||
|
date = "2024-02-07"
|
||||||
|
+++
|
||||||
|
|
||||||
|
In der Nacht von Dienstag auf Mittwoch (06.02.24 - 07.02.24) ist in der Wurzner Straße der Strom ausgefallen und hat uns eine ungeplante Downtime geschenkt.
|
||||||
|
|
||||||
|
Unser Kernnetz, sowie die Kundenanschlusse, sind nach dem Stromausfall von selbst wieder hochgefahren.
|
||||||
|
|
||||||
|
Allerdings mussten wir bei beiden Hosting-Servern manuell eingreifen und bis in die Mittagsstunden des Folgetages Entstörungen durchführen.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Verlauf
|
||||||
|
|
||||||
|
* 2024.02.06 23:30 CET: Stromausfall
|
||||||
|
* gesamter Ausfall unserer Infrastruktur
|
||||||
|
* 2024.02.07 00:20 CET: Stromausfall beendet
|
||||||
|
* Kundenanschlüsse stehen wieder zur Verfügung
|
||||||
|
* 2024.02.07 11:00 CET: _hyper01_ und _sol_ unlocked
|
||||||
|
* _hyper01_: Kunden VMs wieder online
|
||||||
|
* _sol_: bootet ohne Netzwerkkonnektivität - Reverse-Proxies und interne VMs weiterhin offline
|
||||||
|
* 2024.02.07 14:30 CET: _sol_ entstört
|
||||||
|
* Reverse-Proxies und interne VMs wieder Verfügbar
|
||||||
|
|
||||||
|
Seit 2024.02.07 14:30 CET ist das Reudnetz wieder uneingeschränkt online.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Entstörung _sol_
|
||||||
|
|
||||||
|
_sol_ ist nach dem Freischalten der `full-disk-encryption` ohne Netzwerkkonnektivität gebootet.
|
||||||
|
Eine fehlkonfigurierte Boot-Partiton hat einen veralteten Linux-Kernel gebootet für den das OS keine Kernel-Module mehr bereitgestellt hat.
|
||||||
|
|
||||||
|
Durch die fehlenden Module konnte _sol_ seinen Netzwerk-Stack nicht konfigurieren da hierfür (unteranderem) das `bonding` Modul für 802.3ad (LACP) benötigt wird.
|
||||||
|
|
||||||
|
_sol_ konnte über das IPMI entstört werden.
|
||||||
|
|
||||||
|
Der Grund für die defekte Boot-Partiton war eine Wartung im Juni 2023.
|
||||||
|
Beim Austausch der HDDs in _sol_ gegen SSDs wurde die Bootpartition per `dd` kopiert.
|
||||||
|
Durch die gleichen FS/UU-IDs hat der Kernel das /boot auf der SSD gemountet, welches nicht in der Firmware als Boot-Device hinterlegt war.
|
||||||
|
Somit haben sich das Boot-Device und die eigentliche /boot-Partition immer weiter voneinander entfernt.
|
||||||
|
|
||||||
|
## Full-Disk-Encryption
|
||||||
|
|
||||||
|
Die Festplattenverschlüsselung von _hyper01_ und _sol_ musste manuell durch einen admin freigeschaltet werden.
|
||||||
|
|
||||||
|
Das ist 11 Stunden nach Ende des Stromausfalls passiert.
|
||||||
|
|
||||||
|
## PDU issues _hyper01_
|
||||||
|
|
||||||
|
Aufgrund von Netzteilproblemen ist _hyper01_ nicht automatisch gestartet.
|
||||||
|
Weder die Betätigung des `power-buttons`, noch das IPMI konnten den Server starten.
|
||||||
|
|
||||||
|
|
||||||
|
Aus Energieeffiziengründen wird _hyper01_ nur mit einem Netzteil betrieben.
|
||||||
|
Der Wechsel auf das Ersatznetzteil hat dem Server dann zum Starten verholfen.
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
## Reflektion
|
||||||
|
|
||||||
|
In den folgenden Pläna werden wir erarbeiten an welchen Stellen wir Verbessrungen erzielen können um diese Form von Ausfall zu verhindern.
|
Loading…
Reference in a new issue