Der Vorfall begann um 21:36, als unser Monitoring-System ungewöhnlich hohe Netzwerkaktivität meldete. Schnell konnte eingegrenzt werden, dass mehrere dedizierte Server ausgehenden DDoS-Traffic verursachten, was zu einer starken Belastung der Netzwerkinfrastruktur führte. Die betroffenen IP-Adressen wurden unmittelbar per Nullrouting isoliert, um die Auswirkungen zu minimieren.
Kurz darauf, um 21:40, kam es zu einem Hardwaredefekt an einer Netzwerkkarte in einem unserer Core-Router, versucht durch den hohen Traffic. Dies führte zum Ausfall der Router-Dienste sowie der BGP-Sessions zu unseren Upstream-Providern. Während unser Technikteam die Ursache remote analysierte, war ein weiterer Techniker bereits auf dem Weg ins Rechenzentrum.
Um 22:13 konnte die defekte Komponente lokalisiert und dank verfügbarer Host-Spare-Ersatzteile direkt vor Ort ausgetauscht werden. Die Systeme begannen unmittelbar danach mit dem Wiederanlauf, und um 22:32 waren alle Dienste wieder vollständig online.
Nachträgliche Prüfungen sowie eine durchgehende Überwachung über die letzten 12 Stunden bestätigen, dass das Problem vollständig behoben ist. Zusätzlich wurden Sicherheitsmechanismen und Monitoring-Regeln angepasst, um ähnliche Vorfälle künftig noch schneller (wenige Sekunden) zuerkennen und teils automatisiert eindämmen zu können.
-------------ENGLISH-------------
The incident began at 21:36, when our monitoring system reported unusually high network activity. It was quickly narrowed down that several dedicated servers were generating outbound DDoS traffic, which caused a heavy load on the network infrastructure. The affected IP addresses were immediately isolated via null routing to minimize the impact.
Shortly thereafter, at 21:40, a hardware defect occurred on a network card in one of our core routers, triggered by the high traffic. This led to a failure of the router services as well as the BGP sessions with our upstream providers. While our technical team analyzed the cause remotely, another technician was already on the way to the data center.
At 22:13, the defective component was identified and replaced on-site thanks to available host-spare replacement parts. The systems restarted immediately afterward, and by 22:32 all services were fully back online.
Subsequent checks and continuous monitoring over the past 12 hours confirm that the issue has been fully resolved. Additionally, security mechanisms and monitoring rules have been adjusted to detect similar incidents even faster in the future (within a few seconds) and, in some cases, to automatically mitigate them.
Posted Sep 11, 2025 - 12:52 CEST