Network Outage firstcolo FRA4

Incident Report for NUXOA

Resolved

Der Vorfall begann um 21:36, als unser Monitoring-System ungewöhnlich hohe Netzwerkaktivität meldete. Schnell konnte eingegrenzt werden, dass mehrere dedizierte Server ausgehenden DDoS-Traffic verursachten, was zu einer starken Belastung der Netzwerkinfrastruktur führte. Die betroffenen IP-Adressen wurden unmittelbar per Nullrouting isoliert, um die Auswirkungen zu minimieren.

Kurz darauf, um 21:40, kam es zu einem Hardwaredefekt an einer Netzwerkkarte in einem unserer Core-Router, versucht durch den hohen Traffic. Dies führte zum Ausfall der Router-Dienste sowie der BGP-Sessions zu unseren Upstream-Providern. Während unser Technikteam die Ursache remote analysierte, war ein weiterer Techniker bereits auf dem Weg ins Rechenzentrum.

Um 22:13 konnte die defekte Komponente lokalisiert und dank verfügbarer Host-Spare-Ersatzteile direkt vor Ort ausgetauscht werden. Die Systeme begannen unmittelbar danach mit dem Wiederanlauf, und um 22:32 waren alle Dienste wieder vollständig online.

Nachträgliche Prüfungen sowie eine durchgehende Überwachung über die letzten 12 Stunden bestätigen, dass das Problem vollständig behoben ist. Zusätzlich wurden Sicherheitsmechanismen und Monitoring-Regeln angepasst, um ähnliche Vorfälle künftig noch schneller (wenige Sekunden) zuerkennen und teils automatisiert eindämmen zu können.

-------------ENGLISH-------------
The incident began at 21:36, when our monitoring system reported unusually high network activity. It was quickly narrowed down that several dedicated servers were generating outbound DDoS traffic, which caused a heavy load on the network infrastructure. The affected IP addresses were immediately isolated via null routing to minimize the impact.
Shortly thereafter, at 21:40, a hardware defect occurred on a network card in one of our core routers, triggered by the high traffic. This led to a failure of the router services as well as the BGP sessions with our upstream providers. While our technical team analyzed the cause remotely, another technician was already on the way to the data center.
At 22:13, the defective component was identified and replaced on-site thanks to available host-spare replacement parts. The systems restarted immediately afterward, and by 22:32 all services were fully back online.
Subsequent checks and continuous monitoring over the past 12 hours confirm that the issue has been fully resolved. Additionally, security mechanisms and monitoring rules have been adjusted to detect similar incidents even faster in the future (within a few seconds) and, in some cases, to automatically mitigate them.

Posted Sep 11, 2025 - 12:52 CEST

Monitoring

Alle Dienste sind seit 22:32 wieder erreichbar.

Im weiteren Verlauf werden wir prüfen was genau der Auslöser war und wie dieser künftig zu verhindern ist.

-------------ENGLISH-------------
All services have been available again since 22:36.

We will continue to check what exactly caused this and how it can be prevented in the future.

Posted Sep 10, 2025 - 22:32 CEST

Investigating

Seit 21:40 verzeichnen wir einen Ausfall der Netzwerkinfrastruktur im firstcolo FRA4 Rechenzentrum. Unsere Techniker arbeiten bereits remote an einer Lösung. Ein weiterer Techniker ist bereits auf dem Weg ins Rechenzentrum.

Wir werden Sie über weitere Informationen auf dem laufenden halten.

-------------ENGLISH-------------
Since 21:40 we have been experiencing a network infrastructure failure at the firstcolo FRA4 data centre. Our technicians are already working remotely on a solution. Another technician is already on his way to the data centre.

We will keep you up to date with further information.

Posted Sep 10, 2025 - 21:40 CEST

This incident affected: firstcolo FRA4 (Core Network).