Liebe Kolleginnen und Kollegen,
wie angekündigt, möchten wir Sie über die Hintergründe des Ausfalls des Name-Service für .de-Domains am vergangenen Mittwoch im Folgenden detailliert informieren. Antworten auf die häufigsten Fragen in diesem Zusammenhang haben wir für Sie in dem angehängten FAQ-Dokument zusammengefasst.
Ablauf und Auswirkungen
Ab ca. 13:30 Uhr (MESZ) am Mittwoch den 12.5.2010 war DENIC mit dem Bild konfrontiert, dass, je nach Standort und angefragter Domain, Anwender teilweise die falsche Antwort „Domain existiert nicht“ erhielten. In diesem Fall waren die davon betroffenen .de-Domains für den betroffenen Anwender nicht über ihre Domainadressierung erreichbar und E-Mails aus bzw. zu diesen Adressen wurden dann abgewiesen oder nicht gesendet. Hintergrund dafür war, dass im Rahmen der Regelmäßigen 2-stündigen Aktualisierung der Nameservicedaten auf 12 der 16 Servicestandorte durch einen unterbrochenen Kopiervorgang die Verteilung einer nicht
vollständigen Aktualisierung (sog. Zonendatei) angestoßen wurde.Das unmittelbar eingesetzte Notfallteam hat den Fehler analysiert und daraufhin beginnend um 14:20 Uhr die fehlerhaft antwortenden Standorte abgeschaltet. Da nicht unmittelbar klar war, ob die Zone aufgrund eines fehlerhaften Bestands in der Datenbank oder aufgrund eines Fehlers im Generierungsprozess defekt war und die Registrierungssysteme aufgrund der ungewöhnlich hohen Registrierungsversuche für vermeintlich freie Domains unter großer Last standen, wurden diese zudem temporär angehalten.
Ab 14:30 Uhr wurden die abgeschalteten Standorte sukzessive mit einer vollständigen Zonendatei versorgt und wieder in den Nameserververbund aufgenommen. Wegen des Datenvolumens und der weltweiten Verteilung der Standorte dauerte der Gesamtvorgang zu der vollständigen Neuverteilung und des anschließenden Neustarts aller betroffenen Servicestandorte bis ca. 15:45 Uhr. Damit war der vollständige Service seitens DENIC nun mit seinem vollständigen Leistungsvolumen wiederhergestellt.
Für die Internetanwender könnte es jedoch wegen des Cachings bei den ISPs teilweise noch bis zu 2 Stunden danach zu Beeinträchtigungen gekommen sein.
Folgeschritte werden nach der weiteren Detailanalyse eingeleitet.
Technische Details
Die aus der Registrierungsdatenbank erzeugte Zonendatei wird vor der Inbetriebnahme auf den weltweiten Standorten gleich mehrfach auf Vollständigkeit und Plausibilität geprüft. Diese Prüfungen sind auch mit der betroffenen Zonendatei erfolgreich durchlaufen worden und haben dazu geführt, dass vier Standorte nicht mit einer falschen Zonendatei versorgt wurden sowie, dass der Frankfurter IPv6 DNS Standort und das DNSSEC Testbed unberührt blieben.
Im Rahmen des Projektes zur Erneuerung der Nameserverinfrastruktur jedoch, wurde insbesondere auch das Konzept der Zonenverteilung neu aufgesetzt. Nach dem Prüfen der korrekten Erzeugung der Zonendatei und der Prüfung der korrekten Übertragung der Zonendatei zum Zonenverteilserver wird die Zone nach diesem neuen Konzept vor der Verteilung auf die einzelnen Standorte nochmals kopiert. Dieser Kopiervorgang brach mit ca. nur einem Drittel der Datensätze fehlerhaft
ab. Zwar sollte auch dieser Vorgang abgesichert sein, der Sicherungsmechanismus hat den Fehler allerdings nicht korrekt ausgewertet, so dass im Effekt der Kopierfehler nicht entdeckt und der Weiterverarbeitungsprozess nicht angehalten wurde.Entsprechend steht der Vorgang in keinem direkten Zusammenhang mit dem am Dienstag zuvor durchgeführten Umzug des Rechenzentrumsbetriebs für die Registrierungsdienste von Amsterdam nach Frankfurt. Gleichermaßen gibt es ebenfalls keinen Zusammenhang mit dem DNSSEC Testbed, noch waren Services für Kooperationspartner, betriebene Secondaries für andere TLDs oder wären Services des Anycast-Angebots für Dritte TLDs betroffen gewesen.
Mit freundlichen Grüßen
Beate Schulz
Pressereferat
Quelle: DENIC