Routing-Fehler bei Google

Heute nachmittag kam es zu einem scheinbar weltweiten Routing-Problem bei Google; Traffic floss entweder nur sehr langsam oder gar nicht. Zum Zeitpunkt des Ausfalls habe ich auf Arbeit nichts davon mitbekommen, war also einer derjenigen, die noch eine stabile Route zu Google hatten. Das scheint jedoch eher die Ausnahme als die Regel gewesen zu sein (jedenfalls in Deutschland), wenn man sich entsprechende Blogbeiträge und Benutzerkommentare z.B. beim GoogleWatchBlog (vorallem deutsche ISPs) oder bei ZDNet (USA und andere) ansieht. Google konnte das Problem innerhalb ca. einer Stunde beheben; solange gab es scheinbar wild rotierende Ausfälle (im Artikel bei ZDNet sind entsprechende Screenshots) – bis sich die Änderungen überall hin ausgewirkt haben, scheint es jedoch eine Weile länger gedauert zu haben.

Was ist passiert?

Google äußert sich in seinem Blog:

Imagine if you were trying to fly from New York to San Francisco, but your plane was routed through an airport in Asia. And a bunch of other planes were sent that way too, so your flight was backed up and your journey took much longer than expected. That’s basically what happened to some of our users today for about an hour, starting at 7:48 am Pacific time.

An error in one of our systems caused us to direct some of our web traffic through Asia, which created a traffic jam. As a result, about 14% of our users experienced slow services or even interruptions. We’ve been working hard to make our services ultrafast and “always on,” so it’s especially embarrassing when a glitch like this one happens. We’re very sorry that it happened, and you can be sure that we’ll be working even harder to make sure that a similar problem won’t happen again. All planes are back on schedule now.

Kernaussage in einer groben Übersetzung: “Ein Fehler in einem unserer Systeme hat uns veranlasst, einigen unseres Web-Traffics durch Asien zu leiten, was einen Stau verursachte. Als Ergebnis nahmen rund 14% unserer Benutzer langsame Dienste oder sogar Unterbrechungen wahr.”

Die Firma Arbor Networks hat ein Traffic-Diagramm gepostet, welches den Fehler bestens darstellt (Einbruch ab ca. 10:15 EDT = 16:15 CEST; Traffic gemittelt über 10 Tier 1/2 Provider in Nordamerika).

Der Ausfall erinnert mich etwas an die Entführung von YouTube nach Pakistan Ende Februar 08, als die Pakistanische Telekom als Zensurmaßnahme versehentlich eine für inländische Netzwerke gedachte falsche Route über einen ihrer Carrier ins Internet propagierte und YouTube’s Traffic so weltweit nach und nach Richtung Pakistan lenkte. Google/YouTube hat damals ebenfalls eine Stunde benötigt, um mittels “Tricks” den Traffic zurück in das richtige Rechenzentrum zu dirigieren (technischer: die korrekte Route erneut als shortest und longest path zu propagieren, siehe Analyse durch RIPE NCC; Heise-Meldung vom Tag des Ausfalls, Heise-Artikel zur Analyse des RIPE).

Evtl. hören wir in den nächsten Tagen noch weitere Details zum heutigen Problem, der genaue Ablauf würde mich sehr interessieren. Aktuell gibt sich Google nach Außen eher bedeckt, was die genaue Ursache angeht. ZDNet hat in der Zwischenzeit einen weiteren Artikel veröffentlicht, in welchem Google Gerüchte über seine IPv6-Migration als Auslöser aus der Welt räumt, entgegen McAfees Aussage, dies sei einer internen Mailingliste entnommen. Google bestätigt, daß bei der Propagierung einer ASN etwas schief lief, allerdings lässt Googles Meldung dazu vermuten, daß Google diese Route selbst propagiert und diesmal kein anderer ISP reingepfuscht hat. Youtube war ebenfalls betroffen (daher wohl auch der enorme Traffic-Einbruch), laut serversniff.de ist YouTube (AS36561) durch Google (AS15169) und ein weiteres AS erreichbar und die Route zum AS von Google dürfte verkonfiguriert gewesen sein (sofern ich das richtig lese; direkt mit Routing über AS bin ich leider noch nie in Kontakt gekommen ;) ).

M	T	W	T	F	S	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31