Fragen? Antworten! Siehe auch: Alternativlos
Wollte ich eigentlich nicht ins Blog tun, weil ich die nicht zu Infrastruktur zählen wollte. Aber irgendwie ist das auch nichts, das gar nicht zu erwähnen.
Vielleicht brauchen wir eine neue Kategorie für sowas. Unterdrückungsinfrastrukturapokalyse oder so.
Update: Wir sollten mal einen Wettpool eröffnen, ob Facebook genug Arsch in der Hose hat, einen ordentlichen Postmortem zu veröffentlichen.
Update: Mir mailte jemand, dass gestern sein Huawei-Telefon warnte, dass das Internet nicht geht. Das Internet ging, aber Facebook ging nicht.
Update: Facebook hat ein Postmortem veröffentlicht. Sie sagen, ein Admin habe auf einem Router auf dem Backbone zwischen ihren Rechenzentren ein Kommando gefatfingert, was den gesamten Backbone runterfuhr. Money Quote:
Our systems are designed to audit commands like these to prevent mistakes like this, but a bug in that audit tool didn’t properly stop the command.
Das klingt ein bisschen konfus, denn Auditing heißt normalerweise, dass man ein Log der Befehle führt, nicht dass man irgendwas stoppt. Aber egal. Sie haben DNS-Server, die über ihren Backbone mit den autoritativen DNS-Servern für Facebook reden, und die über BGP announced werden. Anycast vermute ich? Jedenfalls haben sie da einen Fail-Beschleuniger eingebaut, dass wenn der DNS-Server den autoritativen DNS-Backend-Server nicht erreichen kann, dass er dann aufhört, sich über BGP zu announcen. Das führte dann dazu, dass Facebook nicht mehr per DNS erreichbar war, obwohl die Server selbst eigentlich noch liefen. Money Quote:
And as our engineers worked to figure out what was happening and why, they faced two large obstacles: first, it was not possible to access our data centers through our normal means because their networks were down, and second, the total loss of DNS broke many of the internal tools we’d normally use to investigate and resolve outages like this.
Mit anderen Worten: Das Szenario hat bei denen noch nie jemand mal durchgespielt. Aber wartet, kein Problem ist so schlimm, dass man es nicht mit wohlgemeinten Security-Barrieren noch schlimmer machen könnte. Sie haben also Ingenieure zu den Rechenzentren geschickt.
But this took time, because these facilities are designed with high levels of physical and system security in mind. They’re hard to get into, and once you’re inside, the hardware and routers are designed to be difficult to modify even when you have physical access to them. So it took extra time to activate the secure access protocols needed to get people onsite and able to work on the servers. Only then could we confirm the issue and bring our backbone back online.
Gestern ging schon der Witz herum, dass dringend Leute mit fünf Jahren Erfahrung in PHP, C++ und Seitenschneidern gesucht würden. :-)
Alles in allem bin ich mit dem Postmortem zufrieden. So muss das aussehen. Wirkt für mich nicht so, als hätten sie irgendwas zu beschönigen versucht. Lessons learned. So wie das sein muss.