Stroomstoring BIT-2C

Vanmorgen is er tijdens de black building test van datacenter BIT een onderbreking in de stroomvoorziening opgetreden. De installatie van BIT bleek niet te functioneren zoals beoogd. Helaas hebben ook wij last gehad van deze storing, een van de datacenters waarin apparatuur van ons hangt was uitgevallen.

Het verloop van de storing

  • 09:00 De stroom is volledig uitgevallen in BIT-2C. Een van de drie locaties.
  • 09:02 Onze monitoring detecteert het probleem en notificeert ons
  • 09:13 De stroomtoevoer is hersteld en fysieke servers zijn gestart
  • 09:14 Wij arriveren in het datacenter om de impact in te schatten
  • 09:17 We melden via Twitter dat er een probleem is met het netwerk door een stroomstoring. Het netwerk in de overige datacenters is nog intact maar door de stroomuitval lijkt het even op een netwerkstoring. Een flink aantal servers is niet bereikbaar.
  • De volgende diensten zijn niet beschikbaar:
    • De meeste Kerio in de Cloud servers
    • De resolving nameservers. Dit zijn de nameservers die door onze klanten gebruikt worden
    • Onze eigen website
    • De FilesOnline.eu servers
    • Alle VPS’en die op een node draaien in BIT-2C
    • Nodes van klanten die in BIT-2C draaien
  • 09:33 Alle VPS’en worden opgestart. Alle apparatuur die noodzakelijk is voor de dienstverlening is weer online
  • 09:45 Alles draait weer

Wat er goed ging

Het mag duidelijk zijn dat als de stroom uitvalt in een datacenter, alle apparatuur in dat datacenter en alles wat op die apparatuur draait ook uitvalt. Dit is een ingecalculeerde situatie. Onze infrastructuur is opgebouwd in drie datacenters. Apparatuur buiten het getroffen datacenter was via de andere datacenters online.

De stroomtoevoer is snel hersteld. De oorzaak van de uitval was een black building test van het datacenter. Een test die ieder half jaar uitgevoerd wordt waarbij het hele datacenter afgesloten wordt van de stroomtoevoer en dus zelfstandig moet draaien. Het blijkt maar weer dat het testen belangrijk is. Omdat dit een geplande test is, was er ook voldoende personeel voorhanden en was de stroomvoorziening binnen 15 minuten hersteld.

Onze monitoring had snel in de gaten dat er problemen waren waardoor wij snel konden ingrijpen.

Wat er beter kon

Wij hebben twee resolving nameservers. Deze nameservers worden gebruikt door apparatuur binnen ons netwerk, niet te verwarren met onze nameservers die gebruikt worden voor geleverde domeinnamen door de rest van het internet. Tijdens de stroomuitval bleek dat aanvragen niet beantwoord werden door de resolving nameservers. De nameservers draaiden welliswaar op verschillende nodes, maar -zo bleek- op nodes in hetzelfde -uitgevallen- datacenter. Dat is een fout van onze kant. Het gevolg was dat apparatuur die gebruikt maakt van die resolving nameservers en een nieuwe naam wilde opvragen, geen antwoord kregen op dat DNS verzoek. De overlast hiervan was wel minimaal maar desalniettemin onhandig.

Wat er beter gaat worden

Uiteraard gaan we erop toezien dat nameservers niet in hetzelfde datacenter draaien. Tevens gaan we een extra nameserver in Arnhem inrichten.

Waarom starten de diensten niet op een een van de andere datacenters?

Dat is een bewuste keuze. Bij stroomuitval vallen de VPS’en op de getroffen nodes hoe dan ook uit.
Het automatisch opstarten van al die VPS’en op de overige nodes in de andere datacenters gaat ook een belasting opleveren voor de nodes die beschikbaar zijn. De overweging is dus of de downtime van korte duur is of het een langdurige storing gaat worden. In dat laatste geval worden de servers wel opgestart op de overige nodes. Is het echter een storing met een redelijke oplostijd doen we dat niet. Dan zou de overlast niet opwegen tegen de gewonnen tijd. In dit geval zou dat +/- 15 minuten winst geweest zijn met als gevolg overlast op alle nodes.