Stroomstoring BIT-2C

Vanmorgen is er tijdens de black building test van datacenter BIT een onderbreking in de stroomvoorziening opgetreden. De installatie van BIT bleek niet te functioneren zoals beoogd. Helaas hebben ook wij last gehad van deze storing, een van de datacenters waarin apparatuur van ons hangt was uitgevallen.

Het verloop van de storing

  • 09:00 De stroom is volledig uitgevallen in BIT-2C. Een van de drie locaties.
  • 09:02 Onze monitoring detecteert het probleem en notificeert ons
  • 09:13 De stroomtoevoer is hersteld en fysieke servers zijn gestart
  • 09:14 Wij arriveren in het datacenter om de impact in te schatten
  • 09:17 We melden via Twitter dat er een probleem is met het netwerk door een stroomstoring. Het netwerk in de overige datacenters is nog intact maar door de stroomuitval lijkt het even op een netwerkstoring. Een flink aantal servers is niet bereikbaar.
  • De volgende diensten zijn niet beschikbaar:
    • De meeste Kerio in de Cloud servers
    • De resolving nameservers. Dit zijn de nameservers die door onze klanten gebruikt worden
    • Onze eigen website
    • De FilesOnline.eu servers
    • Alle VPS’en die op een node draaien in BIT-2C
    • Nodes van klanten die in BIT-2C draaien
  • 09:33 Alle VPS’en worden opgestart. Alle apparatuur die noodzakelijk is voor de dienstverlening is weer online
  • 09:45 Alles draait weer

Wat er goed ging

Het mag duidelijk zijn dat als de stroom uitvalt in een datacenter, alle apparatuur in dat datacenter en alles wat op die apparatuur draait ook uitvalt. Dit is een ingecalculeerde situatie. Onze infrastructuur is opgebouwd in drie datacenters. Apparatuur buiten het getroffen datacenter was via de andere datacenters online.

De stroomtoevoer is snel hersteld. De oorzaak van de uitval was een black building test van het datacenter. Een test die ieder half jaar uitgevoerd wordt waarbij het hele datacenter afgesloten wordt van de stroomtoevoer en dus zelfstandig moet draaien. Het blijkt maar weer dat het testen belangrijk is. Omdat dit een geplande test is, was er ook voldoende personeel voorhanden en was de stroomvoorziening binnen 15 minuten hersteld.

Onze monitoring had snel in de gaten dat er problemen waren waardoor wij snel konden ingrijpen.

Wat er beter kon

Wij hebben twee resolving nameservers. Deze nameservers worden gebruikt door apparatuur binnen ons netwerk, niet te verwarren met onze nameservers die gebruikt worden voor geleverde domeinnamen door de rest van het internet. Tijdens de stroomuitval bleek dat aanvragen niet beantwoord werden door de resolving nameservers. De nameservers draaiden welliswaar op verschillende nodes, maar -zo bleek- op nodes in hetzelfde -uitgevallen- datacenter. Dat is een fout van onze kant. Het gevolg was dat apparatuur die gebruikt maakt van die resolving nameservers en een nieuwe naam wilde opvragen, geen antwoord kregen op dat DNS verzoek. De overlast hiervan was wel minimaal maar desalniettemin onhandig.

Wat er beter gaat worden

Uiteraard gaan we erop toezien dat nameservers niet in hetzelfde datacenter draaien. Tevens gaan we een extra nameserver in Arnhem inrichten.

Waarom starten de diensten niet op een een van de andere datacenters?

Dat is een bewuste keuze. Bij stroomuitval vallen de VPS’en op de getroffen nodes hoe dan ook uit.
Het automatisch opstarten van al die VPS’en op de overige nodes in de andere datacenters gaat ook een belasting opleveren voor de nodes die beschikbaar zijn. De overweging is dus of de downtime van korte duur is of het een langdurige storing gaat worden. In dat laatste geval worden de servers wel opgestart op de overige nodes. Is het echter een storing met een redelijke oplostijd doen we dat niet. Dan zou de overlast niet opwegen tegen de gewonnen tijd. In dit geval zou dat +/- 15 minuten winst geweest zijn met als gevolg overlast op alle nodes.

Onderhoud netwerk

Aanstaande nacht, woensdag 22 juni 2016 tussen 0.00 en 3.00 uur, zal Tuxis onderhoud uitvoeren aan het netwerk. Een aantal onderdelen zullen geüpgraded of uitgebreid worden.

Uitbreiding 10Gbit Ring
In verband met de groei van het aantal benodigde poorten zal onze 10Gbit ring uitgebreid worden met een extra switch. Hiervoor wordt de ring tijdelijk onderbroken, waarna de nieuwe switch in de ring wordt opgenomen. Dit zou geen onderbreking in de dienstverlening moeten veroorzaken.

Upgrade firewall
De firewall die een heel aantal machines van externe connectivity voorziet zal worden voorzien van de laatste versie van de software. Dit zal mogelijk een onderbreking van enkele minuten voor ons webhostingplatform tot gevolg hebben.

Upgrade router
Een van de twee routers die het netwerk van Tuxis met de buitenwereld verbindt zal worden voorzien van de laatste versie van de software. Dit zal mogelijk een aantal onderbrekingen van een paar seconden tot gevolg hebben.

Mocht u vragen hebben naar aanleiding van deze aankondiging, dan kunt u contact met ons opnemen via de chat, 0318 200208, of info@tuxis.nl.

Storing iscsi laag

Vanavonpd om 23:35 is op een van onze VPS nodes een storing opgetreden naar de storage toe. Door deze storing sprongen een aantal VPS’en op deze node naar een read-only disk, waardoor ze een reboot nodig hadden.

We hebben alle machines die op de node draaiden voor zover mogelijk gecontroleerd of ze weer helemaal in orde waren. Mocht er onverhoopt toch nog een probleem met uw VPS zijn, dan kijken we daar graag naar.

Onze excuses voor de eventuele overlast die deze storing voor u veroorzaakt heeft.

Storing VPS node

Vanmorgen tussen is om 5:57 uur op een van onze VPS nodes een storing opgetreden naar de storage toe. Door deze storing sprongen een groot deel van de VPS’en op deze node naar een read-only disk, waardoor ze een reboot nodig hadden.

We hebben alle machines die op de node draaiden voor zover mogelijk gecontroleerd of ze weer helemaal in orde waren. Mocht er onverhoopt toch nog een probleem met uw VPS zijn, dan kijken we daar graag naar.

Uiteraard wordt de oorzaak van deze storing onderzocht en zullen passende maatregelen genomen worden om een herhaling te voorkomen. Onze excuses voor de eventuele overlast die deze storing voor u veroorzaakt heeft.

Aankondiging onderhoud, BIT-1 verhuizing

Aanstaande nacht, woensdag 21 oktober 2015 tussen 0.00 en 5.00 uur, zullen we ons halve rack op BIT-1 verhuizen naar een heel rack op diezelfde locatie. In de afgelopen weken hebben we voorbereidingen getroffen voor een 10Gbit ring tussen BIT-1, BIT-2A en BIT-2C. De laatste stap in dat traject is het verhuizen van het rack.

backup.tuxis.net en onze Diskbay Online server zullen tussen 22.00 en 0.00 verhuisd worden, aangezien die vooral vanaf middernacht aan het werk gaan.

Na dit onderhoud kunnen wij u colocatie aanbieden op drie locaties; BIT-1, BIT-2A en BIT-2C.

Aankondiging spoedonderhoud

In verband met de storingen van vanmorgen en gisterenmorgen, en naar aanleiding van een kleine issue die bij het onderhoud vannacht is opgetreden zal Tuxis aanstaande nacht tussen 0.00 en 2.00 uur wederom onderhoud uitvoeren.

1: Op de verbinding tussen de nieuwe switches en een van de routers zal een andere poort op de router in gebruik genomen worden. Hierbij wordt geen downtime verwacht.
2: De verbinding tussen de iscsi-storage en de rest van het cluster zal anders ingericht worden. Het vermoeden bestaat dat er in het OS op de storageserver een bug bestaat, waardoor de verbinding sporadisch gedurende enkele minuten wegvalt, wat de downtime aan de VPS’en veroorzaakt. Vannacht zullen alle VPS’en die gebruik maken van deze netwerkopslag preventief uitgeschakeld worden. Na het opnieuw configureren van de verbindingen zal iedere VPS weer ingeschakeld worden.

Rest ons om u onze excuses aan te bieden voor de overlast die de storingen de afgelopen twee dagen hebben veroorzaakt. We zijn hard op zoek naar de oorzaak van het probleem en hopen de vinger snel op de zere plek te krijgen.

Aankondiging netwerk onderhoud

Op woensdag 1 april zal Tuxis onderhoud uitvoeren aan het netwerk. De nieuwe switches die in januari in gebruik zijn genomen voor de eigen infrastructuur zal voor alle klanten beschikbaar gemaakt worden. Deze nieuwe switches zijn in een `stack`-configuratie opgenomen, zodat de switches elkaars taken over kunnen nemen in geval van uitval van een van de stack-leden. Hierdoor kan het voor u extra interessant zijn om een dubbele uplink af te nemen.

Vanaf 0.00 uur zullen alle machines losgekoppeld worden van de huidige switches en aangesloten worden op de nieuwe switches. Hiervan kunt u een aantal minuten downtime ondervinden. We hopen het hele onderhoud om 4.00 afgerond te hebben.

Ook de verbinding tussen BIT-1 en BIT-2 zal gedurende enkele minuten onderbroken worden. Als u synchronisatie tussen de twee locaties doet, let u er dan op dat dit ook na deze ‘split-brain’-situatie weer naar behoren werkt!

De router op BIT-1 zal gedurende dit onderhoud losgekoppeld worden van externe partijen, om te voorkomen dat er verkeer binnenkomt dat niet afgehandeld kan worden. Na het in gebruik nemen van de nieuwe switches zal de router op BIT-1 geupgradet worden naar de laatste versie van de routersoftware.

Overigens zullen we begin mei onze verbinding met NL-IX/JointTransit upgraden naar 1 Gbit, om in de groeiende vraag naar bandbreedte te voorzien.