Stroomstoring BIT-2C

Vanmorgen is er tijdens de black building test van datacenter BIT een onderbreking in de stroomvoorziening opgetreden. De installatie van BIT bleek niet te functioneren zoals beoogd. Helaas hebben ook wij last gehad van deze storing, een van de datacenters waarin apparatuur van ons hangt was uitgevallen.

Het verloop van de storing

  • 09:00 De stroom is volledig uitgevallen in BIT-2C. Een van de drie locaties.
  • 09:02 Onze monitoring detecteert het probleem en notificeert ons
  • 09:13 De stroomtoevoer is hersteld en fysieke servers zijn gestart
  • 09:14 Wij arriveren in het datacenter om de impact in te schatten
  • 09:17 We melden via Twitter dat er een probleem is met het netwerk door een stroomstoring. Het netwerk in de overige datacenters is nog intact maar door de stroomuitval lijkt het even op een netwerkstoring. Een flink aantal servers is niet bereikbaar.
  • De volgende diensten zijn niet beschikbaar:
    • De meeste Kerio in de Cloud servers
    • De resolving nameservers. Dit zijn de nameservers die door onze klanten gebruikt worden
    • Onze eigen website
    • De FilesOnline.eu servers
    • Alle VPS’en die op een node draaien in BIT-2C
    • Nodes van klanten die in BIT-2C draaien
  • 09:33 Alle VPS’en worden opgestart. Alle apparatuur die noodzakelijk is voor de dienstverlening is weer online
  • 09:45 Alles draait weer

Wat er goed ging

Het mag duidelijk zijn dat als de stroom uitvalt in een datacenter, alle apparatuur in dat datacenter en alles wat op die apparatuur draait ook uitvalt. Dit is een ingecalculeerde situatie. Onze infrastructuur is opgebouwd in drie datacenters. Apparatuur buiten het getroffen datacenter was via de andere datacenters online.

De stroomtoevoer is snel hersteld. De oorzaak van de uitval was een black building test van het datacenter. Een test die ieder half jaar uitgevoerd wordt waarbij het hele datacenter afgesloten wordt van de stroomtoevoer en dus zelfstandig moet draaien. Het blijkt maar weer dat het testen belangrijk is. Omdat dit een geplande test is, was er ook voldoende personeel voorhanden en was de stroomvoorziening binnen 15 minuten hersteld.

Onze monitoring had snel in de gaten dat er problemen waren waardoor wij snel konden ingrijpen.

Wat er beter kon

Wij hebben twee resolving nameservers. Deze nameservers worden gebruikt door apparatuur binnen ons netwerk, niet te verwarren met onze nameservers die gebruikt worden voor geleverde domeinnamen door de rest van het internet. Tijdens de stroomuitval bleek dat aanvragen niet beantwoord werden door de resolving nameservers. De nameservers draaiden welliswaar op verschillende nodes, maar -zo bleek- op nodes in hetzelfde -uitgevallen- datacenter. Dat is een fout van onze kant. Het gevolg was dat apparatuur die gebruikt maakt van die resolving nameservers en een nieuwe naam wilde opvragen, geen antwoord kregen op dat DNS verzoek. De overlast hiervan was wel minimaal maar desalniettemin onhandig.

Wat er beter gaat worden

Uiteraard gaan we erop toezien dat nameservers niet in hetzelfde datacenter draaien. Tevens gaan we een extra nameserver in Arnhem inrichten.

Waarom starten de diensten niet op een een van de andere datacenters?

Dat is een bewuste keuze. Bij stroomuitval vallen de VPS’en op de getroffen nodes hoe dan ook uit.
Het automatisch opstarten van al die VPS’en op de overige nodes in de andere datacenters gaat ook een belasting opleveren voor de nodes die beschikbaar zijn. De overweging is dus of de downtime van korte duur is of het een langdurige storing gaat worden. In dat laatste geval worden de servers wel opgestart op de overige nodes. Is het echter een storing met een redelijke oplostijd doen we dat niet. Dan zou de overlast niet opwegen tegen de gewonnen tijd. In dit geval zou dat +/- 15 minuten winst geweest zijn met als gevolg overlast op alle nodes.

Beschikbaarheidsketen

Beschikbaarheid

Wellicht een nieuw woord.  Het betekent: De keten waar de beschikbaarheid vanaf hangt.

Stel u hebt een webwinkel. Die moet het natuurlijk doen want anders is de winkel dicht. U gebruikt ook e-mail. Daar komen de bestellingen op binnen en daarmee communiceert u met klanten.

De zoektocht begint. U belt een provider en die begint te praten. Tussen alle zinnen door hoort u:  Beschikbaarheid, service level agreement, maintenance window, redundant, loadbalanced, dubbel uitgevoerd, speciaal ingericht, verdeeld, geografisch gescheiden.

Geen touw aan vast te knopen. U wilt gewoon zeker weten dat het werkt en slaat aan het denken. Hoe kan ik zorgen dat een storing bij een leverancier zo min mogelijk impact heeft op mijn bedrijfsvoering? “Beschikbaarheidsketen” verder lezen

Is uw spamfolder uw tweede inbox?

Daar begint het toch op te lijken tegenwoordig. U wacht met smart op een mail. Ze zouden snel reageren! Uw geduld is op!! En nadat u de telefoon neergelegd hebt en het mailtje uit uw spamfolder heeft gevist gaat u weer verder met de orde van de dag. Gefrustreerd en geërgerd door deze zinloze handelingen.

Dat de hele stapel reclame met daartussen die belangrijke brief in de oud papierbak wordt gegooid is toch heel normaal?

Controleert u ook uw spamfolder?

Waarom is dat eigenlijk? Waarom komt mail niet gewoon in mijn inbox? “Is uw spamfolder uw tweede inbox?” verder lezen

IoT gecertificeerde verbindingen

U bent het wel gewend, als wij iets doen, dan doen we het goed. Tuxis is de eerste in Nederland waar u terecht kunt voor internetverbindingen over glasvezel en VDSL met een IoT certificering van ICSA labs! ICSA labs is de certificerende instantie voor onze verbindingen. Zij hebben de verbindingen uitvoerig getest en geconcludeerd dat zij een ICSA labs certificering waardig zijn. En daar zijn wij natuurlijk best trots op.

Als wij nu niets zouden doen met IoT bestaan we over een paar jaar niet meer!

IoT, wat was dat ook alweer?

“IoT gecertificeerde verbindingen” verder lezen

Internettoegang over glasvezel en DSL

Na veel aanvragen zijn we er nog eens ingedoken. De vraag: Kunnen jullie internettoegang op kantoor leveren? En vanaf nu is het antwoord: Maar natuurlijk kunnen wij dat. En dat zijn fatsoenlijke verbindingen waarbij we gebruik maken van glasvezel of VDSL.

Fatsoenlijke?

Daarmee bedoelen wij transparante verbinding met een lage latency die vanzelfsprekend IPv4 én IPv6 ondersteund. Een verbinding waar wij zelf connectiviteit op kunnen zetten zonder gebonden te zijn aan één infrastructuur leverancier. Met die eisen hadden wij het ons niet makkelijk gemaakt. “Internettoegang over glasvezel en DSL” verder lezen

Entrystrategie

Dat lijkt dus het tegenovergestelde van een exitstrategie maar in feite zit er maar een hele fijne scheidslijn tussen. Een entrystrategie is bij marketing heel normaal. Je plant alle communicatie naar de buitenwereld bij de start van je bedrijf. Als het om marketing gaat denken we dus heel ver door. Als het om ICT gaat vergeten we dat soms. Schijnbaar gemak, een snelle start en gebrek aan kennis maken dit onderwerp ondergeschikt. Laten we twee voorbeelden nemen.

Praktijkvoorbeeld 1: De startup van een ICT bedrijf
Het begint vaak klein. Een VPS bij provider X. Een VPS bij provider Y (want die was net wat sneller) en dan nog maar een VPS bij provider Z (want die extra service heb ik toch wel nodig). “Entrystrategie” verder lezen

De (waan?)zin van certificeringen

Internetproviders kennen hem. De vraag: Bent u ISO 27001, ISO 9001, SAS 70 (ISAE 3402), NEN 7510, PCI DSS gecertificeerd? Ik ben er vast een aantal vergeten…

En wij staan voor de keuze: willen wij ons aan zo een standaard conformeren? En zo ja, welke dan? Waarom eigenlijk? Hoeveel werk, tijd en geld gaat het ons kosten?

Even hardop denken:
Als we een certificering hebben, een die “garandeert” dat je volgens jouw policies werkt, is er weer geen klant die kijkt wat jouw policies zijn. En als je klant dan wil lezen wat bijvoorbeeld ISO27001 inhoud moet hij eerst afrekenen. En dé policies kunnen ook hele slechte policies zijn. De controle gaat over of je je policies naleeft, de kwaliteit van de policies is van ondergeschikt belang.

Maar daarvoor zijn er normen. Bijvoorbeeld NEN7510. Die is wel gratis te downloaden na het aanmaken van een account met inlognaam en wachtwoord (waarom eigenlijk?). Dus we vullen onze gegevens in, downloaden de PDF en lezen hem door. De richtlijnen na hoofdstuk 8 zijn zeker wel zinnig. Sterker nog, er zijn veel overeenkomsten met onze policies. De eerste 8 hoofdstukken gaan over hoe te controleren of de richtlijnen in de laatste hoofdstukken opgevolgd worden en wie er verantwoordelijk is. Geen van die controles voorkomt echter dat iemand toch wegloopt zonder zijn werkstation te locken, en precies dat hebben wij (Ronald én Mark) meerdere keren in een ziekenhuis zien gebeuren. Het voorkomt ook niet dat iemand data op een USB stick zet of mailt naar een Gmail/Hotmail account om lekker thuis te werken. Op zijn best wordt geconstateerd dat het gebeurt is met een hele riedel incidentmanagement handelingen tot gevolg. En dat constateren, komt dat dan doordat er richtlijnen zijn of doordat gecontroleerd wordt of de richtlijnen gevolgd worden? (Of is het gewoon dom toeval of pech dat men er achter komt? Want al dat papierwerk…) “De (waan?)zin van certificeringen” verder lezen