RFO Netwerkstoring 31 oktober 2014

8:30: We constateren dat een groot gedeelte van onze diensten niet bereikbaar waren. Direct is er onderzocht waar het probleem lag. Wat opviel is dat beide locaties (BIT-1 en BIT-2) wel bereikbaar waren vanaf een aantal plekken op het internet, maar dat BIT-1 en BIT-2 elkaar niet konden bereiken.
De symptomen leken op de symptomen van de storing aan het OpenPeering netwerk vorige week, waardoor we even op het verkeerde been stonden. Na de constatering dat BIT-1 en BIT-2 elkaar niet konden bereiken zijn we direct naar het datacenter gereden.

8.45: Aangekomen in het datacenter blijkt dat een van de switches uitstaat. De oorzaak zal hoogstwaarschijnlijk de voeding zijn. Een poging om de switch uit- en weer inschakelen van de switch geeft geen solaas.
De switch in kwestie verzorgt naast de connectivity van een heel aantal servers ook de verbinding tussen BIT-1 en BIT-2. Doordat deze verbinding wegviel ontstond een zogenaamde ‘split-brain’-situatie. Beide locaties (BIT-1 en BIT-2) ‘werken’ op zich, maar trekken beide verkeer naar zich toe waar ze vervolgens niet helemaal mee uit de voeten kunnen. Op verzoek van Tuxis zijn de verbindingen op BIT-1 verbroken om de split-brain situatie te stoppen. Een gedeelte van de diensten op BIT-2 is toen weer gaan functioneren.

8.55: De enige oplossing: De switch moet vervangen worden. Een grote bundel kabels moet ook na de vervanging weer op de juiste plek aangesloten worden. Terwijl Ronald aan de slag gaat met het fysiek vervangen van de switch, begint Mark met het overnemen van de configuratie op de nieuwe switch.

10.00: Het gros van de poorten is weer actief en functioneert weer naar behoren. Wij verplaatsen ons naar kantoor om de configuratie helemaal af te ronden en te controleren of alles weer naar behoren functioneert.

Vragen die u wellicht hebt

  • Waarom geeft het wegvallen van een switch zo’n groot probleem?

    Bij het opzetten van het netwerk is een kosten-baten analyse gemaakt op basis van risico’s en de gevolgen van calamiteiten. Voor deze situatie is besloten een extra switch op voorraad te hebben (Cold Standby) die in geval van problemen ingezet kan worden. We kunnen constateren dat dit volgens planning gefunctioneert heeft. Binnen 2 uur was alles weer operationeel.

  • Zijn mijn servers herstart?

    Nee. Een gedeelte van de machines is welliswaar zijn opslag even ‘kwijt’ geweest, maar dat heeft geen gevolgen gehad voor de werking van de servers. Nadat de storage weer terugkwam is alles weer gaan functioneren.

  • Wat hebben jullie hiervan geleerd?
    • We zijn in staat om snel te analyseren wat het probleem is en daarop snel te acteren. De geplande oplossing voor dit specifieke probleem voldeed.
    • De split-brain situatie heeft meer kapot gemaakt dan nodig was. We gaan onderzoeken hoe we dit beter op kunnen lossen zodat klanten die op twee locaties diensten afnemen geen problemen ondervinden als zich op een van de twee locaties een dergelijke storing voordoet.
    • We zijn blij dat we een datacenter buiten de randstad en in de buurt van ons kantoor hebben. De aanrijtijd van 5 minuten is een grote bijdrage aan de snelle oplostijd van deze storing.

Aankonding onderhoud aan storage en klantenmachines

Op woensdag 8 oktober zal Tuxis tussen 0.00 en 5.00 uur onderhoud uitvoeren. Er staan een aantal acties op de planning:

1: In de afgelopen weken is een nieuwe storageserver in gebruik genomen. Langzaam maar zeker zijn meer virtuele servers van Tuxis overgezet naar deze nieuwe server. Tijdens dit onderhoud zal de server met een tweede poort op het netwerk aangesloten worden waardoor betere performance mogelijk gemaakt wordt.
2: Ook de laatste virtuele servers van Tuxis zullen overgezet worden naar de nieuwe storageserver.
3: De opslag van de Kerio in de Cloud-servers zal overgezet worden naar de nieuwe storageserver.
4: De ‘oude’ storageserver zal op een andere manier aangesloten worden op het netwerk.
5: Alle servers van klanten met een onderhoudscontract zullen worden geüpgraded.
6: Alle Kerio in de Cloud-servers zullen worden geüpgraded.

Alle servers die geüpgrade worden, zullen worden gereboot. Hierdoor wordt voor deze servers een downtime van een aantal minuten verwacht.

De Kerio in de Cloud-servers die Kerio Connect draaien zullen gedurende ongeveer één uur geen diensten leveren, vanwege het overzetten van de opslag.

Er wordt verder geen aanzienlijke downtime verwacht.

Mocht u vragen hebben over dit onderhoud, schroomt u dan niet om contact met ons op te nemen via support@tuxis.nl.

Aankondiging spoedonderhoud: Reboot storage

In de afgelopen weken zijn er een aantal korte onderbrekingen geweest in de storagelaag van de Tuxis diensten, waarvoor excuses. Gelukkig kwamen deze storingen voor ’s nachts voor, waardoor de overlast voor klanten minimaal is geweest.

Afgelopen nacht was er omstreeks half een weer een korte onderbreking, maar dankzij de maatregelen die afgelopen zaterdag zijn genomen is er wel duidelijk geworden waar het probleem ligt.

De oorzaak ligt niet in de hardware, maar in de ZFS-software. Aanstaande nacht (woensdag 10-09-2014) zullen we de betreffende server rebooten, wat zal leiden tot een downtime van ongeveer 10 minuten. Na deze reboot zullen alle VPS’en gecontroleerd worden op juiste werking.

Tevens is er gisteren een nieuwe storagemachine besteld die binnenkort gefaseerd in gebruik genomen zal worden. Dit zal de performance en schaalbaarheid van de storage nog verder verbeteren. Tevens worden daar verbeteringen doorgevoerd ten opzichte van de huidige storage, in het kader van ‘voortschrijdend inzicht’.

Excuses voor de overlast die deze storingen en dit onderhoud hebben veroorzaakt. Mocht u vragen hebben naar aanleiding van deze aankondiging, schroomt u dan niet om contact met ons op te nemen.

Storing VPS’en

Zojuist is tussen 16.32 en 16.42 uur een nog onbekende storing geweest aan de NFS-server die de VPS’en van opslag voorziet. Hierdoor kan uw VPS ongeveer 10 minuten onbereikbaar geweest zijn. In principe zijn alle VPS’en wel verder gegaan waar ze gebleven waren, zonder verlies van data.

De oorzaak van deze storing zal nog verder onderzocht worden, zo op het eerste gezicht lijkt er nog geen aanwijsbare reden te zijn. Indien nodig zal op een later moment onderhoud ingepland worden om het eventuele probleem te verhelpen.

Excuses voor de overlast van deze storing.

Aankondiging onderhoud VPS’en, deel 2

In navolging op het onderhoud van vorige week woensdag, zal Tuxis op aanstaande woensdag 9 juli tussen 0.00 en 5.00 uur opnieuw onderhoud uitvoeren aan de VPS clusters. De laatste machine uit het ‘oude’ Archipel-cluster zal opnieuw worden ingericht voor het nieuwe Proxmox-cluster. De machines die op dit moment nog op deze machine draaien, zullen voor zover mogelijk naar het nieuwe cluster verhuisd worden voordat de herinstallatie gedaan wordt, om downtime te minimaliseren.

Mocht u vragen hebben naar aanleiding van dit onderhoud, neemt u dan contact met ons op via info@tuxis.nl of via 0318 200208.

Uitbreiding opslag backup.tuxis.nl

In verband met groeiende behoefte aan back-upruimte zal Tuxis vanmiddag twee nieuwe disken in backup.tuxis.nl plaatsen. Deze disken zullen twee van de huidige disken vervangen.

Dit onderhoud wordt overdag uitgevoerd omdat de back-upserver vooral ’s nachts zijn taken moet vervullen.

Mocht u vragen hebben naar aanleiding van dit onderhoud, neemt u dan contact met ons op via info@tuxis.nl of via 0318 200208.

Aankondiging onderhoud VPS’en

Op woensdag 2 juli 2014, tussen 0.00 en 5.00 uur zal Tuxis onderhoud uitvoeren aan de platformen voor VPS’en. In het afgelopen half jaar is uitbreid getest met het VPS Management platform Proxmox, vooral met VPS’en van Tuxis zelf. Proxmox heeft een aantal zeer bruikbare features en er is besloten om alles naar Proxmox om te zetten.

Het Archipel-platform, waar het gros van de machines van klanten nog op draait, zal omgezet moeten worden naar Proxmox. Omdat de techniek achter Archipel en Proxmox grotendeels gelijk is, is het niet de verwachting dat er hele grote downtime ontstaat, maar de verwachting is dat alle klant-VPS’en in deze nacht even uit zullen gaan. Waar mogelijk zal rekening gehouden worden met redundante setups van klanten.

Nadat alle VPS’en op het nieuwe platform over zijn gezet, zal de onderliggende storagelocatie verplaatst moeten worden. Proxmox kan dit live omzetten, maar Tuxis zal dat in verband met belasting op een later moment doen.

Het huidige platform zal per fysieke machine omgezet worden. Hopelijk lukt het om het hele Archipe-platform in dit onderhoud te migreren, anders zal op een later moment de rest gedaan worden.

Mocht u vragen hebben naar aanleiding van dit onderhoud, neemt u dan contact met ons op via info@tuxis.nl of via 0318 200208.

Netwerk-, klanten- en Kerioindecloud onderhoud

Op woensdag 11 juni 2014 zal Tuxis tussen 0.00 en 2.00 onderhoud uitvoeren. Van de verbinding tussen BIT-1 en BIT-2 die in het vorige onderhoud aangepast is, zullen de glasvezel-optics vervangen worden. Door de redundante opzet van deze verbinding wordt hierbij geen downtime verwacht.

Alle machines van klanten met een onderhoudscontract zullen worden geupgraded naar de laatste versies. Ook alle Kerioindecloud.nl-machines worden geupgraded.

Mocht u vragen hebben naar aanleiding van deze aankondiging, kunt u contact met ons opnemen via support@tuxis.nl of via 0318 200208.

Aankondiging onderhoud verbinding BIT-1 – BIT-2

Op vrijdag 23 mei tussen 0.00 en 1.00 uur zal Tuxis onderhoud uitvoeren aan de verbinding tussen BIT-1 en BIT-2. De huidige 1Gbit-verbinding zal worden geupgrade naar 2Gbit. Voor de klanten die op zowel BIT-1 als BIT-2 apparatuur hebben staan zal die verbinding en de apparatuur op BIT-1 gedurende ongeveer 20 minuten niet beschikbaar zijn.

Mocht u vragen hebben naar aanleiding van deze aankondiging, kunt u contact met ons opnemen via support@tuxis.nl of via 0318 200208.