(Opgelost) Storing aan een van de nodes

Een storage node van ons Ceph cluster had vannacht een storing. Hierdoor had het virtualisatiecluster geen storage. De meeste VPS-en bleven wachten tot de storage weer werkte en waren snel weer up. De Kerio Connect en Operator servers hadden er meer last van. Een flink aantal Connect servers en alle Operator servers gingen daardoor in storing.


Aanvang: 3.55

Node 1 van ons Ceph cluster gaat in storing.

3:58

Een proces voor een disk in een andere node heeft last van de missende andere disken en crasht. 
Vanaf dit moment is Ceph in ‘stale’ status en wachten alle bovenliggende lagen op disk-io.

5:56

De storing wordt geconstateerd.

Deels opgelost: 6.28

Node 1 is gereboot.
Het storage cluster was weer operationeel. VPS-en die dat nodig hadden zijn herstart.De Kerio Connect servers kwamen online.

7.30

Alle Kerio Connect servers waren weer online. Kerio Operator servers hadden meer tijd nodig om op te starten en sommige wilde niet starten. De reden daarvan wordt nog onderzocht.

Volledig opgelost: 9.05

Alle servers zijn weer online. Mocht u problemen ondervinden, dan horen wij dit graag.

Vragen:

  • Waarom crasht de node?
    Dit is niet terug te vinden.
  • Waarom heeft Ceph er last van dat er een node uitvalt?
    Ceph is zo geconfigueerd dat alle data dubbel beschikbaar is. Dat wil dus zeggen dat het uitvallen van een enkele node geen impact heeft, omdat alle data die op die node staat ook nog ergens anders staat. Geen probleem dus. Op het moment dat een node crasht gaat Ceph zijn best doen om alle data weer twee keer te hebben (van 33% van de data mist immers een kopie). Voordat dat proces afgerond was, crashte echter nog een disk in een andere node. Op dat moment was er dus 33% ‘degraded’ en ongeveer 8% ‘stale’. Om zeker te weten dat Ceph niets stuk maakt, gaat het cluster dan op slot.
  • Waarom duurde het twee uur voordat Tuxis de storing opmerkte?
    De primaire monitoring server draait op het cluster dat last had van deze storing. Die was dus niet in staat om ons te alarmeren. Dat is bekend en daarom is er een tweede machine die ons netwerk checkt, in een ander datacenter, los van dit cluster. Die heeft de storing ook opgemerkt, maar er mistte een klein stukje software voor de notificaties.
  • Ik heb helemaal niets draaien bij jullie op je cluster, ik neem colocatie af. Waarom had ik last van deze storing?
    Onze caching nameservers draaien (redundant) op dit cluster. Ook zij hadden last van deze storing en konden dus niet reageren op uw vragen.

Wat gaan jullie eraan doen?:

  • Het Ceph cluster wordt in januari uitgebreid en verder getuned. Daarnaast zullen we overstappen van een redundantie van een (extra) kopie naar twee kopieen. Hierdoor is de kans op ‘stale’ data vrijwel 0%.
  • In januari richten we aparte caching nameserver in die onafhankelijk van het cluster draait.
  • De notificaties vanaf de extra monitoringserver buiten ons netwerk worden nagelopen (Reeds uitgevoerd).

Dit artikel wordt bijgewerkt. Wij zullen hier alle info plaatsten die wij hebben aangaande de storing.