Op 2 april 2018 hebben we helaas te maken gehad met een grotere storing op een gedeelte van onze infrastructuur.

Ongeveer de helft van de servers was zeer slecht bereikbaar.
Dit duurde van ongeveer 15u45 tot 17u30 – waarbij er tussendoor korte periode van bereikbaarheid zijn geweest.

Update 17u45:
De globale storing is verholpen. Dat wil zeggen dat 90% het weer doet.
We lopen nu alle servers na om er zeker van te zijn dat iedereen weer online is.

Update 19u20:
We hebben alles nagelopen en alles zou weer online moeten zijn.
Mochten er nog individuele problemen zijn, dan het verzoek deze te melden aan onze helpdesk.

We hebben de onderliggende oorzaak nog in onderzoek.
Zodra er meer informatie is zullen we dit bericht updaten.

3 april Incident report

Samenvatting

Op maandag 2 april 2018 hebben wij helaas te maken gehad met een grootschalige verstoring op een van onze cloudplatforms. Door middel van dit incident report informeren we je graag over de impact, oorzaak en genomen maatregelen. Het issue zat in de firmware van een netwerkcomponent. Na het aanpassen van de firmware, was het issue weer verholpen. Er is op dit moment geen aanwijzing dat de storing zich kan herhalen.

Uitleg platform
Het cloudplatform is volledig redundant opgebouwd. De hypervisors (fysieke machines) functioneren in een cluster waarbij de functie kan worden overgenomen mocht een server defect raken of onderhoud worden gepleegd. Ook de storage (op basis van CEPH) is volledig redundant uitgevoerd op basis van N+2 waarbij meerdere schijven (SSD) of servers kunnen uitvallen zonder impact op het functioneren van de Virtual Machines. Alle apparatuur is meervoudig aangesloten (10gbps poorten) op meerdere switches zodat ook uitval van een switch en/of router geen probleem vormt voor de beschikbaarheid.

Tijdlijn gebeurtenissen 2 april

15u45 We merken dat er problemen zijn met bereikbaarheid van enkele servers. Dit zou een heftige ddos aanval kunnen zijn die we moeten afwenden.
15u55 Er wordt vastgesteld dat er geen ddos aanval is, maar dat de connectiviteit naar de hypervisors een issue is. Het probleem verplaatst zich naar meerdere hypervisors.
16u00 Expert op gebied van netwerkinfrastructuur wordt ingeschakeld.
16u05 Er wordt vastgesteld dat het issue plaatsvindt op de switches van het cloudplatform.
16u11 Vermoeden dat firmware het probleem veroorzaakt omdat deze versie afwijkt van andere cloudplatforms (zonder issues). De firmware van de switches wordt gedowngrade.
16u20 Het platform is weer online nadat 1 switch is geactiveerd met de nieuwe firmware.
16u30 Om de redundantie te herstellen, wordt ook de tweede switch geactiveerd (met de gedowngrade firmware). Helaas ontstaan hierna weer problemen met de connectiviteit.
17u00 Tweede switch wordt handmatig uitgeschakeld waarna de situatie weer stabiel is. De belasting van het platform is erg hoog, dat was te verwachten, en het platform werkt de “achterstanden” weg.
17u45 Door het wegvallen van connectiviteit, zijn een substantieel aantal Virtual Machines vastgelopen of ernstig vertraagd. Sommige systemen zijn ook “read-only” geworden. Deze worden op basis van het monitoringsysteem individueel nagelopen. 19u20 Alle systemen zijn nagelopen, herstart en gerepareerd. 0u00 De firmware op de core routers worden geupgrade.

1u15 Alles getest en weer stabiel. Redundantie van de switches wordt hersteld. Alles blijft stabiel bij het inschakelen van de tweede switch (om 16u30 was dit niet het geval).
Storing definitief afgemeld.