2.10.2011 Post-Mortem: voolukatkestuse lugu
Antud blogipostitus on 149 kuud vana ning ei pruugi olla enam ajakohane.
Et kõik ausalt ära rääkida, pean ma alustama tõdemusest, et kõik kes kunagi mõne suurema IT süsteemi eest hoolt kandnud on, vihkavad seda hetke, mil tuhandete ventilaatorite meelinüristav undamine seadmesaalis mõne sekundi jooksul kurdistava vaikusega asendub ja ainsa valgusallikana väljapääsude rohelised plafoonid helendama löövad.
Kahjuks oleme oma 11 aastase ajaloo jooksul sellist hetke mitu korda kogenud, viimati juhtus see pühapäeval 2. oktoobril.
Kuna paljud on selle viimase intsidendi asjaolude vastu huvi tundnud, siis teen kokkuvõtte meiepoolsest arusaamast, mis toimus.
Sündmused
Pühapäeval kella 12.45 ja 12.50 vahel toimus kõrgepingerike, mis jättis Sõle tänava piirkonnas võrgutoiteta mitmed alajaamad. Üks nendest alajaamadest teenindas Linxtelecomi hoonet, kus teiste seas rendib seadmemajutuspinda ka Zone.
Nii nagu ette nähtud, töötasid seadmed esialgu edasi katkematu voolu allikatelt (UPS’idelt) ja käivitus generaator, mis peaks tõsisemate probleemide korral hoonet elektriga varustama.
Esimene elektrikatkestus toimus hetkel, mil mõned UPS’id üritasid seadmete elektriga varustamise generaatorile üle anda. UPS’itud seadmete ja maja konditsioneeride summaarne voolutarve ületas generaatori väljundkaitsme võimsuse ja vooluahel katkes. (Täiendus: Linxtelecom väidab, et väljundkaitsme võimsus ületati, kuna kaitse oli vigane.)
UPS’id rakendusid taas ja seadmed varustati uuesti elektriga, mille tagajärjel need esialgu taaskäivitusid.
Kuna UPS’id on dimensioneeritud seadmeid elektriga varustama vaid lühiajaliselt (reeglina generaatori käivitumiseni), siis tühjenesid nende akud kiiresti ja algas teine (pikem) elektrikatkestus.
Hoone elektrivarustus taastus peale võrgutoite taastumist alajaamast, misjärel saime meie asuda oma teenuseid taastama.
Erandina ei toimunud voolukatkestust seadmetele, mida teenindas viimati lisatud UPS, kuna see oli märkimisväärselt alakoormatud ja omas seetõttu piisavat reservi ka pikemaajalise katkestuse üle elamiseks.
Tagantjärgi targutamine
Intsidendi tagajärgede likvideerimisele järgnenud arutelul kaardistasime toimunut ja arutlesime selle üle, mida oleksime saanud teha selleks, et sellist laadi probleeme ennetada ja mida võiksime tulevikus teha teisiti.
Leidsime, et omalt poolt olime teinud kõik selleks, et oma teenuseid korrektselt kaitsta ja vastutus intsidendi eest lasub täielikult hoone haldajal.
Meie ostsime Linxtelecomilt veakindlusega elektrit (UPS’i ja generaatoriga kaitstud), kriitilisematele serveritele erinevatest allikatest (erinevatest UPS’dest) ja võrgu tuumikule täiendavalt veel 48V akudelt. Viimased peaks elektrivarustuse probleemide korral vastu pidama päevi ja päevi.
Miks jäid võrgutoite katkestuse korral ka meie võrguseadmed sellegipoolest ilma elektrivarustuseta, peab välja selgitama Linxtelecomi uurimine. Kuna alakoormatud UPS’i taga olnud seadmed jäid katkestuseta, oleksid võrguseadmete korrektse elekrivarustuse korral võinud edasi töötada paljud teenused, sh IMAP, POP3, SMTP, VPS-id ja vähemalt meie enda veebid.
Samuti peab Linxtelecom veel konkreetselt vastama meile, milline on nende võimekus lähitulevikus seda laadi elektrivarustuse katkestusega toime tulla.
Jõudsime järeldusele, et oleme teinud õigesti, algatades kevadel protsessid oma seadmemajutuspindade laiendamiseks ja riskide hajutamiseks.
Koostöös Elioniga on meil tänaseks valminud täiendav majutuspind, mille ettevalmistamine algas juba selle aasta kevadel.
Viimaseid lihve on saamas meie andmeside uus “tuumikvõrk”, mille ehitus algas samuti kevadel ja mis ulatub kolme andmesidekeskusesse.
Kui see valmis, saame valminud uue majutuspinna aktiivsemasse kasutusse võtta, alustades teenuste täiendavat hajutamist andmesidekeskuste vahel (täna on geograafiliselt distributeeritud DNS ja sisenev SMTP) ning pakkudes oma klientidele ka uusi teenuseid, mille kättesaadavus ei sõltu enam ühest saidist.
Palume veelkord oma klientidelt siiralt vabandust pühapäeval toimunu eest.