2.10.2011 Post-Mortem: voolukatkestuse lugu

Ardi Jürgens
Jaga:

Antud blogipostitus on 149 kuud vana ning ei pruugi olla enam ajakohane.

Sissejuhatus

Et kõik ausalt ära rääkida, pean ma alustama tõdemusest, et kõik kes kunagi mõne suurema IT süsteemi eest hoolt kandnud on, vihkavad seda hetke, mil tuhandete ventilaatorite meelinüristav undamine seadmesaalis mõne sekundi jooksul kurdistava vaikusega asendub ja ainsa valgusallikana väljapääsude rohelised plafoonid helendama löövad.

Kahjuks oleme oma 11 aastase ajaloo jooksul sellist hetke mitu korda kogenud, viimati juhtus see pühapäeval 2. oktoobril.

Kuna paljud on selle viimase intsidendi asjaolude vastu huvi tundnud, siis teen kokkuvõtte meiepoolsest arusaamast, mis toimus.

Sündmused

Pühapäeval kella 12.45 ja 12.50 vahel toimus kõrgepingerike, mis jättis Sõle tänava piirkonnas võrgutoiteta mitmed alajaamad. Üks nendest alajaamadest teenindas Linxtelecomi hoonet, kus teiste seas rendib seadmemajutuspinda ka Zone.

Nii nagu ette nähtud, töötasid seadmed esialgu edasi katkematu voolu allikatelt (UPS’idelt) ja käivitus generaator, mis peaks tõsisemate probleemide korral hoonet elektriga varustama.

Esimene elektrikatkestus toimus hetkel, mil mõned UPS’id üritasid seadmete elektriga varustamise generaatorile üle anda. UPS’itud seadmete ja maja konditsioneeride summaarne voolutarve ületas generaatori väljundkaitsme võimsuse ja vooluahel katkes. (Täiendus: Linxtelecom väidab, et väljundkaitsme võimsus ületati, kuna kaitse oli vigane.)

UPS’id rakendusid taas ja seadmed varustati uuesti elektriga, mille tagajärjel need esialgu taaskäivitusid.

Kuna UPS’id on dimensioneeritud seadmeid elektriga varustama vaid lühiajaliselt (reeglina generaatori käivitumiseni), siis tühjenesid nende akud kiiresti ja algas teine (pikem) elektrikatkestus.

Hoone elektrivarustus taastus peale võrgutoite taastumist alajaamast, misjärel saime meie asuda oma teenuseid taastama.

Erandina ei toimunud voolukatkestust seadmetele, mida teenindas viimati lisatud UPS, kuna see oli märkimisväärselt alakoormatud ja omas seetõttu piisavat reservi ka pikemaajalise katkestuse üle elamiseks.

Tagantjärgi targutamine

Intsidendi tagajärgede likvideerimisele järgnenud arutelul kaardistasime toimunut ja arutlesime selle üle, mida oleksime saanud teha selleks, et sellist laadi probleeme ennetada ja mida võiksime tulevikus teha teisiti.

Leidsime, et omalt poolt olime teinud kõik selleks, et oma teenuseid korrektselt kaitsta ja vastutus intsidendi eest lasub täielikult hoone haldajal.

Meie ostsime Linxtelecomilt veakindlusega elektrit (UPS’i ja generaatoriga kaitstud), kriitilisematele serveritele erinevatest allikatest (erinevatest UPS’dest) ja võrgu tuumikule täiendavalt veel 48V akudelt. Viimased peaks elektrivarustuse probleemide korral vastu pidama päevi ja päevi.

Miks jäid võrgutoite katkestuse korral ka meie võrguseadmed sellegipoolest ilma elektrivarustuseta, peab välja selgitama Linxtelecomi uurimine. Kuna alakoormatud UPS’i taga olnud seadmed jäid katkestuseta, oleksid võrguseadmete korrektse elekrivarustuse korral võinud edasi töötada paljud teenused, sh IMAP, POP3, SMTP, VPS-id ja vähemalt meie enda veebid.

Samuti peab Linxtelecom veel konkreetselt vastama meile, milline on nende võimekus lähitulevikus seda laadi elektrivarustuse katkestusega toime tulla.

Jõudsime järeldusele, et oleme teinud õigesti, algatades kevadel protsessid oma seadmemajutuspindade laiendamiseks ja riskide hajutamiseks.

Koostöös Elioniga on meil tänaseks valminud täiendav majutuspind, mille ettevalmistamine algas juba selle aasta kevadel.

Viimaseid lihve on saamas meie andmeside uus “tuumikvõrk”, mille ehitus algas samuti kevadel ja mis ulatub kolme andmesidekeskusesse.

Kui see valmis, saame valminud uue majutuspinna aktiivsemasse kasutusse võtta, alustades teenuste täiendavat hajutamist andmesidekeskuste vahel (täna on geograafiliselt distributeeritud DNS ja sisenev SMTP) ning pakkudes oma klientidele ka uusi teenuseid, mille kättesaadavus ei sõltu enam ühest saidist.

Palume veelkord oma klientidelt siiralt vabandust pühapäeval toimunu eest.

 

Populaarsed postitused

Aegunud PHP on aegunud PHP

Hasso Tepper
Kui esimene tänapäevane PHP versioon 25 aastat tagasi avalikuks tehti, oli internet hoopis teistsugune. Nõudmised veebilehtedele olid tagasihoidlikud...

Zone Veebiakadeemia - kuidas end Internetis nähtavaks teha

blogi
Zone Veebiakadeemia uusima episoodiga hakkame tutvustama ägedaid Zone koostööpartnereid. Seekord on meil külas Nobel Digitali tootejuht ja partner...

Nutikas Pilveserver: tark lahendus e-poe ja nõudlike veebiprojektide jaoks

Tanel Männik
Nutikas Pilveserver pakub nüüdisaegset ja kulutõhusat lahendust, mis ühendab endas paindlikkuse ja võimsuse, et rahuldada kõrge külastatavusega...

Kuidas me aita(si)me tuntud veebilehtedel suurema külastatavusega toime tulla

Digimaailmas on veebilehtede kiirus ja usaldusväärsus kriitilise tähtsusega. Ikka ja jälle oleme silmitsi olukordadega, kus kliendi käsutuses olev...