Monitoring serverů a dohled nad dostupností

Co se stane když ve 3 ráno v nějakém serveru „shoří“ základní deska? Nebo vypadne elektřina v datacentru? Či někdo zaútočí na server s cílem jej znepřístupnit?

Určitě napadla většinu ze zákazníků každého hostingu přímo taková, či alespoň nějaká podobná otázka. Nezřídka se setkávám i s dotazy, jako „jestli budeme ty servery hlídat i přes vánoce, nebo máme dovolenou“ či přímo otázky charakteru naznačeného na začátku článku – co se stane, kdo s tím co bude dělat, apod.

Dostupnost služeb je samozřejmě velmi důležitá, a pro její zajištění je nezbytný patřičný dohled. A dohled nespočívá pouze ve sledování dostupnosti či nedostupnosti serverů, ale také monitoringu řady systémových ukazatelů (obsazenost kapacity disků, zátěž jednotlivých systémů, dostupnost jednotlivých služeb, jejich reakční doba atd.).

Většina poskytovatelů hostingu zajišťuje dohled v režimu 24×7 po celý rok (tedy vč. svátků, vánoc, …). Samotný monitoring dostupnosti služeb a zátěže provádí robot, který případné výkyvy nad určené hladiny notifikuje službukonajícímu administrátorovi, ten pak provede patřičný zásah vedoucí k zajištění správného provozu. Mimo to je monitorována dostupnost služby (to se týká zejména dostupnosti webů – tedy jestli server odpovídá na požadavky či nikoli a jak rychle). Monitoring je prováděn z několika lokalit – kromě lokálního monitoringu vrámci datacentra v našem případě dále ze sítí UPC a uplink.cz (servery v Praze), sítě DialTelecom (server v Brně) a sítě Rackspace (server v USA).

V případě zjištění nedostupnosti služby je notifikován (sms, telefon, mail, jabber) aktivní administrátor, který zajišťuje řešení problému – ať už se jedná o přetížení, útok, či např. problém hardware či jinak způsobenou nedostupnost (nutno podotknout, že u většiny útoků a přetížení dochází automaticky k odfiltrování daemonem běžícím na každém serveru a hlídajícím jeho aktuální stav). V případě SW problému jeho řešením, v případě HW problému výměnou vadné komponenty přímo v datacentru, či přesměrováním provozu na náhradní server a výměnou primárního serveru za nový kus. Nedojde-li v určeném čase (5-15 minut dle důležitosti služeb) k „zamluvení“ problému aktivním administrátorem z jakéhokoli důvodu, dochází automaticky k notifikaci o problému všem administrátorům, aby došlo k řešení co nejdříve. Součástí dohledu/pohotovosti je samozřejmě přítomnost administrátora v lokalitě, ze které je schopen v řádu maximálně desítek minut provést fyzický zásah přímo v datacentru.

Napsat komentář