
17 minute read
DISASTER RECOVERY: POJISTKA NEPŘETRŽITÉHO PROVOZU V DOBĚ ROSTOUCÍCH HROZEB
MICHALA BENEŠOVSKÁ
Kybernetické útoky, výpadky infrastruktury a jiné havárie dnes představují zásadní riziko pro kontinuitu provozu firem. Zejména ransomwarové útoky se staly jednou z nejčastějších hrozeb. Roste i počet incidentů, při nichž podniky musejí obnovovat ztracená data po útoku nebo posilovat zabezpečení IT, místo aby platily výkupné. To ukazuje, že kvalitní zálohy a plán obnovy jsou často poslední záchranou před ztrátou dat.
Disaster recovery (DR) neboli zotavení po havárii označuje proces a soubor opatření, které organizaci umožní reagovat na mimořádnou událost a obnovit provoz kritických systémů a dat. Typicky jde o scénáře, kdy dojde k vážnému narušení IT provozu – může to být přírodní katastrofa, technická havárie, lidská chyba nebo kybernetický útok. Cílem DR je dostat firmu co nejrychleji zpět do fungujícího stavu, co nejvíce se přiblížit stavu před havárií. V kontextu IT to znamená obnovení dat, aplikací a služeb na plně funkční úroveň.
DR úzce souvisí s konceptem business continuity (kontinuita provozu), ale není to totéž. Business continuity plán (BCP) řeší, jak zachovat všechny důležité aspekty chodu podniku i během krizových situací – zahrnuje nejen IT, ale také například náhradní pracovní prostory, komunikaci, lidské zdroje apod. Naproti tomu disaster recovery je podmnožinou zaměřenou primárně na samotné IT systémy a data. DR plán tedy definuje konkrétní kroky k obnovení technologií. Obojí je však provázané – dobrý plán obnovy IT je základním stavebním kamenem celkové odolnosti podniku.
Přínosy pro kontinuitu provozu a bezpečnost
Hlavním přínosem DR je minimalizace doby, po kterou firmu paralyzuje výpadek, a omezení ztráty dat. Správně nastavený DR plán zajišťuje, že i při neočekávané katastrofě dokáže podnik pokračovat v provozu s pouze omezeným přerušením. Tím se výrazně snižují finanční ztráty – každá minuta výpadku může znamenat ušlý zisk, sankce za neplnění služeb nebo odliv zákazníků. Rychlá obnova kritických služeb také pomáhá udržet důvěru klientů a obchodních partnerů, kteří dnes očekávají neustálou dostupnost.
Dalším efektem je omezení škod. Ačkoliv katastrofě jako takové (např. požáru serverovny) často nelze zabránit, s dobrým DR plánem lze výrazně ovlivnit rozsah následků. Například zálohy uložené mimo sídlo firmy ochrání data i v případě zničení primární lokality. Firmy s předem připravenými postupy také zvládnou krizovou situaci lépe organizačně – zkušení zaměstnanci přesně vědí, co dělat, což snižuje chaos, stres a riziko chyb. V dnešní době kybernetických útoků je navíc DR plán v podstatě poslední obranou proti trvalé ztrátě dat. Ransomware dokáže vyřadit veškerá provozní data, ale pokud má organizace nezasažené zálohy a promyšlený postup obnovy, může odmítnout vyděračům zaplatit a obnovit systémy z vlastních zdrojů.
Nelze opomenout ani aspekt legislativy a compliance: zákazníci i regulační orgány dnes očekávají, že firmy budou mít opatření pro obnovu provozu. V některých odvětvích (finance, zdravotnictví, veřejná správa) existují normy a zákonné povinnosti mít plány pro zotavení po havárii a pravidelně je testovat. Například evropská směrnice NIS2 klade na větší organizace a poskytovatele služeb požadavek zvýšit kybernetickou odolnost, kam spadá i robustní zálohování a obnova. Podobně regulace DORA ve finančním sektoru a obecně zákon o kybernetické bezpečnosti vyžadují, aby kritické systémy měly zajištěnu kontinuitu provozu. GDPR zase firmám ukládá náležitě chránit osobní údaje i v záložních kopiích, a v případě incidentu rychle obnovit dostupnost dat (což je v souladu s požadavky na odolnost systémů). Investice do DR tedy firmám přináší nejen provozní jistotu, ale i splnění povinností a klid při auditech. Navíc se obecně uvádí, že každý dolar (či koruna) vynaložený na prevenci a přípravu havárie může ušetřit až čtyřnásobek nákladů na následnou reakci a obnovu.
Strategie a klíčové prvky DR plánu
Úspěšné zvládnutí stojí na kombinaci správné strategie, vhodné technologie a připraveného týmu. Klíčových prvků disaster recovery je několik.
Základem je disaster recovery plán (DRP), který podrobně popisuje postupy pro zálohování dat, obnovení systémů a komunikaci během výpadku. Plán musí zohlednit různé typy havárií – od ztráty jediného serveru po výpadek celého datového centra či cloudové služby. Měl by obsahovat nouzové postupy pro personál, jasně stanovené role a kontakty (koho informovat, kdo rozhoduje o spuštění záložního provozu apod.). Důležité je také předem vypracovat několik krizových scénářů podle největších rizik – jinak bude firma postupovat při lokálním selhání diskového pole a jinak při například rozsáhlém kyberútoku.
Pro dobrý plán je nutné znát svá rizika a aktiva. Provádí se tzv. Business Impact Analysis (analýza dopadů na byznys), která identifikuje kritické systémy a procesy a vyhodnotí dopad jejich výpadku na firmu. Díky tomu lze určit priority – které aplikace a data je nutné obnovit přednostně a které mohou počkat. Kritické (stěžejní) systémy jsou ty, bez nichž se podnik neobejde ani krátkodobě (např. hlavní databáze, e-mailový server, výrobní systém apod.), důležité systémy mají vážný dopad na část činností, a nekritické mají jen omezený vliv. Tato kategorizace pomůže zvolit odpovídající strategii ochrany pro jednotlivé položky – ne vše je třeba replikovat v reálném čase, ale u klíčových dat to může být nutné.
RTO a RPO: Každá firma by si měla definovat své cíle pro maximální dobu výpadku (RTO – Recovery Time Objective) a maximální přípustnou ztrátu dat (RPO –Recovery Point Objective). RTO stanovuje maximální dobu, během níž mohou systémy zůstat mimo provoz – tedy do kdy musíme obnovit funkčnost po havárii. Někdo si nemůže dovolit výpadek delší než pár hodin, jinde zvládnou fungovat i s odstávkou den či dva (například účetní firma může dočasně pracovat offline a data dohnat později). Trendem ale je tlačit RTO co nejníže – v ideálním případě na minuty či sekundy. RPO udává, o kolik dat maximálně můžeme přijít. Jinak řečeno jde o to, jak často musíme data zálohovat nebo replikovat, aby případná ztráta byla akceptovatelná. Například při RPO čtyři hodiny je společnost ochotna přijít nanejvýš o poslední čtyři hodiny změn v datech, takže musí zálohovat minimálně každé čtyři hodiny. Kritické bankovní systémy mívají RPO téměř nulové (žádná ztráta dat), naopak u méně důležitých dat lze tolerovat třeba i den starou zálohu. RTO a RPO jsou zásadní parametry – určují, jaký způsob zálohování a obnovy zvolit. Čím kratší RTO/RPO, tím pokročilejší (a obvykle dražší) technologie je potřeba nasadit.

Záložní kopie dat jsou základem každého DR řešení. Správné zálohování zajišťuje, že v případě havárie je k dispozici použitelná kopie dat. Zálohy by měly být offsite, tedy fyzicky oddělené od produkčních systémů –buď v jiné lokalitě, nebo v cloudu. Tím se předejde situaci, kdy stejná pohroma (požár, povodeň, útok) zničí jak primární data, tak jejich zálohy. Klasické zálohování probíhá periodicky (např. jednou denně v nočních hodinách). Moderní přístup však směřuje k nepřetržité záloze či replikaci – místo denních dumpů dat se změny kontinuálně kopírují na druhé úložiště, takže v případě výpadku lze obnovit stav téměř v reálném čase. Tato replikace bývá základem plánů obnovy u nejnáročnějších provozů. Data lze replikovat různými způsoby:
Např. pravidelné ukládání záloh na pásky nebo diskové pole, které je umístěno v jiném datovém centru (nebo u cloudového poskytovatele). Jde o levnější řešení, poskytuje však RPO v řádu hodin či dní podle frekvence záloh.
Asynchronní replikace na záložní systém. V praxi velmi rozšířený přístup – například virtuální servery se průběžně replikují do sekundárního datacentra. Replika běží v pohotovostním režimu a v případě výpadku primární lokality ji lze během krátké doby spustit (failover). Asynchronní znamená, že mezi primární a záložní kopií je malé zpoždění (typicky sekundy či minuty), tedy RPO činí minuty.
Synchronní replikace (mirror) mezi lokalitami. Kritická data (např. obsah databází) lze ukládat současně na dvě geograficky oddělená úložiště –jakmile vznikne transakce, zapíše se okamžitě na obě místa. Tím je zajištěna nulová ztráta dat (RPO = 0). Záložní systém je navíc připraven takřka okamžitě převzít provoz (velmi nízké RTO). Tato varianta klade vysoké nároky na infrastrukturu (rychlé linky, kompatibilní zařízení) a běžně se využívá u bank a dalších organizací, které vyžadují high availability (vysokou dostupnost).
Kromě dat je nutné řešit také záložní infrastrukturní prvky – například pokud spadne celý server či datacentrum, musíme mít náhradní výpočetní kapacitu pro rozběh záložních systémů. To může být fyzický stand-by hardware v jiné lokalitě nebo např. cloudové virtuální servery, kam lze rychle přesunout zátěž. Součástí DR strategie je tedy i volba záložního místa (lokální vs. vzdálené datacentrum vs. cloud) a rozhodnutí, zda záložní prostředí bude předem připraveno (hot standby), připraveno částečně (warm) či zcela vypnuto do času potřeby (cold standby). Každá varianta má jiné náklady a dopady na RTO – „horká“ záloha běží paralelně a může převzít provoz v řádu sekund či minut, avšak stojí to téměř dvojnásobné náklady na infrastrukturu; „studená“ záloha naopak čeká například ve formě uložených obrazů systémů a při havárii se teprve musí aktivovat a zprovoznit, což trvá déle, ale je levnější.
Postup obnovy a failover
Když dojde k incidentu, musí nastoupit jasný proces pro obnovení provozu. Ten zahrnuje rozhodnutí o vyhlášení havárie, aktivaci záložních systémů, a nakonec návrat k normálu. Klíčovým krokem je failover – řízené přepnutí provozu na záložní infrastrukturu. Failover může být automatizovaný (např. při detekci výpadku se sám aktivuje záložní server) nebo manuálně iniciovaný odpovědnou osobou podle DR plánu. Důležité je, aby tento proces proběhl koordinovaně: nejprve zajistit dostupnost nejkritičtějších služeb a postupně obnovovat další. K failoveru patří i to, že všichni dotčení (zaměstnanci, zákazníci) jsou informováni o probíhajících opatřeních – např. že firma přešla na záložní systémy a určité služby mohou fungovat v omezeném režimu. Jakmile pomine primární výpadek, následuje failback – návrat provozu na původní infrastrukturu (např. opravené datacentrum) a synchronizace dat z dočasného prostředí. I failback je třeba plánovat, aby nedošlo k další odstávce či ztrátě nových dat vzniklých v mezidobí.
Testování a aktualizace plánu
Mít sebelepší DR plán na papíře nestačí – naprosto zásadní je jeho pravidelné testování. Praxe ukazuje, že mnoho organizací sice zálohuje, ale až při ostré havárii zjistí, že jejich zálohy nefungují správně. Mohla nastat chyba konfigurace, zálohovací software selhal, nebo se nepodaří data z backupů obnovit. Ve skutečnosti více než 15 % záloh se nedaří úspěšně obnovit, pokud se předem netestují. Proto by firmy měly simulovat různé typy havárií a ověřovat, že záchranné postupy skutečně fungují. Testování by mělo probíhat opakovaně – ideálně alespoň jednou ročně, u kritických systémů i častěji. Bohužel v ČR zatím denní kontrolu záloh nedělá prakticky nikdo a většina firem ověřuje zálohy jen jednou za kvartál, což je riziko do budoucna. Tyto testy odhalí slabiny (např. chybějící část dat v zálohách, neaktuální kontakty v plánu apod.) a umožní plán průběžně aktualizovat. DR plán není jednorázový dokument – jak se mění IT prostředí firmy (nové systémy, změny konfigurace, personální obměny), je nutné ho upravovat. Součástí testů by tedy mělo být i zapracování zjištěných poznatků a revize dokumentace.
Lidský faktor a komunikace
Je důležité mít sestavený DR tým – skupinu zaměstnanců či externích specialistů, kteří budou mít v případě krize jasně přidělené úkoly. Patří sem nejen IT správci, ale také zástupci byznysu, komunikace a vedení firmy. Všem členům týmu je nutné poskytnout školení, aby svým rolím v DR plánu rozuměli. Při cvičných haváriích by se měl tým sehrát, aby v ostré situaci komunikace probíhala hladce a rozhodnutí byla rychlá. Důležité je také mít připravené kontaktní údaje (telefonní strom, e-maily) a záložní způsob komunikace, pokud by např. nefungoval e-mail či podniková síť. Součástí plánu bývají i předpřipravené zprávy pro zaměstnance a zákazníky, které vysvětlují situaci a ujišťují o řešení – tím se dá předejít panice a negativním spekulacím.
Shrneme-li to, kvalitní DR strategie stojí na pevných základech (plán, definované RTO/RPO), správné kombinaci technologií pro zálohování a replikaci a sehraném týmu lidí, který postup natrénoval. Jen tak lze při skutečné havárii jednat rychle a efektivně, minimalizovat škody a udržet kontinuitu provozu.
Role integrátorů a resellerů při zavádění DR
Pro firemní zákazníky, zejména ty menší a střední, může být nastavení robustního disaster recovery řešení poměrně náročné. Zde se otevírá klíčová úloha IT integrátorů a prodejců, kteří mají v této oblasti odborné znalosti a zkušenosti.
Typický přínos specializovaného partnera spočívá nejprve v analýze potřeb zákazníka. Konzultant s klientem probere jeho kritické procesy, rizika, současné technologie a požadavky (např. jaké RTO/ RPO je pro jeho byznys přijatelné). Na základě toho navrhne strategii DR na míru – jiný přístup zvolí pro banku s nepřetržitým provozem, jiný pro výrobní podnik, který si může dovolit kratší odstávku přes víkend. Integrátor také zohlední legislativní požadavky daného odvětví a pomůže zajistit, aby plán splňoval třeba povinnosti z oblasti regulace (např. zmíněné NIS2 či další normy). Výstupem této fáze bývá vypracovaný disaster recovery plán – tj. dokumentace postupů a architektury, která klientovi poskytne praktický návod k řešení krizí.
Následně integrátor zajistí implementaci vhodných technologií. To zahrnuje výběr a nasazení zálohovacích nástrojů, datových úložišť, replikací a případně propojení s cloudem. Dobrý integrátor se neomezuje na „krabicové“ řešení, ale navrhne komplexní zálohovací strategii, která pokryje i extrémní scénáře – například zajistí, že data budou bezpečně uložena a půjdou snadno obnovit i při nejhorších situacích, jako je ransomware útok nebo fyzická ztráta celého datacentra. Může doporučit kombinaci on-premise a cloudových prvků (hybridní řešení), která poskytne optimální poměr rychlosti obnovy a ochrany. Součástí realizace bývá i nastavení automatizace, aby zálohy probíhaly spolehlivě, dále sledování jejich stavu a případné šifrování dat (důležité kvůli bezpečnosti a GDPR).
Integrátoři rovněž zajišťují testování a zaškolení. Pomohou zákazníkovi provést úvodní ostrý test DR plánu poté, co je nasazen – třeba simulací výpadku klíčového serveru a obnovením z nově zavedeného záložního prostředí. Tím si nejen ověří funkčnost, ale i zaškolí interní IT tým zákazníka, jak postupovat.
V neposlední řadě dokáže zkušený partner nabídnout podporu při ostré havárii. Pokud dojde k výpadku a klient aktivuje DR plán, integrátor může poskytnout konzultanty na telefonu či přímo na místě – pomohou s obnovením provozu (např. asistují při failoveru na záložní datacentrum). Po vyřešení incidentu provedou forenzní analýzu a navrhnou opatření, aby se situace neopakovala.

Pro resellery je oblast disaster recovery příležitostí, jak zákazníkům poskytovat vyšší přidanou hodnotu. Nejde jen o jednorázový prodej zálohovacího softwaru či hardwaru – skutečná hodnota je v návrhu spolehlivého řešení a dlouhodobé spolupráci na udržení provozuschopnosti klienta. Firmy často nemají interní kapacity držet krok s nejnovějšími hrozbami a technologiemi, od toho jsou zde integrátoři, aby jim dodali osvědčené postupy (best practices). Například pomohou zavést prvky jako nezměnitelné zálohy (immutable backups), které chrání proti smazání nebo zašifrování útočníkem, či poradí s optimálním nastavením retence dat. Díky množství projektů v různých firmách navíc integrátor ví, co se osvědčilo a čeho se vyvarovat –tuto zkušenost může předat dál.
Z obchodního hlediska navíc DR otevírá dveře k dalším službám – po zavedení zálohování může reseller nabídnout například Disaster Recovery jako službu (DRaaS), kdy zákazníkovi poskytuje průběžně záložní prostředí ve svém datacentru či cloudu a garantuje obnovu do určité doby. Podobně se nabízí i související oblasti jako Business Continuity Planning, bezpečnostní audity nebo nově řešené požadavky NIS2, kde zálohování a obnova patří k zásadním opatřením kybernetické bezpečnosti. Pro mnoho klientů je výhodné mít jednoho spolehlivého partnera, který jim pomůže s celou mozaikou těchto řešení.
Přehled řešení a nástrojů na trhu
Ekosystém nástrojů pro disaster recovery je široký a neustále se vyvíjí. Lze je rozdělit do několika kategorií, přičemž každá řeší jiný aspekt zálohování či obnovy:
Software pro zálohování a obnovu dat
Sem patří tradiční backup nástroje, které pravidelně zálohují servery, databáze či koncové stanice a v případě potřeby umožní data obnovit. Na trhu je řada ověřených řešení – například Veeam Backup & Replication, Acronis Cyber Protect, Commvault, Veritas NetBackup a další. Tyto nástroje obvykle podporují zálohování na disk, pásky i do cloudu, umějí zálohovat fyzické servery, virtuální stroje i cloudové instance a kladou důraz na rychlou a spolehlivou obnovu. Moderní backup software často nabízí i pokročilé funkce jako deduplikaci dat (pro úsporu místa), immutabilní úložiště (zamezí změně záloh útočníkem) nebo automatické ověřování konzistence záloh.
Replikační a failover nástroje
Pro scénáře vyžadující velmi rychlé obnovení provozu jsou určena řešení pro replikaci dat a orchestraci failoveru. Příkladem je software Zerto nebo platforma VMware Site Recovery Manager (SRM). Tyto nástroje průběžně zrcadlí virtuální stroje či aplikace na záložní lokalitu a v případě havárie automatizují přepnutí provozu. Umožňují definovat pořadí spouštění systémů, závislosti mezi aplikacemi a dopředu si připravit celý scénář failoveru jedním kliknutím. Některé dokážou pracovat i napříč různými hypervizory nebo směrovat repliky do veřejného cloudu. K replikačním technologiím můžeme přiřadit i storage mirroring – například prémiová disková pole od výrobců jako Dell EMC, HPE či IBM umějí synchronně replikovat data mezi dvěma lokalitami na úrovni úložiště, nezávisle na vyšších vrstvách. Pro zajištění tzv. high availability v reálném čase se využívají také clusterová řešení –např. databázové clustery (Oracle RAC, MS SQL AlwaysOn) nebo distribuované souborové systémy, které mají více uzlů a přežijí výpadek jednoho z nich bez přerušení služby. Ty však spadají spíše do oblasti kontinuální dostupnosti, zatímco klasické DR počítá s krátkým výpadkem a následnou obnovou.
Cloudové služby pro DR
Stále populárnější variantou je využití veřejného cloudu jako prostředku pro zálohování či sekundární provoz. Velcí poskytovatelé jako Microsoft, Amazon či Google nabízejí integrované služby – např. Azure Site Recovery, AWS Elastic Disaster Recovery nebo Google Cloud Backup and DR. Tyto služby umožňují replikovat on-premise servery do cloudu a v případě výpadku lokality spustit jejich provoz v cloudu. Výhodou je, že odpadá potřeba budovat vlastní geograficky vzdálené datacentrum – cloud funguje jako pay-as-you-go záložní místo, za které platíte hlavně tehdy, když ho skutečně využijete. K dispozici jsou i Backup-as-a-Service (BaaS) a Disaster-Recoveryas-a-Service (DRaaS) od specializovaných poskytovatelů. Příkladem globálních DRaaS poskytovatelů jsou např. iland, Sungard AS nebo Acronis Disaster Recovery (nabízený přes partnery). Důležité je při výběru posoudit, zda cloud splňuje požadavky na dostupnost, latenci a legislativu (například aby byla data uložena v rámci EU kvůli GDPR, případně přímo v ČR/SR, pokud to firma preferuje).
Další nástroje a přístupy
Za zmínku stojí i nástroje pro automatizaci a správu DR plánů. Někteří integrátoři vyvinuli vlastní softwary, které pomáhají s koordinací obnovy – například ORBIT zmiňuje svůj nástroj TaskControl pro řízení úkolů při testech i ostrých zásazích. Existují také specializované aplikace pro tvorbu a verzování DR dokumentace, pro monitoring dodržování RTO/
RPO (dashboardy ukazující, zda zálohy proběhly včas apod.) a pro integraci bezpečnostních událostí s DR (např. aby detekce ransomwaru spustila automatické zabezpečení záloh).
Při výběru konkrétních nástrojů by se zákazníci měli řídit svými požadavky a radami odborníků. Každý z uvedených přístupů má své pro a proti –on-premise řešení dávají plnou kontrolu nad daty, ale vyžadují kapitálové investice; cloud nabízí flexibilitu a geografickou rozlohu, ale je třeba počítat s pravidelnými provozními náklady a závislostí na internetové konektivitě. Mnohé firmy proto volí hybridní strategii, kdy kombinují lokální rychlé úložiště (pro bleskovou obnovu drobných výpadků) se vzdálenou cloudovou kopií (pro případ totální havárie). Důležité je také nepodcenit kompatibilitu – např. zálohovací software by měl podporovat všechny používané platformy (fyzické servery, virtuály, databáze, SaaS aplikace atd.) a v ideálním případě umožnit i bare-metal recovery na odlišný hardware.
DR není luxus
Disaster recovery již dávno není luxus navíc, ale nezbytná součást IT strategie každé firmy, která se spoléhá na digitální technologie. Význam DR dále roste s tím, jak přibývá kybernetických útoků, a jakákoli delší odstávka IT se stává neakceptovatelnou pro byznys. V tomto článku jsme si přiblížili, co DR obnáší – od definice a rozdílů oproti business continuity přes klíčové pojmy jako RTO/RPO a strategie zálohování až po roli integrátorů a přehled nástrojů. Pro technicky orientované resellery a integrátory z toho plyne několik hlavních poselství: vzdělávat klienty o důležitosti DR, pomoct jim navrhnout optimální řešení a stát po jejich boku v době, kdy to nejvíce potřebují.
Závěrem je třeba zdůraznit, že nejlepší disaster recovery je takové, které nikdy nemusíme naostro využít, protože hrozbám předejdeme. Realita však bývá neúprosná a dříve či později většinu organizací nějaká krizová událost potká – ať už to bude hackerský útok, lidská chyba, nebo „pouze“ hardwarové selhání. Ti, kdo budou připraveni a budou mít svůj záchranný plán vyladěn a vyzkoušen, zvládnou takovou zkoušku s minimálními šrámy. Ostatní riskují závažné následky.