
11 minute read
VÝZNAMNÉ VÝPADKY IT: PŘÍČINY, DOPADY A POUČENÍ
MICHALA BENEŠOVSKÁ
Na technologie se spoléháme při práci, komunikaci, finančních transakcích, zajišťování bezpečnosti a při řadě dalších činností. Technologie přinášejí výhody a zjednodušují nám život, avšak nejsou bez chyb. Nedávný incident týkající se společnosti CrowdStrike, který je považovaný za největší v historii, není prvním a ani posledním příkladem toho, jak nebezpečně moc jsme závislí na technologiích.
Ať už jde o chybu způsobenou lidským faktorem, technickou závadu, nebo cílený kybernetický útok, tyto incidenty nám ukazují, jak křehká je všudypřítomná technologická infrastruktura. Příkladem může být globální útok ransomwarem WannaCry, výpadek služeb Facebooku či problémy s Amazon Web Services. Každý z těchto incidentů měl své specifické příčiny a důsledky, které ovlivnily nejen postižené organizace, ale i jejich zákazníky a uživatele po celém světě. Pojďme se ohlédnout za nechvalně proslulými incidenty a výpadky, které jsme v posledních letech zažili.
CrowdStrike: Největší IT výpadek v historii
Nedávný výpadek bezpečnostního softwaru CrowdStrike, ke kterému došlo v červenci 2024, způsobil pád 8,5 milionu zařízení s operačním systémem Windows. Tento incident byl způsoben chybnou aktualizací softwaru Falcon Sensor, která vedla k rozsáhlým narušením v různých odvětvích. Generální ředitel CrowdStrike George Kurtz se k situaci vyjádřil a uznal odpovědnost společnosti za tento incident, přičemž slíbil nápravu situace. Přesto je stále nejasné, kdo ponese náklady na miliardové škody způsobené tímto výpadkem.
Příčiny a dopady
CrowdStrike, přední společnost v oblasti kybernetické bezpečnosti, vydala aktualizaci pro svůj software Falcon Sensor. Tato aktualizace obsahovala chybu, která způsobila, že zařízení s operačním systémem Windows začala padat do BSOD (blue screen of death) a následného cyklického restartu. Některé systémy šlo opravit opakovaným restartováním, aby získaly novou aktualizaci dříve, než došlo k opětovnému pádu. CrowdStrike se zavázal, že vylepší své testovací postupy.
Zásadním problémem bylo vedle nedostatečného otestování aplikace také přístup bezpečnostního softwaru k jádru systému. To jej na jedné straně činí velmi výkonným a flexibilním, ale může způsobit rozsáhlé problémy.
Výpadek CrowdStrike měl rozsáhlé důsledky na globální úrovni. Kritické služby jako letecká doprava a nouzové systémy byly narušeny. Letecké společnosti byly nuceny zrušit více než 1 400 letů, což ovlivnilo tisíce cestujících po celém světě. Bankovní systémy nebyly schopny zpracovávat transakce a mediální organizace nemohly vysílat zprávy. V České republice se s problémy potýkaly například sítě lékáren Benu. Microsoft, který poskytoval pomoc při obnově systémů, nasadil více než 5 000 techniků, aby pomohli situaci co nejrychleji vyřešit.
Tento incident zdůrazňuje důležitost důkladného testování aktualizací softwaru před jejich nasazením a nutnost přehodnotit přístup třetích stran k jádru systému. Společnosti, které poskytují klíčové služby, se také přesvědčily, jak je důležité mít zavedené robustní mechanismy pro řízení verzí a záložní plány pro rychlé obnovení provozu v případě selhání.
WannaCry: Globální kybernetický útok v roce 2017
Kybernetický útok WannaCry, který se odehrál v květnu 2017, je jedním z nejznámějších a nejničivějších ransomware útoků v historii. Tento incident zasáhl přibližně 300 000 počítačů ve 150 zemích a způsobil rozsáhlé narušení provozu ve zdravotnických zařízeních, firemních sítích a vládních institucích.
Příčiny a dopady
WannaCry využil zranitelnosti v operačním systému Windows známé jako EternalBlue. Tuto zranitelnost objevila Národní bezpečnostní agentura USA (NSA) a byla zveřejněna skupinou hackerů známou jako Shadow Brokers. EternalBlue umožňovala neautorizovaný přístup k systémům s neaktualizovaným softwarem, což znamenalo, že útočníci mohli infikovat a ovládat počítače bez vědomí uživatelů.

WannaCry se šířil prostřednictvím této zranitelnosti a zároveň využíval tzv. „worm“ mechanismus, který mu umožňoval automaticky se šířit z jednoho počítače na druhý ve stejné síti. Jakmile byl systém infikován, ransomware zašifroval data na počítači a zobrazil zprávu požadující výkupné ve formě bitcoinů za dešifrovací klíč.
Útok WannaCry způsobil rozsáhlé narušení provozu po celém světě. Ve Velké Británii byla zasažena Národní zdravotní služba (NHS), což vedlo k rušení plánovaných operací, přesměrování pacientů a celkovému narušení poskytování zdravotní péče. V důsledku útoku muselo být mnoho nemocnic a zdravotnických zařízení dočasně uzavřeno.
Firmy jako Renault a FedEx byly rovněž postiženy, což vedlo k narušení jejich provozu a finančním ztrátám. Renault musel na několik dní zastavit výrobu ve svých továrnách, což způsobilo významné finanční ztráty. FedEx uvedl, že útok způsobil narušení jejich globálních operací, což vedlo k poklesu výnosů a zvýšení nákladů na obnovu systémů.
Mezi další oběti se zařadila například německá železniční společnost Deutsche Bahn, španělská telekomunikační společnost Telefónica, ale také řada dalších organizací napříč různými odvětvími.
Incident WannaCry zdůrazňuje několik klíčových aspektů kybernetické bezpečnosti, které by měly být prioritou pro všechny organizace.
WannaCry využil známé zranitelnosti, pro kterou již byla vydána záplata. Organizace by proto měly pravidelně aktualizovat své systémy a aplikace, aby minimalizovaly riziko zneužití zranitelností.
Kromě základní ochrany, jako jsou antivirové programy a firewally, by měly organizace zvážit implementaci pokročilých bezpečnostních řešení, jako jsou systémy pro detekci a prevenci narušení (IDS/IPS) a řešení pro správu zranitelností.
Organizace by měly mít zavedené a pravidelně testované postupy pro reakci na incidenty. To zahrnuje plány pro obnovu po havárii, zálohování dat a školení zaměstnanců, jak správně reagovat na kybernetické útoky.
Zaměstnanci jsou často nejslabším článkem v bezpečnostním řetězci. Pravidelné školení a zvyšování povědomí o bezpečnostních hrozbách a správném chování online mohou významně snížit riziko úspěšného útoku.

WannaCry byl budíčkem pro mnoho organizací po celém světě. Tento útok ukázal, jak kritická může být kybernetická bezpečnost pro každodenní provoz a zdůraznil potřebu proaktivního přístupu k bezpečnosti IT, zahrnujícího nejen technická řešení, ale i organizační opatření a školení. Poučení z WannaCry jsou stále relevantní pro všechny, kteří chtějí chránit své systémy a data před podobnými hrozbami v budoucnosti.
Facebook je offline a svět v panice
V říjnu 2021 došlo k významnému výpadku služeb Facebooku, který postihl nejen samotnou sociální síť, ale také aplikace Messenger, Instagram a WhatsApp. Tento incident zanechal miliardy uživatelů bez přístupu k těmto službám po dobu přibližně šesti hodin, což způsobilo značné narušení komunikace a obchodních aktivit po celém světě.
Příčiny a dopady
Výpadek byl způsoben chybným příkazem při rutinní údržbě, který vedl k odpojení datových center od internetu. Tento příkaz způsobil chybu v síťové konfiguraci, což následně zablokovalo přístup ke všem službám Facebooku globálně.
Zásadním problémem bylo, že tato konfigurace zároveň zabránila technikům Facebooku v přístupu k nástrojům, které by jim umožnily problém rychle vyřešit. Celkový výpadek tak trval déle, než by tomu bylo za normálních okolností.
Výpadek trval přibližně šest hodin a postihl miliardy uživatelů po celém světě. Lidé nemohli komunikovat prostřednictvím populárních aplikací, což mělo dopad na osobní i pracovní komunikaci. Společnosti závislé na reklamních službách Facebooku zaznamenaly výpadky v propagaci a prodeji, což vedlo k finančním ztrátám. Podle odhadů tržní hodnota Facebooku během výpadku klesla o 47,3 miliardy dolarů. Tento incident také způsobil rozsáhlé narušení v různých odvětvích, včetně e-commerce, médií a komunikací, což ukázalo, jak kritická je závislost na digitálních platformách pro moderní ekonomiku.
Tento nešťastný výpadek názorně ukázal, že je zásadní mít zavedené redundantní systémy, které mohou převzít funkci v případě selhání primárního systému. To zahrnuje záložní datová centra, která mohou rychle převzít provoz.
Organizace by také měly pravidelně provádět testy svých krizových plánů a zajistit, aby byly schopny rychle a efektivně reagovat na neočekávané události. To zahrnuje simulace výpadků a ověřování, že zaměstnanci znají své role a odpovědnosti během krize.
V neposlední řadě by se rutinní údržba měla provádět s maximální opatrností a za použití postupů, které minimalizují riziko chyby. To zahrnuje revize změn v konfiguraci sítí a systémů před jejich implementací a zavedení mechanismů, které umožní rychlé obnovení provozu v případě selhání.

A dalším nepřekvapivým poučením je potřeba alternativních komunikačních kanálů. Je klíčové zajistit, že technici a zaměstnanci mohou komunikovat a koordinovat své aktivity i během výpadku hlavních služeb.
Výpadek služeb Facebooku v říjnu 2021 ukázal, jak snadno může technologická chyba vést k rozsáhlému narušení globální komunikace a obchodu. Tento incident slouží jako důležité připomenutí pro všechny organizace, že prevence a připravenost jsou zásadní pro udržení stability a bezpečnosti jejich systémů.
Zavedení robustních krizových plánů, pravidelné testování a důraz na bezpečné postupy při údržbě jsou nezbytné kroky k minimalizaci rizika a zajištění rychlé obnovy provozu v případě nečekaných událostí.
Pád Googlu = pád internetu
Dne 14. prosince 2020 došlo k jednomu z největších výpadků v historii internetu, kdy globální výpadek služeb Google ochromil prakticky celý internet. Tento incident začal problémem s úložištěm v autentizačním systému Googlu, který dosáhl svého kapacitního limitu. Tato teoreticky a snadno řešitelná závada způsobila neschopnost systému automaticky uvolnit místo, což vedlo k jeho selhání a následnému odpojení milionů uživatelů.
Příčiny a dopady
Primární příčinou výpadku byl nedostatek úložného prostoru v autentizačním systému Googlu. Nedostatek prostoru způsobil, že systém nebyl schopen automaticky uvolnit místo, což vyvolalo sérii chyb, a nakonec způsobilo rozsáhlý výpadek služeb Google. Tato technická závada ukázala na zranitelnost systému a nedostatečnou připravenost na správu kapacitních limitů.
Výpadek trval přibližně 45 minut a způsobil významné narušení pro miliardy uživatelů po celém světě. Služby jako Gmail, YouTube a Google Drive byly nedostupné, což vedlo k vážným narušením komunikace a provozu mnoha firem. Tento incident měl dalekosáhlé důsledky, zejména pro podniky, které jsou závislé na službách Google pro každodenní operace. Výpadek vedl k frustraci uživatelů a finanční ztráty byly značné. Podle Fox Business Google během výpadku YouTube ztratil na reklamních příjmech přibližně 1,7 milionu dolarů.
Efektivní řízení úložiště a nepřetržité monitorování kritických systémů je důležité i pro giganty, jako je Google. Organizace musejí zajistit, aby jejich systémy měly dostatek zdrojů a byly pravidelně monitorovány, aby se podobným výpadkům předešlo.
Spotify a Discord jsou ze hry
Dne 8. března 2022 přestalo hrát Spotify a nefungoval Discord. Incident začal drobnými problémy, jako jsou nefunkční přihlašování a nestabilní stránky podpory. Během půl hodiny se však problémy rychle eskalovaly. Aplikace přestaly fungovat, zprávy nebylo možné odesílat a frustrace uživatelů rostla.
Příčiny a dopady
Výpadek byl způsoben selháním komponenty v systému poskytovatele služeb Google Cloud, který zajišťuje infrastrukturu pro Spotify i Discord. Závada v systému Google Cloud spustila domino efekt, který vyřadil tyto dvě populární platformy. Tato technická závada poukázala zejména na nevyzpytatelnost řešení třetích stran pro poskytování kritických služeb.
Výpadek trval přibližně dvě hodiny, během nichž uživatelé Spotify nemohli poslouchat hudbu a uživatelé Discordu nemohli komunikovat. Obě platformy mají miliony uživatelů po celém světě, které tento incident zásahl. Během výpadku byla narušena osobní i pracovní komunikace a služby, které jsou závislé na těchto platformách, byly pozastaveny.
Výpadek Discordu byl vyřešen po několika hodinách. Incident upozornil na to, jak závislé jsou moderní komunikační a zábavní platformy na stabilní infrastruktuře a jak rychle mohou technické problémy eskalovat do rozsáhlých výpadků.

Závislost na třetích stranách, jako je Google Cloud, vyžaduje pravidelné testování a zajištění, že jejich služby jsou schopny odolat technickým problémům bez způsobení rozsáhlých výpadků. Incident také podtrhuje potřebu efektivní komunikace s uživateli během výpadku. Rychlé a transparentní informování uživatelů o příčinách problému a očekávané době obnovy může pomoci snížit frustraci a udržet důvěru uživatelů.
Amazon Web Services
Amazon Web Services (AWS) je zásadním pilířem moderní digitální infrastruktury, poskytující klíčové cloudové služby tisícům společností po celém světě. Přesto ani tento gigant není imunní vůči výpadkům, které mohou mít dalekosáhlé důsledky. Výpadky AWS v letech 2017 a 2020 přinesly významné poučení pro IT odborníky a manažery, kteří spoléhají na stabilitu a dostupnost cloudových řešení.
Příčiny a dopady
V březnu 2017 došlo k výpadku AWS, který odhalil křehkost digitální infrastruktury i přes robustní povahu cloudových služeb. Incident začal lidskou chybou, kdy technik AWS prováděl jednoduchou opravu. Pouhý překlep v příkazu způsobil, že velká část infrastruktury AWS se stala nedostupnou po dobu několika hodin. Tento výpadek zdůraznil potřebu pečlivého řízení změn a striktních kontrolních mechanismů v procesech správy infrastruktury.
Finanční ztráty způsobené tímto incidentem byly odhadovány na více než 150 milionů dolarů, což ukazuje na značný ekonomický dopad způsobený krátkodobým výpadkem cloudových služeb. Tento incident také přiměl mnoho firem přehodnotit jejich závislost na jednom poskytovateli cloudových služeb a zvažovat strategie pro zajištění větší odolnosti vůči podobným výpadkům v budoucnu.
V prosinci 2020 zažila AWS další významný výpadek, který postihl široké spektrum uživatelů včetně velkých služeb jako Disney+ a Spotify, a dokonce i chytré asistenty jako Alexa. Podle zpráv CNBC musely některé školy zrušit zkoušky, protože nemohly přistupovat k online platformám, které na AWS závisejí.
Tento výpadek nebyl izolovanou událostí, ale třetím výpadkem AWS v tomtéž měsíci, což odhalilo opakované problémy s napájením v jednom z jejich datových center. Ekonomický dopad těchto výpadků byl obrovský, přičemž TFIR odhadoval celkové ztráty na nejméně jednu miliardu dolarů.
Výpadky AWS v letech 2017 a 2020 ukázaly, jak kritická je spolehlivost cloudových služeb pro moderní digitální ekonomiku. Když AWS jako klíčový poskytovatel cloudových služeb zažije výpadek, dopady jsou cítit napříč mnoha sektory, od zábavy až po vzdělávání a kritické podnikové aplikace.
Výpadkům se nevyhneme
Jak stále více spoléháme na technologie ve svém každodenním životě a podnikání, stávají se incidenty a výpadky IT systémů stále závažnějšími. Naše závislost na digitálních platformách, cloudových službách a internetu znamená, že jakýkoliv výpadek může mít rozsáhlé dopady.
Poučení je jasné: Čím více se spoléháme na technologie, tím více musíme investovat do robustních bezpečnostních opatření a záložních plánů.
Prevence, rychlá reakce na incidenty a neustálé zlepšování našich technologických systémů jsou klíčové pro minimalizaci dopadů těchto nevyhnutelných výpadků.
Zdroj: bbc.com, reuters.com, webopedia.com