Testovanie updateov je kritické
Automatické aktualizácie sú skvelé, kým nezhodia polovicu letísk sveta. Staged rollouts (postupné nasadzovanie) musia byť štandardom. Júl 2024 nám ukázal, že aj jedna chybná konfigurácia v "bezpečnostnom" softvéri môže spôsobiť globálny chaos.
Blue Screen of Death
Miliardy dolárov škôd kvôli chybe v C++ kóde (null pointer dereference). Je to lekcia pre nás všetkých. CrowdStrike update obišiel štandardné testovacie kruhy, pretože bol označený ako "rapid response content".
Ako sa chrániť?
- Testovacie prostredia: Nikdy nenasadzujte update na všetky stroje naraz. Používajte "Canary" deploymenty.
- Offline zálohy: Keď sieť padne, potrebujete lokálny prístup. BitLocker kľúče nesmú byť len v cloude.
- Diverzifikácia: Nespoliehajte sa na jedného dodávateľa bezpečnosti pre celú firmu.
Ponaučenie pre DevOps
Incident ukázal dôležitosť resiliency engineeringu. Systémy musia byť navrhnuté tak, aby zlyhali bezpečne (fail-safe), nie katastroficky.
- Validácia vstupov musí byť aj pre konfiguračné súbory.
- Kernel-level drivery by mali byť minimalizované.
Kľúčové zistenia
- Krehkosť: IT svet je prepojenejší, ako si myslíme.
- Procesy: Rýchlosť nesmie ísť na úkor kvality.
- Recovery: Disaster recovery plány musia počítať aj s nedostupnosťou endpoints.




