Keď svet zastal: Ponaučenie z CrowdStrike výpadku
Bezpečnosť 22. Júl 2024 6 min čítania

Keď svet zastal: Ponaučenie z CrowdStrike výpadku

Testovanie updateov je kritické

Automatické aktualizácie sú skvelé, kým nezhodia polovicu letísk sveta. Staged rollouts (postupné nasadzovanie) musia byť štandardom. Júl 2024 nám ukázal, že aj jedna chybná konfigurácia v "bezpečnostnom" softvéri môže spôsobiť globálny chaos.

Blue Screen of Death

Miliardy dolárov škôd kvôli chybe v C++ kóde (null pointer dereference). Je to lekcia pre nás všetkých. CrowdStrike update obišiel štandardné testovacie kruhy, pretože bol označený ako "rapid response content".

Ako sa chrániť?

  1. Testovacie prostredia: Nikdy nenasadzujte update na všetky stroje naraz. Používajte "Canary" deploymenty.
  2. Offline zálohy: Keď sieť padne, potrebujete lokálny prístup. BitLocker kľúče nesmú byť len v cloude.
  3. Diverzifikácia: Nespoliehajte sa na jedného dodávateľa bezpečnosti pre celú firmu.

Ponaučenie pre DevOps

Incident ukázal dôležitosť resiliency engineeringu. Systémy musia byť navrhnuté tak, aby zlyhali bezpečne (fail-safe), nie katastroficky.

  • Validácia vstupov musí byť aj pre konfiguračné súbory.
  • Kernel-level drivery by mali byť minimalizované.

Kľúčové zistenia

  • Krehkosť: IT svet je prepojenejší, ako si myslíme.
  • Procesy: Rýchlosť nesmie ísť na úkor kvality.
  • Recovery: Disaster recovery plány musia počítať aj s nedostupnosťou endpoints.