Chaos Monkey и веригата за доставки на Netflix

Наскоро имах разговор с Карлос Креспо, главен оперативен директор на компанията майка на Zara Inditex, в който той спомена софтуерен инструмент, създаден от Netflix преди повече от десетилетие за институционализиране на устойчивостта на системата. Името е закачливо и за лидерите на веригата за доставки, които се опитват да преоткрият своите мрежи за доставки за бурни времена, то е неустоимо. И все пак, GoogleGOOG
търсенето на „маймуна на хаоса във веригата за доставки“ даде точно резултат един цитат, от 2012г.

Защо не приложим тази идея към устойчивостта на веригата за доставки?

Какво е Chaos Monkey?

Тя е софтуерен инструмент, и по-широко, инженерен принцип, който произволно изключва части от сложна система, принуждавайки операторите да се възстановят на живо. Нещо като изненадващо противопожарно учение, но ежедневно и по произволни начини и места. Идеята е, че да станеш добър в бързото решаване на системни проблеми е процес на учене, който би трябвало да се възползва от стръмната крива на учене.

Предисторията е за това как Netflix мащабира своя стрийминг бизнес в Amazon Web Services, докато преминава от доставка на DVD-та до прага на клиентите. На пръв поглед това е логичен подход към планирането на резервирането на системата, подобно на това, което бихте очаквали от НАСА, но на практика той използва културната норма на Netflix, която позволява на отделните сътрудници да решават собствените си проблеми. Както е отбелязано в „Хаос инженеринг” книга от 2020 г. на Кейси Розентал и Нора Джоунс, които са пионери в практиката в Netflix, тя се свежда до пет принципа:

  • Изградете хипотеза за поведението в стационарно състояние
  • Варирайте събития от реалния свят
  • Провеждайте експерименти в производството
  • Автоматизирайте експериментите, за да се провеждат непрекъснато
  • Минимизирайте радиуса на взрива

Комбинацията от култура и процес в Netflix е важна, защото насърчи и използва подход за решаване на проблеми с отворен код, като същевременно систематичното завъртане на колелото на случайни изключвания ускорява обучението в разширения екип.

Устойчивост на веригата за доставки и инженерство на хаоса

Дигитална трансформация във веригата на доставки беше гореща тази година, защото помага на веригите за доставки да поддържат нови бизнес модели и да се стремят към устойчиви операции (вижте проучването BCG X), но и защото обещава „устойчивост“. За съжаление практическите приложения на цифровата трансформация за устойчивост на веригата за доставки все още обикновено се свеждат до платформи за по-добра „видимост“, подкрепени от куп традиционни тактики като буфериране на инвентара и двойно снабдяване. В основата на този подход стои друг слой аналитична работа време за възстановяване от Дейвид Симчи-Леви в Масачузетския технологичен институт и вълна от симулации, използващи цифрови близнаци. Всичко това звучи страхотно, но това, което липсва, е някакъв систематичен начин за експериментиране с реална повреда на веригата за доставки, за да научите как най-добре да се възстановите на практика.

Прилагане на Chaos Monkey към веригите за доставки

Лекарите полагат Хипократовата клетва, преди да ни разрежат, включително известното „първо не вреди“. Не е лоша идея за всеки, който прилага принципите на Chaos Monkey към веригите за доставки, което включва произволно изключване на истинска машина някъде. Това не е тривиално и доколкото знам, все още не се случва никъде.

  • Първият принцип, цитиран по-горе, казва да се съсредоточите върху системните изходи, а не върху вътрешните атрибути. Проверете дали системата работи, вместо да се опитвате да разберете защо работи.
  • Вторият принцип казва да разбиваме различни неща по реалистични начини. Няма нужда да симулирате глобална термоядрена война, просто изключете превключвател или изгубете поръчка и научете кое решение работи най-добре.
  • Третият принцип казва, че най-доброто място за учене е в производството. Ученето чрез правене е по-добро от ученето чрез симулация – т.е. цифровите близнаци са страхотни, но може да не са достатъчни за изграждане на култура на устойчивост.
  • Четвъртият принцип институционализира принципите на маймуната на хаоса, защото позволява мащабиране на процеса на експериментиране, което ви отвежда до по-стръмна крива на обучение. Използвайте науката за данните при пожарогасене.
  • И накрая, минимизирайте радиуса на взрива. Това означава „не вреди“ и се превежда като някакъв вид буфериране (инвентаризация, време за доставка, ускорена доставка), за да предпазите клиентите от усещането на вашия експеримент. Научете се да управлявате контролирани експлозии.

Може да се твърди, че последните три години на Covid, война, трудови вълнения, а икономическите сътресения са една голяма маймуна на хаоса, която е безизходна за всички. Урокът на Netflix беше, че този вид криза не е просто нещо, което трябва да планирате, а нещо, което трябва да овладеете като постоянен факт от живота.

Перфектната буря може никога да не свърши, така че може би трябва да се научим да живеем с нея.

Източник: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/