вівторок, 21 квітня 2020 р.

Вірус 2: Товсті хвости і статистичне варварство

або чому ми нічого не знаємо (Джон Сноу)


Коли я чую спроби робити якісь значимі висновки про поведінку, політику чи всесвіт на основі різних кількостей хворих у різних країнах, приходиться стримуватися, щоб не ляснути собі по лицю від непозбувної бентеги. Надіюся, скоро ми з вами будемо страждати від цих порівнянь однаково.


Про товсті хвости

Колись я уже писав про тонкі і товсті хвости, переказуючи по суті довгі роздуми Талеба про Звичайнестан і Екстремістан:
Найцікавіший наслідок життя в Екстремістані – з вибірки, як завгодно великої, не можна зробити хоч наскільки надійний висновок про всю цю країну. Досліджуєш ти життя десятка людей чи сотні, результати залежать тільки від того, наскільки багато "екстремальних" представників до неї потрапить.
Якщо робити висновок про динозаврів "Парку юрського періоду" з десятка чи тисячі випадково вибраних представників, можна зробити висновок, що типовий динозавр – маленькі Компсогнатуси (оті крихітні паскудні стадні хижачки розміром як половина курки) чи інші маленькі заврики, які й складають 99% динозаврів парку. І навіть якщо розширити вибірку ще в сотню разів і перевірити кожного динозавра на четвертині острова, висновки про їх розмір чи вагу все одно залежатимуть тільки від того, чи забреде на досліджену територію стадо гігантських 50-тонних брахіозаврів. Чи хоча б один брахіозавр, навіть якщо його "заховати" у натовпі в тисячу 4-кілограмових м’ясоїдних хижачків, все одно зіпсує всі закономірності: якщо до тисячі карликів додати такого гіганта, вага середнього динозавра миттєво виросте більше, ніж вдесятеро – і не повернеться до норми навіть якщо додати туди ще одну тисячу маленьких тварючок.
Так само можна вимірювати дохід жителів Хацапетівки, але всі розрахунки полетять шкереберть, якщо в містечку з’явиться чи зникне один олігарх – а, нагадую, і в Україні, і в Екстремістані олігархи трапляються надто часто, щоб про них можна було забувати.
В реальному житті насправді досить багато явищ, які мають всі характеристики Екстремістану – багатство чи популярність, кількість населення різних міст, потужність землетрусів, кількість жертв терактів, війн чи катастроф, числа переглядів відео на Youtube.

Що можна сказати про коронавірус? Він належить до домену нормального розподілу — і тоді можна вільно робити будь-які висновки вже на основі пари спостережень — чи до божевільного Екстремістану, домену степеневих розподілів, в якому навіть дуже знайоме явище може дивувати?

Мені здається, очевидно, в якому світі живуть експоненти.

Час 


Давайте глянемо, що каже про коронавірус історія:

Рік2015201620172018201920202021
Випадки КВ
0
0
0
0
27
2,414,595+
?
Смерті від КВ
0
0
0
0
0
165,174+
?

В 2020 від неіснуючого раніше вірусу вже померло більше 100 тисяч людей. За триста років від 1719 до 2019 — стабільно не помирав ніхто. Нуль. Як вже віками перевірені рецепти і закономірності діють в ситуації 2020?   

Та сама проблема виникає на дрібніших проміжках. 2 березня у США всього 100 хворих і все виглядає цілком спокійно — а ситуація набагато краща, ніж в Італії з її 1000 хворих і 50 загиблими. 2 квітня у США 250 тисяч хворих — в два з половиною рази більше, ніж всього в Італії, де епідемія як ніби вже вщухає (так здається, але не будемо робити передчасних висновків).

Чи може минуле щось говорити про майбутнє?

Простір


Якщо дивитися на географію з Worldometers, отримуємо ту ж саму картину. В 93 країнах (це 44% всіх представлених) — до 250 офіційних хворих, або приблизно ніскільки. В середній країні 11 тисяч хворих, але це нічого не значить: в 90% країн хворих менше за середній рівень.

Все навіть цікавіше, цифри гірші навіть за знаменитий принцип Парето або 80/20 (який статистично характеризує степеневі розподіли, типовий Екстремістан — а у нашого, виходить, ще товщі хвости): в цих 90%/190 країнах разом всього 12% хворих, а в решті 10%/22 країнах – 88% всіх заражених на Землі. Ось графік-гістограма (по горизонталі — кількість хворих в країні, по вертикалі — кількість таких країн), на ній крихітною червоною точкою зліва-внизу виділено арифметичне середнє:

  
Для фанатів статистики: при середній кількості хворих в 11 тисяч на країну, стандартне відхилення — цілих 58 тисяч. Якби я вірив в нормальні розподіли, у мене не було б навіть статистично значимих доказів епідемії. 

Яке має значення досвід конкретної країни (напевне, з лівої сторони графіка), якщо існує така нерівність? Якщо не пощастить з якимось масовим скупченням людей — кількість хворих вибухне, а країна миттєво перетвориться з успішного борця з епідемією в дикого аутсайдера.

Поширення

або перші тижні експоненти

Зразу мушу сказати — я не буду проводити лікбез, є люди, які пояснюють картину поширення вірусу набагато краще за мене (це найкраща мені відома симуляція з використанням багатьох реалістичних елементів на зразок громадських місць чи порівняної ізольованості міст). 

Але до цього треба додати, наприклад, наскільки важлива форма експоненти на самому початку — а вона залежить фактично лише від поведінки т.з. "нульового пацієнта" і його найближчого кола спілкування.

Ось простенький, але цілком функціональний коронавірусний калькулятор, яким ми будемо користуватися і далі. При оригінальному сценарії (якщо не чіпати жодний параметр) на 80-й день ми маємо 6300 активних хворих (і 15 тисяч інфікованих), 2000 госпіталізованих і 80 смертей.

Неприємно, але нічого страшного — але далі ми попрацюємо з несприятливими сценаріями.

Уявимо, що наш нульовий пацієнт привіз вірус не сам, а вдвох (з другом чи подругою, головне, щоб вони під одним дахом не жили) — це зразу вдвічі збільшить кількість жертв. Інфікованих і хворих стало вдвічі більше — і помирає вже 160 людей.

Уявимо, що нульовий хворий після приїзду влаштував вечірку (тільки для своїх — самоізоляція!) чи пішов до церкви — і заразив цим 10 людей. На 80 день епідемії матимемо вже 23 тисячі хворих і 300 загиблих. 

Уявимо, що в країні трохи більш екстравертна культура, або нульовий пацієнт жив в мегаполісі типу Нью-Йорку чи Києва, або був частим користувачем громадського транспорту... В результаті вірус потрапить в більш сприятливе середовище і поширюватиметься швидше — в моделі ми зробимо вигляд, що кожен хворий заражав в середньому не 2.2 людини, а передавав вірус трішки частіше, 2.5 людям (такі песимістичні оцінки передачі вірусу в Ухані — це абсолютно реалістичні числа). І ось маємо вже 44 тисячі хворих, 112 тисяч безсимптомних інфікованих, а 419 вже встигли померти в госпіталях.

Або уявимо, що нульовий пацієнт дисципліновано самоізолювався і не встиг нікого заразити. На день 80 у нас в країні нуль хворих. Нуль, а у най-найгіршому випадку — один померлий.

І це все — в перші тижні і місяці, задовго до будь-якого карантину і паніки, задовго до впровадження урядових програм і широкого обговорення в ЗМІ. Просто поведінка звичайної людини, якій не пощастило виявитися нульовим пацієнтом. Результат відрізняється в десятки разів.

Інфікований просто постояв під міланським стадіоном, вболіваючи за Аталанту 19 лютого — і Італія отримала локальний спалах в Бергамо. Кілька інфікованих просто прогулялися на марші 8 березня в Іспанії — і вже за місяць країна виходить в коронавірусні лідери. Досить вірусу було добратися до Нью-Йорка з його скупченням людей і масовим громадським транспортом — і почало підгорати у США. 

Чи ще щось — ці версії такі ж надумані, як і будь-які інші спроби пояснити статистику. 

Замість епілогу


Я не хочу сказати, що карантинні заходи не мають значення; якраз навпаки: їх ефективність визначає "пік" експоненти і подальшу долю вірусу. Просто зараз ми, як не сумно про це говорити, на досить ранньому етапі поширення хвороби — і приписувати нашим діям всі заслуги там, де інтенсивність соціального життя інфікованих в перші дні поширення вірусу може сьогодні мати наслідком десятки тисяч хворих — статистичне варварство.

І тому кожного разу, коли потягне робити висновки на основі статистики — "країна Х ввела карантин, а країна Y ні, і де тепер країна Y?!" чи "ось подивіться, як справляється страхова медицина: бачите, в країні Z стільки загиблих!" — згадайте про можливість вечірки в нульового пацієнта. І краще just don't

P.S. Перша стаття циклу тут. Асиметрія і карантинні заходи будуть далі.

понеділок, 6 квітня 2020 р.

Вірус 1: Ціна питання — чому панікуємо?

Я бачив багато різних матеріалів про коронавірус і карантини, і економісти як тусовка в цілому дуже критичні щодо тих ритуальних танців, які влаштовують різні уряди включно з українським і підтримує населення. Як водиться, держава і широка публіка панікують, метушаться, мають хитрі мотиви і виглядають емоційно й непереконливо. В той же час аргументи економістів — помірковані, раціональні і як завжди трохи цинічні. На перший погляд переможець в суперечці очевидний, але по-моєму, не все так просто: коли помилка може коштувати більше, ніж річний дохід країни, бути дуже обережним — рідкісний випадок "мудрості натовпів".

Ціна людини

Взагалі, не-економісти не люблять про це думати, але грошова вартість людського життя — досить загальновідома річ.

Будь-яка країна інколи потрапляє в випадки, коли приходиться рятувати, жертвувати чи відшкодовувати втрачене життя. У США вартість життя розраховує їх екологічне агентство (жертвувати), департамент транспорту (відшкодовувати) і відверто страшне агентство з харчових продуктів і ліків (рятувати) — і, як мають робити державні органи, чітко публікують свої висновки. Це все можна знайти навіть у статті на Вікіпедії.

Стандартний підхід, який використовують для таких розрахунків — оцінити, скільки людина готова за своє життя заплатити. Більш широкий і професійний мета-аналіз від OECD можна знайти тут.

Оцінки для розвинутих країн суттєво відрізняються, але в цілому зводяться до сум порядку 1-10 мільйонів доларів. Для Туреччини, де доходи куди нижчі, сума зменшується до півмільйона.

Очевидно, в Україні, де ВВП на душу населення втричі нижчий за Туреччину, оцінка вартості життя буде ще нижчою — як і в інших порівнянних за бідністю країнах. Моя особиста напівжартівлива оцінка за дещо нестандартною методологією дає 73 тисячі доларів 2015 року. Є більш дисципліновані і професійні оцінки, і дійсно древні, і відносно нові — і якщо вірити Карташовій, Щетініній і Каневій, в 2017 році вартість життя українця дорівнювала 74-115 тисяч доларів США (для оцінки беремо красиву цифру в 100 тисяч).

Особисто я буду відштовхуватися від красивої суми в 1 мільйон доларів/життя людини — імовірно, навіть заниженої: одні тільки 20% населення, які проживають в країнах OECD, дотягують середню вартість життя на планеті до цього рівня, якщо навіть повністю нехтувати рештою світу.

Ще, звісно, треба мати на увазі, що життя в принципі не однакові за вартістю: що молодша людина, то більше втрачає вона сама і суспільство від смерті, і до 55 років вартість її життя вже вдвічі нижча, ніж в умовного немовляти — а коронавірус зачіпає в першу чергу "дешевших" людей, якщо дозволити собі цей цинізм. Тому занижені за рахунок краси цифр оцінки вартості життя можуть виявитися цілком справедливими.

Смерть

Проблема з прогнозуванням максимальної кількості жертв від коронавірусу в тому, що ми не маємо... і просто не хочемо мати дані про максимальну кількість жертв в ситуації вибухового розповсюдження вірусу і колапсу системи охорони здоров'я, інфраструктури і публічного порядку. 

Порахуємо. З врахуванням R0 коронавірусу в 2.2, епідемія стабілізуватиметься на 55% населення — якщо, звісно, популяція встигне виробити імунітет. Якщо вірити CDC, щонайменше 20% випадків коронавірусу вимагають госпіталізації — або 11% від загальної популяції. Най-най-найоптимістичніші оцінки кількості потужності системи охорони здоров'я говорять про можливість одночасно прийняти близько 1% населення — шанси обійтися без колапсу в цьому випадку близькі до нуля. Жертв в такому випадку буде навіть більше, ніж 10% від одного коронавірусу — будь-яка хвороба або нагальна травма без своєчасного лікування вбиває, паніка вбиває, параліч державного апарату вбиває. 

Це песимістична оцінка — тому краще зосередитися на даних з більш оптимістичних сценаріїв, без колапсу системи охорони здоров'я. Уявимо, що смертність залишиться постійною — і закономірне виснаження медичної системи компенсуватиметься розробкою більш ефективних ліків і протоколів. 

Оцінки смертності дуже залежать від кількості тестів — що менше випадків інфекції ловить статистика, то вища виходить смертність. Ісландія чи вже більше-менше стабільна Корея — країни, які масово тестують населення, дають меншу і правильнішу картину смертності, ніж ті, які пропустили чи пропускають легкі випадки. 

Поки епідемія не закінчилася повністю в жодній країні — наші числа будуть закономірно страждати від неточності. Найвища оцінка смертності в цьому випадку сягає співвідношення померлих і "закритих випадків", хто вже або помер, або вилікувався (це дещо завищені цифри, бо люди помирають раніше, ніж виліковуються); мінімальна — припускає, що інфіковані зараз не помруть (так, це ще менш реалістично, але дає дуже чіткий "поріг"), і смертність дорівнюватиме співвідношенню померлих до всіх випадків інфікування (очевидно, при швидкому прогресі епідемії цей поріг перестає мати будь-який сенс).

Дані по країнах ми запросто можемо взяти на суперпопулярному ресурсі-агрегаторі (так тримати, хлопці). Так, для Ісландії, яка за рахунок тестів 7.5% популяції заробила звання чемпіона, смертність сягає всього 0.9% (з порогом в 0.2%) — хоча це досягнення цілком може бути наслідком крихітного населення. Наступні більш-менш помітні країни — Люксембург, який зробив вдвічі менше тестів на душу населення, (1.3-6.7%), Бахрейн (0.6-0.9%), Ліхтенштейн (від 1.3%), Арабські Емірати (0.6-6.5%), Норвегія (від 1.3%), Бруней (0.7-1.2%), Швейцарія (3.4-9%), Гонг-Конг (0.4-1.9%),  і трохи позаду Німеччина (1.6-5.2% при тестуванні всього 1%) і Південна Корея (1.8-2.7%, але ця країна вже майже стабілізувала інфекцію). Італію, яка різко виходить в лідери з тестування, ми поки пропускаємо.

Тобто можна очікувати середню смертність від коронавірусу трохи вище 2% при ефективній роботі медичної системи — і розраховувати, що не стримана ніяким соціальним дистанціюванням епідемія зачепить близько половини населення. 

В кінці кінців це дає ще одне красиве число — втрату 1% населення в результаті стабілізації епідемії коронавірусу природними методами, але без розгляду сценарію колапсу медичної системи. І, повторюсь, це дуже оптимістичні цифри.

Втрати і суми

Лишилося тільки помножити цифри.

Населення земної кулі — 7.53 мільярда. 1% від цього — 75 мільйонів мертвих від коронавірусу в усьому світі. В перерахунку на долари за нашим дуже зручним курсом — 75 трильйонів доларів. Нагадаю, що 86 трильйонів доларів — світовий ВВП (технічно, світовий ВП, gross world product) в 2018. 

Тобто ми говоримо, за досить оптимістичними щодо перебігу епідемії оцінками, про потенційні втрати в майже рік існування світової економіки. Причому для розвинутих країн вони навіть вищі — при вищому доході на душу вони значно вище оцінюють життя своїх громадян: при 3.3 мільйонах смертей у США за оцінки ціни життя в 9 мільйонів доларів, сумарні збитки на третину перевищують ВВП.   

Населення України, за сумнозвісною оцінкою Дубілета — 37.3 мільйони (а Держстат дає цифру в 41.9 мільйонів). При тій же смертності йдеться про 370-420 тисяч смертей або 37-42 мільйони доларів — третину українського річного ВВП або одномоментні збитки в 2-3 газових контракти Тимошенко протягом одного спалаху.

Чи можна очікувати спокійної гри з холодною головою за таких високих ставок?

Чекайте далі: про карантини, асиметрію наслідків і товсті хвости.

Дисклеймер: я поки що ніяк не характеризую конкретні кроки урядів.