вівторок, 21 квітня 2020 р.

Вірус 2: Товсті хвости і статистичне варварство

або чому ми нічого не знаємо (Джон Сноу)


Коли я чую спроби робити якісь значимі висновки про поведінку, політику чи всесвіт на основі різних кількостей хворих у різних країнах, приходиться стримуватися, щоб не ляснути собі по лицю від непозбувної бентеги. Надіюся, скоро ми з вами будемо страждати від цих порівнянь однаково.


Про товсті хвости

Колись я уже писав про тонкі і товсті хвости, переказуючи по суті довгі роздуми Талеба про Звичайнестан і Екстремістан:
Найцікавіший наслідок життя в Екстремістані – з вибірки, як завгодно великої, не можна зробити хоч наскільки надійний висновок про всю цю країну. Досліджуєш ти життя десятка людей чи сотні, результати залежать тільки від того, наскільки багато "екстремальних" представників до неї потрапить.
Якщо робити висновок про динозаврів "Парку юрського періоду" з десятка чи тисячі випадково вибраних представників, можна зробити висновок, що типовий динозавр – маленькі Компсогнатуси (оті крихітні паскудні стадні хижачки розміром як половина курки) чи інші маленькі заврики, які й складають 99% динозаврів парку. І навіть якщо розширити вибірку ще в сотню разів і перевірити кожного динозавра на четвертині острова, висновки про їх розмір чи вагу все одно залежатимуть тільки від того, чи забреде на досліджену територію стадо гігантських 50-тонних брахіозаврів. Чи хоча б один брахіозавр, навіть якщо його "заховати" у натовпі в тисячу 4-кілограмових м’ясоїдних хижачків, все одно зіпсує всі закономірності: якщо до тисячі карликів додати такого гіганта, вага середнього динозавра миттєво виросте більше, ніж вдесятеро – і не повернеться до норми навіть якщо додати туди ще одну тисячу маленьких тварючок.
Так само можна вимірювати дохід жителів Хацапетівки, але всі розрахунки полетять шкереберть, якщо в містечку з’явиться чи зникне один олігарх – а, нагадую, і в Україні, і в Екстремістані олігархи трапляються надто часто, щоб про них можна було забувати.
В реальному житті насправді досить багато явищ, які мають всі характеристики Екстремістану – багатство чи популярність, кількість населення різних міст, потужність землетрусів, кількість жертв терактів, війн чи катастроф, числа переглядів відео на Youtube.

Що можна сказати про коронавірус? Він належить до домену нормального розподілу — і тоді можна вільно робити будь-які висновки вже на основі пари спостережень — чи до божевільного Екстремістану, домену степеневих розподілів, в якому навіть дуже знайоме явище може дивувати?

Мені здається, очевидно, в якому світі живуть експоненти.

Час 


Давайте глянемо, що каже про коронавірус історія:

Рік2015201620172018201920202021
Випадки КВ
0
0
0
0
27
2,414,595+
?
Смерті від КВ
0
0
0
0
0
165,174+
?

В 2020 від неіснуючого раніше вірусу вже померло більше 100 тисяч людей. За триста років від 1719 до 2019 — стабільно не помирав ніхто. Нуль. Як вже віками перевірені рецепти і закономірності діють в ситуації 2020?   

Та сама проблема виникає на дрібніших проміжках. 2 березня у США всього 100 хворих і все виглядає цілком спокійно — а ситуація набагато краща, ніж в Італії з її 1000 хворих і 50 загиблими. 2 квітня у США 250 тисяч хворих — в два з половиною рази більше, ніж всього в Італії, де епідемія як ніби вже вщухає (так здається, але не будемо робити передчасних висновків).

Чи може минуле щось говорити про майбутнє?

Простір


Якщо дивитися на географію з Worldometers, отримуємо ту ж саму картину. В 93 країнах (це 44% всіх представлених) — до 250 офіційних хворих, або приблизно ніскільки. В середній країні 11 тисяч хворих, але це нічого не значить: в 90% країн хворих менше за середній рівень.

Все навіть цікавіше, цифри гірші навіть за знаменитий принцип Парето або 80/20 (який статистично характеризує степеневі розподіли, типовий Екстремістан — а у нашого, виходить, ще товщі хвости): в цих 90%/190 країнах разом всього 12% хворих, а в решті 10%/22 країнах – 88% всіх заражених на Землі. Ось графік-гістограма (по горизонталі — кількість хворих в країні, по вертикалі — кількість таких країн), на ній крихітною червоною точкою зліва-внизу виділено арифметичне середнє:

  
Для фанатів статистики: при середній кількості хворих в 11 тисяч на країну, стандартне відхилення — цілих 58 тисяч. Якби я вірив в нормальні розподіли, у мене не було б навіть статистично значимих доказів епідемії. 

Яке має значення досвід конкретної країни (напевне, з лівої сторони графіка), якщо існує така нерівність? Якщо не пощастить з якимось масовим скупченням людей — кількість хворих вибухне, а країна миттєво перетвориться з успішного борця з епідемією в дикого аутсайдера.

Поширення

або перші тижні експоненти

Зразу мушу сказати — я не буду проводити лікбез, є люди, які пояснюють картину поширення вірусу набагато краще за мене (це найкраща мені відома симуляція з використанням багатьох реалістичних елементів на зразок громадських місць чи порівняної ізольованості міст). 

Але до цього треба додати, наприклад, наскільки важлива форма експоненти на самому початку — а вона залежить фактично лише від поведінки т.з. "нульового пацієнта" і його найближчого кола спілкування.

Ось простенький, але цілком функціональний коронавірусний калькулятор, яким ми будемо користуватися і далі. При оригінальному сценарії (якщо не чіпати жодний параметр) на 80-й день ми маємо 6300 активних хворих (і 15 тисяч інфікованих), 2000 госпіталізованих і 80 смертей.

Неприємно, але нічого страшного — але далі ми попрацюємо з несприятливими сценаріями.

Уявимо, що наш нульовий пацієнт привіз вірус не сам, а вдвох (з другом чи подругою, головне, щоб вони під одним дахом не жили) — це зразу вдвічі збільшить кількість жертв. Інфікованих і хворих стало вдвічі більше — і помирає вже 160 людей.

Уявимо, що нульовий хворий після приїзду влаштував вечірку (тільки для своїх — самоізоляція!) чи пішов до церкви — і заразив цим 10 людей. На 80 день епідемії матимемо вже 23 тисячі хворих і 300 загиблих. 

Уявимо, що в країні трохи більш екстравертна культура, або нульовий пацієнт жив в мегаполісі типу Нью-Йорку чи Києва, або був частим користувачем громадського транспорту... В результаті вірус потрапить в більш сприятливе середовище і поширюватиметься швидше — в моделі ми зробимо вигляд, що кожен хворий заражав в середньому не 2.2 людини, а передавав вірус трішки частіше, 2.5 людям (такі песимістичні оцінки передачі вірусу в Ухані — це абсолютно реалістичні числа). І ось маємо вже 44 тисячі хворих, 112 тисяч безсимптомних інфікованих, а 419 вже встигли померти в госпіталях.

Або уявимо, що нульовий пацієнт дисципліновано самоізолювався і не встиг нікого заразити. На день 80 у нас в країні нуль хворих. Нуль, а у най-найгіршому випадку — один померлий.

І це все — в перші тижні і місяці, задовго до будь-якого карантину і паніки, задовго до впровадження урядових програм і широкого обговорення в ЗМІ. Просто поведінка звичайної людини, якій не пощастило виявитися нульовим пацієнтом. Результат відрізняється в десятки разів.

Інфікований просто постояв під міланським стадіоном, вболіваючи за Аталанту 19 лютого — і Італія отримала локальний спалах в Бергамо. Кілька інфікованих просто прогулялися на марші 8 березня в Іспанії — і вже за місяць країна виходить в коронавірусні лідери. Досить вірусу було добратися до Нью-Йорка з його скупченням людей і масовим громадським транспортом — і почало підгорати у США. 

Чи ще щось — ці версії такі ж надумані, як і будь-які інші спроби пояснити статистику. 

Замість епілогу


Я не хочу сказати, що карантинні заходи не мають значення; якраз навпаки: їх ефективність визначає "пік" експоненти і подальшу долю вірусу. Просто зараз ми, як не сумно про це говорити, на досить ранньому етапі поширення хвороби — і приписувати нашим діям всі заслуги там, де інтенсивність соціального життя інфікованих в перші дні поширення вірусу може сьогодні мати наслідком десятки тисяч хворих — статистичне варварство.

І тому кожного разу, коли потягне робити висновки на основі статистики — "країна Х ввела карантин, а країна Y ні, і де тепер країна Y?!" чи "ось подивіться, як справляється страхова медицина: бачите, в країні Z стільки загиблих!" — згадайте про можливість вечірки в нульового пацієнта. І краще just don't

P.S. Перша стаття циклу тут. Асиметрія і карантинні заходи будуть далі.

Немає коментарів:

Дописати коментар