Kauzalita vs. korelace: Pozor na Covid modely
Příčinná souvislost (kauzalita) znamená, že nějaký děj může nastat jako podnět jiného děje. Oproti tomu korelace pouze znamená, že dva či více dějů jsou v nějakém smyslu, obvykle časově, synchronizovány. Nemusí však spolu kauzálně souviset. Záměna kauzality a korelace může být zvláště v dnešních debatách častou příčinou mylných závěrů.
Ve svém blogu Corona matematicky i lidsky jsem se pozastavil nad modelem pro hodnocení účinků restriktivních opatření, který je velmi nespolehlivý a může přinášet velmi nepřesné a zavádějící výsledky i z důvodu multikolinearity jednotlivých faktorů. Model navíc implicitně a neoprávněně předpokládá, že veškeré pozorované efekty jsou jen díky vládním opatřením (a šumu), což může způsobit chybu záměny kauzality a korelace s možnými naprosto devastujícími důsledky pro jeho použití a interpretaci.
Proč je důležité chápat rozdíl mezi kauzalitou a korelací
Příčinná souvislost (kauzalita) znamená, že nějaký děj může nastat jako podnět jiného děje. Oproti tomu korelace pouze znamená, že dva či více dějů jsou v nějakém smyslu, obvykle časově, synchronizovány. Nemusí však spolu kauzálně souviset. K pochopení kauzálního vztahu je nutné zjistit, jak a proč jeden děj ovlivňuje druhý. Bez takové analýzy můžeme vidět korelaci, která je “falešná” ve smyslu kauzality.
Pro názorné pochopení uvedu jednoduchý příklad. Představme si, že sledujeme hluchou žábu během bouřky. Pozorujeme (hypoteticky), že velmi často, když udeří hrom, tak žába nadskočí. Máme zde velmi silnou korelaci. Jak je to možné? Důvod není hrom (protože naše žába je hluchá), ale může to být reakce na blesk, který je často doprovázen hromem, či reakce na pozorujícího, který se lekne při udeření hromu.
Podobně nelze usuzovat, že konkrétní vládní opatření, jmenovitě třeba uzavření škol, mělo vliv na snížení počtu nakažených, i když konkrétní model je schopen najít korelaci a vykázat statisticky signifikantní závislost. Důvodem snížení může být totiž zcela něco jiného, ať už jiná vládní opatření, promořenost populace, ochota lidí omezit své kontakty atd.
Z výše lze nahlédnout, že v principu nelze usuzovat na jakoukoliv kauzalitu v modelu, kde máme k dispozici pouze vstupní data získaná pozorováním (namísto dat získaných z kontrolovaného experimentu). Není totiž jak vyloučit “efekt hluché žáby”.To byl jeden ze základních bodů mé kritiky v Corona matematicky i lidsky. Spoluautor modelu Jan Kulveit, vzděláním fyzik, bohužel moji kritiku nepochopil, jak vyplývá z jeho emotivní a osobní reakce na Facebooku. Pan Kulveit zřejmě nechápe rozdíl mezi kauzalitou a korelací, podobně jako asi většina lidí nerozumí rozdílu mezi (ne)korelací a (ne)závislostí. Je to pochopitelné, protože lze očekávat, že pro modelování ve fyzice, kde data obvykle pocházejí z (kontrolovaných) experimentů, velké rozdíly mezi kauzalitou a korelací nejsou.
Považuji za nutné upozornit, že „opakovaná nepravda“ [v Kulveitově postu na Facebooku] rozhodně není nepravdou a hluboce se mýlí naopak Jan Kulveit, který dle mého názoru naprosto netuší, jaký je rozdíl mezi kauzalitou a korelací (na což upozorňuje Karel Janeček). Z "Kulveitova modelu" (a mnohých jiných založených na "observačních" datech bez pořádně provedené kauzální analýzy) lze možná usuzovat na korelace (asociace), v žádném případě však na kauzality. Vzhledem k tomu, že ani typický politik nechápe rozdíl mezi kauzalitou a korelací, je základní povinností vědce na tato omezení upozorňovat a to opakovaně. Z vývoje posledních měsíců se totiž zdá, že celá řada "modelářů" nejenom že na tento rozdíl neupozorňuje, ale dokonce aktivně podsouvá kauzální interpretace na místa, kde jsou zcela neopodstatněná (a v důsledku nebezpečná), říká docent Arnošt Komárek, ex-předseda mezinárodní Statistical Modelling Society a editor časopisu Statistical Modelling.
S ohledem na fakt, že model je odhadován na základě "observačních" dat, jejichž sběr není žádným způsobem řízen, a vzhledem k tomu, že model explicitně uvažuje jako možné efekty pouze efekty "vládních" opatření, nelze z modelu v žádném případě usuzovat na kauzální efekty "vládních" opatření na cokoliv! Jsou-li k dispozici pouze observační data, je pro účely zjišťování kauzálních vlivů zapotřebí zahrnout do modelu všechny faktory, jež mohou potenciálně ovlivňovat odezvu a jež mohou nějakým způsobem souviset s faktory zájmu. Na tomto faktu nic nemění to, že v modelu jsou zahrnuty "noise terms".
Arnošt Komárek uvádí skvělý příklad možného “efektu hluché žáby” přímo v aplikaci z aktuální situace u nás:
Pro ilustraci uveďme jeden aktuální příklad. Mezi okresy ČR s nejnižší incidencí nákazy SARS-CoV-2 nyní patří tři nejdéle "uzavřené" okresy Trutnov, Cheb a Sokolov. Vhodný model by tedy patrně ukázal (statisticky) významný vliv uzávěry okresů na incidenci nákazy. Odsud lze bezpochyby usuzovat, že uzávěra okresů *koreluje* se snížením incidence nákazy. Lze ale též usuzovat na *příčinný* vliv uzávěry okresů? Nikoliv, resp. rozhodně ne na základě analýzy, jež jiné vlivy vůbec neuvažuje (bez ohledu na to, jaké "noise terms" v modelu jsou). *Možná* příčinná trajektorie by zde totiž *mohla* být např. následující: (1) vysoká incidence způsobuje vyhlášení uzávěry okresů, ale současně též vysoká incidence způsobuje zrychlené promoření (a imunizaci), (2) zrychlené promoření (které ale probíhá spolu s uzávěrou okresů) *způsobuje* pozdější nízkou incidenci (díky vyšší imunizaci obyvatelstva). Vzhledem k tomu, že zrychlené promoření jde ruku v ruce spolu s uzávěrou okresů, nalézáme následně (pomocí "modelu") též korelaci nízké incidence s uzávěrou okresů. Bez hlubší analýzy nelze nicméně v žádném případě tvrdit, že uzávěra okresů *způsobila* nízkou incidenci.
Arnošt Komárek uzavírá:
Vzhledem k tomu, že velká část "vládních" opatření (nejenom v České republice) pouze reaguje na (do jisté míry přirozený) vývoj epidemie (tedy opatření jsou spíše *zapřičiněna* vývojem epidemie a nikoliv naopak), je značně nezodpovědné na základě běžně dostupných dat podsouvat komukoliv (a politikům neznalým souvislostí tím spíš) *kauzální* interpretace z modelů, jejichž jedinou ambicí může být zjistit, jak spolu jednotlivé faktory *korelují*. Naopak tam, kde byl v nějaké míře přirozenou formou simulován "experiment" mající za cíl srovnat efektivitu dvou druhů léčby (Švédsko vs. zbytek Evropy, Florida vs. Kalifornie, dvě oblasti v Dánsku) a kde tedy lze usuzovat i na *kauzality* se ukazuje, že efekt (minimálně některých) "vládních" opatření na vývoj epidemie je přinejmenším sporný a to v situaci, kdy je naopak neoddiskutovatelný *příčinný* devastující efekt těchto opatření na nejrůznější části ekonomiky i společenského života.
Docent Stanislav Katina, Head of Statistics and Modelling, Honorary Research Fellow of The University of Glasgow, Chair of Committee of Statistics in Regulatory Affairs, ICSB, dále rozvádí nevhodnost použití “Kulveitova modelu”:
Autoři článku podle všeho nepochopili, že použitím takových dat jdou proti základním statistickým principům - jde o nereprezentativní a systematicky vychýlený výběr, způsob sběru je zatížen velkými chybami, heterogenitou odběrů a testů uvnitř jednoho státu. Když takto špatně získaná data z různých států spojíte do jednoho datového setu (a i kdyby jste je pak nějak standardizovali), dostanete polévku bez vůně a chuti plnou nestravitelných elementů. Taková data bych nikomu nedoporučil používat a nemá smysl je vůbec vkládat do nějakého modelu. Každá interpretace z takového modelu je nepoužitelná a zavádějící.
Výbor České statistické společnosti zřídil k 1.2.2021 odbornou skupinu, která by měla přispět k nápravě neuspokojivé situace týkající se sběru a zpracování dat o šíření a důsledcích infekce SARS-CoV-2, která má neblahé celospolečenské důsledky a která zároveň poškozuje pověst oboru.
Z argumentů výše je jasné, že použití předmětného modelu například za účelem obhajoby zavírání škol je zcela zcestné. Jan Kulveit se ve své reakci na můj blog sice pokusil o osobní urážky, nicméně nepřidal ani jeden racionální argument. Oproti tomu, ve svém blogu jsem uvedl tři studie, které indikují slabý efekt tohoto opatření.
22. Kids catch and spread coronavirus half as much as adults, Iceland study confirms
23. Covid-19 in schoolchildren – A comparison between Finland and Sweden
24. Po otevření škol se tempo šíření nákazy snížilo, spočítali Němci
Je až fascinující (a “poduvěřitelné”), že na bázi neprůkazného a velmi sporného matematického modelu jsou dělány závěry, které mají tak zásadní vliv na budoucnost našich dětí. Neřešíme zde pouze nějaký osobně-odborný spor na sociálních sítích. Důsledky chybných opatření pochopíme a plně procítíme až v budoucnu. Již teď jsme své děti připravili o rok vzdělání, přerušili jejich sociální kontakty. Nejen naše děti psychicky a fyzicky strádají, jsou obéznější, chybí jim pohyb a sport, se všemi z toho vyplývajícími důsledky pro zdraví. Umožnit dětem návrat do škol musí být naší prioritou. A to i kdyby otevření škol mělo mít významný vliv na šíření viru, o dost silnější než citované studie, nebo koneckonců i zde kritizovaný model. Přitom můžeme očekávat spíše vliv méně významný.
Právě nyní procházíme testem naší civilizace. Strach, který pociťuje mnoho z nás, lze zneužít, a to bohužel i ve jménu vědy. Čelíme riziku ztráty primární lidské hodnoty - svobody, a to i v rozvinutých zemích, nebo možná zvláště tam. Nenechme se strašit, a to ani závěry různých matematických modelů, které mohou vést k dalšímu omezování našich svobod či uzavírání škol.
"Biologická rozbuška" jménem koronavirus nastartoval skokovou změnu, o které již mnoho let mluvím - Sociální singularitu 21. Žijeme v historicky jedinečné době, v níž máme výjimečnou a prvotní možnost dosáhnout kvalitativního skoku ve vývoji našeho vesmíru hlubokým poznáním světa i sebe. Jsem přesvědčen, že uspějeme tehdy a jen tehdy, pokud do našich životů přijmeme lidské hodnoty, na jejichž vrcholu stojí svoboda.
Ve svém blogu Corona matematicky i lidsky jsem se pozastavil nad modelem pro hodnocení účinků restriktivních opatření, který je velmi nespolehlivý a může přinášet velmi nepřesné a zavádějící výsledky i z důvodu multikolinearity jednotlivých faktorů. Model navíc implicitně a neoprávněně předpokládá, že veškeré pozorované efekty jsou jen díky vládním opatřením (a šumu), což může způsobit chybu záměny kauzality a korelace s možnými naprosto devastujícími důsledky pro jeho použití a interpretaci.
Proč je důležité chápat rozdíl mezi kauzalitou a korelací
Příčinná souvislost (kauzalita) znamená, že nějaký děj může nastat jako podnět jiného děje. Oproti tomu korelace pouze znamená, že dva či více dějů jsou v nějakém smyslu, obvykle časově, synchronizovány. Nemusí však spolu kauzálně souviset. K pochopení kauzálního vztahu je nutné zjistit, jak a proč jeden děj ovlivňuje druhý. Bez takové analýzy můžeme vidět korelaci, která je “falešná” ve smyslu kauzality.
Pro názorné pochopení uvedu jednoduchý příklad. Představme si, že sledujeme hluchou žábu během bouřky. Pozorujeme (hypoteticky), že velmi často, když udeří hrom, tak žába nadskočí. Máme zde velmi silnou korelaci. Jak je to možné? Důvod není hrom (protože naše žába je hluchá), ale může to být reakce na blesk, který je často doprovázen hromem, či reakce na pozorujícího, který se lekne při udeření hromu.
Podobně nelze usuzovat, že konkrétní vládní opatření, jmenovitě třeba uzavření škol, mělo vliv na snížení počtu nakažených, i když konkrétní model je schopen najít korelaci a vykázat statisticky signifikantní závislost. Důvodem snížení může být totiž zcela něco jiného, ať už jiná vládní opatření, promořenost populace, ochota lidí omezit své kontakty atd.
Kritika “Kulveitova modelu”
Z výše lze nahlédnout, že v principu nelze usuzovat na jakoukoliv kauzalitu v modelu, kde máme k dispozici pouze vstupní data získaná pozorováním (namísto dat získaných z kontrolovaného experimentu). Není totiž jak vyloučit “efekt hluché žáby”.To byl jeden ze základních bodů mé kritiky v Corona matematicky i lidsky. Spoluautor modelu Jan Kulveit, vzděláním fyzik, bohužel moji kritiku nepochopil, jak vyplývá z jeho emotivní a osobní reakce na Facebooku. Pan Kulveit zřejmě nechápe rozdíl mezi kauzalitou a korelací, podobně jako asi většina lidí nerozumí rozdílu mezi (ne)korelací a (ne)závislostí. Je to pochopitelné, protože lze očekávat, že pro modelování ve fyzice, kde data obvykle pocházejí z (kontrolovaných) experimentů, velké rozdíly mezi kauzalitou a korelací nejsou.
Považuji za nutné upozornit, že „opakovaná nepravda“ [v Kulveitově postu na Facebooku] rozhodně není nepravdou a hluboce se mýlí naopak Jan Kulveit, který dle mého názoru naprosto netuší, jaký je rozdíl mezi kauzalitou a korelací (na což upozorňuje Karel Janeček). Z "Kulveitova modelu" (a mnohých jiných založených na "observačních" datech bez pořádně provedené kauzální analýzy) lze možná usuzovat na korelace (asociace), v žádném případě však na kauzality. Vzhledem k tomu, že ani typický politik nechápe rozdíl mezi kauzalitou a korelací, je základní povinností vědce na tato omezení upozorňovat a to opakovaně. Z vývoje posledních měsíců se totiž zdá, že celá řada "modelářů" nejenom že na tento rozdíl neupozorňuje, ale dokonce aktivně podsouvá kauzální interpretace na místa, kde jsou zcela neopodstatněná (a v důsledku nebezpečná), říká docent Arnošt Komárek, ex-předseda mezinárodní Statistical Modelling Society a editor časopisu Statistical Modelling.
S ohledem na fakt, že model je odhadován na základě "observačních" dat, jejichž sběr není žádným způsobem řízen, a vzhledem k tomu, že model explicitně uvažuje jako možné efekty pouze efekty "vládních" opatření, nelze z modelu v žádném případě usuzovat na kauzální efekty "vládních" opatření na cokoliv! Jsou-li k dispozici pouze observační data, je pro účely zjišťování kauzálních vlivů zapotřebí zahrnout do modelu všechny faktory, jež mohou potenciálně ovlivňovat odezvu a jež mohou nějakým způsobem souviset s faktory zájmu. Na tomto faktu nic nemění to, že v modelu jsou zahrnuty "noise terms".
Arnošt Komárek uvádí skvělý příklad možného “efektu hluché žáby” přímo v aplikaci z aktuální situace u nás:
Pro ilustraci uveďme jeden aktuální příklad. Mezi okresy ČR s nejnižší incidencí nákazy SARS-CoV-2 nyní patří tři nejdéle "uzavřené" okresy Trutnov, Cheb a Sokolov. Vhodný model by tedy patrně ukázal (statisticky) významný vliv uzávěry okresů na incidenci nákazy. Odsud lze bezpochyby usuzovat, že uzávěra okresů *koreluje* se snížením incidence nákazy. Lze ale též usuzovat na *příčinný* vliv uzávěry okresů? Nikoliv, resp. rozhodně ne na základě analýzy, jež jiné vlivy vůbec neuvažuje (bez ohledu na to, jaké "noise terms" v modelu jsou). *Možná* příčinná trajektorie by zde totiž *mohla* být např. následující: (1) vysoká incidence způsobuje vyhlášení uzávěry okresů, ale současně též vysoká incidence způsobuje zrychlené promoření (a imunizaci), (2) zrychlené promoření (které ale probíhá spolu s uzávěrou okresů) *způsobuje* pozdější nízkou incidenci (díky vyšší imunizaci obyvatelstva). Vzhledem k tomu, že zrychlené promoření jde ruku v ruce spolu s uzávěrou okresů, nalézáme následně (pomocí "modelu") též korelaci nízké incidence s uzávěrou okresů. Bez hlubší analýzy nelze nicméně v žádném případě tvrdit, že uzávěra okresů *způsobila* nízkou incidenci.
Arnošt Komárek uzavírá:
Vzhledem k tomu, že velká část "vládních" opatření (nejenom v České republice) pouze reaguje na (do jisté míry přirozený) vývoj epidemie (tedy opatření jsou spíše *zapřičiněna* vývojem epidemie a nikoliv naopak), je značně nezodpovědné na základě běžně dostupných dat podsouvat komukoliv (a politikům neznalým souvislostí tím spíš) *kauzální* interpretace z modelů, jejichž jedinou ambicí může být zjistit, jak spolu jednotlivé faktory *korelují*. Naopak tam, kde byl v nějaké míře přirozenou formou simulován "experiment" mající za cíl srovnat efektivitu dvou druhů léčby (Švédsko vs. zbytek Evropy, Florida vs. Kalifornie, dvě oblasti v Dánsku) a kde tedy lze usuzovat i na *kauzality* se ukazuje, že efekt (minimálně některých) "vládních" opatření na vývoj epidemie je přinejmenším sporný a to v situaci, kdy je naopak neoddiskutovatelný *příčinný* devastující efekt těchto opatření na nejrůznější části ekonomiky i společenského života.
Docent Stanislav Katina, Head of Statistics and Modelling, Honorary Research Fellow of The University of Glasgow, Chair of Committee of Statistics in Regulatory Affairs, ICSB, dále rozvádí nevhodnost použití “Kulveitova modelu”:
Autoři článku podle všeho nepochopili, že použitím takových dat jdou proti základním statistickým principům - jde o nereprezentativní a systematicky vychýlený výběr, způsob sběru je zatížen velkými chybami, heterogenitou odběrů a testů uvnitř jednoho státu. Když takto špatně získaná data z různých států spojíte do jednoho datového setu (a i kdyby jste je pak nějak standardizovali), dostanete polévku bez vůně a chuti plnou nestravitelných elementů. Taková data bych nikomu nedoporučil používat a nemá smysl je vůbec vkládat do nějakého modelu. Každá interpretace z takového modelu je nepoužitelná a zavádějící.
Výbor České statistické společnosti zřídil k 1.2.2021 odbornou skupinu, která by měla přispět k nápravě neuspokojivé situace týkající se sběru a zpracování dat o šíření a důsledcích infekce SARS-CoV-2, která má neblahé celospolečenské důsledky a která zároveň poškozuje pověst oboru.
Uzavření škol - chyba s drastickými dopady
Z argumentů výše je jasné, že použití předmětného modelu například za účelem obhajoby zavírání škol je zcela zcestné. Jan Kulveit se ve své reakci na můj blog sice pokusil o osobní urážky, nicméně nepřidal ani jeden racionální argument. Oproti tomu, ve svém blogu jsem uvedl tři studie, které indikují slabý efekt tohoto opatření.
22. Kids catch and spread coronavirus half as much as adults, Iceland study confirms
23. Covid-19 in schoolchildren – A comparison between Finland and Sweden
24. Po otevření škol se tempo šíření nákazy snížilo, spočítali Němci
Je až fascinující (a “poduvěřitelné”), že na bázi neprůkazného a velmi sporného matematického modelu jsou dělány závěry, které mají tak zásadní vliv na budoucnost našich dětí. Neřešíme zde pouze nějaký osobně-odborný spor na sociálních sítích. Důsledky chybných opatření pochopíme a plně procítíme až v budoucnu. Již teď jsme své děti připravili o rok vzdělání, přerušili jejich sociální kontakty. Nejen naše děti psychicky a fyzicky strádají, jsou obéznější, chybí jim pohyb a sport, se všemi z toho vyplývajícími důsledky pro zdraví. Umožnit dětem návrat do škol musí být naší prioritou. A to i kdyby otevření škol mělo mít významný vliv na šíření viru, o dost silnější než citované studie, nebo koneckonců i zde kritizovaný model. Přitom můžeme očekávat spíše vliv méně významný.
Riziko ztráty svobody
Právě nyní procházíme testem naší civilizace. Strach, který pociťuje mnoho z nás, lze zneužít, a to bohužel i ve jménu vědy. Čelíme riziku ztráty primární lidské hodnoty - svobody, a to i v rozvinutých zemích, nebo možná zvláště tam. Nenechme se strašit, a to ani závěry různých matematických modelů, které mohou vést k dalšímu omezování našich svobod či uzavírání škol.
"Biologická rozbuška" jménem koronavirus nastartoval skokovou změnu, o které již mnoho let mluvím - Sociální singularitu 21. Žijeme v historicky jedinečné době, v níž máme výjimečnou a prvotní možnost dosáhnout kvalitativního skoku ve vývoji našeho vesmíru hlubokým poznáním světa i sebe. Jsem přesvědčen, že uspějeme tehdy a jen tehdy, pokud do našich životů přijmeme lidské hodnoty, na jejichž vrcholu stojí svoboda.