Dá se letos věřit volebním průzkumům?
S rezervou. Výrazně větší, než se běžně přiznává.
Vloni jsem kritizoval předvolební průzkumy, že jejich kvalita nebyl dobrá a že (hlavně veřejnoprávní) média by se, dle mého názoru, tím měla zabývat. Je jen dobře, že samotné průzkumy se letos staly již pro (alespoň některá) média tématem, kterému stojí za to se věnovat - a dle mě stále po právu.
Kvalita průzkumů byla diskutována např. v Technetu na Idnes, nebo na vlastním Idnesu, na Aktuálně. A – last but not least – dataři z Ihnedu přímo sesbírali posledních 5 let průzkumů od 4 firem a dali je do grafu.
Také samotní autoři průzkumů se mnohdy snažili více než v minulosti sami upozorňovat na jejich omezení a vysvětlovat, co přesně která čísla znamenají, byli otevření otázkám. Když jsem se sám ČT zeptal na poměrně detailní otázky, co mi nebylo jasné, dostal jsem podrobnou odpověď na všechny z nich.
Nejdůležitější průzkumy byly dle mého názoru letos ty od ČT. Ta si nechala dělat dokonce 2 typy průzkumů. Firmy Median a Stem/Mark dělaly průzkum v každém kraji, kde reportovaly „volební potenciál“ (maximum, kolik která strana dle nich může získat). Dle těchto krajských „potenciálů“ se zvali hosté do předvolebních debat, takže to byly zásadní.
TNS Aisa dělala 4x celostátní průzkum s tím, že reportovala naopak „modely“ (odhad, jak by volby dopadly v daný okamžik). Obecně se asi nedá říci, zda jsou lepší „modely“ nebo „potenciály“, oboje má své plusy i minusy a záleží, co po nich chceme.
Nicméně oba výstupy tím pádem nebyly srovnatelné a nedalo se automaticky je porovnávat mezi sebou (alespoň bez přístupu k zdrojovým datům, které ale ČT chce zveřejnit až za 3 roky, kdy to již bude passé). Porovnání je ale důležité, je to alespoň nějaká možnost, jak ohodnotit kvalitu průzkumů. Jak jinak tu kvalitu určit?
Nakonec se ale našel způsob, jak tyto průzkumy pro ČT srovnat mezi sebou. Byla tam jediná otázka, která byla shodná v obou průzkumech – a to hned první otázka, zda se respondent hodlá voleb zúčastnit.
A opět se vyskytl zásadní problém, že průzkumy (modely) ČT se od sebe lišily výrazně více, než jen o statistickou chybu, kterou ČT přiznávala (a které se už z principu v průzkumech nelze vyhnout). Taková chyba se pohybuje u velkých stran (ČSSD) pod 4 % nahoru i dolu. Jenže – v té jediné stejné otázce se výsledky lišily daleko více než by odpovídalo statistické chybě (více jak 2x více než by se měly maximálně lišit, pokud by oba typy průzkumů byly v pořádku). (Data jsou zde – srovnejte sloupce UA~Určitě ano v obou typech průzkumů (u TNS Aisa jsou výrazně vyšší hodnoty), podobně UN~Určitě ne)
Z toho ale lze logicky usuzovat, že i samotné modely by se výrazně lišily. Ale to znamená jediné – něco je špatně. Kdyby byly oba typy modelů dobře, tak by se nemohly tolik lišit, takže alespoň jeden z nich je „špatně“.
Jak je to možné? I relativně dobře provedené průzkumy mají problémy, kterým se těžko v praxi vyhnout – lidé nechtějí odpovědět, nepovede se důsledná reprezentativnost, těžko se odhadují nerozhodnutí, atd. Těch důvodů může být opravdu hodně.
ČT si rozdíly vysvětluje rozdílným vážením v obou typech průzkumů, což může být pravda (nebo alespoň část pravdy). Ale to neznamená, že by pořád alespoň jeden z nich nebyl „špatně“.
Minimálně jeden z těch průzkumů tedy měl odchylky od reality výrazně větší, než ČT reportovala. Zde by se nabízelo jednoduché řešení, kdyby ČT (a média obecně) prostě přiznávala, že reálná chyba průzkumů může být výrazně (třeba 2x) vyšší, než jen statistická chyba.
Samozřejmě to naráží na „problém“ - pokud řeknete, že ČSSD má dle modelu 28.5 % +- 3 %, tak to zní ok (tedy odhad je v rozmezí 25.5 % až 31.5 %). Pokud ale řeknete, že má 28.5 % +- „zhruba 6 %“, tak to už moc dobře nevypadá, neboť skutečně tedy může mít podporu někde mezi 22 % a 35 %. Ač je to dle mě správnější odhad.
Druhý problém je, že průzkumy (letos konkrétně „potenciály“) se používají jako vylučovací kritérium pro (ne)pozvánku do televizních debat. Tyto debaty se ale zrcadlí i v dalších médiích (píše se o nich, apod.) a mj. i kritérium pro pozvání na debatu na Idnes bylo založeno na těchto stejných průzkumech. Pro menší strany je velice podstatné se těch debat zúčastňovat. A pokud u malých stran kolem 3-5 % odhadnu reálnou chybu průzkumů kolem +- 2(-3) %, zdá se mi to příliš na to, použít to na tak zásadní rozhodnutí, zda je pozvat či ne. Takže tyto „potenciály“ mají reálný potenciál – ovlivnit volby.
Přesto, že s průzkumy pro ČT „bylo něco špatně“, pořád je možné je brát seriozně, pouze s výrazně větší rezervou než je jen samotná statistická chyba, kterou reportují. Stejně tak lze podobně brát další průzkumy od firem ve sdružení Simar, které se snaží definovat a dodržovat standardy, apod. Takové průzkumy byly letos od Medianu, ppm factum a Stem/Marku, dále mimo Simar stojícího akademického CVVM.
Je skoro jisté, že některé z těch firem dělají průzkumy lépe (tj. jejich výsledky více odpovídají realitě), ale je obtížné měřit, které to jsou.
Větší problémy ale můžou nastat, pokud průzkumy dělají (nebo „dělají“) firmy, které ani standardy nedodržují. A přesto (mnohá) média o jejich výsledcích reportují úplně stejně jako u těch předchozích. Zde jde např. o Sanep, který říká, že sbírá údaje na internetu - a sám např. přiznává, že vůbec nezahrnuje voliče nad 70 let. Ač má své zastánce – např. zde. Další firmou mimo Simar je Médea Research spadající pod marketingovou firmu Médea. Zcela mimo jsou potom různé ankety na internetu (tomu se věnuje i část "návodu pro voliče", který dělal můj kolega Karel Komínek).
Zajímavou alternativou k průzkumům jsou také kurzy sázkových kanceláří. Ač zde je velmi pravděpodobné, že ty jsou dost ovlivněny právě těmi průzkumy.
A tipovačka na závěr: ČT mi odpověděla na otázku, kolik lidí, když je osloveno tazatelem, tak skutečně odpoví a kolik neodpoví (non/response rate). A dle mě jsou to velice důležitá čísla, neboť čím více lidí neodpoví, tím mohou být výsledky více posunuté (lze si např. snadno představit, že některé skupiny lidí odpovídají méně ochotně a některé více – např. „spěchající manager“ asi bude odpovídat méně než „rentiér za vodou“, ač oba mohou být stejně staří ze stejného města se stejným příjmem, apod.).
Ale tyto hodnoty nikdo nereportuje (četl jsem o tom dokonce jako o „dirty little secret“ průzkumů). Vysokoškolští studenti, kterých jsem se ptal, tipovali poměr lidí, kteří již po zvednutí telefonu skutečně odpoví, v obrovském rozsahu – mezi 5 % a 80 %.
Takže – kolik (procent) lidí poté, co se jim tazatelé dovolali, skutečně na průzkum odpovědělo?
A samozřejmě nezapomeňte si ještě před volbami projít Volební kalkulačku.
Podpořit moje blogy můžete zkrz KohoVolit.eu pomocí DMS na číslo 87777 s textem:
DMS KOHOVOLIT (cena 30Kč, z toho 27Kč pro KohoVolit.eu)
DMS ROK KOHOVOLIT (viz předchozí, automaticky každý měsíc po 1 rok)
Vloni jsem kritizoval předvolební průzkumy, že jejich kvalita nebyl dobrá a že (hlavně veřejnoprávní) média by se, dle mého názoru, tím měla zabývat. Je jen dobře, že samotné průzkumy se letos staly již pro (alespoň některá) média tématem, kterému stojí za to se věnovat - a dle mě stále po právu.
Kvalita průzkumů byla diskutována např. v Technetu na Idnes, nebo na vlastním Idnesu, na Aktuálně. A – last but not least – dataři z Ihnedu přímo sesbírali posledních 5 let průzkumů od 4 firem a dali je do grafu.
Také samotní autoři průzkumů se mnohdy snažili více než v minulosti sami upozorňovat na jejich omezení a vysvětlovat, co přesně která čísla znamenají, byli otevření otázkám. Když jsem se sám ČT zeptal na poměrně detailní otázky, co mi nebylo jasné, dostal jsem podrobnou odpověď na všechny z nich.
Česká televize
Nejdůležitější průzkumy byly dle mého názoru letos ty od ČT. Ta si nechala dělat dokonce 2 typy průzkumů. Firmy Median a Stem/Mark dělaly průzkum v každém kraji, kde reportovaly „volební potenciál“ (maximum, kolik která strana dle nich může získat). Dle těchto krajských „potenciálů“ se zvali hosté do předvolebních debat, takže to byly zásadní.
TNS Aisa dělala 4x celostátní průzkum s tím, že reportovala naopak „modely“ (odhad, jak by volby dopadly v daný okamžik). Obecně se asi nedá říci, zda jsou lepší „modely“ nebo „potenciály“, oboje má své plusy i minusy a záleží, co po nich chceme.
Nicméně oba výstupy tím pádem nebyly srovnatelné a nedalo se automaticky je porovnávat mezi sebou (alespoň bez přístupu k zdrojovým datům, které ale ČT chce zveřejnit až za 3 roky, kdy to již bude passé). Porovnání je ale důležité, je to alespoň nějaká možnost, jak ohodnotit kvalitu průzkumů. Jak jinak tu kvalitu určit?
Nakonec se ale našel způsob, jak tyto průzkumy pro ČT srovnat mezi sebou. Byla tam jediná otázka, která byla shodná v obou průzkumech – a to hned první otázka, zda se respondent hodlá voleb zúčastnit.
A opět se vyskytl zásadní problém, že průzkumy (modely) ČT se od sebe lišily výrazně více, než jen o statistickou chybu, kterou ČT přiznávala (a které se už z principu v průzkumech nelze vyhnout). Taková chyba se pohybuje u velkých stran (ČSSD) pod 4 % nahoru i dolu. Jenže – v té jediné stejné otázce se výsledky lišily daleko více než by odpovídalo statistické chybě (více jak 2x více než by se měly maximálně lišit, pokud by oba typy průzkumů byly v pořádku). (Data jsou zde – srovnejte sloupce UA~Určitě ano v obou typech průzkumů (u TNS Aisa jsou výrazně vyšší hodnoty), podobně UN~Určitě ne)
Z toho ale lze logicky usuzovat, že i samotné modely by se výrazně lišily. Ale to znamená jediné – něco je špatně. Kdyby byly oba typy modelů dobře, tak by se nemohly tolik lišit, takže alespoň jeden z nich je „špatně“.
Jak je to možné? I relativně dobře provedené průzkumy mají problémy, kterým se těžko v praxi vyhnout – lidé nechtějí odpovědět, nepovede se důsledná reprezentativnost, těžko se odhadují nerozhodnutí, atd. Těch důvodů může být opravdu hodně.
ČT si rozdíly vysvětluje rozdílným vážením v obou typech průzkumů, což může být pravda (nebo alespoň část pravdy). Ale to neznamená, že by pořád alespoň jeden z nich nebyl „špatně“.
Minimálně jeden z těch průzkumů tedy měl odchylky od reality výrazně větší, než ČT reportovala. Zde by se nabízelo jednoduché řešení, kdyby ČT (a média obecně) prostě přiznávala, že reálná chyba průzkumů může být výrazně (třeba 2x) vyšší, než jen statistická chyba.
Samozřejmě to naráží na „problém“ - pokud řeknete, že ČSSD má dle modelu 28.5 % +- 3 %, tak to zní ok (tedy odhad je v rozmezí 25.5 % až 31.5 %). Pokud ale řeknete, že má 28.5 % +- „zhruba 6 %“, tak to už moc dobře nevypadá, neboť skutečně tedy může mít podporu někde mezi 22 % a 35 %. Ač je to dle mě správnější odhad.
Druhý problém je, že průzkumy (letos konkrétně „potenciály“) se používají jako vylučovací kritérium pro (ne)pozvánku do televizních debat. Tyto debaty se ale zrcadlí i v dalších médiích (píše se o nich, apod.) a mj. i kritérium pro pozvání na debatu na Idnes bylo založeno na těchto stejných průzkumech. Pro menší strany je velice podstatné se těch debat zúčastňovat. A pokud u malých stran kolem 3-5 % odhadnu reálnou chybu průzkumů kolem +- 2(-3) %, zdá se mi to příliš na to, použít to na tak zásadní rozhodnutí, zda je pozvat či ne. Takže tyto „potenciály“ mají reálný potenciál – ovlivnit volby.
Další průzkumy
Přesto, že s průzkumy pro ČT „bylo něco špatně“, pořád je možné je brát seriozně, pouze s výrazně větší rezervou než je jen samotná statistická chyba, kterou reportují. Stejně tak lze podobně brát další průzkumy od firem ve sdružení Simar, které se snaží definovat a dodržovat standardy, apod. Takové průzkumy byly letos od Medianu, ppm factum a Stem/Marku, dále mimo Simar stojícího akademického CVVM.
Je skoro jisté, že některé z těch firem dělají průzkumy lépe (tj. jejich výsledky více odpovídají realitě), ale je obtížné měřit, které to jsou.
Větší problémy ale můžou nastat, pokud průzkumy dělají (nebo „dělají“) firmy, které ani standardy nedodržují. A přesto (mnohá) média o jejich výsledcích reportují úplně stejně jako u těch předchozích. Zde jde např. o Sanep, který říká, že sbírá údaje na internetu - a sám např. přiznává, že vůbec nezahrnuje voliče nad 70 let. Ač má své zastánce – např. zde. Další firmou mimo Simar je Médea Research spadající pod marketingovou firmu Médea. Zcela mimo jsou potom různé ankety na internetu (tomu se věnuje i část "návodu pro voliče", který dělal můj kolega Karel Komínek).
Zajímavou alternativou k průzkumům jsou také kurzy sázkových kanceláří. Ač zde je velmi pravděpodobné, že ty jsou dost ovlivněny právě těmi průzkumy.
Velká tipovačka
A tipovačka na závěr: ČT mi odpověděla na otázku, kolik lidí, když je osloveno tazatelem, tak skutečně odpoví a kolik neodpoví (non/response rate). A dle mě jsou to velice důležitá čísla, neboť čím více lidí neodpoví, tím mohou být výsledky více posunuté (lze si např. snadno představit, že některé skupiny lidí odpovídají méně ochotně a některé více – např. „spěchající manager“ asi bude odpovídat méně než „rentiér za vodou“, ač oba mohou být stejně staří ze stejného města se stejným příjmem, apod.).
Ale tyto hodnoty nikdo nereportuje (četl jsem o tom dokonce jako o „dirty little secret“ průzkumů). Vysokoškolští studenti, kterých jsem se ptal, tipovali poměr lidí, kteří již po zvednutí telefonu skutečně odpoví, v obrovském rozsahu – mezi 5 % a 80 %.
Takže – kolik (procent) lidí poté, co se jim tazatelé dovolali, skutečně na průzkum odpovědělo?
25 %
A samozřejmě nezapomeňte si ještě před volbami projít Volební kalkulačku.
Podpořit moje blogy můžete zkrz KohoVolit.eu pomocí DMS na číslo 87777 s textem:
DMS KOHOVOLIT (cena 30Kč, z toho 27Kč pro KohoVolit.eu)
DMS ROK KOHOVOLIT (viz předchozí, automaticky každý měsíc po 1 rok)