Michal Škop

Člen rady ČRo: Předvolební průzkumy jsou jako předpověď počasí.

27. 09. 2012 | 04:27

Přečteno 5685 krát

Kdo koho tahá za nos? Český rozhlas (ČRo) voliče, ppt factum tahá ČRo, vedení ČRo tahá Radu ČRo nebo nakonec já všechny?

Úvod do děje

Jak asi víte, předvolební modely ČT a ČRo se v prvních krajích zásadně rozcházely (Pce, HK, Zlín). Což samozřejmě má dost podstatný dopad, zvláště na strany kolem 5 %. Zda se stanou pro mnoho lidí relevantní volbou. Bez nadsázky tyto průzkumy (modely) mohou rozhodnout volby.

ČRo mi (11.9.2012) – jen částečně – odpověděl na žádost o informace (nedal data) (průzkumy pro ČRo stojí zhruba 1.5 mil bez daně, pro ČT v podstatě to samé 2x tolik)

ČRo zveřejnila (20.9.2012) podrobnější metodiku od šéfů oddělení výzkumu ČRo a agentury, která průzkum provádí (ppm factum).

Včera (26.9.2012) zasedala Rada ČRo, která se průzkumům/modelům věnovala (zhruba od času 24:00, odtud i nadpis článku)

Začíná (mi) svítat

Takže jsme schopni se na ty modely/průzkumy podívat výrazně lépe (ač stále zdaleka ne dokonale). A můžeme přijít s teorií, kde je část problému. A pokud to tak je, tak i ta část je pořádný problém.

Zde je třeba uvést, že na to už částečně poukazoval p. Kotrba v B.Listech a docvaklo mi to až pří úterní hodině Analýzy dat, kde jsme se studenty rozebírali data z „hradeckých“ průzkumů.

Odvážná hypotéza

Jeden problém asi (bohužel, stále nemáme všechny informace) je, že ČRo (ppm factum) zásadně (až podvodně?) reportuje nižší samotnou statistickou chybu modelu. Zdá se to technická věc, ale na těch průzkumech potom stojí otázky v předvolebních diskusích typu „jak nám vysvětlíte, že máte oproti posledním volbám o 10 % méně?“, které jsou podstatnou částí těch diskusí.

Krok po kroku

Vraťme se na začátek a uveďme to na jednoduchém příkladě odhadu pro ČSSD v Pardubicích (kraj).

V Pardubicích odpovídalo 1004 lidí.

ČRo reportuje odhad 17.6 % +- 2.4 % (čemuž říká 90% interval spolehlivosti, tedy že na 90 % skutečná podpora ČSSD je v tom intervalu) (slide 10 a 11).

První menší chyba?

Dle metodiky po přepočítání to je ale 95% interval, 90% by byl +- 2.0 % (1. problém, menší, dokonce opačným směrem)

Něco menšího nám ČRo neprozradí

Důvody pro účast ve volbách řeklo 450 lidí (45 %), nicméně ČRo předpovídá účast 39 % (~390 lidí). Takže to nějak přepočítává, ale neřekne jak. Black box. Rozdíl může být tím, že 60 lidí, co chce jít k volbám, neřeklo stranu. Zhruba 390 lidí jim řeklo stranu (já vím, oni tam mají "model", ale jak k němu dojdou, tají, tak alespoň náš odhad)

ČSSD tedy v průzkumu podpořilo tak 69 lidí (17.6 % z 390).

Odbočka

Není bez zajímavosti, že 1 % v modelu odpovídá ani ne 4 lidem. Takže takové strany s podporou 2 % ...

A rovnou zpět na hlavní problém

ČRo počítá dle metodiky statistickou chybu +-2.4 % (jak už víme, říká jí 90%, ale spíše jde o 95%) z 1004 lidí. Moment – ale přeci hlasovat již zvolenou stranu chce jít jen 390 lidí!
Metodika to vysvětluje "Respondenti, kteří na otázku [kterou stranu by volili] uvedli odpověď „neví“ nebo „nešel by volit“, vstupují do volebního modelu s nulovou vahou." To je ale jen jinak a fikanějí napsáno, že tyto odpovědi se pro model prostě nepoužijí. Ale na tohle snad neskočíme, že. Takže model se reálně tvoří z nějakých 390 odpovědí, ale říkají, že 1004. A tím podceňují statistickou chybu. 2. problém, zásadní.

Takže spočtěme stat. chybu tak, jak si myslíme, že je to správně, tedy 95%, ale z 390 lidí: +- 3.6 % To je ale 1.5x tolik než kolik říkají. (U stran kolem 25 % podpory to je dokonce tak +-4.3 %)

Ilustrace

Ještě nejsme v cíli

Samozřejmě, pořád to nevysvětluje "tak velké rozdíly mezi ČT a ČRo, ale už se blížíme. Snad to do voleb stihneme.

Další problematická místa:

ČRo odmítá poskytnout (i přes žádost o informace dle z. 106/1999) zdrojová data. To nese dva problémy:
a) nelze nezávisle ověřit, zda ty výpočty jsou správně, Factum/ČRo si může reportovat, co se jim zlíbí
b) data jsou zaplacena z veřejných peněz, tak by měla být veřejná k dalšímu využítí
(nehledě na to, že pokud ČRo bude referovat o některých případech odmítání poskytnutí informací, bude to odteď trochu pokrytecké)

ČRo v metodice (v debatách, nakonec i té Radě ČRo) říká, že zve ty strany, které s 90% pravděpodobností překročí hranici 5 %. Dle mě tam ale počítají 97.5% hranici. A to (chybně) z 1004 lidí a ne z těch 390. To ovlivňuje hosty debaty ze stran něco nad 5 %. Pokud si to přeložíme, tak ČRo říká, že pozve toho, kdo dostane alespoň tak 6.2 %. Dle jejich výpočtu to vypadá, že zvou toho, kdo dostane 6.5 %. Dle mého výpočtu a dle toho, co říkají, tak by měly zvát až toho, kdo dostane 6.6 %. To není takový rozdíl, pokud zrovna nejste lídr strany s odhadem 6.4 %.

Nereportuje se non-response (lidé, kteří se prostě odmítli s průzkumníky bavit). To, zcela tipuji, může být 50 % a rozhodně nejde o reprezentativních 50 % (může jít o lidi více nedůvěřivé a spíše volící stranu X). Pokud se podíváte na průzkumy před pražským metrem, tak je to klidně 90 %. Tady je samozřejmě další možný podstatný zdroj chyby.

Ze zkušenosti víme, že ty chyby modelů (i u Factum) jsou daleko větší než jen reportované statistické. Vizte volby 2010, kde u Factum nesedí výsledky ČSSD, TOP 09, SPOZ. Opět o tom ČRo nemluví.

Je samozřejmě sporné, pokud si ČRo u takto důležitých věcí na firmě nevymíní, že kompletní metodika musí být veřejná (vizte "know how, co zásadně nesdělujeme"), podobné jako s daty. Nelze zapomínat, že průzkumy (a samotné pozvání do debaty) nejen ("nějak") zobrazují veřejné mínění, ale také ho tvoří.

Optimistický závěr

Ale zakončeme optimisticky. Člen vedení ČRo (ze záznamu není poznat, kdo) včera řekl: Já jsem také rád, že se o to veřejnost zajímá. Já si také myslím, že je třeba v tomto šířit osvětu a šířit vlastně i gramotnost směrem k tomu jak veřejnost přijímá takové průzkumy veřejného mínění […]

Takže ano, i já jsem rád, že ČRo je rád, že se o to zajímáme. Takže prosím prosím, Český rozhlase, šiřte tu osvětu dál, jste bezpochyby na dobré cestě, už jenom kousek. Ještě mi ukažte, jak to (zase) nechápu, a zveřejněte:

přesně postup, jak k těm číslům docházíte z dat (pletu se tu někde zásadně?)

zdrojová data průzkumů, ať si to přepočtem a uvidíme, že nás za ten nos netaháte.

Česká televize

Samozřejmě, ČT dělá pravděpodobně to samé. Ale reportuje ještě méně. A stálo to 2x tolik.