Statisticko zakljucivanje

1. stranica

      The English version is incomplete: https://soric-b.tripod.com/statisticalinference/
      Dr.med. Branko Soric
      e-mail address: branko.soric@zg.htnet.hr   or: branko.soric@zg.t-com.hr

      Dobro dosli na moje web-stranice! Ovdje mozete citati o nekim zabludama u danasnjem statistickom zakljucivanju. Tekst je na hrvatskom jeziku.

      Engleski tekst je nedovrsen: https://soric-b.tripod.com/statisticalinference/
      Dr.med. Branko Soric
      e-mail adresa: branko.soric@zg.htnet.hr    ili: branko.soric@zg.t-com.hr

Napomena: U ovom tekstu neka hrvatska slova morala su biti zamijenjena slovima "c", "s", "z", "dj". Grcko slovo alfa zamijenjeno je znakom ¤ . Eksponenti su oznaceni znakom ^ ; na pr.: 10^-6 = 0,000001 (deset na minus sestu). Indeksi se nalaze iza slova, na pr.: r1, r2, ¤1, ¤2, Qmax.

Zagreb, III.- V. 2001.

Branko Soric:

ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA
( POTREBNO JE IZRACUNAVANJE MAKSIMALNOG POSTOTKA LAZNIH STATISTICKIH OTKRICA ILI POSTIZANJE VISIH RAZINA ZNACAJNOSTI U POJEDINACNIM POKUSIMA )

KRATKI PRIKAZ (SAZETAK)

Odavno postoje proturjecna misljenja o vrijednosti i ispravnosti statistickog testiranja. Danas se ne zna koliko neistine ima u onom dijelu medicine (i drugih znanosti) koji je samo statisticki "provjeren", a o kojemu nemamo drugih, sigurnijih dokaza. Uz odabranu razinu statisticke znacajnosti od 5% ili 1%, lako je moguce, da je postotak neistine veci od 10%, ili 20%, ili 50% ... Ali, mi bismo morali ZNATI da postotak zabluda nije veci od oko 1% (ili bar 5%) - jer, znanost je ono sto se zna, a ne ono sto se ne zna! Potrebno je ispraviti udzbenike statistike i praksu.

Karl. Pearson je 1894. godine, ispitujuci ispravnost ruleta u Monte Carlu, odbacio nul-hipotezu na temelju ekstremno male vjerojatnosti (manje od jedan naprama milijardu) da bi se opazene pojave mogle slucajno pojaviti kod ispravnog ruleta. Naime, buduci da se dogodilo nesto, sto je "prakticki nemoguce" kod ispravnog ruleta, zakljucio je da rulet mora biti neispravan. (Napomena: Nul-hipoteza je pretpostavka da neka pojava ili efekt NE postoji. Odbaciti istinitu nul-hipotezu znaci uciniti lazno otkrice).

Kasnije su statisticari (neopravdano!) jako ublazili kriterij za odbacivanje nul-hipoteze u zelji da se postigne sto veci broj "statisticki provjerenih" tvrdnji t.j. sto vise znanstvenih otkrica. Dogadjaj koji ima vjerojatnost, na pr., oko 0,1% tesko bismo mogli nazvati "prakticki nemogucim"! Ipak, suvremeni statisticari smatraju da se nul-hipoteza moze odbaciti cak i na temelju vjerojatnosti od 5%. Cini se da je to prouzrocilo nedovoljnu vjerodostojnost danasnje znanosti. U posljednjih desetak i vise godina (koliko mi je poznato) nije se bitno poboljsala ni istrazivacka praksa ni tekstovi u udzbenicima statistike.

Ako u vrlo velikom broju (n) nezavisnih pokusa postoji velik broj (a) istinitih nul-hipoteza, te ako se iz skupa n postigne r statisticki znacajnih rezultata ("otkrica") na razini ¤ (=alfa), tada vjerojatnost da je neko otkrice neistinito nije ¤ (kao sto se nerijetko misli) nego: ¤a/r = ¤a/(¤a+fb) (a to je razlicito od ¤, osim kad bi bilo a = r; ali to ne mora biti, a to ni ne znamo, jer "a" je nepoznat broj). (Vidi sliku 1).

Broj laznih otkrica je ¤a, a broj istinitih otkrica je fb.

U ranije objavljenim radovima (Soric B., 1981. i 1989.; vidi nize u popisu literature) objasnio sam kako se moze izracunati najveci postotak (odnosno proporcija, Qmax) laznih otkrica u vrlo velikom skupu ucinjenih statistickih otkrica (odnosno, ako je skup nesto manji, moze se priblizno izracunati Qmax) po formuli koja je tamo objavljena. Tamo je objavljen i izvod te formule, koji je jednostavan. (Premda je taj izvod jednostavan, ipak, koliko mi je poznato, nitko nije ranije objavio slican izvod niti formulu). Ta formula glasi ovako:

Qmax = ¤(a,max)/r = [(n/r)-1]/[(1/¤)-1]
(gdje ¤ stoji umjesto "alfa").

Ta formula bi tocno vrijedila za neizmjerno velike skupove pokusa, a kod skupova od nekoliko tisuca pokusa ona daje samo pribliznu vrijednost Qmax . Ipak, i za takve skupove mozemo dosta tocno odrediti prakticki najvecu mogucu vrijednost za Qmax (kao sto ce biti prikazano u opsirnijem tekstu).

U povoljnom slucaju, kada se nadje da je vrijednost Qmax dovoljno mala, to ce nam biti korisno saznanje. U protivnom slucaju, ako se nadje suvise velika vrijednost, to ne znaci da cijeli skup otkrica trebamo definitivno odbaciti, nego je potrebno dodatno provjeravanje.

Prava (nepoznata) vrijednost Q moze biti manja od izracunate vrijednosti Qmax. Ako se nadje, na pr., da je Qmax = 30%, moguce je da je Q manje od 5% ili cak manje od 1%. To nije tako velik nedostatak, kao sto moze nekome izgledati, jer ni inace nismo u boljoj situaciji. Naime, zapravo nije dovoljno znati samo postotak istinitih otkrica u velikom skupu r, nego bi bilo jako vazno znati i to, kolika je razlika medju populacijama (t.j. velicina efekta) kod tih istinitih otkrica. Ako je prosjecni efekt u skupu otkrica zanemarivo malen, ta nam otkrica mnogo ne koriste. Ali, na zalost, kad god dobijemo neki rezultat, koji je znacajan na razini od 5% (odnosno 1% ili sl.), ta postignuta razina statisticke znacajnost nista nam ne govori o velicini efekta! Lako mozemo pogrijesiti ako tvrdimo da je neki efekt veci od nule, pa zato jos manje smijemo tvrditi da je taj efekt veci od neke odredjene vrijednosti (koja bi bila veca od nule). Zbog toga nam niti 95-postotni odnosno 99-postotni intervali pouzdanosti ne daju nikakvu dodatnu informaciju o velicini efekta. (Objasnjenja se nalaze u opsirnijem tekstu).

Sto bi nam vrijedilo naciniti 100 otkrica, od kojih bi samo jedno bilo lazno, ali se u preostalih 99 istinitih otkrica alternativne populacije gotovo ne bi ni razlikovale od nul-populacijâ?! U tom pogledu, ono sto mozda izgleda kao nedostatak moze se shvatiti i kao prednost: naime, nije se lose osloniti na izracunatu vrijednost Qmax jer sto je veca razlika izmedju Qmax i Q - t.j. sto je manja stvarna proporcija laznih otkrica Q u odnosu na nadjenu proporciju Qmax - to je manja prosjecna velicina efekta (t.j. prosjecna razlika medju populacijama) u skupu otkrica (r). U krajnjem slucaju, prosjecni efekt moze biti zanemarivo malen. Dakle, ne bi morala nastati neka narocita steta, cak kad bismo i "izgubili" takva otkrica. Ali, mi ih ne moramo izgubiti, vec ih mozemo dalje provjeravati.

U protivnom slucaju, ako se dobije vrlo mala vrijednost Qmax , znamo da postoji bar kakav-takav (a mozda i znatan) prosjecni efekt, koji odgovara prosjecnoj snazi testova f > r/n (vrijednost r/n nam je poznata u takvom slucaju).

U POJEDINACNOM pokusu vazno je postici vrlo visoku (cak i ekstremno visoku) razinu znacajnosti (t.j. vrlo malu vrijednost p, manju od vrlo male vrijednosti ¤ [=alfa]), jer to omogucuje procjenu efekta. Na pr.: Ako od neke bolesti umire (bez lijecenja) 20% bolesnika, a u ispitivanju se nadje da je uz lijecenje umrlo 14% od 5000 bolesnika te se dobije
p = 4×10^-26, tada mozemo odbaciti ne samo nul-hipotezu (kojoj odgovara 20% umrlih uz lijecenje) nego i hipotezu o 17% umrlih, jer je jos uvijek p vrlo malen
t.j. p = 2×10^-8, Tako saznajemo da se tim lijecenjem spasava vise od 3% oboljelih, t.j. da je efekt ne samo veci od nule nego je veci od 3%.

Najveci problem je mozda taj, sto ne mozemo biti sigurni ni u istinitost prikupljenih statistickih podataka (koji se kasnije statisticki obradjuju). Ne dogadja se bas rijetko, da se svjesno ili nesvjesno rabe neistiniti ili "nategnuti" podatci, pa se na taj nacin lako postizu nova "otkrica". Ali, i kod onih strucnjaka, koji iskreno zele biti potpuno objektivni, nisu rijetke razne zablude. (Par primjera nalazi se u opsirnijem tekstu. Izmedju ostaloga, krivo se misli da velicinu efekta kod ucinjenog otkrica mozemo priblizno odrediti 95-postotnim odnosno 99-postotnim intervalima pouzdanosti).

Cini mi se, da neki strucnjaci mozda ipak dovoljno ne shvacaju, sto bi zapravo trebalo napisati i objasniti u svakom udzbeniku statistike, a to je slijedece:

KRIVO JE (BAR U DANASNJOJ SITUACIJI) ODBACITI NUL-HIPOTEZU, U POJEDINACNOM POKUSU, NA TEMELJU RELATIVNO NISKE RAZINE STATISTICKE ZNACAJNOSTI (NA PR. 5%, A MOZDA I 1%)!
To je krivo zato, sto je pri tome rizik nepoznat (za razliku od onoga sto pise u udzbenicima!).

Ispravniji postupak bio bi ovaj:
ILI treba (1) voditi racuna o broju (r) dobivenih znacajnih rezultata ("otkrica") u poznatom velikom broju (n) pokusâ, pa odatle (priblizno) izracunati maksimalni postotak laznih otkrica medju svim ucinjenim otkricima (Qmax),

ILI treba (2) odbaciti nul-hipotezu u pojedinacnom pokusu samo onda, kada se postigne mnogo visa razina znacajnosti nego sto je danas uobicajeno t.j. znatno manja vrijednost p ,
na pr. blizu 0,000 000 001 = 10^-9
ili (mozda) bar p< 0,000 001 = 10^-6
(premda nije iskljuceno, da bi se nul-hipoteze mozda mogle odbaciti u pojedinacnim pokusima i na temelju neke druge vrijednosti p - recimo p<0,0001 ili p<0,001 (???) - ali to bi tek trebalo dokazati!)

[O gornjemu sam pisao 1981. do 1989. godine (vidi nize: popis literature, Soric B., 1981., 1989.). O neispravnom shvacanju znacenja i vrijednosti (korisnosti) statisticke znacajnosti pisali su i drugi autori (na pr.: Iyengar S. i Greenhouse J. B. 1988; Morrison D. E. i Henkel R. E 1973; Oakes M.W. 1986; Soric B. i Petz B. 1987.; vidi nize: popis lit.)].

Kako bi, dakle, trebali postupati istrazivaci? Nije lose objaviti rezultate sa postignutim vrijednostima p oko 0,05 do 0,001 (ili sl.), ali ne treba ih smatrati dovoljno provjerenim otkricima, nego samo "prijedlozima" za daljnje provjeravanje (dok se eventualno ne utvrdi koja razina znacajnosti je zapravo dovoljna za pojedinacne pokuse). Ako je alternativna hipoteza zaista ispravna, ponavljanjem takvih pojedinacnih pokusa na vecim uzorcima lako ce se postici mnogo vise razine znacajnosti;
ILI, mogu se ponavljati dovoljno veliki skupovi takvih pokusa radi postizanja dovoljno male proporcije Qmax (eventualno cak uz vrlo niske razine znacajnosti, kao na pr. p = 0,05 ili p = 0,1 ili 0,2 itd.).
Bez ponavljanja ne mogu se smatrati istinitim otkricima cak ni oni rezultati, kod kojih su postignute ekstremno visoke razine statisticke znacajnosti, jer se moze raditi o (nenamjernim) sistematskim pogreskama u prikupljanju podataka (ili o drugim neispravnostima).

************

Ovaj tekst (kao i opsirniji tekst) nadovezuje se na moje ranije objavljene radove (vidi nize u popisu literature: Soric B. 1981., 1989.). U njemu iznosim uglavnom ono, sto sam morao, radi stednje prostora, izostaviti u tim ranijim tekstovima.
Osim toga kasnije cu navesti i opcenitiju formulu, pomocu koje se moze izracunati vrijednost Qmax u slucaju da se ne zna broj pokusa (n).
O problemima zakljucivanja na temelju rezultata statistickih testova pisali su i drugi (vidi popis lit.).

Ne znam hoce li biti neke koristi od cijelog mog truda. Ipak, pisem ovo, jer je moguce, da bi bilo jos manje korisno odustati od pisanja.

Ovaj tekst objavljujem bez prethodnog pribavljanja recenzije, jer sam ono, sto je u njemu bitno, vec ranije objavio, tako da su kompetentni recenzenti vec ranije dali svoja misljenja o tim bitnim stvarima. Ipak, zbog nepostojanja nove recenzije, MOGUCE SU POGRESKE, pa molim citatelje da me na njih upozore, kako bih ih mogao ispraviti.