1. stranica
The English version is incomplete:
https://soric-b.tripod.com/statisticalinference/ Dr.med. Branko Soric e-mail address: branko.soric@zg.htnet.hr or: branko.soric@zg.t-com.hr
Dobro dosli na moje web-stranice! Ovdje mozete
citati o nekim zabludama u danasnjem statistickom zakljucivanju. Tekst je na hrvatskom jeziku.
Engleski tekst je nedovrsen: https://soric-b.tripod.com/statisticalinference/ Dr.med. Branko Soric
e-mail adresa: branko.soric@zg.htnet.hr ili: branko.soric@zg.t-com.hr
Napomena: U ovom tekstu neka hrvatska slova morala su biti
zamijenjena slovima "c", "s", "z", "dj". Grcko slovo alfa zamijenjeno je znakom ¤
. Eksponenti su oznaceni znakom ^ ; na pr.: 10^-6 = 0,000001 (deset na minus sestu). Indeksi se nalaze iza slova, na pr.:
r1, r2, ¤1, ¤2, Qmax.
Zagreb,
III.- V. 2001.
Branko Soric:
ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA ( POTREBNO JE IZRACUNAVANJE
MAKSIMALNOG POSTOTKA LAZNIH STATISTICKIH OTKRICA ILI POSTIZANJE VISIH RAZINA ZNACAJNOSTI U POJEDINACNIM POKUSIMA )
KRATKI PRIKAZ (SAZETAK)
Odavno postoje proturjecna misljenja o vrijednosti i ispravnosti statistickog testiranja. Danas se
ne zna koliko neistine ima u onom dijelu medicine (i drugih znanosti) koji je samo statisticki "provjeren", a o kojemu nemamo
drugih, sigurnijih dokaza. Uz odabranu razinu statisticke znacajnosti od 5% ili 1%, lako je moguce, da je postotak neistine
veci od 10%, ili 20%, ili 50% ... Ali, mi bismo morali ZNATI da postotak
zabluda nije veci od oko 1% (ili bar 5%) - jer, znanost je ono sto se zna, a ne ono sto se ne zna! Potrebno je ispraviti udzbenike
statistike i praksu.
Karl. Pearson je 1894. godine, ispitujuci ispravnost ruleta u Monte Carlu, odbacio nul-hipotezu
na temelju ekstremno male vjerojatnosti (manje
od jedan naprama milijardu) da bi se opazene pojave mogle slucajno pojaviti kod ispravnog ruleta. Naime, buduci da se dogodilo
nesto, sto je "prakticki nemoguce" kod ispravnog ruleta, zakljucio je da rulet mora biti neispravan. (Napomena: Nul-hipoteza
je pretpostavka da neka pojava ili efekt NE postoji. Odbaciti istinitu nul-hipotezu znaci uciniti lazno otkrice).
Kasnije su statisticari (neopravdano!) jako ublazili kriterij za odbacivanje nul-hipoteze
u zelji da se postigne sto veci broj "statisticki provjerenih" tvrdnji t.j. sto vise znanstvenih otkrica. Dogadjaj koji ima
vjerojatnost, na pr., oko 0,1% tesko bismo mogli nazvati "prakticki nemogucim"! Ipak, suvremeni statisticari smatraju da se
nul-hipoteza moze odbaciti cak i na temelju vjerojatnosti od 5%. Cini se da je to prouzrocilo nedovoljnu vjerodostojnost danasnje
znanosti. U posljednjih desetak i vise godina (koliko mi je poznato) nije se bitno poboljsala ni istrazivacka praksa ni tekstovi
u udzbenicima statistike.
Ako u vrlo velikom broju (n) nezavisnih
pokusa postoji velik broj (a) istinitih nul-hipoteza, te ako se iz skupa n postigne r statisticki znacajnih rezultata ("otkrica")
na razini ¤ (=alfa), tada vjerojatnost da je neko otkrice neistinito
nije ¤ (kao sto se nerijetko misli) nego: ¤a/r = ¤a/(¤a+fb) (a to je razlicito od ¤, osim kad
bi bilo a = r; ali to ne mora biti, a to ni ne znamo, jer "a" je nepoznat broj). (Vidi sliku 1).
Broj laznih otkrica je ¤a, a broj istinitih otkrica je fb.
U
ranije objavljenim radovima (Soric B., 1981. i 1989.; vidi nize u popisu literature) objasnio sam kako se moze izracunati
najveci postotak (odnosno proporcija, Qmax) laznih otkrica u vrlo velikom skupu ucinjenih statistickih otkrica (odnosno, ako
je skup nesto manji, moze se priblizno izracunati Qmax) po formuli koja je tamo objavljena. Tamo je objavljen i izvod te formule,
koji je jednostavan. (Premda je taj izvod jednostavan, ipak, koliko mi je poznato, nitko nije ranije objavio slican izvod
niti formulu). Ta formula glasi ovako:
Qmax = ¤(a,max)/r = [(n/r)-1]/[(1/¤)-1] (gdje ¤ stoji umjesto "alfa").
Ta formula bi tocno vrijedila za neizmjerno velike skupove pokusa, a kod skupova od nekoliko tisuca pokusa ona daje
samo pribliznu vrijednost Qmax . Ipak, i za takve skupove mozemo dosta tocno odrediti prakticki najvecu mogucu vrijednost
za Qmax (kao sto ce biti prikazano u opsirnijem tekstu).
U povoljnom slucaju, kada se nadje da je vrijednost Qmax
dovoljno mala, to ce nam biti korisno saznanje. U protivnom slucaju, ako se nadje suvise velika vrijednost, to ne znaci da
cijeli skup otkrica trebamo definitivno odbaciti, nego je potrebno dodatno provjeravanje.
Prava (nepoznata) vrijednost
Q moze biti manja od izracunate vrijednosti Qmax. Ako se nadje, na pr., da je Qmax = 30%, moguce je da je Q manje od 5% ili
cak manje od 1%. To nije tako velik nedostatak, kao sto moze nekome izgledati, jer ni inace nismo u boljoj situaciji. Naime,
zapravo nije dovoljno znati samo postotak istinitih otkrica u velikom skupu r, nego bi bilo jako vazno znati i to, kolika
je razlika medju populacijama (t.j. velicina efekta) kod tih istinitih otkrica. Ako je prosjecni efekt u skupu otkrica zanemarivo
malen, ta nam otkrica mnogo ne koriste. Ali, na zalost, kad god dobijemo neki rezultat, koji je znacajan na razini od 5% (odnosno
1% ili sl.), ta postignuta razina statisticke znacajnost nista nam ne govori o velicini efekta! Lako mozemo pogrijesiti ako
tvrdimo da je neki efekt veci od nule, pa zato jos manje smijemo tvrditi da je taj efekt veci od neke odredjene vrijednosti
(koja bi bila veca od nule). Zbog toga nam niti 95-postotni odnosno 99-postotni intervali pouzdanosti ne daju nikakvu dodatnu
informaciju o velicini efekta. (Objasnjenja se nalaze u opsirnijem tekstu).
Sto bi nam vrijedilo naciniti 100 otkrica,
od kojih bi samo jedno bilo lazno, ali se u preostalih 99 istinitih otkrica alternativne populacije gotovo ne bi ni razlikovale
od nul-populacijā?! U tom pogledu, ono sto mozda izgleda kao nedostatak moze se shvatiti i kao prednost: naime, nije se lose
osloniti na izracunatu vrijednost Qmax jer sto je veca razlika izmedju Qmax i Q - t.j. sto je manja stvarna proporcija laznih
otkrica Q u odnosu na nadjenu proporciju Qmax - to je manja prosjecna velicina efekta (t.j. prosjecna razlika medju populacijama)
u skupu otkrica (r). U krajnjem slucaju, prosjecni efekt moze biti zanemarivo malen. Dakle, ne bi morala nastati neka narocita
steta, cak kad bismo i "izgubili" takva otkrica. Ali, mi ih ne moramo izgubiti, vec ih mozemo dalje provjeravati.
U
protivnom slucaju, ako se dobije vrlo mala vrijednost Qmax , znamo da postoji bar kakav-takav (a mozda i znatan) prosjecni
efekt, koji odgovara prosjecnoj snazi testova f > r/n (vrijednost r/n nam je poznata u takvom slucaju).
U POJEDINACNOM
pokusu vazno je postici vrlo visoku (cak i ekstremno visoku) razinu znacajnosti (t.j. vrlo malu vrijednost p, manju od vrlo
male vrijednosti ¤ [=alfa]), jer to omogucuje procjenu efekta. Na pr.: Ako od neke bolesti umire (bez lijecenja) 20% bolesnika,
a u ispitivanju se nadje da je uz lijecenje umrlo 14% od 5000 bolesnika te se dobije p = 4×10^-26, tada mozemo odbaciti
ne samo nul-hipotezu (kojoj odgovara 20% umrlih uz lijecenje) nego i hipotezu o 17% umrlih, jer je jos uvijek p vrlo malen
t.j. p = 2×10^-8, Tako saznajemo da se tim lijecenjem spasava vise od 3% oboljelih, t.j. da je efekt ne samo veci od nule
nego je veci od 3%.
Najveci problem je mozda taj, sto ne mozemo biti sigurni ni u istinitost prikupljenih statistickih
podataka (koji se kasnije statisticki obradjuju). Ne dogadja se bas rijetko, da se svjesno ili nesvjesno rabe neistiniti ili
"nategnuti" podatci, pa se na taj nacin lako postizu nova "otkrica". Ali, i kod onih strucnjaka, koji iskreno zele biti potpuno
objektivni, nisu rijetke razne zablude. (Par primjera nalazi se u opsirnijem tekstu. Izmedju ostaloga, krivo se misli da velicinu
efekta kod ucinjenog otkrica mozemo priblizno odrediti 95-postotnim odnosno 99-postotnim intervalima pouzdanosti).
Cini
mi se, da neki strucnjaci mozda ipak dovoljno ne shvacaju, sto bi zapravo trebalo napisati i objasniti u svakom udzbeniku
statistike, a to je slijedece:
KRIVO JE (BAR U DANASNJOJ SITUACIJI) ODBACITI NUL-HIPOTEZU, U POJEDINACNOM POKUSU,
NA TEMELJU RELATIVNO NISKE RAZINE STATISTICKE ZNACAJNOSTI (NA PR. 5%, A MOZDA I 1%)! To je krivo zato, sto je pri tome
rizik nepoznat (za razliku od onoga sto pise u udzbenicima!).
Ispravniji postupak bio bi ovaj: ILI treba (1) voditi
racuna o broju (r) dobivenih znacajnih rezultata ("otkrica") u poznatom velikom broju (n) pokusā, pa odatle (priblizno) izracunati
maksimalni postotak laznih otkrica medju svim ucinjenim otkricima (Qmax),
ILI treba (2) odbaciti nul-hipotezu u pojedinacnom
pokusu samo onda, kada se postigne mnogo visa razina znacajnosti nego sto je danas uobicajeno t.j. znatno manja vrijednost
p , na pr. blizu 0,000 000 001 = 10^-9 ili (mozda) bar p< 0,000 001 = 10^-6 (premda nije iskljuceno, da bi
se nul-hipoteze mozda mogle odbaciti u pojedinacnim pokusima i na temelju neke druge vrijednosti p - recimo p<0,0001 ili
p<0,001 (???) - ali to bi tek trebalo dokazati!)
[O gornjemu sam pisao 1981. do 1989. godine (vidi nize: popis
literature, Soric B., 1981., 1989.). O neispravnom shvacanju znacenja i vrijednosti (korisnosti) statisticke znacajnosti pisali
su i drugi autori (na pr.: Iyengar S. i Greenhouse J. B. 1988; Morrison D. E. i Henkel R. E 1973; Oakes M.W. 1986; Soric B.
i Petz B. 1987.; vidi nize: popis lit.)].
Kako bi, dakle, trebali postupati istrazivaci? Nije lose objaviti rezultate
sa postignutim vrijednostima p oko 0,05 do 0,001 (ili sl.), ali ne treba ih smatrati dovoljno provjerenim otkricima, nego
samo "prijedlozima" za daljnje provjeravanje (dok se eventualno ne utvrdi koja razina znacajnosti je zapravo dovoljna za pojedinacne
pokuse). Ako je alternativna hipoteza zaista ispravna, ponavljanjem takvih pojedinacnih pokusa na vecim uzorcima lako ce se
postici mnogo vise razine znacajnosti; ILI, mogu se ponavljati dovoljno veliki skupovi takvih pokusa radi postizanja dovoljno
male proporcije Qmax (eventualno cak uz vrlo niske razine znacajnosti, kao na pr. p = 0,05 ili p = 0,1 ili 0,2 itd.). Bez
ponavljanja ne mogu se smatrati istinitim otkricima cak ni oni rezultati, kod kojih su postignute ekstremno visoke razine
statisticke znacajnosti, jer se moze raditi o (nenamjernim) sistematskim pogreskama u prikupljanju podataka (ili o drugim
neispravnostima).
************
Ovaj tekst (kao i opsirniji tekst) nadovezuje se na moje ranije objavljene
radove (vidi nize u popisu literature: Soric B. 1981., 1989.). U njemu iznosim uglavnom ono, sto sam morao, radi stednje prostora,
izostaviti u tim ranijim tekstovima. Osim toga kasnije cu navesti i opcenitiju formulu, pomocu koje se moze izracunati
vrijednost Qmax u slucaju da se ne zna broj pokusa (n). O problemima zakljucivanja na temelju rezultata statistickih testova
pisali su i drugi (vidi popis lit.).
Ne znam hoce li biti neke koristi od cijelog mog truda. Ipak, pisem ovo, jer
je moguce, da bi bilo jos manje korisno odustati od pisanja.
Ovaj tekst objavljujem bez prethodnog pribavljanja recenzije,
jer sam ono, sto je u njemu bitno, vec ranije objavio, tako da su kompetentni recenzenti vec ranije dali svoja misljenja o
tim bitnim stvarima. Ipak, zbog nepostojanja nove recenzije, MOGUCE SU POGRESKE, pa molim citatelje da me na njih upozore,
kako bih ih mogao ispraviti.
---------KRAJ SAZETKA---------
Vidi stranice 2. do 8.!
LITERATURA:
PEARSON K.: "Science and Monte Carlo", Fortnightly Review, Februray 1894 HOGBEN L.: Mathematics
for the Million, Pan Books Ltd., London 1967., str. 589. PETZ B.: Osnovne statisticke metode
za nematematicare, 3. izdanje, Naklada Slap, Jastrebarsko 1997., str.126. do 138.
SERDAR V.: Udzbenik statistike, Skolska knjiga, Zagreb 1977., str 306. SORIC
B.: "Kritika statistickog odlucivanja", Zdravstvo, 23, 1981. (str. 143.-153.)
SORIC B.: "Poboljsanje metode i kontrola ispravnosti statistickog odlucivanja", Zdravstvo, 23, 1981. (str. 154-170.)
SORIC B. i PETZ B.: "Koliki postotak znanstvenih otkrica nisu otkrica?", Arhiv za higijenu rada i toksikologiju, 38, 1987.
(str. 251-260.) SORIC B.: "Statisitcal 'Discoveries' and Effect-size Estimation",
Journal of the American Statistical Association, *
Vol. 84, No. 406 (Theory and Methods), 1989 (str. 608-610.)
MORRISON D. E. and HENKEL R. E. (eds.): The
Significance Test Controversy (2nd ed.), Aldine, Chicago, 1973 OAKES M. W.: Statistical
Inference: A Commentary for the Social and Behavioural Sciences, John Wiley, 1986, New York MOORE
D.S.: Statisitcs Concepts and Cotroversies, 4th ed., W. H. Freeman and Company, 1997 New York
VRHOVAC B., i dr.: Klinicko ispitivanje lijekova, Skolska knjiga, Zagreb, 1984. (str.27-28., 65.)
IYENGAR S. and GREENHOUSE J. B.: "Selection Models and the File Drawer Problem", Statistical Science, 3, 1988 (str. 109-135.)
************ *
http://www.jstor.org/pss/2289950
Nekoliko adresa radova u kojima je spomenut
clanak B. Sorica iz JASA (1989.).
--------------
http://www.bepress.com/uwbiostat/paper259 Download the Paper
vidi:
str 16. ili 18. / 6.2
False discovery rate optimality by the ODP (......) (Soric
1989, Benjamini & Hochberg 1995):
--------------
http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_hochberg1995.pdf
Ili: Google: This criterion integrates
SpjotvolPs (1972) concern
http://www.google.hr/search?hl=hr&q=This+criterion+integrates+SpjotvolPs+%281972%29+concern&btnG=Tra%C5%BEi&meta= (str. 3)
--------------
http://genomebiology.com/2006/7/3/401 "False-discovery rates were originally proposed by Soric [2] and Benjamini and Hochberg"
--------------
http://www.vanbelle.org/ Vidi:
http://www.vanbelle.org/rom%5CROM_2002_06.pdf#search=%22FDR%20Soric%22
(str. 2) "...seminal paper by Soric (1989)"
--------------
http://www.stat.berkeley.edu/tech-reports/633.pdf#search=%22FDR%20Soric%22
(str. 21) "...Seeger
(1968) and Sorić (1989)".
--------------
http://www.stat.purdue.edu/~tlzhang/mathstat/pvaluerev.pdf
"1. Introduction - In a strikingly interesting short
note, Sorić [19] raised the question...." (.....) Benjamini and Hochberg [3] then looked at the question in
much greater detail. (......)
--------------
(Vidi malo opširnije
na ovoj adresi https://soric-b.tripod.com/statisticalinference/ ):
---------------------------------
2. stranica
|