Nerijetko se tvrdi, da je nesto statisticki "provjereno"
ili "dokazano", a zatim, da ipak nije dokazano, ili cak da je "dokazano" suprotno. Odavno postoje proturjecna misljenja o
vrijednosti i ispravnosti statistickog testiranja. Vrijeme je da statisticari i znanstveni istrazivaci pocnu raditi drugacije
i bolje. Potrebno je ispraviti tekstove u udzbenicima statistike i praksu! Danas se ne zna koliko neistine ima u onom dijelu
medicine (i drugih znanosti) koji je samo statisticki "provjeren", a o kojemu nemamo drugih, sigurnijih dokaza. Uz odabranu
razinu statisticke znacajnosti od 5% ili 1%, lako je moguce, da je postotak neistine veci od 10%, ili 20%, ili 50% ... Ali,
mi bismo morali ZNATI da postotak zabluda nije veci od oko 1% (ili bar 5%) - jer, znanost je ono sto se zna, a ne ono sto
se ne zna!
************
Branko Soric: ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA ( POTREBNO JE IZRACUNAVANJE
MAKSIMALNOG POSTOTKA LAZNIH STATISTICKIH OTKRICA ILI POSTIZANJE VISIH RAZINA ZNACAJNOSTI U POJEDINACNIM POKUSIMA ) Zagreb,
III.- V. 2001.
SADRZAJ: |
|
------PREDGOVOR ----- I. DIO ------(na ovoj stranici)
1.---Znanstvena i statisticka »otkrica« 2.---Sto je bitno i novo u ovom tekstu? 3.---Prednosti i nedostatci nove
formule 4.---Jos neke oznake upotrebljene u ovom tekstu i izracunavanje -----proporcije Qmax po formuli (1) ---------
Slika 1 4.1--Slucaj vrlo velikih skupova 4.2--Slucaj nesto manjih skupova 4.3--Koliko je korisno znati vrijednost
Qmax ? ----- (LITERATURA) ------II. DIO -----(na 3. stranici) 5.----Sto treba uciniti kada Qmax nije dovoljno
malen? 5.1--Tablica 1.: Vrijednosti r/n koje je potrebno postici na razini alfa ------za odredjeni Qmax 5.2--Velicina
efekta i intervali pouzdanosti 6.----Izracunavanje Q'1max i Q'2max po formuli (2) i (3) 6.1--Koja razina znacajnosti
je dovoljno visoka u pojedinacnom pokusu? ------III. DIO ---- (na 4. stranici) 7.---Zablude nekih strucnjaka ------
(LITERATURA)
************
DODATAK: ------- (na 5. stranici) A)--(Ad 4.1 Slucaj vrlo velikih skupova) ------
Potpuni izvod formule (1) B)--(Ad 4.3 Koliko je korisno znati vrijednost Qmax ?) ------(B.1) Koji efekt se moze smatrati
dovoljno velikim, a koji cemo smatrati -------zanemarivo malenim? ------(B.2) Odnos izmedju broja standardnih gresaka
i broja standardnih devijacija -------(LITERATURA) C)--Primjer gotovo zanemarivog efekta:----- Slika 2. ---- (na 6.
stranici) D)--[Ad 6. Izracunavanje Q'1max i Q'2max po formuli (2) i (3)] -------Izvod formule za Q'1max i Q'2max E)--Formula
za Studentovu raspodjelu (t-raspodjelu) ---- (na 7. stranici) --------Tablica 2. Vrijednosti K za 1 do 200 stupnjeva slobode
--------Tablica 3. (Studentova raspodjela) Primjeri izracunatih vrijednosti p ---------za neke brojeve stupnjeva slobode
i neke vrijednosti t
F)--Je li moguce ostvariti sistematske dobitke na ruletu? ----- (na 8. stranici)
PREDGOVOR
Prije vise od stotinu godina (1894.) Karl Pearson je objavio rezultate znanstvenog ispitivanja ruleta u Monte Carlu. (Vidi
nize, u popisu literature: Pearson K., Hogben L.). Njegov zakljucak je bio, da taj rulet nije prava igra na srecu, jer su
se (na pr.) duge serije crvenih odnosno crnih brojeva pojavljivale previse cesto, premda je omjer crvenoga i crnoga bio ispravan
(t.j. pojavljivalo se je priblizno 50% crvenih i 50% crnih brojeva). Vjerojatnost za slucajnu pojavu nekih odstupanja, opazenih
u Monte Carlu 1894. godine, iznosila bi, kod ispravnog ruleta, manje od jedan naprama milijardu!
Objasnjenje te pojave,
prema misljenju ovog autora (Soric B., 1992. - vidi DODATAK F), moglo bi biti to, da su vjerojatnosti crvenoga i crnoga oscilirale.
(Kod ispravnog ruleta te su vjerojatnosti konstantne i medjusobno jednake: 0,5 : 0,5. U gore opisanom slucaju, cini se da
je omjer tih vjerojatnosti kroz neko vrijeme iznosio oko 0,6 : 0,4 a zatim obratno: oko 0,4 : 0,6).
Spomenuto ispitivanje
K. Pearsona moglo bi biti zanimljivo iz dva razloga: U prvom redu, mogli bismo se zapitati, je li moguce ostvariti sistematske
dobitke na ruletu - ali to NIJE predmet ovog razmatranja. (Ipak, ako nekoga to zanima, moze procitati nesto vise u DODATKU
F).
Drugo, i vaznije, jest nacin zakljucivanja K. Pearsona o istinitosti statistickih hipoteza, t.j. da li je istinita
tzv. "NUL-hipoteza" ili suprotna ("ALTERNATIVNA") hipoteza. (U ovom slucaju, nul-hipoteza bi podrazumijevala da nema odstupanja
od vjerojatnosti koje postoje kod ispravnog ruleta, dok bi alternativna hipoteza znacila neispravnost ruleta odnosno osciliranje
vjerojatnosti).
Treba istaknuti, da je K. Pearson odbacio nul-hipotezu (o ispravnom ruletu) na temelju EKSTREMNO MALE
vjerojatnosti da bi se opazene pojave mogle slucajno pojaviti kod ispravnog ruleta. Tome se ne moze prigovoriti, jer pojava
ekstremno nevjerojatnih odstupanja doista granici sa onim sto bismo mogli nazvati "prakticki nemogucim" (uz pretpostavku da
je rulet ispravan). Dakle, ako se dogodilo nesto, sto je nemoguce kod ispravnog ruleta, proizlazi da rulet mora biti neispravan,
a to znaci da treba odbaciti nul-hipotezu.
Kasnije su statisticari (neopravdano!) jako ublazili kriterij za odbacivanje
nul-hipoteze u zelji da se postigne sto veci broj "statisticki provjerenih" tvrdnji t.j. sto vise znanstvenih otkrica.
U
udzbenicima statistike (na pr. Petz, Serdar - vidi nize u popisu literature!) obicno se objasnjava da se, kod tzv. normalne
raspodjele, gotovo svi podatci (odnosno gotovo sve aritmeticke sredine uzoraka) nalaze unutar odredjenoga raspona (koji iznosi
sest "standardnih devijacija" odnosno sest "standardnih gresaka"). Medjutim, izvan toga raspona nalazi se ipak 0,27% podataka
- t.j. sa svake strane po 0,135% - sto bas i nije zanemarivo! - Dogadjaj koji ima vjerojatnost od 0,135% (dakle vecu od jedan
naprama tisucu) tesko bismo mogli nazvati "prakticki nemogucim"!
To ublazenje kriterija opravdava se otprilike ovako:
Ako se dogodi nesto, sto je MALO VJEROJATNO pri istinitoj nul-hipotezi, onda je VRLO VJEROJATNO da je nul-hipoteza neistinita.
Ali, na zalost, to vec moze biti POGRESNA tvrdnja (kao sto ce biti kasnije objasnjeno)! Navodno, ako u velikom skupu mogucih
rezultata nekog istrazivanja, u kojem je istinita nul-hipoteza, postoji samo 1% "statisticki znacajnih" rezultata, onda se
tesko moze slucajno dobiti bas takav rezultat iz toga skupa, pa je zato "vrlo vjerojatno" da dobiveni znacajni rezultat potjece
iz NEKOG DRUGOG skupa, sto znaci da nul-hipoteza nije istinita. (Ali, zar bi bilo logicno i razumno ovako zakljucivati: "Kad
sam jutros izisao iz kuce, susreo sam dimnjacara; buduci da u nasem gradu ima manje od 1% dimnjacara, malo je vjerojatno da
slucajno susretnem dimnjacara iz nasega grada; dakle, vrlo je vjerojatno da taj dimnjacar stanuje i radi u nekom drugom gradu"?!).
Medjutim, kao sto kaze B. Petz (v. nize u popisu lit.), suvremeni statisticari smatraju da je i gore navedena vjerojatnost
(od 0,135%) "suvise strog kriterij", pa su zato odlucili da se cak i vjerojatnost od 5% moze smatrati dovoljno malom vjerojatnoscu
(koja bi trebala opravdati odbacivanje nul-hipoteze)!
Na zalost, zelja da se zadovolje ambicije znanstvenih istrazivaca
- da im se olaksa postizanje rezultata koje ce oni zatim moci objaviti kao "statisticki provjerene" ili "dokazane" - cini
se da je prouzrocila nedovoljnu vjerodostojnost danasnje znanosti! Neki mozda nisu toga svjesni (?); a drugi, ako im je sve
jasno, jesu li dovoljno odgovorni da bi znanstvenu istinu smatrali vaznijom od svojh osobnih interesa i zeljâ? Kako inace
objasniti to, da se u posljednjih desetak i vise godina (koliko mi je poznato) nije bitno promijenila ni istrazivacka praksa
ni tekstovi u udzbenicima statistike?
Ovaj tekst se nadovezuje na moje ranije objavljene tekstove (v. nize u popisu
lit.: Soric B. 1981., 1989.). O problemima zakljucivanja na temelju rezultata statistickih testova pisali su i drugi (na pr.:
Morrison D. E. i Henkel R. E. 1973., Oakes M. W. 1986., Petz. B. i Soric B. 1987.; vidi nize popis lit.).
Ne znam
hoce li biti neke koristi od ovoga teksta. Mozda jedni opet nece biti zainteresirani da o tome razmisle, a drugi mozda opet
nece htjeti razumjeti. Ipak, pisem ovo, jer je moguce, da bi bilo jos manje korisno odustati od pisanja.
Ovaj tekst
objavljujem bez prethodnog pribavljanja recenzije, jer sam ono, sto je u njemu bitno, vec ranije objavio, tako da su kompetentni
recenzenti vec ranije dali svoja misljenja o tim bitnim stvarima. Ipak, zbog nepostojanja nove recenzije, MOGUCE SU POGRESKE,
pa molim citatelje da me na njih upozore, kako bih ih mogao ispraviti.
---------------GORE SPOMENUTA LITERATURA: PEARSON
K.: "Science and Monte Carlo", Fortnightly Review, Februray 1894 HOGBEN L.: Mathematics for the Million, Pan Books Ltd.,
London 1967., str. 589. PETZ B.: Osnovne statisticke metode za nematematicare, 3. izdanje, Naklada Slap, --------------
Jastrebarsko 1997., str.126. do 138. SERDAR V.: Udzbenik statistike, Skolska knjiga, Zagreb 1977., str 306. SORIC
B.: "Poboljsanje metode i kontrola ispravnosti statistickog odlucivanja", --------------Zdravstvo, 23, 1981. (str. 154-170.)
SORIC B. i PETZ B.: "Koliki postotak znanstvenih otkrica nisu otkrica?", Arhiv za --------------higijenu rada i toksikologiju,
38, 1987. (str. 251-260.) SORIC B.: "Statisitcal 'Discoveries' and Effect-size Estimation", Journal of the --------------
American Statistical Association, Vol. 84, no. 406 (Theory and Methods), 1989 --------------(str. 608-610.) MORRISON
D.E. and HENKEL R.E. (eds.): The Significance Test Controversy (2nd ed.) -------------- Aldine, Chicago, 1973 OAKES
M. W.: Statistical Inference: A Commentary for the Social and Behavioural -------------- Sciences, John Wiley, 1986, New
York
************
( Branko Soric: ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA - Zagreb, 2001.)
----I.
DIO 1. Znanstvena i statisticka otkrica
Kod statisticke provjere znanstvenih hipoteza (pretpostavki) postavljaju
se dvije medjusobno suprotne STATISTICKE hipoteze: NUL-hipoteza i ALTERNATIVNA hipoteza.
Na pr., znanstvena hipoteza
moze glasiti ovako: "Novi lijek jace smanjuje krvni tlak od starog lijeka". Ta se hipoteza nastoji provjeriti pokusom na dvije
grupe bolesnikâ (dva "UZORKA"), tako da se jednoj grupi bolesnika daje stari lijek a drugoj grupi novi lijek. Ako se nadje
razlika srednjih vrijednosti tlakova tih dvaju uzoraka, treba saznati da li se je ta razlika pojavila slucajno, ili bi se
ona nasla i onda, kada bismo pokus ponovili na dvjema VRLO VELIKIM skupovima bolesnika (tzv. POPULACIJAMA). U tu svrhu vrsi
se statisticko testiranje te se postavljaju odgovarajuce statisticke hipoteze, i to ove: NUL-hipoteza: "NEMA RAZLIKE srednjih
vrijednosti tlaka dviju populacija, a razlika na uzorcima pojavila se je slucajno". ALTERNATIVNA hipoteza: "POSTOJI RAZLIKA
medju populacijama".
(Napomena: Ovdje cemo uvijek pretpostavljati da je testiranje jednosmjerno, a pod "intervalima
pouzdanosti" uvijek cemo podrazumijevati jednostrane intervale. Kod jednosmjernog testiranja potrebno je postici dovoljno
veliku razliku u jednom smjeru na pr.: pozitivnu, a ne negativnu).
Ako se statistickim testiranjem utvrdi da je dobivena
razlika statisticki ZNACAJNA (t.j. prevelika da bi se slucajno pojavila), odbacuje se nul-hipoteza, a suprotna, alternativna
hipoteza prihvaca se kao istinita. U takvom slucaju kazemo (u ovom tekstu) da je "otkrivena" razlika medju populacijama t.j.
da je ucinjeno statisticko "otkrice", koje moze biti povezano i sa znanstvenim otkricem - (u navedenom primjeru. to bi znacilo
otkrice novog, boljeg lijeka).
Razlika, dobivena na uzorcima, smatra se statisticki znacajnom, ako je prethodno postojala
vjerojatnost od 5% (odnosno 0,05) ili jos manja, da bi se takva (ili jos veca) razlika slucajno pojavila pri isitnitoj nul-hipotezi.
Je li doista logicno i ispravno odbaciti nul-hipotezu u takvom slucaju, premda se uopce ne zna kolika je vjerojatnost takve
razlike pri istinitoj alternativnoj hipotezi?! Ta potonja nepoznata vjerojatnost moze biti velika, ali moze biti i prilicno
mala. Na primjer, ako bi ona iznosila 15% (odnosno 0,15), te ako bismo u velikom broju pokusa imali 80% istinitih nul-hipoteza,
lako je izracunati, da bismo ucinili cak 57% laznih "otkrica"! [Naime: 0,05×80/(0,05×80+0,15×20) = 4/(4+3) = 0,57]
O
takvim problemima pisao sam prije dvadeset godina (vidi nize, u popisu literature: Soric B., 1981.). Slicno je pisao i
Michael W. Oakes 1986. godine (v. popis lit.), takodjer napominjuci kako je pogresno ocekivati, da ce medju svim objavljenim
rezultatima, znacajnim na razini 0,05 (ili 0,01), biti samo 5% (odnosno 1%) pogresnih odbacivanja nul-hipoteze. Njegov primjer:
Ako u 5000 pokusa imamo 4000 istinitih nul-hipoteza i 1000 istinitih alternativnih hipoteza, te ako je vjerojatnost znacajnosti
alfa = 0,05 a prosjecna snaga statistickih testova je (na pr.) 0,5 , necemo dobiti 5% pogresnih odbacivanja nul-hipoteze,
nego cak 29%. [Naime: 0,05×4000/(0,05×4000+0,5×1000) = 200/700 = 0,29]
David S. Moore (1997.; vidi popis lit.) kaze,
da treba izbjegavati "potragu za znacajnoscu". Ako u jednom testu postignemo razinu znacajnosti od 0,05 , to, prema Moore-u,
moze znaciti da smo nesto nasli (otkrili), ali ako ucinimo nekoliko desetaka testova, te ako jedan ili dva puta postignemo
tu razinu, to onda nema isto znacenje. Medjutim, tome treba dodati, da je SVEJEDNO da li ce jedan istrazivac uciniti nekoliko
desetaka testova, ili ce svaki od nekoliko desetaka istrazivaca uciniti po jedan test! Ako nije dobro da pojedini istrazivac
krene "u lov na znacajne rezultate", onda je isto tako lose da mnogi istrazivaci zajedno cine to isto! A upravo to se dogadja:
Tisuce istrazivaca vrse mnoge tisuce pokusa te zatim objavljuju uglavnom one rezultate, koji su statisticki znacajni (tzv.
"file drawer problem"). Danas se ne zna koliko su neuspjesnih pokusa (sa neznacajnim rezultatima) oni istovremeno ucinili,
niti koliki je postotak laznih otkrica!
2. Sto je bitno i novo u ovom tekstu?
U ranije objavljenim radovima
(Soric B., 1981. i 1989.; vidi nize u popisu literature) objasnio sam kako se moze izracunati najveci postotak (odnosno proporcija,
Qmax) laznih otkrica u vrlo velikom skupu ucinjenih statistickih otkrica (odnosno, ako je skup nesto manji, moze se priblizno
izracunati Qmax) po formuli koja je tamo objavljena. Tamo je objavljen i izvod te formule, koji je jednostavan. (Premda je
taj izvod jednostavan, ipak, koliko mi je poznato, nitko nije ranije objavio slican izvod niti formulu). Ta formula glasi
ovako:
Qmax = [(n/r)-1]/[(1/¤)-1] ...........(1) (znak ¤ stoji umjesto "alfa")
[n je veliki skup medjusobno
neovisnih eksperimenata; r je veliki skup statistickih otkrica t.j. statisticki znacajnih rezultata na odabranoj razini znacajnosti
alfa , dobivenih iz skupa n . Da bi rezultat bio znacajan na razini alfa , potrebno je da se statistickim testom dobije vrijednost
p manja od alfa (t.j.: p < ¤) ; p je vjerojatnost slucajne pojave opazene razlike pri istinitoj nul-hipotezi].
U
ovom tekstu navodim uglavnom ono, sto sam morao, radi stednje prostora, izostaviti u ranije objavljenim tekstovima. Osim toga
- a to je ipak nekakva novost - nize cu navesti opcenitiju formulu, pomocu koje se moze izracunati vrijednost Qmax u slucaju
da se ne zna broj pokusa (n) nego su nam poznati veliki brojevi (r1 i r2) dobivenih (objavljenih) znacajnih rezultata na dvjema
odredjenim razinama statisticke znacajnosti (¤1 i ¤2). Medjutim, tako izracunata vrijednost - koju cemo oznaciti kao Q'max
- moze se vise ili manje razlikovati od vrijednosti Qmax dobivene iz formule (1). Za obje te vrijednosti moze se reci slijedece:
U POVOLJNOM slucaju, kada se nadje da je vrijednost Q'max (odnosno Qmax) dovoljno mala, to ce nam biti korisno saznanje.
U PROTIVNOM slucaju, ako se nadje suvise velika vrijednost, to ne znaci da cijeli skup otkrica trebamo definitivno odbaciti,
nego je POTREBNO DODATNO PROVJERAVANJE.
3. Prednosti i nedostatci nove formule
Kad bi netko zelio u praksi
primijeniti gore navedenu formulu (1), pojavio bi se problem utvrdjivanja vrijednosti n i r odnosno omjera n/r. Naime, velik
dio ne-znacajnih rezultata ostaje neobjavljen (odnosno: nepoznat je broj neobjavljenih neuspjesnih pokusa), tako da bi bilo
potrebno registrirati velik broj (n) eksperimenata prije nego sto se izvedu, kako bi nam taj broj n bio poznat, te da bi se
naknadno saznao i broj (r) postignutih znacajnih rezultata u tim pokusima (na odabranoj razini ¤=alfa), pa bi se odatle izracunala
proporcija Qmax ; a taj postupak ne bi bio bas jednostavan.
Opcenitijom formulom moze se izracunati proporcija Q'2max
(a odatle zatim i Q'1max) iz dovoljno velikih skupova (r1 i r2) VEC OBJAVLJENIH statisticki znacajnih rezultata (na dvije
odabrane razine: ¤1 i ¤2). Time se stvara mogucnost za mnogo laksu prakticnu primjenu te formule, kao i mogucnost da se (doduse
SAMO U POVOLJNOM SLUCAJU!) priblizno utvrdi gornja granica za postotak zabludâ u postojecoj "statisticki provjerenoj" znanosti.
Evo te formule:
Q'2max = [(r1/r2)-1]/[(¤1/¤2)-1] ...................(2) (¤=alfa)
Nakon sto se
dobije vrijednosti Q'2max iz navedene formule, moze se izracunati i vrijednost Q'1max po slijedecoj formuli (3):
Q'1max
= Q'2max[¤1×r2/(¤2×r1)] ........................ (3) (¤=alfa)
Ako je ¤1 = 0,05 i ¤2 = 0,01 , formule (2) i (3)
dati ce dovoljno male vrijednosti za Q'1max i Q'2max SAMO ONDA, ako je prosjecna razlika medju populacijama dovoljno velika.
Najnize vrijednosti za Q'2max i Q'1max dobiju se za maksimalnu vrijednost ¤1 = 1 , pri kojoj se, jasno, postizu "otkrica"
u svim pokusima, tako da je r1 = n t.j. formula (2) pretvara se u formulu (1). (Vidi takodjer: II. DIO 6. Izracunavanje
Q'1max i Q'2max po formuli (2) i (3) i: DODATAK - D - Izvod formule za Q'1max i Q'2max)
Sada se pruza mogucnost autorima
i citateljima znanstvenih radova, da POKUSAJU izracunati priblizni maksimalni postotak pogresnih rezultata, slucajnim izborom
velikog broja statisticki znacajnih rezultata koji su DO SADA OBJAVLJENI u mnogim znanstvenim casopisma (pod uvjetom da su
ti znacajni rezultati postignuti na ispravan nacin i u medjusobno neovisnim pokusima, te uz pretpostavku da nisu selektivno
objavljivani t.j. da pri objavljivanju nije davana prednost visim postignutim razinama znacajnosti pred nizim razinama). Na
zalost, pitanje je nece li autori znanstvenih radova ili urednici casopisâ, kad budu svjesni mogucnosti naknadnog izracunavanja
vrijednosti Qmax, ubuduce selektivno objavljivati uglavnom znacajnije rezultate (ako ne budu na neki nacin kontrolirani i
sprijeceni).
4. Jos neke oznake upotrebljene u ovom tekstu i izracunavanje proporcije Qmax po formuli (1)
Vrlo
velik skup (broj) medjusobno neovisnih pokusa oznacili smo slovom n (taj broj moze biti poznat, ako se pokusi registriraju
prije nego se izvrse). Taj se skup sastoji od dva podskupa: prvo, od nepoznatog velikog broja pokusâ u kojima su istinite
NUL-hipoteze, koji broj cemo oznaciti slovom a ; i drugo, od preostalog (takodjer nepoznatog) velikog broja pokusa u kojima
su istinite ALTERNATIVNE hipoteze, koji cemo oznaciti slovom b ; dakle: n = a + b . (Vidi sliku 1).
|

Vjerojatnost znacajnosti (¤=alfa) znaci vjerojatnost da se
slucajno dobije znacajan rezultat u pokusu u kojemu je istinita nul-hipoteza (dakle u pokusu iz skupa a). Ta je vjerojatnost
jednaka proporciji takvih znacajnih rezultata (t.j. laznih otkrica) u vrlo velikom skupu a; prema tome, broj tih laznih otkrica
je: ¤a (= ¤×a). Vjerojatnost alfa mozemo odabrati po volji, dakle ona nam je poznata. U velikom skupu b postoji nepoznata
proporcija znacajnih rezultata (na istoj razini alfa), koju cemo oznaciti slovom f . (Ta nepoznata proporcija f ima neku vrijednost
izmedju r/n i 1). Prema tome, broj istinitih otkrica je fb (= f×b). Ukupni broj ucinjenih otkrica oznacavamo slovom r
; on iznosi: r = ¤a+fb .
4.1 Slucaj vrlo velikih skupova
U ranijem radu (Soric B., 1989.) izvedena je
formula za proporciju laznih otkrica (Q): Q = [(n/r)-(1/f)]/[(1/¤)-(1/f)] ; odatle se dobiva najveca vrijednost Q = Qmax
(uvrstavanjem najvece vrijednosti f = 1) odnosno najmanja vrijednost Q = 0 (uvrstavanjem najmanje vrijednosti f = r/n). Ovdje
cemo izvesti formulu za Qmax na drugi nacin:
Polazimo od pretpostavke da je, u najgorem slucaju, a = n t.j. da su
sve nul-hipoteze istinite. U tom slucaju iz vrlo velikog broja n pokusa dobili bismo ¤n laznih otkrica. Ukupni broj otkrica
je r (on nam je poznat, jer mozemo izbrojiti sva ucinjena otkrica). Ako od toga broja r odbijemo lazna otkrica (¤n), dobijemo
broj istinitih otkrica fb = r-¤n . Kad smo na taj nacin saznali da postoji najmanje r-¤n istinitih otkrica, tada znamo
da i u skupu n mora biti bar isto toliko istinitih alternativnih hipoteza. Dakle, sad znamo da nisu sve nul-hipoteze istinite
(kao sto smo pretpostavili na pocetku), nego njihov najveci broj iznosi: a = n-(r-¤n) . Odatle (mnozenjem sa ¤) dobivamo novi
broj laznih otkrica. Zatim nalazimo i drugaciji broj istinitih otkrica, itd., itd. Taj postupak ponavljamo stalno na isti
nacin, pri cemu se novi brojevi laznih otkrica sve manje i manje razlikuju od prethodnih, i tako dolazimo do gornje granice
za a kao i za ¤a. Te gornje granice oznacavamo kao a,max odnosno ¤(a,max) te odatle nalazimo da je Qmax = ¤(a,max) /r
= [(n/r)-1]/[(1/¤)-1] .......(1) (Potpuni izvod formule (1) nalazi se u DODATKU A).
Ta formula bi tocno vrijedila
za neizmjerno velike skupove pokusa, a kod skupova od nekoliko tisuca pokusa ona daje samo pribliznu vrijednost Qmax . Ipak,
i za takve skupove mozemo dosta tocno odrediti prakticki najvecu mogucu vrijednost za Qmax (slicnim postupkom kakav je gore
upotrebljen); to je prikazano pod 4.2:
4.2 Slucaj nesto manjih skupova
Uzmimo, na pr., da je n = 5000 pokusa,
iz kojih smo dobili r = 2000 otkricâ (znacajnih rezultata) na razini ¤ = alfa = 0,01 . Kad bi sve nul-hipoteze bile
istinite, vrijedilo bi: a = n = 5000 ; odatle bismo ocekivali ¤a = 0,01×5000 = 50 laznih otkrica, ali taj broj moze (slucajno)
biti i veci. Ipak, prakticki je nemoguce da taj broj bude veci od 93 (naime, vjerojatnost da bi se slucajno dobilo
vise od 93 lazna otkrica iz 5000 pokusa, uz razinu 0,01 , iznosi jedan naprama milijardu =10^-9).
Ako taj broj
laznih otkrica oznacimo kao a' = 93 , te ako broj istinitih otkrica oznacimo kao b', nalazimo (na isti nacin kao i gore,
pod 4.1) da je: b' = r-a' = 2000-93 = 1907 ; nadalje: novi a = n-b' = 5000-1907 = 3093 ; odatle se ocekuje 0,01×3093
= 31 lazno otkrice, a prakticki ih ne moze biti vise od 65 (uz istu zanemarivu vjerojatnost od 10^-9 da bi ih slucajno
bilo vise); novi b' = 2000-65 = 1935 ; zatim opet: novi a = 5000-1935 = 3065 ; odatle se ne moze dobiti vise od 64
lazna otkrica; novi b' = 2000-64 = 1936 ; slijedi opet: novi a = 5000-1936 = 3064 ; odatle se ponovno dobiva 64 lazna
otkrica. Prema tome, najveci broj laznih otkrica je a'max = 64, a najveca proporcija laznih otkrica je Qmax = a'max/r
= 64/2000 = 0,032 ili 3,2%, sto nije los rezultat, jer imamo manje od 5% laznih otkrica u skupu svih otkrica. (Racunajuci
po formuli (1) dobili bismo nesto manju proporciju: Qmax = 0,0152 odnosno 1,52%).
4.3 Koliko je korisno znati
vrijednost Qmax ?
Ako su skupovi pokusa (n) i otkricâ (r) vrlo veliki, izracunata vrijednost Qmax predstavlja gornju
granicu za mogucu stvarnu proporciju laznih otkrica Q. To znaci da stvarna vrijednost Q moze biti izmedju 0 (nule) i Qmax
. Ako smo nasli, na pr., da je Qmax = 0,3 tada je moguce da Q iznosi 0,3 , ali je takodjer moguce da iznosi, recimo, manje
od 0,01 . Medjutim, buduci da ne znamo koliki je Q , nadjena vrijednost 0,3 ne dozvoljava nam da prihvatimo kao istinite sve
alternativne hipoteze u skupu r , premda medju njima stvarno moze biti vise od 99% istinitih otkrica (t.j. u slucaju da je
Q < 0,01 odnosno Q < 1%, kao sto smo pretpostavili). (Napomena: Neprihvacanje alternativnih hipoteza ne mora znaciti
njihovo potpuno odbacivanje, vec je potrebno daljnje provjeravanje!)
To nije tako velik nedostatak, kao sto moze nekome
izgledati, jer ni inace nismo u boljoj situaciji. Naime, zapravo nije dovoljno znati samo postotak istinitih otkrica u velikom
skupu r, nego bi bilo jako vazno znati i to, kolika je RAZLIKA medju populacijama (t.j. velicina EFEKTA) kod tih istinitih
otkrica. Ako je prosjecni efekt u skupu otkrica zanemarivo malen, ta nam otkrica mnogo ne koriste. Ali, na zalost, kad god
dobijemo neki rezultat, koji je znacajan na razini od 5% (odnosno 1% ili sl.), ta postignuta razina statisticke znacajnost
nista nam ne govori o velicini efekta!
[Da bi se to shvatilo, dobro je, na pr., sjetiti se (kao sto kaze Oakes, 1986.,
na str. 51.- v. nize: popis lit.), da postignuta razina znacajnosti moze biti posljedica ili velikog efekta uz male opsege
uzoraka, ili malog efekta uz velike opsege uzoraka. Cak i kod zanemarivo malog efekta mozemo lako postici razinu znacajnosti
p < 0,01 (ili sl.) ako uzmemo vrlo velike uzorke! (Itd., itd.....) Osim toga, odbaciti nul-hipotezu na temelju postignute
razine znacajnosti ne znaci nista drugo nego tvrditi da je razlika medju populacijama veca OD NULE; dakle, time se ne kaze,
i ne zna se, KOLIKO je veca od nule! Ako nam nije poznata proporcija (Q) pogresnih otkrica sa efektom jednakim nuli, jos manje
mozemo znati ili vjerovati da prosjecni efekt mora imati neku odredjenu vrijednost vecu od nule. Drugim rijecima, lako mozemo
pogrijesiti ako tvrdimo da je neki efekt veci od nule, pa zato jos manje smijemo tvrditi da je taj efekt veci od neke odredjene
vrijednosti (koja bi bila veca od nule). Zbog istog razloga niti 95-postotni odnosno 99-postotni intervali pouzdanosti ne
daju nam nikakvu dodatnu informaciju o velicini efekta].
Sto bi nam vrijedilo naciniti 100 otkrica, od kojih bi samo
jedno bilo lazno, ali se u preostalih 99 istinitih otkrica alternativne populacije gotovo ne bi ni razlikovale od nul-populacijâ?!
U tom pogledu, ono sto mozda izgleda kao nedostatak moze se shvatiti i kao prednost: naime, nije se lose osloniti na izracunatu
vrijednost Qmax jer sto je veca razlika izmedju Qmax i Q - t.j. sto je manja stvarna proporcija laznih otkrica Q u odnosu
na nadjenu proporciju Qmax - to je manja prosjecna velicina efekta (t.j. prosjecna razlika medju populacijama) u skupu otkrica
(r). U krajnjem slucaju, prosjecni efekt moze biti zanemarivo malen, kao sto pokazuju primjeri u DODATKU B.1 i C. Dakle, ne
bi uvijek morala nastati neka narocita steta, cak kad bismo i "izgubili" takva otkrica. ALI MI IH NE MORAMO IZGUBITI, VEC
IH MOZEMO DALJE PROVJERAVATI.
U protivnom slucaju, ako se dobije vrlo mala vrijednost Qmax , znamo da postoji bar
kakav-takav (a mozda i znatan) prosjecni efekt, koji odgovara prosjecnoj snazi testova f > r/n (vrijednost r/n nam je poznata
u takvom slucaju; naime, pomocu nje smo izracunali Qmax ). Na pr., ako je ¤ = alfa = 0,01 te ako je i Qmax = 0,01 , r/n iznosi
oko 0,5 pa je f>0,5 ; u tom slucaju prosjecna razlika izmedju aritmetickih sredina uzoraka iznosi preko 2,3 standardne
GRESKE (a moze iznositi i mnogo vise). Ako su opsezi uzoraka, na pr., N1 = N2 = 30 , ta razlika odgovara prosjecnoj razlici
aritmetickih sredina osnovnih populacija od oko 0,6 stanadardnih DEVIJACIJA (a moze biti jos i mnogo veca).
Ako bismo,
uz istu razinu znacajnosti ¤ = alfa = 0,01 , dobili Qmax = 0,0001 , tada je f > r/n = 0,99 a prosjecna razlika aritmetickih
sredina uzoraka je veca od 4,6 stanadardnih gresaka (ili jos mnogo veca); odnosno, za osnovne populacije i uz navedene opsege
uzoraka, prosjecni efekt je veci od 1,2 stanadardne devijacije (eventualno jos mnogo veci).
------GORE SPOMENUTA LITERATURA:
Soric B.: "Kritika statistickog odlucivanja", Zdravstvo, 23, 1981. (str. 143.-153.) Soric B.: "Poboljsanje metode
i kontrola ispravnosti statistickog odlucivanja", ------------- Zdravstvo, 23, 1981. (str. 154-170.) Oakes M. W.:
Statistical Inference: A Commentary for the Social and Behavioural ------------- Sciences, John Wiley, 1986, New York
(str. 11-12) Moore D.S.: Statistics Concepts and Cotroversies, 4th ed., W. H. Freeman and Company, 1997 New York
************
Nastavak na 3. stranici
3. stranica
|