Home | 8. stranica | 7. stranica | 6. stranica | 5. stranica | 4. stranica | 3. stranica | 2. stranica

Statisticko zakljucivanje

2. stranica

 

Nerijetko se tvrdi, da je nesto statisticki "provjereno" ili "dokazano", a zatim, da ipak nije dokazano, ili cak da je "dokazano" suprotno. Odavno postoje proturjecna misljenja o vrijednosti i ispravnosti statistickog testiranja.
Vrijeme je da statisticari i znanstveni istrazivaci pocnu raditi drugacije i bolje. Potrebno je ispraviti tekstove u udzbenicima statistike i praksu! Danas se ne zna koliko neistine ima u onom dijelu medicine (i drugih znanosti) koji je samo statisticki "provjeren", a o kojemu nemamo drugih, sigurnijih dokaza. Uz odabranu razinu statisticke znacajnosti od 5% ili 1%, lako je moguce, da je postotak neistine veci od 10%, ili 20%, ili 50% ... Ali, mi bismo morali ZNATI da postotak zabluda nije veci od oko 1% (ili bar 5%) - jer, znanost je ono sto se zna, a ne ono sto se ne zna!

************

Branko Soric:
ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA
( POTREBNO JE IZRACUNAVANJE MAKSIMALNOG POSTOTKA LAZNIH STATISTICKIH OTKRICA ILI POSTIZANJE VISIH RAZINA ZNACAJNOSTI U POJEDINACNIM POKUSIMA )
Zagreb, III.- V. 2001.

SADRZAJ:

------PREDGOVOR
----- I. DIO ------(na ovoj stranici)
1.---Znanstvena i statisticka »otkrica«
2.---Sto je bitno i novo u ovom tekstu?
3.---Prednosti i nedostatci nove formule
4.---Jos neke oznake upotrebljene u ovom tekstu i izracunavanje
-----proporcije Qmax po formuli (1) --------- Slika 1
4.1--Slucaj vrlo velikih skupova
4.2--Slucaj nesto manjih skupova
4.3--Koliko je korisno znati vrijednost Qmax ?
----- (LITERATURA)
------II. DIO -----(na 3. stranici)
5.----Sto treba uciniti kada Qmax nije dovoljno malen?
5.1--Tablica 1.: Vrijednosti r/n koje je potrebno postici na razini alfa
------za odredjeni Qmax
5.2--Velicina efekta i intervali pouzdanosti
6.----Izracunavanje Q'1max i Q'2max po formuli (2) i (3)
6.1--Koja razina znacajnosti je dovoljno visoka u pojedinacnom pokusu?
------III. DIO ---- (na 4. stranici)
7.---Zablude nekih strucnjaka
------ (LITERATURA)

************

DODATAK: ------- (na 5. stranici)
A)--(Ad 4.1 Slucaj vrlo velikih skupova) ------ Potpuni izvod formule (1)
B)--(Ad 4.3 Koliko je korisno znati vrijednost Qmax ?)
------(B.1) Koji efekt se moze smatrati dovoljno velikim, a koji cemo smatrati
-------zanemarivo malenim?
------(B.2) Odnos izmedju broja standardnih gresaka i broja standardnih devijacija
-------(LITERATURA)
C)--Primjer gotovo zanemarivog efekta:----- Slika 2. ---- (na 6. stranici)
D)--[Ad 6. Izracunavanje Q'1max i Q'2max po formuli (2) i (3)]
-------Izvod formule za Q'1max i Q'2max
E)--Formula za Studentovu raspodjelu (t-raspodjelu) ---- (na 7. stranici)
--------Tablica 2. Vrijednosti K za 1 do 200 stupnjeva slobode
--------Tablica 3. (Studentova raspodjela) Primjeri izracunatih vrijednosti p
---------za neke brojeve stupnjeva slobode i neke vrijednosti t

F)--Je li moguce ostvariti sistematske dobitke na ruletu? ----- (na 8. stranici)



PREDGOVOR
Prije vise od stotinu godina (1894.) Karl Pearson je objavio rezultate znanstvenog ispitivanja ruleta u Monte Carlu. (Vidi nize, u popisu literature: Pearson K., Hogben L.). Njegov zakljucak je bio, da taj rulet nije prava igra na srecu, jer su se (na pr.) duge serije crvenih odnosno crnih brojeva pojavljivale previse cesto, premda je omjer crvenoga i crnoga bio ispravan (t.j. pojavljivalo se je priblizno 50% crvenih i 50% crnih brojeva). Vjerojatnost za slucajnu pojavu nekih odstupanja, opazenih u Monte Carlu 1894. godine, iznosila bi, kod ispravnog ruleta, manje od jedan naprama milijardu!

Objasnjenje te pojave, prema misljenju ovog autora (Soric B., 1992. - vidi DODATAK F), moglo bi biti to, da su vjerojatnosti crvenoga i crnoga oscilirale. (Kod ispravnog ruleta te su vjerojatnosti konstantne i medjusobno jednake: 0,5 : 0,5. U gore opisanom slucaju, cini se da je omjer tih vjerojatnosti kroz neko vrijeme iznosio oko 0,6 : 0,4 a zatim obratno: oko 0,4 : 0,6).

Spomenuto ispitivanje K. Pearsona moglo bi biti zanimljivo iz dva razloga: U prvom redu, mogli bismo se zapitati, je li moguce ostvariti sistematske dobitke na ruletu - ali to NIJE predmet ovog razmatranja. (Ipak, ako nekoga to zanima, moze procitati nesto vise u DODATKU F).

Drugo, i vaznije, jest nacin zakljucivanja K. Pearsona o istinitosti statistickih hipoteza, t.j. da li je istinita tzv. "NUL-hipoteza" ili suprotna ("ALTERNATIVNA") hipoteza. (U ovom slucaju, nul-hipoteza bi podrazumijevala da nema odstupanja od vjerojatnosti koje postoje kod ispravnog ruleta, dok bi alternativna hipoteza znacila neispravnost ruleta odnosno osciliranje vjerojatnosti).

Treba istaknuti, da je K. Pearson odbacio nul-hipotezu (o ispravnom ruletu) na temelju EKSTREMNO MALE vjerojatnosti da bi se opazene pojave mogle slucajno pojaviti kod ispravnog ruleta. Tome se ne moze prigovoriti, jer pojava ekstremno nevjerojatnih odstupanja doista granici sa onim sto bismo mogli nazvati "prakticki nemogucim" (uz pretpostavku da je rulet ispravan). Dakle, ako se dogodilo nesto, sto je nemoguce kod ispravnog ruleta, proizlazi da rulet mora biti neispravan, a to znaci da treba odbaciti nul-hipotezu.

Kasnije su statisticari (neopravdano!) jako ublazili kriterij za odbacivanje nul-hipoteze u zelji da se postigne sto veci broj "statisticki provjerenih" tvrdnji t.j. sto vise znanstvenih otkrica.

U udzbenicima statistike (na pr. Petz, Serdar - vidi nize u popisu literature!) obicno se objasnjava da se, kod tzv. normalne raspodjele, gotovo svi podatci (odnosno gotovo sve aritmeticke sredine uzoraka) nalaze unutar odredjenoga raspona (koji iznosi sest "standardnih devijacija" odnosno sest "standardnih gresaka"). Medjutim, izvan toga raspona nalazi se ipak 0,27% podataka - t.j. sa svake strane po 0,135% - sto bas i nije zanemarivo! - Dogadjaj koji ima vjerojatnost od 0,135% (dakle vecu od jedan naprama tisucu) tesko bismo mogli nazvati "prakticki nemogucim"!

To ublazenje kriterija opravdava se otprilike ovako: Ako se dogodi nesto, sto je MALO VJEROJATNO pri istinitoj nul-hipotezi, onda je VRLO VJEROJATNO da je nul-hipoteza neistinita. Ali, na zalost, to vec moze biti POGRESNA tvrdnja (kao sto ce biti kasnije objasnjeno)! Navodno, ako u velikom skupu mogucih rezultata nekog istrazivanja, u kojem je istinita nul-hipoteza, postoji samo 1% "statisticki znacajnih" rezultata, onda se tesko moze slucajno dobiti bas takav rezultat iz toga skupa, pa je zato "vrlo vjerojatno" da dobiveni znacajni rezultat potjece iz NEKOG DRUGOG skupa, sto znaci da nul-hipoteza nije istinita. (Ali, zar bi bilo logicno i razumno ovako zakljucivati: "Kad sam jutros izisao iz kuce, susreo sam dimnjacara; buduci da u nasem gradu ima manje od 1% dimnjacara, malo je vjerojatno da slucajno susretnem dimnjacara iz nasega grada; dakle, vrlo je vjerojatno da taj dimnjacar stanuje i radi u nekom drugom gradu"?!).

Medjutim, kao sto kaze B. Petz (v. nize u popisu lit.), suvremeni statisticari smatraju da je i gore navedena vjerojatnost (od 0,135%) "suvise strog kriterij", pa su zato odlucili da se cak i vjerojatnost od 5% moze smatrati dovoljno malom vjerojatnoscu (koja bi trebala opravdati odbacivanje nul-hipoteze)!

Na zalost, zelja da se zadovolje ambicije znanstvenih istrazivaca - da im se olaksa postizanje rezultata koje ce oni zatim moci objaviti kao "statisticki provjerene" ili "dokazane" - cini se da je prouzrocila nedovoljnu vjerodostojnost danasnje znanosti! Neki mozda nisu toga svjesni (?); a drugi, ako im je sve jasno, jesu li dovoljno odgovorni da bi znanstvenu istinu smatrali vaznijom od svojh osobnih interesa i zeljā? Kako inace objasniti to, da se u posljednjih desetak i vise godina (koliko mi je poznato) nije bitno promijenila ni istrazivacka praksa ni tekstovi u udzbenicima statistike?

Ovaj tekst se nadovezuje na moje ranije objavljene tekstove (v. nize u popisu lit.: Soric B. 1981., 1989.). O problemima zakljucivanja na temelju rezultata statistickih testova pisali su i drugi (na pr.: Morrison D. E. i Henkel R. E. 1973., Oakes M. W. 1986., Petz. B. i Soric B. 1987.; vidi nize popis lit.).

Ne znam hoce li biti neke koristi od ovoga teksta. Mozda jedni opet nece biti zainteresirani da o tome razmisle, a drugi mozda opet nece htjeti razumjeti. Ipak, pisem ovo, jer je moguce, da bi bilo jos manje korisno odustati od pisanja.

Ovaj tekst objavljujem bez prethodnog pribavljanja recenzije, jer sam ono, sto je u njemu bitno, vec ranije objavio, tako da su kompetentni recenzenti vec ranije dali svoja misljenja o tim bitnim stvarima. Ipak, zbog nepostojanja nove recenzije, MOGUCE SU POGRESKE, pa molim citatelje da me na njih upozore, kako bih ih mogao ispraviti.

---------------GORE SPOMENUTA LITERATURA:
PEARSON K.: "Science and Monte Carlo", Fortnightly Review, Februray 1894
HOGBEN L.: Mathematics for the Million, Pan Books Ltd., London 1967., str. 589.
PETZ B.: Osnovne statisticke metode za nematematicare, 3. izdanje, Naklada Slap,
-------------- Jastrebarsko 1997., str.126. do 138.
SERDAR V.: Udzbenik statistike, Skolska knjiga, Zagreb 1977., str 306.
SORIC B.: "Poboljsanje metode i kontrola ispravnosti statistickog odlucivanja",
--------------Zdravstvo, 23, 1981. (str. 154-170.)
SORIC B. i PETZ B.: "Koliki postotak znanstvenih otkrica nisu otkrica?", Arhiv za
--------------higijenu rada i toksikologiju, 38, 1987. (str. 251-260.)
SORIC B.: "Statisitcal 'Discoveries' and Effect-size Estimation", Journal of the
-------------- American Statistical Association, Vol. 84, no. 406 (Theory and Methods), 1989
--------------(str. 608-610.)
MORRISON D.E. and HENKEL R.E. (eds.): The Significance Test Controversy (2nd ed.)
-------------- Aldine, Chicago, 1973
OAKES M. W.: Statistical Inference: A Commentary for the Social and Behavioural
-------------- Sciences, John Wiley, 1986, New York

************

( Branko Soric: ZNANOST NIJE STATISTICKI DOVOLJNO PROVJERENA - Zagreb, 2001.)

----I. DIO
1. Znanstvena i statisticka otkrica

Kod statisticke provjere znanstvenih hipoteza (pretpostavki) postavljaju se dvije medjusobno suprotne STATISTICKE hipoteze: NUL-hipoteza i ALTERNATIVNA hipoteza.

Na pr., znanstvena hipoteza moze glasiti ovako: "Novi lijek jace smanjuje krvni tlak od starog lijeka". Ta se hipoteza nastoji provjeriti pokusom na dvije grupe bolesnikā (dva "UZORKA"), tako da se jednoj grupi bolesnika daje stari lijek a drugoj grupi novi lijek. Ako se nadje razlika srednjih vrijednosti tlakova tih dvaju uzoraka, treba saznati da li se je ta razlika pojavila slucajno, ili bi se ona nasla i onda, kada bismo pokus ponovili na dvjema VRLO VELIKIM skupovima bolesnika (tzv. POPULACIJAMA). U tu svrhu vrsi se statisticko testiranje te se postavljaju odgovarajuce statisticke hipoteze, i to ove:
NUL-hipoteza: "NEMA RAZLIKE srednjih vrijednosti tlaka dviju populacija, a razlika na uzorcima pojavila se je slucajno".
ALTERNATIVNA hipoteza: "POSTOJI RAZLIKA medju populacijama".

(Napomena: Ovdje cemo uvijek pretpostavljati da je testiranje jednosmjerno, a pod "intervalima pouzdanosti" uvijek cemo podrazumijevati jednostrane intervale. Kod jednosmjernog testiranja potrebno je postici dovoljno veliku razliku u jednom smjeru na pr.: pozitivnu, a ne negativnu).

Ako se statistickim testiranjem utvrdi da je dobivena razlika statisticki ZNACAJNA (t.j. prevelika da bi se slucajno pojavila), odbacuje se nul-hipoteza, a suprotna, alternativna hipoteza prihvaca se kao istinita. U takvom slucaju kazemo (u ovom tekstu) da je "otkrivena" razlika medju populacijama t.j. da je ucinjeno statisticko "otkrice", koje moze biti povezano i sa znanstvenim otkricem - (u navedenom primjeru. to bi znacilo otkrice novog, boljeg lijeka).

Razlika, dobivena na uzorcima, smatra se statisticki znacajnom, ako je prethodno postojala vjerojatnost od 5% (odnosno 0,05) ili jos manja, da bi se takva (ili jos veca) razlika slucajno pojavila pri isitnitoj nul-hipotezi. Je li doista logicno i ispravno odbaciti nul-hipotezu u takvom slucaju, premda se uopce ne zna kolika je vjerojatnost takve razlike pri istinitoj alternativnoj hipotezi?! Ta potonja nepoznata vjerojatnost moze biti velika, ali moze biti i prilicno mala. Na primjer, ako bi ona iznosila 15% (odnosno 0,15), te ako bismo u velikom broju pokusa imali 80% istinitih nul-hipoteza, lako je izracunati, da bismo ucinili cak 57% laznih "otkrica"!
[Naime: 0,05×80/(0,05×80+0,15×20) = 4/(4+3) = 0,57]

O takvim problemima pisao sam prije dvadeset godina (vidi nize, u popisu literature: Soric B., 1981.).
Slicno je pisao i Michael W. Oakes 1986. godine (v. popis lit.), takodjer napominjuci kako je pogresno ocekivati, da ce medju svim objavljenim rezultatima, znacajnim na razini 0,05 (ili 0,01), biti samo 5% (odnosno 1%) pogresnih odbacivanja nul-hipoteze. Njegov primjer: Ako u 5000 pokusa imamo 4000 istinitih nul-hipoteza i 1000 istinitih alternativnih hipoteza, te ako je vjerojatnost znacajnosti alfa = 0,05 a prosjecna snaga statistickih testova je (na pr.) 0,5 , necemo dobiti 5% pogresnih odbacivanja nul-hipoteze, nego cak 29%. [Naime: 0,05×4000/(0,05×4000+0,5×1000) = 200/700 = 0,29]

David S. Moore (1997.; vidi popis lit.) kaze, da treba izbjegavati "potragu za znacajnoscu". Ako u jednom testu postignemo razinu znacajnosti od 0,05 , to, prema Moore-u, moze znaciti da smo nesto nasli (otkrili), ali ako ucinimo nekoliko desetaka testova, te ako jedan ili dva puta postignemo tu razinu, to onda nema isto znacenje. Medjutim, tome treba dodati, da je SVEJEDNO da li ce jedan istrazivac uciniti nekoliko desetaka testova, ili ce svaki od nekoliko desetaka istrazivaca uciniti po jedan test! Ako nije dobro da pojedini istrazivac krene "u lov na znacajne rezultate", onda je isto tako lose da mnogi istrazivaci zajedno cine to isto! A upravo to se dogadja: Tisuce istrazivaca vrse mnoge tisuce pokusa te zatim objavljuju uglavnom one rezultate, koji su statisticki znacajni (tzv. "file drawer problem"). Danas se ne zna koliko su neuspjesnih pokusa (sa neznacajnim rezultatima) oni istovremeno ucinili, niti koliki je postotak laznih otkrica!

2. Sto je bitno i novo u ovom tekstu?

U ranije objavljenim radovima (Soric B., 1981. i 1989.; vidi nize u popisu literature) objasnio sam kako se moze izracunati najveci postotak (odnosno proporcija, Qmax) laznih otkrica u vrlo velikom skupu ucinjenih statistickih otkrica (odnosno, ako je skup nesto manji, moze se priblizno izracunati Qmax) po formuli koja je tamo objavljena. Tamo je objavljen i izvod te formule, koji je jednostavan. (Premda je taj izvod jednostavan, ipak, koliko mi je poznato, nitko nije ranije objavio slican izvod niti formulu). Ta formula glasi ovako:

Qmax = [(n/r)-1]/[(1/¤)-1] ...........(1)
(znak ¤ stoji umjesto "alfa")

[n je veliki skup medjusobno neovisnih eksperimenata; r je veliki skup statistickih otkrica t.j. statisticki znacajnih rezultata na odabranoj razini znacajnosti alfa , dobivenih iz skupa n . Da bi rezultat bio znacajan na razini alfa , potrebno je da se statistickim testom dobije vrijednost p manja od alfa (t.j.: p < ¤) ; p je vjerojatnost slucajne pojave opazene razlike pri istinitoj nul-hipotezi].

U ovom tekstu navodim uglavnom ono, sto sam morao, radi stednje prostora, izostaviti u ranije objavljenim tekstovima. Osim toga - a to je ipak nekakva novost - nize cu navesti opcenitiju formulu, pomocu koje se moze izracunati vrijednost Qmax u slucaju da se ne zna broj pokusa (n) nego su nam poznati veliki brojevi (r1 i r2) dobivenih (objavljenih) znacajnih rezultata na dvjema odredjenim razinama statisticke znacajnosti (¤1 i ¤2). Medjutim, tako izracunata vrijednost - koju cemo oznaciti kao Q'max - moze se vise ili manje razlikovati od vrijednosti Qmax dobivene iz formule (1). Za obje te vrijednosti moze se reci slijedece:

U POVOLJNOM slucaju, kada se nadje da je vrijednost Q'max (odnosno Qmax) dovoljno mala, to ce nam biti korisno saznanje. U PROTIVNOM slucaju, ako se nadje suvise velika vrijednost, to ne znaci da cijeli skup otkrica trebamo definitivno odbaciti, nego je POTREBNO DODATNO PROVJERAVANJE.

3. Prednosti i nedostatci nove formule

Kad bi netko zelio u praksi primijeniti gore navedenu formulu (1), pojavio bi se problem utvrdjivanja vrijednosti n i r odnosno omjera n/r. Naime, velik dio ne-znacajnih rezultata ostaje neobjavljen (odnosno: nepoznat je broj neobjavljenih neuspjesnih pokusa), tako da bi bilo potrebno registrirati velik broj (n) eksperimenata prije nego sto se izvedu, kako bi nam taj broj n bio poznat, te da bi se naknadno saznao i broj (r) postignutih znacajnih rezultata u tim pokusima (na odabranoj razini ¤=alfa), pa bi se odatle izracunala proporcija Qmax ; a taj postupak ne bi bio bas jednostavan.

Opcenitijom formulom moze se izracunati proporcija Q'2max (a odatle zatim i Q'1max) iz dovoljno velikih skupova (r1 i r2) VEC OBJAVLJENIH statisticki znacajnih rezultata (na dvije odabrane razine: ¤1 i ¤2). Time se stvara mogucnost za mnogo laksu prakticnu primjenu te formule, kao i mogucnost da se (doduse SAMO U POVOLJNOM SLUCAJU!) priblizno utvrdi gornja granica za postotak zabludā u postojecoj "statisticki provjerenoj" znanosti.

Evo te formule:

Q'2max = [(r1/r2)-1]/[(¤1/¤2)-1] ...................(2)
(¤=alfa)

Nakon sto se dobije vrijednosti Q'2max iz navedene formule, moze se izracunati i vrijednost Q'1max po slijedecoj formuli (3):

Q'1max = Q'2max[¤1×r2/(¤2×r1)] ........................ (3)
(¤=alfa)

Ako je ¤1 = 0,05 i ¤2 = 0,01 , formule (2) i (3) dati ce dovoljno male vrijednosti za Q'1max i Q'2max SAMO ONDA, ako je prosjecna razlika medju populacijama dovoljno velika.
Najnize vrijednosti za Q'2max i Q'1max dobiju se za maksimalnu vrijednost ¤1 = 1 , pri kojoj se, jasno, postizu "otkrica" u svim pokusima, tako da je r1 = n t.j. formula (2) pretvara se u formulu (1).
(Vidi takodjer: II. DIO 6. Izracunavanje Q'1max i Q'2max po formuli (2) i (3) i: DODATAK - D - Izvod formule za Q'1max i Q'2max)

Sada se pruza mogucnost autorima i citateljima znanstvenih radova, da POKUSAJU izracunati priblizni maksimalni postotak pogresnih rezultata, slucajnim izborom velikog broja statisticki znacajnih rezultata koji su DO SADA OBJAVLJENI u mnogim znanstvenim casopisma (pod uvjetom da su ti znacajni rezultati postignuti na ispravan nacin i u medjusobno neovisnim pokusima, te uz pretpostavku da nisu selektivno objavljivani t.j. da pri objavljivanju nije davana prednost visim postignutim razinama znacajnosti pred nizim razinama). Na zalost, pitanje je nece li autori znanstvenih radova ili urednici casopisā, kad budu svjesni mogucnosti naknadnog izracunavanja vrijednosti Qmax, ubuduce selektivno objavljivati uglavnom znacajnije rezultate (ako ne budu na neki nacin kontrolirani i sprijeceni).

4. Jos neke oznake upotrebljene u ovom tekstu i izracunavanje
proporcije Qmax po formuli (1)

Vrlo velik skup (broj) medjusobno neovisnih pokusa oznacili smo slovom n (taj broj moze biti poznat, ako se pokusi registriraju prije nego se izvrse). Taj se skup sastoji od dva podskupa: prvo, od nepoznatog velikog broja pokusā u kojima su istinite NUL-hipoteze, koji broj cemo oznaciti slovom a ; i drugo, od preostalog (takodjer nepoznatog) velikog broja pokusa u kojima su istinite ALTERNATIVNE hipoteze, koji cemo oznaciti slovom b ;
dakle: n = a + b . (Vidi sliku 1).

sl1.jpg

Vjerojatnost znacajnosti (¤=alfa) znaci vjerojatnost da se slucajno dobije znacajan rezultat u pokusu u kojemu je istinita nul-hipoteza (dakle u pokusu iz skupa a). Ta je vjerojatnost jednaka proporciji takvih znacajnih rezultata (t.j. laznih otkrica) u vrlo velikom skupu a; prema tome, broj tih laznih otkrica je: ¤a (= ¤×a). Vjerojatnost alfa mozemo odabrati po volji, dakle ona nam je poznata.
U velikom skupu b postoji nepoznata proporcija znacajnih rezultata (na istoj razini alfa), koju cemo oznaciti slovom f . (Ta nepoznata proporcija f ima neku vrijednost izmedju r/n i 1). Prema tome, broj istinitih otkrica je
fb (= f×b). Ukupni broj ucinjenih otkrica oznacavamo slovom r ;
on iznosi: r = ¤a+fb .

4.1 Slucaj vrlo velikih skupova

U ranijem radu (Soric B., 1989.) izvedena je formula za proporciju laznih otkrica (Q):
Q = [(n/r)-(1/f)]/[(1/¤)-(1/f)] ; odatle se dobiva najveca vrijednost Q = Qmax (uvrstavanjem najvece vrijednosti f = 1) odnosno najmanja vrijednost Q = 0 (uvrstavanjem najmanje vrijednosti f = r/n).
Ovdje cemo izvesti formulu za Qmax na drugi nacin:

Polazimo od pretpostavke da je, u najgorem slucaju, a = n t.j. da su sve nul-hipoteze istinite. U tom slucaju iz vrlo velikog broja n pokusa dobili bismo ¤n laznih otkrica. Ukupni broj otkrica je r (on nam je poznat, jer mozemo izbrojiti sva ucinjena otkrica). Ako od toga broja r odbijemo lazna otkrica (¤n), dobijemo broj istinitih otkrica fb = r-¤n .
Kad smo na taj nacin saznali da postoji najmanje r-¤n istinitih otkrica, tada znamo da i u skupu n mora biti bar isto toliko istinitih alternativnih hipoteza. Dakle, sad znamo da nisu sve nul-hipoteze istinite (kao sto smo pretpostavili na pocetku), nego njihov najveci broj iznosi: a = n-(r-¤n) . Odatle (mnozenjem sa ¤) dobivamo novi broj laznih otkrica. Zatim nalazimo i drugaciji broj istinitih otkrica, itd., itd. Taj postupak ponavljamo stalno na isti nacin, pri cemu se novi brojevi laznih otkrica sve manje i manje razlikuju od prethodnih, i tako dolazimo do gornje granice za a kao i za ¤a. Te gornje granice oznacavamo kao a,max odnosno ¤(a,max) te odatle nalazimo da je
Qmax = ¤(a,max) /r = [(n/r)-1]/[(1/¤)-1] .......(1)
(Potpuni izvod formule (1) nalazi se u DODATKU A).

Ta formula bi tocno vrijedila za neizmjerno velike skupove pokusa, a kod skupova od nekoliko tisuca pokusa ona daje samo pribliznu vrijednost Qmax . Ipak, i za takve skupove mozemo dosta tocno odrediti prakticki najvecu mogucu vrijednost za Qmax (slicnim postupkom kakav je gore upotrebljen); to je prikazano pod 4.2:

4.2 Slucaj nesto manjih skupova

Uzmimo, na pr., da je n = 5000 pokusa, iz kojih smo dobili r = 2000 otkricā
(znacajnih rezultata) na razini ¤ = alfa = 0,01 .
Kad bi sve nul-hipoteze bile istinite, vrijedilo bi: a = n = 5000 ; odatle bismo
ocekivali ¤a = 0,01×5000 = 50 laznih otkrica, ali taj broj moze (slucajno) biti
i veci. Ipak, prakticki je nemoguce da taj broj bude veci od 93 (naime,
vjerojatnost da bi se slucajno dobilo vise od 93 lazna otkrica iz 5000 pokusa, uz
razinu 0,01 , iznosi jedan naprama milijardu =10^-9).

Ako taj broj laznih otkrica oznacimo kao a' = 93 , te ako broj istinitih otkrica
oznacimo kao b', nalazimo (na isti nacin kao i gore, pod 4.1) da je:
b' = r-a' = 2000-93 = 1907 ; nadalje:
novi a = n-b' = 5000-1907 = 3093 ;
odatle se ocekuje 0,01×3093 = 31 lazno otkrice, a prakticki ih ne moze biti vise od 65
(uz istu zanemarivu vjerojatnost od 10^-9 da bi ih slucajno bilo vise);
novi b' = 2000-65 = 1935 ; zatim opet:
novi a = 5000-1935 = 3065 ; odatle se ne moze dobiti vise od 64 lazna otkrica;
novi b' = 2000-64 = 1936 ; slijedi opet:
novi a = 5000-1936 = 3064 ; odatle se ponovno dobiva 64 lazna otkrica.
Prema tome, najveci broj laznih otkrica je a'max = 64, a najveca proporcija laznih otkrica
je Qmax = a'max/r = 64/2000 = 0,032 ili 3,2%, sto nije los rezultat, jer imamo manje
od 5% laznih otkrica u skupu svih otkrica. (Racunajuci po formuli (1) dobili bismo nesto
manju proporciju: Qmax = 0,0152 odnosno 1,52%).

4.3 Koliko je korisno znati vrijednost Qmax ?

Ako su skupovi pokusa (n) i otkricā (r) vrlo veliki, izracunata vrijednost Qmax predstavlja gornju granicu za mogucu stvarnu proporciju laznih otkrica Q. To znaci da stvarna vrijednost Q moze biti izmedju 0 (nule) i Qmax . Ako smo nasli, na pr., da je Qmax = 0,3 tada je moguce da Q iznosi 0,3 , ali je takodjer moguce da iznosi, recimo, manje od 0,01 . Medjutim, buduci da ne znamo koliki je Q , nadjena vrijednost 0,3 ne dozvoljava nam da prihvatimo kao istinite sve alternativne hipoteze u skupu r , premda medju njima stvarno moze biti vise od 99% istinitih otkrica (t.j. u slucaju da je Q < 0,01 odnosno Q < 1%, kao sto smo pretpostavili). (Napomena: Neprihvacanje alternativnih hipoteza ne mora znaciti njihovo potpuno odbacivanje, vec je potrebno daljnje provjeravanje!)

To nije tako velik nedostatak, kao sto moze nekome izgledati, jer ni inace nismo u boljoj situaciji. Naime, zapravo nije dovoljno znati samo postotak istinitih otkrica u velikom skupu r, nego bi bilo jako vazno znati i to, kolika je RAZLIKA medju populacijama (t.j. velicina EFEKTA) kod tih istinitih otkrica. Ako je prosjecni efekt u skupu otkrica zanemarivo malen, ta nam otkrica mnogo ne koriste. Ali, na zalost, kad god dobijemo neki rezultat, koji je znacajan na razini od 5% (odnosno 1% ili sl.), ta postignuta razina statisticke znacajnost nista nam ne govori o velicini efekta!

[Da bi se to shvatilo, dobro je, na pr., sjetiti se (kao sto kaze Oakes, 1986., na str. 51.- v. nize: popis lit.), da postignuta razina znacajnosti moze biti posljedica ili velikog efekta uz male opsege uzoraka, ili malog efekta uz velike opsege uzoraka. Cak i kod zanemarivo malog efekta mozemo lako postici razinu znacajnosti p < 0,01 (ili sl.) ako uzmemo vrlo velike uzorke! (Itd., itd.....) Osim toga, odbaciti nul-hipotezu na temelju postignute razine znacajnosti ne znaci nista drugo nego tvrditi da je razlika medju populacijama veca OD NULE; dakle, time se ne kaze, i ne zna se, KOLIKO je veca od nule! Ako nam nije poznata proporcija (Q) pogresnih otkrica sa efektom jednakim nuli, jos manje mozemo znati ili vjerovati da prosjecni efekt mora imati neku odredjenu vrijednost vecu od nule. Drugim rijecima, lako mozemo pogrijesiti ako tvrdimo da je neki efekt veci od nule, pa zato jos manje smijemo tvrditi da je taj efekt veci od neke odredjene vrijednosti (koja bi bila veca od nule). Zbog istog razloga niti 95-postotni odnosno 99-postotni intervali pouzdanosti ne daju nam nikakvu dodatnu informaciju o velicini efekta].

Sto bi nam vrijedilo naciniti 100 otkrica, od kojih bi samo jedno bilo lazno, ali se u preostalih 99 istinitih otkrica alternativne populacije gotovo ne bi ni razlikovale od nul-populacijā?! U tom pogledu, ono sto mozda izgleda kao nedostatak moze se shvatiti i kao prednost: naime, nije se lose osloniti na izracunatu vrijednost Qmax jer sto je veca razlika izmedju Qmax i Q - t.j. sto je manja stvarna proporcija laznih otkrica Q u odnosu na nadjenu proporciju Qmax - to je manja prosjecna velicina efekta (t.j. prosjecna razlika medju populacijama) u skupu otkrica (r). U krajnjem slucaju, prosjecni efekt moze biti zanemarivo malen, kao sto pokazuju primjeri u DODATKU B.1 i C. Dakle, ne bi uvijek morala nastati neka narocita steta, cak kad bismo i "izgubili" takva otkrica. ALI MI IH NE MORAMO IZGUBITI, VEC IH MOZEMO DALJE PROVJERAVATI.

U protivnom slucaju, ako se dobije vrlo mala vrijednost Qmax , znamo da postoji bar kakav-takav (a mozda i znatan) prosjecni efekt, koji odgovara prosjecnoj snazi testova f > r/n (vrijednost r/n nam je poznata u takvom slucaju; naime, pomocu nje smo izracunali Qmax ). Na pr., ako je ¤ = alfa = 0,01 te ako je i Qmax = 0,01 , r/n iznosi oko 0,5 pa je f>0,5 ; u tom slucaju prosjecna razlika izmedju aritmetickih sredina uzoraka iznosi preko 2,3 standardne GRESKE (a moze iznositi i mnogo vise). Ako su opsezi uzoraka, na pr., N1 = N2 = 30 , ta razlika odgovara prosjecnoj razlici aritmetickih sredina osnovnih populacija od oko 0,6 stanadardnih DEVIJACIJA (a moze biti jos i mnogo veca).

Ako bismo, uz istu razinu znacajnosti ¤ = alfa = 0,01 , dobili Qmax = 0,0001 , tada je f > r/n = 0,99 a prosjecna razlika aritmetickih sredina uzoraka je veca od 4,6 stanadardnih gresaka (ili jos mnogo veca); odnosno, za osnovne populacije i uz navedene opsege uzoraka, prosjecni efekt je veci od 1,2 stanadardne devijacije (eventualno jos mnogo veci).

------GORE SPOMENUTA LITERATURA:
Soric B.: "Kritika statistickog odlucivanja", Zdravstvo, 23, 1981. (str. 143.-153.)
Soric B.: "Poboljsanje metode i kontrola ispravnosti statistickog odlucivanja",
------------- Zdravstvo, 23, 1981. (str. 154-170.)
Oakes M. W.: Statistical Inference: A Commentary for the Social and Behavioural
------------- Sciences, John Wiley, 1986, New York (str. 11-12)
Moore D.S.: Statistics Concepts and Cotroversies, 4th ed., W. H. Freeman and
Company, 1997 New York

************

Nastavak na 3. stranici

3. stranica

Enter supporting content here