Docsity
Docsity

Pripremite ispite
Pripremite ispite

Studirajte zahvaljujući brojnim resursima koji su dostupni na Docsity-u


Nabavite poene za preuzimanje
Nabavite poene za preuzimanje

Zaradite bodove pomažući drugim studentima ili ih kupite uz Premium plan


Školska orijentacija
Školska orijentacija

Skripta iz medicinske statistike i informatike, Skripte od Medicinska statistika i informatika

Skripta iz medicinske statistike i informatike - teorija

Tipologija: Skripte

2023/2024

Učitan datuma 05.02.2024.

teodora-spasic-2
teodora-spasic-2 🇸🇷

1 dokument

1 / 66

Srodni dokumenti


Delimični pregled teksta

Preuzmite Skripta iz medicinske statistike i informatike i više Skripte u PDF od Medicinska statistika i informatika samo na Docsity! CITE O i M mum nim ai U “ KF Mmm MV ZefsprrERicuEneEEnjoiuuić) | BORILE NE = I LJ LB TVu Mpi ili ' l m MANET = do = = Hi m/f s s" H! bat UTE PETI RENE: m me rm IN a) 4 mr a DARIN pl m > MERI I no PITI a tr jeu < < D mu MU | a TARA“ KI Lagani 1 KL ' A k vi E ' = BII aint a 1] MAKI! ) 2 . 1 M [ IBRO RIJE ja E 4 "u TI NOT s RTPKTIIITNT UMA 1 \ a : a PLN ] h- m) DRED R ARENI KL bs LK 089 u Sadržaj Osnovni statistički pojmovi………………………………………………………………….2 Sređivanje podataka………………………………………………………………………...5 Relativni brojevi……………………………………………………………………………...7 Mere centralne tendencije………………………………………………………………….9 Mere varijabiliteta…………………………………………………………………………..13 Verovatnoća i raspodele verovatnoća…………………………………………………...18 Uzorak i uzoračke raspodele……………………………………………………………..23 Statističko zaključivanje – ocenjivanje populacionih parametara na osnovu uzorka.28 Testiranje hipoteza….……………………………………………………………………..30 t-test…………………………………………………………………………………………36 Hi-kvadrat test………………………………………………………………………………38 McNemarov test……………………………………………………………………………41 Fisherov test tačne verovatnoće…………………………………………………………42 Test sume rangova………………………………………………………………………...43 Test ekvivalentnih parova…………………………………………………………………44 Korelacija……………………………………………………………………………………45 Regresija……………………………………………………………………………………47 Pretraživanje bibliografskih baza podataka……………………………………………..49 Neformalno i formalno odlučivanje u medicine…………………………………………52 Medicinsko odlučivanje I – dijagnoza……………………………………………………54 Medicinsko odlučivanje II – izbor terapije……………………………………………….58 1 numeričkih podataka. Ovi podaci se mogu transformisati u kategorijalne podatke sa mogućim kategorijama: pothranjenost, normalna uhranjenost i gojaznost. Ovde dolazi do gubitka jednog dela informacija, jer više nije poznato u kojoj meri se jedinice posmatranja unutar kategorija razlikuju prema indeksu telesne mase. Adekvatnost merenja U svakom merenju postoji izvestan stepen neizvesnosti koji može biti iskazan kao greška u merenju. Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i slučajne greške. Sistematske greške daju predvidive precenjene ili potcenjene vrednosti (loše kalibrisani instrument koji daje uvek precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu predvidive i u datom mernom procesu mogu dati i precenjene i potcenjene vrednosti. Greške u merenju nastaju delovanjem različitih faktora kao što je to loša kalibracija instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na promene merene varijable, uticaj samog instrumenta namerenu veličinu, delovanje okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (kako lekar ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i usled “šuma” - malih i brzih promena u okolini ili u samom instrumentu koje mogu uticati na izmerenu vrednost. Identifikacijom i smanjenjem grešaka merenje se može učiniti adekvatnijim. Adekvatnost merenja podrazumeva koncepte kao što su: 1) Tačnost – odnosi se na bliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao referentna, kriterijumska ili vrednost zlatnog standarda) 2) Slaganje – odnosi se na bliskost izmerenih vrednosti različitim metodama pri čemu se niti jedan od njih ne može proglasiti zlatnim standardom, pa se i ne može primeniti ocena tačnosti 3) Preciznost – odnosi se na bliskost više ponovljenih merenja iste veličine pod istim uslovima Mnoga merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala. Izmerena vrednost (skor) dobija se putem odgovaranja na pitanja (stavke, ajteme) na upitniku ili skali. Adekvatnost takvog mernog procesa opisana je konceptima valjanosti/validnosti (srodan je konceptu tačnosti) i pouzdanosti (srodan je konceptu preciznosti). Dva su osnovna razloga da se kontinuirane varijable beleže po tipu kategorijalnih podataka: 1) sa kategorijalnim podacima je lakše opisivanje osnovnog skupa (npr. koliki je procenat gojaznih u populaciji) 2) donošenje odluka o nekoj intervenciji je olakšano kada su podaci grupisani na neki način (da se gojazni podvrgnu preventivnom delovanju). Do primarnih podataka dolazi se kroz istraživanja, dok se termin sekundarni medicinski podaci odnosi na podatke u medicinskoj/zdravstvenoj dokumentaciji i medicinskim bazama podataka. 4 Sređivanje podataka obuhvata njihovo grupisanje i tabelarno i grafičko prikazivanje. Grupisanje je proces razvrstavanja (organizovanja, klasifikovanja) jedinica posmatranja prema vrednostima posmatranih varijabli. Za nominalne i ordinalne podatake grupisanje se obavlja po kategorijama. Za numeričke diskontinuirane podatke grupisanje se obavlja po grupama koje odgovaraju diskretnim vrednostima, a ako je raspon veliki onda po klasnim intervalima. Za numeričke kontinuirane podatke grupisanje se obavlja po klasnim intervalima. Prebrojavanjem jedinica posmatranja po grupama nastaju apsolutne učestalosti (frekvencije). Deljenjem apsolutnih učestalosti ukupnim brojem jedinica posmatranja nastaju relativne učestalosti (frekvencije) koje mogu biti iskazane u vidu proporcija ili procentualno. Statističke tabele se koriste za pregledno prikazivanje podataka. Dobijaju su ukrštanjem vertikalnih i horizontalnih linija pri čemu nastaju redovi – nizovi horizontalnih površina i kolone – nizovi vertikalnih površina. Grafičko prikazivanje je metod prikazivanja podataka u vizuelnoj formi. Postoje brojni programi za grafičko prikazivanje podataka. Tabelarno i grafičko prikazivanje mominalnih podataka Grupisanje kategorijalnih (nominalnih i ordinalnih) podataka obavlja se prema kategorijama. Ista struktura može se prikazati i grafički kružnim dijagramom ili stubičastim dijagramom. Na kružnom dijagramu ugao kružnog isečka koji odgovara nekoj kategoriji dobija se množenjem relativne učestalosti (iskazanih kao proporcije) sa 360°. Stubičasti dijagram je sastavljen od razdvojenih vertikalnih pravougaonika (ili horizontalnih) od kojih svaki reprezentuje jednu kategoriju, a čije visine (dužine) odgovaraju učestalostima. Za numeričke kontinuirane podatke raspodela učestalosti prikazuje se po klasnim intervalima, a grafički prikazana histogramom i poligonom frekvencijom. Granice i širine klasnih intervala određuju se prema određenim pravilima: 1) Utvrditi minimalnu i maksimalnu vrednost i izračunati opseg (razlika maksimalne i minimalne vrednosti). 2) Doneti odluku o broju klasnih intervala. Prikaz raspodele sa manjim brojem klasnih intervala je pregledniji, a sa većim brojem klasnih intervala je informativniji o karakteristikama raspodele. 3) Doneti odluku o širini klasnih intervala. Dobija se tako što se opseg podeli brojem klasnih intervala, a dobijena vrednost po potrebi zaokruži. Istraživač može sam odrediti šitinu intervala zbog bolje preglednosti ili poređenja sa drugim rezultatima. 4) Doneti odluku o donjoj granici prvog klasnog intervala. Ta granica mora biti odabrana tako da prvi klasni interval obuhvati podatak sa minimalnom vrednošću. Preporučljivo je da donja granica bude deljiva širinom klasnih intervala. 5) Donja granica svakog sledećeg klasnog intervala se dobija sabiranjem donje granice prethodnog klasnog intervala i širine klasnog intervala. Poslednji klasni interval mora da obuhvati podatak sa maksimalnom vrednošću. 5 6) Klasni intervali su najčešće jednake širine, a granice moraju biti tako odabrane da obezbede da svaka jedinica opservacije pripadne samo jednom intervalu. Kumulativne učestalosti (frekvencije) su sukcesivni zbirovi učestalosti pojedinih grupa ili grupnih intervala. Dobijaju se na taj način što se učestalosti sledećih u nizu grupa sukcesivno sabiraju sa prethodnim učestalostima tako da se kumulativna učestalost najviše grupe izjednačuje sa zbirom učestalosti. Kumulativne učestalosti omogućavaju da znamo koliko jedinica posmatranja ima vrednost jednaku ili manju od određene vrednosti varijable od interesa. Kumulativna učestalost se može izračunati za apsolutne i za relativne učestalosti. Grafički se prikazuju linijskim kumulativnim dijagramom gde se na X osi nanose vrednosti obeležja, a na Y osi kumulativne učestalosti. 6 U statističkom smislu prosek, srednja vrednost, odnosno mera centralne tendencije je jedan broj, jedna vrednost koja kao reprezentativna zamenjuje sve druge vrednosti obeležja posmatranja. Srednje vrednosti imaju osobine. Ne mogu biti veće od najveće niti manje od najmanje pojedinačne vrednosti u datom skupu podataka. Spadaju u apsolutne mere jer se iskazuju u istim mernim jedinicama u kojima su iskazani i podaci za koje se izračunavaju. Mogu imati vrednost koja ne postoji u skupu podataka. Mogu biti iskazane i decimalnim brojem bez obzira da li su u pitanju numerički kontinuirani ili diskontinuirani podaci. Prema načinu izračunavanja srednje vrednosti se dele u dve grupe: 1) Matematičke (računske) srednje vrednosti – izračunavaju se na osnovu svih vrednosti: a. aritmetička sredina b. geometrijska sredina c. harmonijska sredina 2) Pozicione (lokacione) srednje vrednosti – određuju se na osnovu položaja u nizu podataka i raspodeli učestalosti: a. medijana b. mod (modus, tipična vrednost) Aritmetička sredina Aritmetička sredina je količnik zbira svih podataka i ukupnog broja podataka. Poznata je i kao prosečna vrednost, prosek. Obeležava se sa (iks bar). Izračunava𝑥 se prema formuli: 𝑥 = ∑𝑋𝑖 𝑛 Xi - pojedinačan podatak n - broj podataka . Algebarski zbir odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine jednak je nuli, a zbir kvadrata odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine manji je od zbira kvadrata odstupanja od bilo koje druge vrednosti. Prednost aritmetičke sredine je jednostavno izračunavanje i reflektovanje svih vrednosti u skupu podataka. Nedostaci aritmetičke sredine su da se ne može koristiti sa nominalnim i ordinalnim podacima i da je pod značajnim uticajem ekstremnih vrednosti (na malom broju podataka samo jedna ekstremna vrednost može učiniti aritmetičku sredinu nereprezentativnom). Aritmetička sredina za grupisane podatke seizračunava se prema formuli: 9 𝑥 = ∑𝑓𝑥 ∑𝑓 f – frekvencija x –diskretna vrednost obeležja/sredina klasnog intervala U nekim slučajevima potrebno je izračunati objedinjenu aritmetičku sredinu zasnovanu na već izračunatim aritmetičkim sredinama u ispitivanim grupama. 𝑥 = ∑𝑛𝑥 ∑𝑛 Medijana Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka poređanih po veličini na dva jednaka dela. Jednaka je drugom kvartilu, odnosno pedesetom percentilu. Zbir apsolutnih odstupanja svake pojedinačne vrednosti od medijane manji je od zbira odstupanja od bilo koje druge vrednosti. U skupu sa neparnim brojem podataka medijana je uvek stvarna i postojeća vrednost. Na primer, ako je broj podataka 9, medijana će imati vrednost petog podatka kada su oni poređani po veličini. U skupu sa parnim brojem podataka vrednost medijane se izračunava tako što se saberu dva centralna podatka i dobijeni zbir podeli sa dva. Na primer, ako je broj podataka 10, vrednost medijane se dobija tako što se zbir petog i šestog podatka podeli sa dva. Medijana ne zavisi od vrednosti obeležja posmatranja već od njihovog mesta, od broja podataka. Upotrebljava se u onim slučajevima kada treba izbeći nerealnu aritmetičku sredinu ili kada postoji posebna zainteresovanost za mesto podataka kao što je lociranje optimalnog položaja. Nedostaci medijane u odnosu na aritmetičku sredinu jesu da je manje pogodna za dalje statističke analize i da ignoriše relativan uticaj svake pojedinačne vrednosti uključujući i ekstremne vrednosti tako da nije pogodna kada istraživač želi da srednja vrednost reflektuje svaku vrednost iz skupa podataka. Određivanje medijane: 1) Urediti podatke od minimalne do maksimalne vrednosti. 2) Odrediti mesto (položaj) medijane prema formuli: 𝑚𝑚𝑒𝑑 = 𝑛+1 2 10 3) Pročitati ili izračunati vrednost koja odogovara mestu medijane. Kod neparnog broja podataka medijana je vrednost srednjeg, centralnog podatka, a kod parnog broja podataka vrednost medijane se izračunava kao aritmetička sredina dva centralna podatka. Mod Mod (tipična vrednost) je vrednost podatka sa najvećom učestalošću. Određivanje moda može biti olakšano ako su podaci sređeni po rastućem ili opadajućem nizu. Kod grupisanih podataka približna vrednost moda je vrednost grupe ili sredine klasnog intervala sa najvećom frekvencijom – modalna grupa ili modalni interval. Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o unimodalnoj raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili grupnih intervala radi se o bimodalnoj ili multimodalnoj raspodeli. Prednosti moda su da nije pod uticajem ekstremnih vrednosti i da je to jedina mera centralne tendencije koja se može primeniti kod nominalnih podataka. Nedostaci moda su da može postojati više od jednog moda u datom skupu podataka što otežava interpretaciju, da se ne može odrediti ako ne postoje bar dva podataka sa istim vrednostima, da nije pogodan za dalje statističke analize i da ignoriše relativan uticaj svake pojedinačne vrednosti. Odnos mera centralne tendencije Uzajamni odnosi srednjih vrednosti najviše zavise od oblika raspodele učestalosti. Kod simetrične raspodele aritmetička sredina, medijana i mod imaju slične vrednosti. 11 Q3 - treći ili gornji kvartil jednak je 75. percentilu. Interkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q3-Q1 i u njemu se nalazi 50% observacija. Kvantile (percentile, decile i kvartile) određujemo uz pomoć relativnih kumulativnih distribucija frekvencija. Grafikon kutije (Box and Whisker Plot, Box plot, BP) Grafikonom kutije prikazujemo numeričke podatke. Grafikon kutije dizajnirao je John Tukey. Grafikon se sastoji od kutije (box) čija je stranica dužine interkvartilnog opsega (IQ) i čiji se krajevi prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara trećem kvartilu (Q3). Unutar kutije je oznaka, obično linija koja preseca kutiju, koja odgovara vrednosti medijane. Kutija predstavlja 50% opserviranih slučajeva. Iz kutije na obe strane izlazi po jedan produžetak, brk (whisker, mačji brk) koji se prostire u opsegu najmanje i najveće vrednosti koje nisu neobične ili ekstremne. Za određivanje dužine produžetaka služe nam unutrašnje i spoljašnje granice. Unutrašnje granice su udaljene od krajeva kutije po 1,5 a spoljašnje po 3 interkvartilna opsega. Granice se ne ucrtavaju u grafikon već služe za određivanje dužine produžetaka i identifikaciju neobičnih i ekstremnih vrednosti. Neobične vrednosti (outlier) su sve vrednosti koje su od ivica kutije udaljene više od 1,5, a manje od 3 dužine kutije (interkvartilnog opsega) i na grafikonu se označavaju 0. Ekstremne vrednosti su one koje su od ivice kutije udaljene više od 3 njegove dužine i na grafikonu se obeležavaju sa * ili x. Za unimodalne distribucije frekvencija očekuje se da iza unutrašnjih granica bude manje od 1% podataka, dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ Treba proveriti da li je vrednost ekstremnih vrednosti moguća ili je u pitanju greška prilikom zapisivanja i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih vrednosti date promenljive. 14 Shematski prikaz grafikona kutije (31) Interkvartilni opseg k=Q-a (310) == ————— 15 -—— ekstremna vrednost najveća vrednost koja nije neobična ili ekstremna a medijana a najmanja vrednost koja nije neobična ili ekstremna *— neobična vrednost Varijansa i standardna devijacija Varijansa je srednje kvadratno odstupanje od aritmetičke sredine. Obeležava se sa sd2 ili s2. Izračunava se po formuli: Xi je vrednost pojedinačnog podatka je aritmetička sredina, a n je broj podataka. Kada je n veće od 30, u imeniocu se može staviti n umesto n-1 jer su tada izračunate vrednosti približno jednake. Standardna devijacija (obeležava se sa sd) izračunava se kao kvadratni koren iz varijanse, odnosno kao kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetičke sredine: 16 6. Verovatnoća i raspodele verovatnoća U prirodi postoje dve vrste događaja: sigurni i slučajni. Sigurni (deterministički) događaji su oni u kojima određeni uslovi delovanjem nekog zakona deterministički (jednoznačno) vode u određeni ishod. Slučajni (nedeterministički, stohastični) događaji su oni u kojima određeni uslovi zavisno od slučajnosti mogu voditi u različite ishode. Ovi ishodi su međusobno isključivi, odnosno može se ostvariti samo jedan od njih. Skup svih mogućih ishoda u određenim uslovima nazivamo skup elementarnih ishoda (skup elementarnih događaja). Predmet ispitivanja teorije verovatnoće jesu slučajni događaji. Verovatnoća je mera očekivanja nekog slučajnog događaja. Kvantitativno se iskazuje na skali od 0 (nemoguć događaj) do 1 (siguran događaj) ili u procentima od 0% do 100%. Verovatnoća malo verovatnih događaja bliska je nuli, dok je verovatnoća visoko verovatnih događaja bliska jedinici. Verovatnoća slučajnog događaja se može definisati i izračunati na više načina: 1) Objektivna verovatnoća ● Teorijska (klasična, matematička, a priori) verovatnoća ● Empirijska (statistička, frekvencijska, a posteriori) verovatnoća 2) Subjektivna verovatnoća Teorijska verovatnoća zasniva se na pretpostavci da su svi mogući ishodi jednako verovatni. Ova verovatnoća naziva se a priori, jer se određuje pre bilo kakvog merenja ili opservacije samih ishoda. Teorijska verovatnoća izračunava se kao količnik broja očekivanih ishoda i broja svih jednako mogućih ishoda. Empirijska verovatnoća Empirijska verovatnoća (relativna frekvencija) se određuje posle ostvarivanja posmatranog događaja, a izračunava se kao odnos broja ostvarenih (očekivanih) ishoda prema ukupnom broju mogućih ishoda: gde je p relativna učestalost, m broj očekivanih ishoda, a n ukupan broj mogućih ishoda. Subjektivna verovatnoća izražava stepen uverenja određene osobe o mogućnosti ostvarenja nekog događaja. Zasniva se na teorijskom znanju u datoj oblasti i raspoloživim informacijama. Primenjuje se kada nije moguće neku pojavu 19 opservirati više puta i na taj način odrediti relativne frekvencije kod veoma retkih ili događaja koji se do sada nisu desili. Subjektivna verovatnoća se može razlikovati od jedne do druge osobe, zavisno od usvojenog teorijskog modela posmatrane pojave i raspoloživih informacija. Osobine verovatnoće Nenegativnost ne može biti negativna i uvek je u intervalu od 0 (nemoguć događaj) do 1 (siguran događaj). Normiranost je zbir verovatnoća svih mogućih međusobno isključivih događaja iznosi 1. Aditivnost podrazumeva da ako su dva događaja međusobno isključiva, verovatnoća da će se ostvariti bilo koji od njih dobija se kao zbir njihovih verovatnoća. Verovatnoća događaja koji je predmet istraživanja naziva se verovatnoćom očekivanog događaja i obično se obeležava sa p. Verovatnoća događaja koji nije predmet istraživanja naziva se verovatnoćom suprotnog događaja i obeležava se sa q. Obe verovatnoće su komplementarne parcijalne verovatnoće za njih važi: p+q=1. Zakoni verovatnoće Zakon adicije (zakon sabiranja verovatnoća) izračunava verovatnoću da će se dogoditi jedan bilo koji (ili ovaj ili onaj) očekivani događaj. Za međusobno isključive događaje (ne mogu se ostvariti istovremeno): P(A∪B)=P(A)+P(B) Za događaje koji nisu međusobno isključivi: P(A∪B)=P(A)+P(B)−P(A∩B) Zakon multiplikacije (zakon množenja verovatnoća) se odnosi na složenu verovatnoću, verovatnoću istovremene ili uzastopne pojave dva ili više događaja. Verovatnoća da će nastupiti očekivana kombinacija događaja (i ovaj i onaj) jednaka je proizvodu verovatnoća svakog od tih događaja. Za nezavisne događaje (nastupanje događaja ne zavisi od nastupanja ili nenastupanja drugog događaja): P(A∩B)=P(A)×P(B) Za zavisne događaje (nastupanje događaja zavisi od nastupanja ili nenastupanja drugog događaja): P(A∩B)=P(A)×P(B/A)=P(B)×P(A/B) 20 Relativna verovatnoća P(A/B) naziva se još i uslovna ili kondicionalna verovatnoća i predstavlja verovatnoću uslovljenog događaja. Uslovna verovatnoća je verovatnoća očekivanog događaja koji je uslovljen prethodnom pojavom nekog drugog događaja. Uslovna verovatnoća je osnovni tip verovatnoće u prirodnim naukama. Teorijske raspodele verovatnoća su specifični matematički modeli raspodela (distribucija) verovatnoća. U teorijskoj statistici formulisan je veći broj raspodela verovatnoća od kojih neke imaju široku primenu u medicini kao što su to binomna i normalna raspodela. Statističke procedure zasnovane su na pretpostavci da empirijske raspodele podataka slede neku od teorijskih raspodela, a zatim se osobine te teorijske raspodele mogu primeniti na empirijsku raspodelu. Raspodele empirijskih podataka nikada nisu identične teorijskim raspodelama koje su definisane matematički, već manje ili više odstupaju od njih. Da bi osobine neke teorijske raspodele mogle biti iskorišćene za analizu empirijskih podataka potrebno je da empirijska raspodela bude dovoljno slična teorijskoj raspodeli. Binomna raspodela Binomna raspodela predstavlja raspored verovatnoća vrednosti prekidne slučajne promenljive dihotomnog (binomnog) karaktera. Da bi neka slučajna promenljiva mogla da sledi zakone binomnog raspoređivanja potrebno je da: prost događaj ima dva međusobno isključiva ishoda, je verovatnoća očekivanog ishoda, koja se obeležava sa p, konstantna u svakom prostom događaju i su događaji nezavisni. Binomna raspodela pokazuje verovatnoću ostvarivanja svake vrednosti slučajno promenljive u određenom broju uzastopno ponovljenih nezavisnih događaja. Svaka binomna raspodela je definisana sa dva parametra: n i p, gde je n broj prostih nezavisnih događaja, a p verovatnoća očekivanog događaja. Deskriptivne mere binomne raspodele su aritmetička sredina (np) i varijansa np(1–p). Binomna verovatnoća predstavlja verovatnoću da će se očekivani binomni ishod (X), sa stalnom prostom verovatnoćom (p), ostavriti x puta pri ponavljanju n nezavisnih prostih događaja. Binomna verovatnoća x uspeha od n prostih nezavisnih događaja dobija se primenom funkcije binomne verovatnoća: U ovoj formuli je 21 6. Verovatnoća i raspodele verovatnoća Populacija predstavlja skup svih istovrsnih elemenata (jedinica posmatranja ljudi, objekata, događaja) koji imaju neku zajedničku karakteristiku od interesa. Ciljna populacija predstavlja skup elemenata za koji želimo da generalizujemo zaključak. Uzoračka populacija je populacija koja je dostupna i koja predstavlja ciljnu populaciju i iz koje potiče uzorak. Uzorak predstavlja podskup osnovnog skupa (populacije) koji je izabran na osnovu određenog kriterijuma. Cilj i primena uzorka u statistici je ispitivanje određene osobine i generalizacija zaključka na populaciju. Razlozi za sprovođenje istraživanja na uzorku, a ne na populaciji, su višestruki: manji troškovi istraživanja, kraće vreme trajanja istraživanja, podaci dobijeni na reprezentativnom uzorku često mogu biti tačniji, jer se za manji broj ispitanika mogu angažovati bolje obučeni kadrovi ili primeniti naprednije metode koje obezbeđuju veću tačnost merenja i negativnog ishoda za jedinice posmatranja npr. žrtvovanje laboratorijskih životinja radi histolopatoloških analiza. Neophodan uslov za generalizaciju zaključka sa uzorka na populaciju jeste reprezentativnost uzorka, odnosno njegova sličnost sa populacijom. Uzorkovanje predstavlja proces odabira reprezentativnog dela cele populacije. Reprezentativan uzorak poseduje karakteristike slične onima u populaciji. Osnovni preduslovi reprezentativnosti su: 1) Način izbora jedinica posmatranja u uzorak mora biti nezavisan od vrednosti posmatranog obeležja. 2) Verovatnoća odabira jedinica posmatranja da se nađu u uzorku mora biti unapred poznata. 24 Kada ovi uslovi nisu ispunjeni radi se o pristrasnom uzorku koji je izabran na takav način da su neke jedinice iz uzoračke populacije imale veću verovatnoću da uđu u uzorak. Tehnike uzorkovanja Prema načinu uzorkovanja (biranja jedinica posmatranja u uzorak) uzorci mogu biti: ● sa verovatnoćom (slučajni) - sve jedinice posmatranja u populaciji imaju šansu da budu uključene u uzorak, a verovatnoća da bilo koja od njih bude u uzorku može biti tačno izračunata ● bez verovatnoće (neslučajni) - jedinice posmatranja iz populacije se biraju po principu njihove dostupnosti ili istraživač smatra da one dobro predstavljaju populaciju. U ovom slučaju nepoznati deo populacije je isključen, a uzorak može biti pristrasan. Slučajni uzorci U ovom tipu uzoraka vrši se slučajna selekcija jedinica posmatranja i svaka jedinica posmatranja u populaciji ima poznatu (jednaku i nezavisnu) verovatnoću (šansu) da uđe u uzorak. Razlozi zbog kojih treba dati prednost slučajnim uzorcima u odnosu na neslučajne su: 1) slučajan način biranja jedinica redukuje pristrasnost u procesu biranja jedinica posmatranja za uzorak i 2) prilikom korišćenja analitičkih statističkih metoda pretpostavlja se da su uzorci birani na slučajan način. Slučajan način biranja jedinica posmatranja za uzorak doprinosi većem kvalitetu studije. Tipovi slučajnih uzoraka su: prost slučajan uzorak, sistematski uzorak, stratifikovani uzorak i klaster uzorak i drugi. Prost slučajan uzorak U prostom slučajnom uzorku sve jedinice posmatranja uzoračke populacije imaju jednaku verovatnoću da uđu u uzorak, što se postiže korišćenjem tabela slučajnih brojeva ili češće kompjuterski generisanog procesa odabiranja (korišćenjem slučajnih brojeva). Proces uključuje definisanje populacije i identifikaciju uzoračkog okvira (numerisanog spiska svih dostupnih jednica posmatranja uzoračke populacije). U uzorak se biraju one jedinice iz uzoračkog okvira čiji brojevi su izvučeni od strane generatora slučajnih brojeva. Ukoliko se formira uzorak bez ponavljanja, jednom izabrani broj u daljem odabiru se preskače, jedna jedinica može ući samo jednom u uzorak, a ukoliko se formira uzorak sa ponavljanjem jedna jedinica posmatranja može ući više puta u uzorak. 25 Sistematski uzorak U ovom tipu uzorka jedinice posmatranja se biraju sa liste uzoračke populacije izborom svake K-te jedinice. K predstavlja korak izbora (uzorački interval) koji zavisi od veličine uzoračke populacije i željene veličine uzorka. 𝐾 = 𝑁 𝑛 N veličina uzoračke populacije n veličina uzorka Kao i kod prostog slučajnog uzorka, najpre se formira uzorački okvir, numerisani spisak svih dostupnih jedinica posmatranja uzoračke populacije. Zatim se izračunava korak K=N/n. Prva jedinica posmatranja odabira se pomoću generatora slučajnih brojeva (slučajni početak), a zatim se automatski odabira svaka K-ta jedinica u uzorak. Sistematski uzorak može dati korisne informacije ako kod jedinica u uzoračkoj populaciji postoji uređenost po intenzitetu posmatrane karakteristike, nije pogodan ako postoje ciklične varijacije posmatrane karakteristike. Stratifikovani uzorak Stratifikovani uzorak se primenjuje kod heterogenih populacija u odnosu na neku varijablu (starosna grupa, pol, geografska lokacija - stratifikujuća varijabla). Zbog toga se populacija deli na stratume iz kojih se zatim bira slučajni uzorak (kao prost slučajan ili sistematski uzorak). Ovakav način odabira jedinica posmatranja osigurava da svaka subpopulacija bude odgovarajuće zastupljena u uzorku. Klaster uzorak Najpre se populacija deli na klastere (grupe), a zatim se na slučajan način biraju klasteri koji ulaze u uzorak (tako da se na slučajan način biraju grupe - klasteri, a ne individue). Koristan je kada je populacija velika ili geografski široko rasprostranjena. Često se primenjuje u istraživanjima gde se populacija može podeliti prema teritorijalnom principu. Klasteri mogu biti škole na teritoriji jedne države gde se prvo na slučajan način biraju klasteri (škole), a zatim se sve jedinice posmatranja (učenici) iz klastera uključuju u uzorak ili se odabira slučajan uzorak jedinica posmatranja (učenika) iz svakog od izabranih klastera (višeetapni uzorak). Neslučajni uzorci Kada istraživači nisu u mogućnosti da izvrše uzorkovanje na slučajan način (zbog nedostupnosti jedinica posmatranja, ograničenih resursa...) istraživanja se sprovode na neslučajnim uzorcima. Kod neslučajnih uzoraka verovatnoća odabira jedinica posmatranja u uzorak nije poznata, već postoji selekciona pristrasnost. Elementi uzorka su odabrani na bazi sopstvene procene istraživača, pa nedostaje objektivnost u odabiru uzorka. Rezultati sprovođenja istraživanja na ovom tipu 26 uzoračka raspodela aritmetičkih sredina teži ka normalnoj raspodeli bez obzira na oblik raspodele u populaciji. U formuli za standardnu grešku potrebno je poznavati standardnu devijaciju populacije. Kako je ona retko poznata umesto nje koristimo standardnu devijaciju uzorka sd: 29 Statističko zaključivanje podrazumeva ocenu parametara populacije i testiranje hipoteza. Ideja moderne statistike je da na osnovu uzorka (dobijenog uzorkovanjem iz osnovnog skupa) donosimo zaključke o populaciji (statističko zaključivanje). Jedan od najvažnijih istraživačkih zadataka jeste ocena parametara u populaciji, najčešće aritmetičke sredine ili proporcije. Parametre ne možemo izračunavati direktno, ali možemo dati njihovu ocenu korišćenjem uzoračkih statistika. Uzoračka aritmetička sredina ili proporcija predstavljaju tačkaste ocene ovih parametara u populaciji. Tačkasta procena predstavlja jednu vrednost kojom se aproksimira populacioni parametar. Intervalna procena pruža više informacija o populacionoj karakteristici od tačkaste procene. Ona obezbeđuje nivo poverenja za ovu procenu. Takva intervalna procena se naziva interval poverenja. Krajnje tačke intervala poverenja nazivaju se granicama poverenja, a verovatnoća sa kojom se parametar nalazi unutar intervala poverenja nivoom poverenja. Intervali poverenja se najčešće izračunavaju za nivo poverenja od 0.95 i 0.99 (95% i 99%). Interval poverenja (IP) Prikazuje čitav raspon vrednosti kojima se procenjuje prava vrednost populacionog parametra. Uzima u obzir varijacije u uzoračkoj statistici od uzorka do uzorka. Zasnovan je na opservaciji dobijenoj iz jednog uzorka. Pruža informaciju o tome koliko je uzoračka statistika blizu nepoznatog populacionog parametra. Prikazuje se u smislu zadatog nivoa poverenja (ne može nikad biti 100% IP). Tumačenje IP Ukoliko bismo uzeli sve moguće uzorke veličine n i izračunali njihove aritmetičke sredine i intervale, 95% (99%) svih intervala bi sadržalo pravu vrednost nepoznatog populacionog parametra. Određeni interval može ali ne mora da sadrži pravu vrednost populacionog parametra. Opšta formula za sve IP: tačkasta procena ± (kritična vrednost) (standardna greška) Kritična vrednost predstavlja broj koji granično razdvaja uzoračke statistike za koje je verovatno da će se pojaviti od onih za koje to nije verovatno. Standardna greška (SE) je mera odstupanja/variranja uzoračke statistike od prave vrednosti populacionog parametra. 99% interval poverenja je sigurniji ima manji rizik greške u odnosu na 95% interval poverenja. Istraživači češće koriste 95% interval poverenja 30 jer su oni precizniji (uži interval) u odnosu na 99% interval poverenja. Na širinu intervala poverenja utiču veličina uzorka i varijabilitet. Širina intervala poverenja opada sa povećanjem veličine uzorka i sa smanjenjem varijabiliteta. Interval poverenja aritmetičke sredine gde je: aritmetička sredina uzorka, sd standardna devijacija, t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja, μ aritmetička sredina populacije predstavlja standardnu grešku aritmetičke sredine (SE). Proizvod predstavlja preciznost procene (E) koji odgovara polovini širine intervala poverenja. Interval poverenja proporcije gde je: p proporcija posmatranog događaja u uzorku, n veličina uzorka, t vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenja. U formuli predstavlja standardnu grešku proporcije. Proizvod predstavlja preciznost ocene što je istovremeno i polovina širine intervala poverenja. 31 Ho : μ1 = μ2 Alternativna ili radna hipoteza (H1) iskaz o onome što istraživač veruje da je tačno u slučaju da su uzorački podaci doveli do odbacivanja nulte hipoteze da se dve populacione aritmetičke sredine razlikuju: H1 : μ1 ≠ μ2 U postupku testiranja hipoteza primenom statističkih metoda testira se nulta hipoteza posle čega je moguće doneti samo jednu od dve moguće odluke: 1) Nulta hipoteza se prihvata, a odbacuje radna hipoteza i donosi se zaključak da ne postoji značajna razlika između populacionih parametara. Ako je testirana jednakost aritmetičkih sredina karboksihemoglobina pušača i nepušača prihvatanjem nulte hipoteze donosi se zaključak da su one jednake, ne postoji razlika prosečnih vrednosti karboksihemoglobina između pušača i nepušača. 2) Nulta hipoteza se odbacuje, a prihvata radna hipoteza i donosi se zaključak da postoji značajna razlika između populacionih parametara. Ako je testirana jednakost aritmetičkih sredina karboksihemoglobina pušača i nepušača odbacivanjem nulte hipoteze donosi se zaključak da se one razlikuju, postoji statistički značajna razlika prosečnih vrednosti karboksihemoglobina između pušača i nepušača. Dvosmerna i jednosmerna alternativna hipoteza Radna hipoteza formulisana kao H1: μ0≠ μ1 spada u dvosmerne (dvostrane, neusmerene) hipoteze, njome se tvrdi da postoji razlika, ali ne i u kom smeru. Kada se radnom hipotezom tvrdi da postoji razlika u jednom smeru u pitanju je jednosmerna (jednostrana, usmerena) hipoteza. Jednosmerna radna hipoteza, zavisno od tvrđenja o smeru razlike može biti formulisana kao H1 : μ1 < μ2 ili H1: μ1 > μ2. Nivo značajnosti i greške u zaključivanju U proceduri testiranja hipoteza moguća su četiri ishoda odlučivanja u zavisnosti od toga da li se donese odluka o prihvatanju ili odbacivanju nulte hipoteze i prave istine u populaciji. Ishodi zavise od onoga što saznajemo i odlučujemo na osnovu analize podataka iz uzorka i onoga što predstavlja apsolutnu istinu u populaciji. Dve ispravne odluke su odbacivanje netačne nulte hipoteze ili prihvatanje tačne nulte hipoteze. Zaključci doneti statističkim metodama imaju probabilističku prirodu, uvek uključuju komponentu slučajnosti. Ta slučajnost proističe iz toga što nismo u mogućnosti da opserviramo kompletnu populaciju koja je u teorijskom smislu beskonačna, već samo jedan njen deo, a to je uzorak. Formiranje uzorka zavisi od slučajnosti. U ponovljenim biranjima uzorka mala je verovatnoća da ćemo 34 dobiti uzorak istog sastava, pa samim tim je moguće u ponovljenom istraživanju sa novim uzorkom doneti i drugačiji zaključak. Zbog probabilističke prirode statističkog zaključivanja moguće je osim ispravne odluke doneti i dve pogrešne odluke koje nazivamo greškama prvog i drugog tipa: 1) Greška prvog tipa nastaje kada se odbaci tačna nulta hipoteza. Verovatnoća greške ovog tipa obeležava se sa α 2) Greška drugog tipa nastaje kada se prihvati netačna nulta hipoteza. Verovatnoća greške ovog tipa obeležava se sa β. U proceduri testiranja hipoteza moguće je napraviti samo jedan tip greške, a nikako obe istovremeno. Oba tipa grešaka mogu imati važne posledice. Greška prvog tipa za posledicu ima donošenje zaključka o postojanju efekta kada ga zapravo nema. Greška drugog tipa za posledicu ima donošenje zaključka da ne postoji efekat kada ga zapravo ima. Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri čemu treba uzeti u obzir da su one međusobno povezane: smanjivanje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa i obrnuto. Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača. Maksimalno dozvoljena verovatnoća greške prvog tipa koju istraživač prihvata u istraživanju predstavlja nivo značajnosti (α nivo). Najčešće se za nivo značajnosti bira verovatnoća od 0.05, retko strožiji nivo od 0.01, a još ređe nivo od 0.001. Prelaskom sa nivoa značajnosti 0.05 na 0.01, smanjuje se verovatnoća greške prvog tipa, ali se istovremeno povećava verovatnoća greške drugog tipa tako da istraživači u zaključivanju najčešće biraju nivo značajnosti od 0.05. Verovatnoća greške drugog tipa zavisi od odabranog nivoa značajnosti (α nivo), veličine uzorka, povećanje veličine uzorka smanjuje verovatnoću greške i prvog i drugog tipa. Povećanje uzorka je od većeg značaja za kontrolu greške drugog tipa, jer grešku prvog tipa istraživač drži pod kontrolom izborom nivoa značajnosti, formulacije H1 kao dvosmerne ili jednosmerne. Greška drugog tipa manja je kod jednosmerne u odnosu na dvosmernu radnu hipotezu i stvarne razlike 35 ispitivane pojave. Na razliku ispitivanih parametara u populaciji istraživač ne može da utiče, ali ako je ta razlika veća biće manja verovatnoća greške drugog tipa. Komplement verovatnoće greške drugog tipa (1-β) naziva se snagom statističkog testa koja predstavlja verovatnoću odbacivanja nulte hipoteze kada je ona netačna. U istraživanjima se za donju prihvatljivu granicu snage testa najčešće uzima verovatnoća od 0.80. Sve ono što je navedeno da utiče ili može poslužiti za kontrolu verovatnoće greške drugog tipa utiče i na snagu statističkog testa, ali u obrnutom smeru. Snaga statističkog testa biće veća ako je: odabran nivo značajnosti 0.05, a ne 0.01, veći uzorak, H1 formulisana kao jednosmerna, ako takva formulacija ima svoju teorijsku osnovu i veća razlika ispitivanih populacionih parametara. Izbor statističkog testa Izbor statističkog testa zavisi od: tipa podataka (nominalni, ordinalni, numerički) i dizajna studije. Za nominalne podatke moguću primenu ima Pearsonov hi-kvadrat test, a za ordinalne podatke Mann-Whitney test. ● Broja uzoraka. Za testiranje razlike dve aritmetičke sredine moguću primenu ima t-test, a za testiranje razlike dve ili više aritmetičkih sredina moguću primenu ima ANOVA. ● Nezavisni ili zavisni uzorci Nezavisni (nemečovani, nevezani) uzorci su jedinice u jednom uzorku različite i nezavisne od jedinica u drugom uzorku. Jedan uzorak čine ispitanici izloženi štetnim isparenjima, a drugi uzorak kontrolni ispitanici koji nisu izloženi. Testira se razlika učestalosti arterijske hipertenzije, pri čemu moguću primenu ima hi-kvadrat test. Zavisni (vezani, korelisani) uzorci su jedinice jednog uzorka povezane sa jedinicama drugog uzorka. Zavisni uzorci nastaju: 1) U dizajnu pre-posle kada se merenje vrednosti jedne varijable vrši na istim jedinicama posmatranja dva ili više puta (ponovljena merenja). Uzorak čine ispitanici oboleli od depresije. Izmeren je arterijski pritisak pre i 20 dana nakon započete terapije antidepresivima. Testira se promena učestalosti hipotenzije (pre i posle primene antidepresiva) pri čemu moguću primenu ima McNemarov test. 2) Uparivanjem (mečovanjem) svakoj jedinici posmatranja iz jednog uzorka odgovara jedna (ili više) jedinica posmatranja iz drugog uzorka, a koje su uparene prema nekoj varijabli. Jedan uzorak čine ispitanici koji su izloženi štetnim isparenjima, a drugi uzorak mečovan po polu i starosti čine neizloženi kontrolni ispitanici. Svaki ispitanik iz kontrolne grupe uparen je sa nekim ispitanikom iz gupe izloženih istog su pola i iste starosti. Testira se razlika učestalosti arterijske hipertenzije između grupa pri čemu moguću primenu ima McNemarov test. Parametarski testovi 36 Studentov t-test je parametarski analitički metod za testiranje hipoteza o populacionim prosečnim vrednostima. Studentov t-test je zasnovan na t raspodeli. Ova raspodela je slična normalnoj ima zvonast oblik i simetrična je. Sa povećanjem veličine uzorka postaje sve sličnija normalnoj raspodeli. Granične vrednosti za odbacivanje nulte hipoteze zavise od toga da li se radi o dvosmernom ili jednosmernom testiranju, izabranog nivoa značajnosti i od broja stepena slobode (DF) koji predstavlja broj podataka umanjen za jedan u svakoj seriji podataka. Pretpostavka za primenu t-testa jeste da ispitivana varijabla ima normalnu raspodelu u osnovnom skupu, premda je test robustan na izvesno odstupanje od normalnosti. Ta robustnost raste sa povećanjem uzorka. Testiranje hipoteza o populacionim prosečnim vrednostima, jedan uzorak Testiramo nultu hipotezu da je aritmetička sredina populacije iz koje potiče uzorak veličine n, jednaka nekoj specifikovanoj vrednosti: H0: µ = µ0 gde je µ nepoznata aritmetička sredina populacije iz koje potiče uzorak, a µo je specifikovana vrednost koja je pretpostavljena na osnovu ranijih istraživanja ili teorijskog modela. Ako na osnovu ranijih istraživanja pretpostavljena aritmetička sredina populacije iznosi 5, nulta hipoteza ima formulaciju: H0: µ = 5 odnosno, nulta hipoteza tvrdi da aktuelni uzorak potiče iz populacije sa aritmetičkom sredinom koja iznosi 5. Ako na osnovu statistike testa odbacimo nultu hipotezu, onda prihvatamo alternativnu hipotezu koja tvrdi da uzorak potiče iz populacije sa aritmetičkom sredinom koja je različita od specifikovane vrednosti (u ovom primeru različito od 5). Pretpostavke za izvođenje t-testa su: 1) Slučajno biran uzorak 2) Numerički podaci 3) Normalna raspodela u populaciji Testiranje hipoteza o populacionim prosečnim vrednostima, dva nezavisna uzorka Testiramo nultu hipotezu da su aritmetičke sredine osnovnih skupova iz kojih su dobijeni uzorci jednake: H0: µ1 = µ2. Radna hipoteze bi glasila: da su aritmetičke 39 sredine različite: H1:μ1 ≠ μ2, (dvosmerno testiranje) ili da je jedna veća od druge: H1: µ1 > µ2, H1: µ1 < µ2, (jednosmerno testiranje). Uslovi za testiranje razlike aritmetičkih sredina t-testom su: 1) Normalnost raspodele podataka 2) Jednakost varijansi 3) Nezavisni uzorci (jedinica posmatranja može biti zastupljena samo u jednom uzorku pri čemu izbor jedinica za jedan uzorak nema nikakav uticaj na izbor jedinica u drugom uzorku) Testiranje hipoteza o populacionim prosečnim vrednostima, dva zavisna uzorka Zavisni uzorci nastaju u dizajnu ponovljenih merenja ili mečovanjem (uparivanjem) sličnih jedinica iz različitih uzoraka. Razliku aritmetičkih sredina zavisnih uzoraka možemo testirati t-testom za zavisne uzorke (t-test korelisanih uzoraka, t-test mečovanih uzoraka – parova). Test je zasnovan na razlici pre-posle ili razlici mečovanih parova vrednosti. d = xpre – xposle (u dizajnu ponovljenih merenja) d = xuzorak1 – xuzorak2 (kod mečovanih uzoraka) Nulta hipoteza tvrdi da je aritmetička sredina ovih razlika jednaka nuli, a alternativna suprotno: H0: µd = 0 H0: μd ≠ 0 Uslov za primenu t-testa za zavisne uzorke jeste normalnost raspodele podataka. 40 Hi-kvadrat test je neparametarski analitički metod za procenu značajnosti razlike opaženih (empirijskih) i očekivanih (teorijskih) učestalosti jednog ili više nezavisnih uzoraka. Učestalosti se odnose na kategorije ispitivane varijable. Učestalosti (frekvencije) u ovom testu moraju biti iskazane kao apsolutni brojevi, a ne kao proporcije ili procenti. Statistika hi-kvadrat testa izračunava se pomoću formule: gde je f opažena, a f' očekivana učestalost. Statistika hi-kvadrat testa sledi hi-kvadrat raspodelu za odgovarajući broj stepena slobode. Ukoliko je veća razlika opaženih i očekivanih učestalosti, utoliko će biti veća vrednost hi-kvadrat statistike, a samim tim i veća verovatnoća da bude odbačena nulta hipoteza. Vrednost hi-kvadrat statistike jednaka nuli ukazuje na potpuno slaganje, odnosno jednakost opaženih i očekivanih učestalosti. Prema broju varijabli u analizi razlikujemo: 1) Hi kvadrat test slaganja 2) Hi kvadrat tabele kontingencije Hi-kvadrat test slaganja Hi-kvadrat testom slaganja testiramo hipotezu da raspodela opaženih učestalosti odgovara (slaže se) sa nekom pretpostavljenom raspodelom, tako da postoji dobro slaganje opserviranih učestalosti sa očekivanim učestalostima. Očekivane učestanosti raspoređuju se po značenju nulte hipoteze, po zakonitostima neke od teorijskih raspodela ili po raspodeli ispitivane varijable poznatoj iz prethodnih istraživanja. 41 McNemarov test je neparametrski analitički metod za testiranje značajnosti razlike učestalosti dihotomnih podataka koji potiču od dva vezana (zavisna) uzoraka. Vezane uzorke mogu činiti iste jedinice opservirane dva ili više puta ili individualno mečovane jedinice dva uzorka. Statistika testa se izračunava pomoću formule: koja sledi hi-kvadrat raspodelu za 1 stepen slobode. 44 Fisherov test tačne verovatnoće je alternativa hi-kvadrat testu za tabele r×k. Može se koristiti uvek bez obzira na učestalosti u tabelama kontingencije i u slučajevima kada se ne može koristiti hi-kvadrat test zbog malih učestalosti. Procedura testa zahteva izračunavanje verovatnoće opaženih učestalosti u tabeli kontingencije, ali i svih drugih mogućih učestalosti uz uslov da marginalne učestalosti ostanu nepromenjene. Izračunavanje ovih verovatnoća zasnovano je na hipergeometrijskoj raspodeli. Nultu hipotezu odbacujemo ako je zbir verovatnoća opserviranih i ekstremnijih podataka jednak ili manji od 0.05. 45 Testovi koje koristimo započinju rangiranjem podataka. Podaci mogu biti rangirani od najmanjeg do najvećeg ili obrnuto od najvećeg do najmanjeg. ● Ne prepostavljaju normalnu, a takođe ni jednu drugu, raspodelu. ● Uzorci su birani slučajno ● Umesto DF (broja stepena slobode) koriste se veličine uzoraka (uzorka) za nalaženje graničnih/kritičnih vrednosti testova Rangiranje je procedura dodeljivanja brojeva (rangova) podacima iskazanim u kvalitatvnom zapisu ordinalnih karakteristika predstavljenih uređenim nizom. Primer rangiranja: samoprocena zdravlja (rangovi): dobro, odlično, loše, vrlo dobro, vrlo loše (3, 5, 2, 4, 1) dobro, dobro, loše, odlično (2.5, 2.5, 1, 4) Test sume rangova Ovim testom testira se nulta hipoteza o jednakosti raspodela rangova ili jednakosti medijana dve populacije tvrđenjem da su sume rangova slične u obe populacije. Test sume rangova je neparametarski test koji se koristi kao alternativa Studentovom t-testu za dva nezavisna uzorka. Primenjuje se kada nisu ispunjeni uslovi za primenu t-testa, kada raspodela numeričkih podataka nije normalna ili se radi o ordinalnim ili rangiranim podacima. U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume rangova i Mann-Whitney U test. Ova dva testa su ekvivalentna, pa otuda i nazivWilcoxon-Mann-Whitney test. 46 Vrednosti koeficijenta korelacije mogu biti u rasponu od -1 do 1. Predznak koeficijenta korelacije pokazuje smer povezanosti: vrednosti od -1 do 0 postoje kod negativne povezanosti, a vrednosti od 0 do 1 kod pozitivne povezanosti. Vrednosti koje su bliske 0 ukazuju na odsustvo povezanosti. Koeficijenti korelacije: ● Pearsonov koeficjent korelacije (r) ● Spearmanov koeficijent korelacije ranga (ρ). Pearsonovim koeficijentom korelacije (koeficijent linearne korelacije) merimo linearnu povezanost dve varijable. Varijable označene kao x i y mogu zameniti mesta bez uticaja na vrednost koeficijenta korelacije. Linearnost povezanost podrazumeva da će se na dijagramu rasturanja tačke grupisati oko prave linije. Osim linearnosti odnosa, preduslovi za primenu Pearsonovog koeficijenta korelacije su da obe varijable moraju biti numeričke kontinuirane i da imaju normalnu raspodelu. Statistička značajnost koeficijenta korelacije testira se t testom. Nulta hipoteza je da se ρ ne razlikuje od 0 (H0:ρ=0), odnosno da je korelacija u populaciji jednaka nuli. Odbacivanjem nulte hipoteze zaključujemo da je korelacija dve varijable statistički značajna. Spearmanov koeficijent korelacije rangova je neparametarski metod baziran na rangovima i primenjuje se kada odnos između varijabli nije linearan, najmanje jedna varijabla nema normalnu raspodelu ili najmanje za jednu varijablu podaci su ordinalni ili su dati u vidu rangova. Statistička značajnost koeficijenta korelacije rangova testira se t testom. Nulta hipotezaje da se ρs ne razlikuje od 0 (H0: ρs=0). Statistička značajnost koeficijenta korelacije testira se t testom. Ako koeficijent korelacije nije statistički značajan (p>0.05) može se zaključiti da između varijabli nema povezanosti. Ako je koeficijent korelacije statistički značajan (p≤0.05) može se zaključiti da između varijabli postoji povezanost (zavisnost, asocijacija) i može se interpretirati njegova vrednost u smislu smera i jačine povezanosti varijabli za koje je koeficijent korelacije i izračunat. Jedan od predloženih načina za opisivanje jačine povezanosti dve varijable na osnovu vrednosti koeficijenta korelacije je sledeći: 49 Regresiona analiza Regresiona analiza ispituje odnos između zavisne varijable (Y) i barem jedne nezavine varijable (X). Opšti oblik regresionog modela predstavljen je regresionom funkcijom f između bar dve varijable y=f(x). Regresioni metod omogućuje ispitivanje smera i oblika povezanosti bar dve varijable. Poznavanje oblika povezanosti služi definisanju kvantitativnog zakona povezanosti (koliko i u kom smeru se menja jedna zavisna varijabla, kada se menja druga, treća, n-ta nezavisna varijabla). Kvantitativni zakon povezanosti je reprezentovan matematičkim modelom (regresionim modelom), regresionom jednačinom. Četiri koraka u gradnji regresionog modela su: 1) Ispunjenost pretpostavki za korišćenje određenog modela 2) Izračunavanje parametara modela i njihova interpretacija 3) Slaganje modela sa postojećim skupom podataka 4) Validacija modela Jednostruka linearna regresija Ako se za dve varijable pretpostavlja linearan odnos radi se o lineranom regresionom modelu, a regresiona jednačina bi imala oblik y=a+bx, gde je y zavisna varijabla, a je regresiona konstanta, b je regresioni koeficijent, a x je nezavisna varijabla. Četiri koraka u gradnji linearnog regresionog modela: 1) Ispunjenost pretpostavki ● Normalnost - subpopulacije zavisne varijable (Y) su normalno raspodeljene za svaku vrednost nezavisne varijable (X) ● Linearnost - aritmetičke sredine subpopulacija zavisne varijable (Y) leže na pravoj liniji ● Nezavisnost - vrednosti zavisne varijable (Y) iz uzorka za jednu vrednost nezavisne (X) ni na koji način ne zavise od vrednosti Y dobijene za neku drugu vrednost varijable X ● Jednakost varijansi - varijanse subpopulacija zavisne varijable (Y) su među sobom jednake. 2) Izračunavanje parametara modela i njihova interpretacija Regresiona konstanta a predstavlja vrednost zavisne varijable Y za X=0 i predstavlja tačku u kojoj regresiona linija seče y osu. Regresioni koeficijent b predstavlja vrednost za koju se zavisna varijabla (Y) promeni za jediničnu promenu nezavisne varijable. 50 3) Slaganje modela sa postojećim skupom podataka ● testiranje nagiba ● određivanje koeficijenta determinacije (r2) - predstavlja kvadrat Pirsonovog koeficijenta linearne korelacije. Može imati vrednosti od 0 do 1, od 0 do 100%. Predstavlja procenat variranja zavisne varijable koji može biti objašnjen variranjem nezavisne varijable. 4) Validacija modela - rešava problem precenjivanja (mogućnost dobijanja visoko značajnih, ali besmislenih rezultata zbog previše velikog broja prediktora u modelu). Validacija može biti interna kada se model validira na postojećem skupu podataka i eksterna kada se model validira na potpuno novom skupu podataka. Postoje dva načina predviđanja linearnim regresionim modelima: 1) Interpolacija - korišćenje linearnog regresionog modela za predviđanje Y za nepoznato X koje je unutar ispitivanog opsega 2) Ekstrapolacija - korišćenje linearnog regresionog modela za predviđanje Y za nepoznato X koje je van ispitivanog opsega. 51 Pretraživanje možemo ograničiti na određenu vrstu rada, klinička ispitivanja, pregledni radovi, meta-analize, smernice... Omogućava izbor radova napisanih na željenom jeziku. Pol (Sex) i starost (Age) Pretraživanje radova koji uključuju istraživanje na ispitanicima određenog pola. Omogućava izbor određenih starosnih grupa uključenih u istraživanje. Vrste ispitanika (Species) Pretraživanje možemo ograničiti na istraživanja rađena na ljudima ili životinjama. Pretraživanje određenih polja bibliografskog zapisa (Search Fields) Omogućava pretragu samo određenih polja bibliografskog zapisa reference, na primer Author, pretražiće se ukucani pojmovi samo unutar polja koje sadrži prezimena autora reference. Preuzimanje autorskih sažetaka Rezultati pretraživanja po zadatim pojmovima i aktiviranim filterima mogu se preuzeti sa interneta i snimiti na hard disk računara u obliku: autorskih sažetaka u txt formatu ili kompletnih članaka u pdf formatu. Autorski sažeci Sažetak (Abstract) predstavlja skraćeni oblik originalnog rada. Cilj pisanja sažetka je da na brz i efikasan način obavesti čitaoca o problemu istraživanja saopštenog u originalnom radu. Ako se rad objavljuje u celini u nekom časopisu obično se sažetak piše ispod naslova, a iznad rada. Najčešće je napisan na jeziku na kome je napisan rad i na engleskom jeziku. Sažetak se takođe piše po utvrđenoj metodologiji, a broj reči se najčešće ograničava na 250-300 reči. Sažetak treba biti napisan tako da se lako čita, da je jasan i da se lako shvata. Elementi sažetka su: naslov, ime autora i koautora, naziv ustanove, uvod, cilj rada, materijal i metode, rezultati sa diskusijom i zaključak. Nemaju svi sažeci jasno naznačene delove rada. PubMed omogućava da se jedan deo radova preuzme u celini. Ti radovi su sačuvani u PDF formatu. PDF je skraćenica od Portable Document Format. Svaki PDF dokument sadrži kompletan opis dokumenta, uključujući slike, tekst i fontove potrebne za prikaz teksta. Ime dokumenta (datoteke) završava se ekstenzijom .pdf. Obratiti pažnju da naziv datoteke ne sme sadržati specijalne znakove (: ; /, -, +) kako bi rad mogao da se sačuva na hard disku, jer Windows ne dozvoljava specijalne znakove u naslovu PDF dokumenata. 54 Lekari svakodnevno donose niz odluka koje se tiču zdravstvene zaštite pacijenata ili populacije. To uglavnom podrazumeva odluke o dijagnozi i odluke o izboru efikasnog tretmana. Svaka odluka ima potencijalni uticaj na sledeću odluku lekara ili uticaj na odluke drugih lekara u timu koje se odnose na zdravstvenu zaštitu. Lekar uvek balansira između potencijalne koristi koju pacijent može imati od neke odluke i rizika od negativnog ishoda. Takvo odlučivanje zasnovano na jednostavnom poređenju potrencijalne koristi i potencijalnog rizika, može biti otežano kada su odluke kompleksne, a informacije nesigurne, ali i podložno pristrasnoti od strane onog koji odluke donosi (Evidence syntheis). Odluke u medicini donose se na osnovu informacija koje nastaju u susretu zdravstvenog radnika i korisnika zdravstvene zaštite. Određeni stepen neizvesnosti je uvek povezan sa svakom informacijom (informacije uzete od samog pacijenta mogu biti netačne ili neubedljive, prisustvo nekog znaka ne mora da znači i prisustvo bolesti, dijagnostičke procedure mogu dati lažno pozitivne ili lažno negativne rezultate, tok bolesti je često nepredvidiv). Određeni stepen neizvesnoti vezan je i za primenu nekog tretmana, jer se ne može predvideti sa potpunom sigurnošću kakva će biti njegova efikasnost kod određenog pacijenta. Praktičan rad lekara je probabilističke, a ne determinističke prirode. Odluke se često donose u kompleksnim uslovima kada treba odabrati jednu od alternativnih strategija od kojih jedna može nuditi potencijalno veće koristi u odnosu na drugu strategiju, ali sa potencijalno većim rizicima, a pri tome postoji izvestan stepen neizvesnosti za ishod svake strategije. Strategije koje lekar praktičar svakodnevno koristi polaze od postojećeg znanja, prethodnog iskustva i intuitivnog rezonovanja. Svaki od ovih izvora informacija može imati određenu ulogu u misaonom procesu lekara prilikom donošenja odluka. To znači da je proces odlučivanja u praksi najčešće neformalan sa karakteristikama da njegovu osnovu čine informacije dobijene u susretu lekara i korsnika zdravstvene zaštite, da zavisi od stručnog znanja i iskustva lekara i da je odlučivanje učinjeno baš za taj konkretan slučaj rešavanja medicisnkog problema. Za česte i uobičajene probleme ili kada sve alternative vode sličnim ishodima, kada jedna strategija uvek nudi potencijalno visoku korist i mali rizik, ovakav neformalan proces odlučivanja je zadovoljavajući i nema potrebe za izvođenjem formalne analize odlučivanja. U složenim situacijama kada je potrebno uzeti u razmatranje više različitih ishoda i kada su na raspolaganju informacije za koje je vezan visok stepen neizvesnosti, otežana je primena konvencionalnih neformalnih metoda u donošenju odluke. U takvim komplesnim situacijama formalna analiza odlučivanja može biti koristan alat zasnovan na probabilističkim metodama za biranje najpovoljnijeg pravca akcija u zdravstvenoj zaštiti. Formalna analiza odlučivanja je sistematski pristup donošenju odluka u uslovima nesigurnosti, a kriterijumi za njenu primenu su: 55 1) Da postoji problem u donošenju odluke koja se odnosi na: a. određivanje dijagnoze, zbog nesigurnosti dijagnostičkih testova ili b. određivanje tretmana, zbog nesigurnosti u vezi ishoda (efikasnosti tretmana) 2) Da postoji problem oko određivanja kompromisa između koristi i štete prilikom odabiranja jedne od dve ili više alternativnih strategija u tretmanu. Kada jedna strategija daje veću korist u odnosu na druge strategije, ali istovremeno nosi i veći rizik od neželjenih događaja. Ako jedna strategija daje visoku potencijalnu korist i mali rizik od neželjenih događaja, ne postoji potreba za izvođenjem formalne analize odlučivanja. Formalna analiza odlučivanja Analiza odlučivanja na novou individualnog pacijenta može biti upotrebljena za donošenje ispravih odluka o dijagnozi i tretmanu, a na grupnom nivou za izradu preporuka i vodiča dobre kliničke prakse i formulisanje zdravstvene politike. Formalna analiza odlučivanja neizbežno uključuje procenu i izračunavanje verovatnoća koje se odnose na neizvesnost informacija i ishoda, a samim tim i neizvesnost odluka. Formalna analiza odlučivanja za procenu verovatnoća koristi informacije iz epidemioloških i kliničkih studija ili mišljenja eksperata. Valjanost analize odlučivanja zavisi od tačnosti procena verovatnoća i primenljivosti pretpostavki upotrebljenih u izgradnji modela odlučivanja koje opet zavise od dostupnosti literaturnih podataka. 56 Mere tačnosti dijagnostičkog testa su: senzitivnost, specifičnost, sveukupna tačnost i površina ispod krive operativne karakteristike. Senzitivnost je sposobnost testa da indentifikuje one koji stvarno imaju bolest. Na osnovu dijagnostičke tabele izračunava se kao proporcija tačno pozitivnih od ukupnog broja obolelih. Senzitivnost se takođe može definisati kao stopa tačno pozitivnih i verovatnoća pozitivnog rezultata testa kod onih koji imaju bolest. Na osnovu dijagnostičke tabele može se izračunati stopa lažno negativnih pomoću formule: Zbir senzitivnosti i stope lažno negativnih jednak je jedinici. Ako test ima visoku senzitivnost imaće nisku stopu lažno negativnih. Ako test ima nisku senzitivnost imaće visoku stopu lažno negativnih, kod velikog broja onih koji su bolesni test će biti negativan. Specifičnost je sposobnost testa da prepozna stvarno zdrave, sposobnost testa da isključi postojanje bolesti, da rezultat testa bude negativan kod zdravih. Izračunava se kao proporcija tačno negativnih od ukupnog broja zdravih. Specifičnost se takođe može definisati kao stopa tačno negativnih i verovatnoća negativnog rezultata testa kod onih koji nemaju bolest. Na osnovu dijagnostičke tabele može se izračunati stopa lažno pozitivnih pomoću formule: Zbir specifičnosti i stope lažno pozitivnih jednak je jedinici. Ako test ima visoku specifičnost imaće nisku stopu lažno pozitivnih. Ako test ima nisku specifičnost imaće visoku stopu lažno negativnih, kod velikog broja onih koji su zdravi test će biti pozitivan. Senzitivnost i specifičnost imaju inverzan odnos što znači da se sa povećanjem jedne mere druga smanjuje i obratno. Sveukupna tačnost (dijagnostička tačnost, efikasnost testa) izračunava se kao proporcija tačnih rezultata u dijagnostičkoj tabeli: 59 Pozitivna prediktivna vrednost (PPV) odnosi se na ispitanike kod kojih je test pozitivan. Izračunava se kao proporcija obolelih od ukupnog broja pozitivnih na testu: Negativna prediktivna vrednost (NPV) odnosi se na ispitanike kod kojih je test negativan. Izračunava se kao proporcija zdravih od ukupnog broja negativnih na testu: Prediktivne vrednosti su pod uticajem prevalencije bolesti. Smanjenje prevalencije (retke bolesti) daje povećanje stope lažno pozitivnih i smanjenje pozitivne prediktivne vrednosti. Vrednosti senzitivnosti i specifičnosti dijagnostičkog testa kao i druge mere dijagnostičke tačnosti, ne mogu biti upotrebljene samostalno bez poznavanja pretest verovatnoće bolesti da bi se odredila posttest verovatnoća bolesti kod određenog pacijenta. Poznavanjem senzitivnost i specifičnosti ne može se direktno odgovoriti na važna dijagnostička pitanja. Ako je poznata pretest verovatnoća bolesti, a ispitanik je na testu pozitivan, koja je verovatnoća da on zaista ima bolest? Ako je poznata pretest verovatnoća bolesti, a ispitanik je na testu negativan, koja je verovatnoća da on zaista nema bolest? U dijagnostičkim studijama osim mera dijagnostičke tačnosti, mogu biti saopštene i prediktivne vednosti. Saopštene (na osnovu istraživanja izračunate) prediktivne vrednosti retko se mogu iskoristiti u praksi, jer prediktivne vrednosti zavise ne samo od dijagnostičke tačnosti testa, već i od prevalencije bolesti u dijagnostičkoj studiji. Prediktivne vrednosti iz dijagnostičke studije važe samo ako je i stopa prevalencije u primenjenom slučaju jednaka onoj u dijagnostičkoj studiji što je retko. Iz tog razloga u praksi bi primena prediktivnih vrednosti iz dijagnostičkih studija vodila ka pogrešnoj proceni posttest verovatnoća bolesti. U praksi, publikovane vrednosti senzitivnosti i specifičnosti iz dijagnostičkih studija moraju se kombinovati sa pretest verovatnoćom (a priori verovatnoćom) bolesti u cilju određivanja posttest verovatnoće bolesti (a posteriori verovatnoća). Posttest verovatnoća može se izračunati primenom jednog od sledećih metoda: pretest šanse bolesti i odnosa verodostojnosti, Bayesove formule, dijagnostičke tabele 2x2, stabla odlučivanja i nomogramom. Za izračunavanje post test verovatnoće primenom dijagnostičke tabele 2x2 može se iskoristiti kalkulator u 60 Excelu. Rezultat izračunavanja posttest verovatnoće može se upotrebiti u sledećem dijagnostičkom ciklusu kao pretest verovatnoće. 61 određenog opsega vrednosti da bi se utvrdilo kakav je uticaj takvih promena na očekivanu korisnost. 64 65
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved