Verovatnoca i statistika, Završni rad' predlog Teorija verovatnoće i statistika. Drzavni Univerzitet u Novom Pazaru
belma_masovic
belma_masovic

Verovatnoca i statistika, Završni rad' predlog Teorija verovatnoće i statistika. Drzavni Univerzitet u Novom Pazaru

6 str.
3broj preuzimanja
1000+broj poseta
Opis
verovatnocaa
20 poeni
poeni preuzimanja potrebni da se preuzme
ovaj dokument
preuzmi dokument
pregled3 str. / 6
ovo je samo pregled
3 prikazano na 6 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 6 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 6 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 6 str.
preuzmi dokument

Verovatnoća i statistika – idealni model i pojavni oblici

Dr Biljana Popović, redovni profesor Prirodno–matematički fakultet u Nǐsu

3. april 2004. godine

Matematička statistika je primenjena matematička disciplina srodna teoriji vero- vatnoće. Bazira se na pitanjima i metodima teorije verovatnoće, ali rešava svoje specifične (probleme) zadatke svojim metodama. (Svaka matematička teorija se razvija u okviru nekog modela koji opisuje odredjeni krug realnih pojava čijim se proučavanjem i bavi data teorija.)

U teoriji verovatnoće se polazi od pretpostavke da je poznat prostor verovatnoća (Ω,F ,P), gde je Ω skup svih elementarnih ishoda, F je σ-algebra na skupu Ω a P je verovatnoća.

Verovatnoća P , u praktičnim problemima koje treba rešavati, nije u potpunosti poz- nata. U većini slučajeva se pretpostavlja da P ∈ P , gde je P = {P} familija verovatnoća. Takvi praktični problemi nazivaju se statističkim modelima.

Dakle, za razliku od modela teorije verovatnoća, statistički model je (Ω,F ,P).

Primer 1. (Šema Bernulija.) Obavlja se n nezavisnih opita u kojima se realizuje 0 ili 1 sa verovatnoćama redom 1− p = q i p, 0 ≤ p ≤ 1. Ishod ovog eksperimenta je

Ω = : ω = (ε1, ε2, . . . , εn), εi = 0, 1}.

Pri tome je verovatnoća pojedinog elementarnog ishoda

P (ω) = p

εiqn−

εi .

Ako verovatnoća p nije prethodno poznata, označićemo je sa θ i tu oznaku ćemo nadalje koristiti za svaki nepoznati parametar. U tom slučaju jedina informacija koju imamo o parametru ovog primera je da je θ ∈ Θ = [0, 1]. Tačnije, imamo jedino in- formaciju da raspodela verovatnoća kojom ovaj eksperiment opisujemo pripada familiji

P = {Pθ, θ ∈ Θ}, gde je = θ

εi(1− θ)n−

εi . 4

U prethodnom primeru je definisan jedan statistički model, dakle model koji u sebi sadrži neku vrstu neodredjenosti. Zadatak matematičke statistike je da se korǐsćenjem informacije dobijene posmatranjem ishoda eksperimenta, dakle statističkih podataka, smanji ta neodredjenost, odnosno da se, što je moguće tačnije, izvrši izbor P ∈ P .

1

Matematička statistika je nauka o statističkom zaključivanju. Statističko zaključivanje podrazumeva rešavanje zadataka obrnutih od onih koje rešava teorija verovatnoće: ona utvrdjuje strukturu statističkih modela prema rezultatima sprovedenih posmatranja, dak- le, odredjuje prostor verovatnoća na osnovu eksperimenta. Pri tome posmatranja ne mogu biti proizvoljna. Naime, ona moraju biti ekvivalentna statističkom eksperimentu:

– može se ponavljati proizvoljan broj puta pod istim uslovima,

– unapred je definisano šta se registruje u eksperimentu pri čemu su poznati svi mogući ishodi i

– ishod pojedinačnog eksperimenta nije unapred poznat.

Za prve svesne pokušaje definisanja i primene statističkog zaključivanja uzimaju se popisi stanovnǐstva koje su sprovodili vladari još nekoliko vekova pre naše ere radi utvr- djivanja broja vojnih podanika ili poreskih obveznika. Zasnivanje statistike kao nauke vezuje se za pojavu škole ”političkih aritmetičara” u Engleskoj u XV II veku. Po nekima, delo ”Natural and Political Observations upon the Bills of Mortality”, koje je napisao Dž. Grant (J. Graunt) i objavio 1622. godine, označava početak statistike kao nauke. Dugo vremena je statistika smatrana naučnim metodom za proučavanje društvenih nauka. Medjutim, matematičari koji su neminovno bili uključeni u konstituisanje, formalno defin- isanje, i postali odgovorni za razvoj statističkog metoda zaključivanja, odgovorni su i za početak primene statistike u prirodnim naukama. Tu ideju medju prvima je prihvatio en- gleski biolog Galton (Sir Francis Galton, 1822-1911), koji je primenio statistički metod u istraživanjima u biologiji. Teorijski doprinos razvoju matematičke statistike dao je medju prvima švajcarski matematičar Jakob Bernuli (Jacob Bernoulli, 1654-1705) definǐsući i obrazlažući zakon velikih brojeva u svom delu ”Ars conjectandi”. Krupan korak u tom pravcu dao je i francuski astronom i matematičar Laplas (Pierre Simon, Marquis de Laplace, 1749-1827). Poznato je njegovo delo ”Théorie analytique de probabilités”. Bu- ran razvoj matematičke statistike kao teorijske discipline u XX veku omogućen je, pre svega, razvojem teorije verovatnoća u ovom periodu.

1 Osnovni pojmovi statistike

Statistički eksperiment se izvodi nad elementima nekog skupa na kojima se posmatra jedno ili vǐse zajedničkih svojstava.

Definicija 1. Populacija ili generalni skup je skup elemenata čija se zajednička svojstva izučavaju statističkim metodima. Populacija se simbolički beleži sa Ω, a njen element sa ω.

Definicija 2. Obeležje je zajedničko svojstvo elemenata jedne populacije (koje se ispi- tuje). Obeležje može biti kvantitativno (numeričko) ili kvalitativno (atributivno).

Pri izvodjenju statističkog eksperimenta polazi se od pretpostavke da se tom prilikom realizuju neki slučajni dogadjaji. Dakle, pretpostavlja se da se ishod eksperimenta može

2

prikazati slučajnom veličinom X. Ukoliko je eksperiment ponavljan n puta, ishod se predstavlja slučajnim vektorom X = (X1, X2, . . . , Xn). Pri proučavanju ovog slučajnog vektora poželjno je poznavati njegovu raspodelu. S tim u vezi reći ćemo da treba odrediti gustinu raspodele obeležja, a nadalje ćemo to pojasniti. Ovde će se koristiti termin gustina raspodele u uopštenom značenju, tj. vezivaće se i za slučajne promenljive diskretnog tipa.

Primer 2. Za slučajnu promenljivu sa binomnom raspodelom B (1, p), kazaćemo da ima gustinu raspodele

f(x) =

{ px(1− p)1−x, x = 0, 1 0, x 6= 0, 1 . 4

Neka je Y slučajna promenljiva definisana kao funkcija slučajnih promenljivih

X1, X2, . . . , Xn,

tj. neka je Y = u(X1, X2, . . . , Xn). Odredjivanje gustine raspodele ove slučajne promenlji- ve na osnovu poznavanja zajedničke gustine raspodele vektora slučajnih promenljivih X = (X1, X2, . . . , Xn), u oznaci f(x1, x2, . . . , xn), (x1, x2, . . . , xn) ∈ Rn, je jedan od zadataka matematičke statistike. Sam slučajni vektor X i funkcije od njegovih komponenata su okosnica matematičke statistike.

Definicija 3. Uzorak je deo populacije na kome se ispituje posmatrano obeležje. Broj elemenata u uzorku se naziva obim uzorka.

Na uzorku se sprovodi statistički eksperiment. Ishod tog eksperimenta će biti vektor X, koji je po svojim karakteristikama slučajna promenljiva.Vektor X još zovemo slučajnim uzorkom za razliku od njegove realizovane vrednosti po obavljenom eksperimentu.

Definicija 4. Vektor x = (x1, x2, . . . , xn) koji predstavlja realizaciju vektora X po obavljenom eksperimentu zovemo realizovani uzorak.

U daljem tekstu će se pod uzorkom podrazumevati slučajni uzorak, a kada bude reči o realizovanom uzorku, to će biti naglašeno.

Detaljnije o uzorku i načinima za izbor uzoraka pripada posebnoj oblasti matematičke statistike koja se zove Teorija uzoraka.

2 Slučajna promenljiva i obeležje

Populacija ima nešto širi smisao od izvesnog dogadjaja u teoriji verovatnoće, dok je obeležje nešto širi pojam od pojma slučajne promenljive. Naime, izvesan dogadjaj je skup svih mogućih elementarnih ishoda jednog eksperimenta, pri čemu se podrazumevaju različiti ishodi. Populacija je, medjutim, skup svih elemenata na kojima se posmatra neko svojstvo (skup ljudi, skup sijalica, deo tla, itd.). Obeležje je funkcija iz skupa Ω, populacije, u skup koji čine kategorije jednog svojstva. Preciznije, na skupu Ω se definǐse relacija ekvivalencije: ”dva elementa populacije su u relaciji ako su im jednake vrednosti obeležja koje se na elementima populacije posmatra”. Tom relacijom se vrši razbijanje

3

skupa Ω na klase ekvivalencije, odnosno, definǐse se faktor skup. Klase ekvivalencije su kategorije, te se najpre definǐse preslikavanje populacije na faktor skup tako što se svakom elementu populacije pridružuje njegova klasa ekvivalencije. Iz faktor skupa je moguće definisati novu funkciju sa vrednostima u skupu realnih brojeva, R, koja je, zapravo, slučajna promenljiva, a u žargonu matematičke statistike, kaže se da se ovom funkcijom vrši kodiranje vrednosti obeležja. U tom smislu se može govoriti o raspodeli obeležja posredstvom raspodele ovako definisane slučajne promenljive, te će se i obeležje, kao i slučajna promenljiva, označavati velikim slovom latinice sa kraja abecede, X,Y ,Z,. . . . U vezi sa uopštenjem pojma gustine raspodele smatraće se da svako obeležje ima svoju gustinu raspodele.

Primer 3. Za populaciju ćemo uzeti studente Prirodno-matematičkog fakulteta u Nǐsu. Neka je obeležje koje posmatramo na toj populaciji ”obrazovni profil”. U ovom momentu ćemo posmatrati samo osnovni profil, tj. matematika, fizika, hemija, biologija, geografija. Ovih 5 kategorija bi činile razbijanje skupa Ω. Dakle, studenti istog odseka – obrazovnog profila bi činili jednu klasu ekvivalencije. Nadalje bismo svakom odseku pridružili broj (kod), recimo neka su to prirodni brojevi od 1 do 5. Time bi bila definisana slučajna promenljiva. 4

Sa gledǐsta matematičke statistike dato obeležje X je potpuno odredjeno ako je od- redjena njegova raspodela, P{X ∈ S}, gde je S ∈ B1, a (R,B1, P ) fazni prostor. To je istovremeno i jedan od glavnih problema kojima se bavi matematička statistika: odredji- vanje raspodele obeležja. Pri tome je moguće da unapred nije poznata familija dopustivih raspodela ili da je ona poznata, a da iz nje treba napraviti pravi izbor ocenom vrednosti nepoznatih parametara koji u raspodeli figurǐsu. Dakle, osnovni problem statističkog za- ključivanja je da na osnovu statističkog eksperimenta nešto zaključi o raspodeli obeležja.

3 Zaključivanje na osnovu uzorka

Zaključivanje o raspodeli obeležja vrši se na osnovu izabranog uzorka. Otuda je važno da izabrani uzorak bude reprezentativan, tj. da bude takav da se sa dovoljnom tačnošću zaključak o raspodeli posmatranog obeležja dobijenoj na uzorku može da ekstrapoluje na čitavu populaciju.

Okosnica naučne oblasti koju zovemo matematičkom statistikom ili, jednostavno, statistikom, je funkcija od uzorka koja je osnovni alat u procesu statističkog zaključivanja, a koja je opisana sledećom definicijom:

Definicija 5. Statistika je funkcija od uzorka čiji analitički izraz ne zavisi od nepoznatih parametara obeležja, tj. funkcija od uzorka i poznatih konstanata.

Primeri nekih statistika su:

Tn = n

i=1

Xi − total uzorka

Xn = 1

n

n

i=1

Xi − sredina uzorka

4

S 2 n =

1

n

n

i=1

(Xi −Xn)2 disperzija uzorka

Sn = √

S 2 n − uzoračka standardna devijacija

S̃2n = 1

n− 1 n

i=1

(Xi −Xn)2 popravljena disperzija uzorka

R = Xmax −Xmin − raspon uzorka .

Za dva obeležja X i Y i uzorak ((X1, Y1), (X2, Y2), . . . , (Xn, Yn)) iz populacije na kojoj se posmatra dvodimenziono obeležje (X, Y ) može se definisati statistika

RXY = 1 n

n i=1(Xi −Xn)(Yi − Y n)

SXSY − uzorački koeficijent korelacije ,

gde su sa SX i SY označene uzoračke standardne devijacije za obeležja X i Y redom. Posebno mesto medju statistikama imaju tzv. statistike poretka. Ove se statistike

definǐsu posredstvom varijacionog niza:

Definicija 6. Varijacioni niz čine elementi uzorka poredjani u neopadajućem poretku.

Za uzorak (X1, X2, . . . , Xn) varijacioni niz čini niz slučajnih promenljivih sačinjen od elemenata ovog uzorka u oznaci X(1), X(2), . . . , X(n) za koji važi

X(1) ≤ X(2) ≤ . . . ≤ X(n) .

Za realizovane vrednosti varijacionog niza koristi se isti termin varijacioni niz, bez opasnosti od zabune, a označavaju se malim slovima:

x(1) ≤ x(2) ≤ . . . ≤ x(n) .

Definicija 7. Statistika poretka reda k uzorka obima n, 1 ≤ k ≤ n, je k–ti element varijacionog niza posmatranog uzorka, dakle slučajna promenljiva X(k).

Neka je uzorak X = (X1, X2, . . . , Xn) prost slučajni uzorak iz populacije sa obeležjem X čija je funkcija raspodele F . U definisanju funkcije raspodele biće sve vreme korǐsćena neprekidnost s desna. Za svako x ∈ R definisaćemo slučajnu veličinu µn(x) kao broj elemenata uzorka X koji su manji ili jednaki x, tj.

Definicija 8.

µn(x) = card{j|Xj ≤ x, j = 1, 2, . . . , n} , x ∈ R .

Nadalje se može definisati slučajna promenljiva Sn(x) koja daje vrednosti slučajne promenljive µn(x) u relativnom odnosu prema obimu uzorka:

5

Definicija 9. Empirijska funkcija raspodele uzorka X je statistika

Sn(x) def =

µn(x)

n , x ∈ R .

Slučajna promenljiva Sn(x) je statistika čiji je kodomen skup

{0, 1/n, 2/n, . . . , (n− 1)/n, 1}

ili njegov pravi podskup sa verovatnoćama

P{Sn(x) = k/n} = P{µn(x) = k} = ( n

k

) (F (x))k(1− F (x))n−k, k = 0, 1, . . . , n.

Ovo otuda što, prema definiciji, slučajna promenljiva µn(x) ima binomnu raspodelu, B(n, p) sa p = P{X ≤ x} = F (x), x ∈ R. Statistiku Sn(x) možemo posmatrati i kao aritmetičku sredinu indikatora

IAi =

{ 1, ω ∈ Ai 0, ω 6∈ Ai ,

Ai = {ω|Xi(ω) ≤ x}, a s obzirom da je E(IAi) = F (x) za fiksirano x ∈ R, važi teorema:

Teorema 1. Za fiksirano x ∈ R, Sn(x) −→ F (x), n →∞ skoro izvesno, tj.

P{Sn(x) → F (x) , n →∞} = 1.4

Za realizovani uzorak (x1, x2, . . . , xn), Sn(x), x ∈ R, je monotono neopadajuća funkcija sa mogućim skokovima u tačkama varijacionog niza x(1) ≤ x(2) ≤ . . . ≤ x(n):

Sn(x) = k

n , x ∈ [x(k), x(k+1)), k = 0, 1, . . . , n .

Pri tome su uvedene oznake x(0) = −∞, i u tom slučaju je i leva granica intervala otvorena, i x(n+1) = +. Ukoliko su svi elementi u realizovanom uzorku različiti, skokovi su veličine 1/n.

Konvergencija o kojoj je bilo reči u prethodnoj teoremi, ostvaruje se i uniformno po x ∈ R. O tome govori tzv. centralna teorema matematičke statistike. Jedan od njenih oblika je sledeći.

Teorema 2 (Glivenko-Kanteli) Neka je F funkcija raspodele obeležja X i Sn(x), x ∈ R, empirijska funkcija raspodele uzorka obima n iz populacije sa obeležjem X. Tada važi

P{sup x∈R

|Sn(x)− F (x)|→0 , n →∞} = 1.4

6

nema postavljenih komentara
ovo je samo pregled
3 prikazano na 6 str.
preuzmi dokument