Primene stratifikovanog uzorka-Zavrsni rad-Primenjena matematika-Matematika
jakestyle
jakestyle

Primene stratifikovanog uzorka-Zavrsni rad-Primenjena matematika-Matematika

65 str.
1000+broj poseta
Opis
Primene stratifikovanog uzorka,Zavrsni rad,Primenjena matematika,Matematika
20 poeni
poeni preuzimanja potrebni da se preuzme
ovaj dokument
preuzmi dokument
pregled3 str. / 65
ovo je samo pregled
3 prikazano na 65 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 65 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 65 str.
preuzmi dokument
ovo je samo pregled
3 prikazano na 65 str.
preuzmi dokument
Microsoft Word - Master rad VERZIJA ZA STAMPU

УНИВЕРЗИТЕТ У НОВОМ САДУ

ПРИРОДНО-МАТЕМАТИЧКИ ФАКУЛТЕТ

ДЕПАРТМАН ЗА МАТЕМАТИКУ И ИНФОРМАТИКУ

РадославБожић

Применестратификованогузорка

- мастер рад -

Нови Сад, 2012

2

Садржај

Предговор......................................................................................................................................3

1. Увод............................................................................................................................................4

1.1 Основни појмови теорије узорака.............................................................................4 1.2 Прост случајни узорак................................................................................................5

1.3 Узорак са неједнаким вероватноћама.......................................................................9 1.3.1 Избор узорка.................................................................................................9 1.3.2 Horvitz - Thompson-ова оцена...................................................................10 1.3.3 Hansen - Hurwitz-ова оцена............................................ ...........................13

1.4 Систематски узорак................................................................................. .................16 1.5 Узорак скупина.........................................................................................................19 1.6 Вишеетапни узорак...................................................................................................19 1.7 Двофазни узорак........................................................................................ ...............19

2. Стратификованиузорак......................................................................................................20

2.1 Варијанса основног скупа........................................................................................21 2.2 Оцењивање................................................................................................................21 2.3 Оптималан распоред.................................................................................................25 2.4 Избор стратификованог узорка за пропорције......................................................29 2.5 Последице одступања од оптималног распореда..................................................31

2.6 Проблем распореда приликом оцењивања више параметара истовремено..............................................................................................................32 2.7 Поређење стратификованог узорка и простог случајног узорка.........................34 2.8 Стратификација са малим узорцима...................................................................... 36

2.9 Формирање стратума...............................................................................................37 2.10 Постстратификација..............................................................................................43 2.11 Узорковање по принципу квоте...........................................................................44 2.12 Оцена побољшања прецизности..........................................................................45 2.13 Оцена варијансе код једноелементних стратума................................................46 2.14 Стратуми као предмет проучавања......................................................................47

3. Применестратификованогузорка...................................................................................49

3.1 Оцена просечне нето зараде у Републици Србији на основу стратификованог узорка.........................................................................................49 3.2 Оцене приноса појединих пољопривредних култура на основу стратификованог узорка.........................................................................................54

Литература...............................................................................................................................60

3

Предговор

Прва статистичка истраживања вршена су у Кини пре око 4000 година, када су прикупљани подаци о бројном стању становништва, војске и сл., док се први озбиљнији кораци у статистичким истраживањима срећу тек крајем XVIII и почетком XIX века. Данас статистика има широку примену, а због великог броја података које је потребно обрадити, у истраживањима се посматра само један део популације, који се назива узорак.

Како би резултати истраживања били што поузданији, потребно је изабрати репрезентативан узорак. Проучавањем избора узорка и оцењивања одговарајућих параметара се бави теорија узорака. Постоји више планова узорка, као што су прост случајан узорак, узорак са неједнаким вероватноћама, стратификован узорак, узорак скупина, вишеетапни узорак, двофазни узорак,...

Стратификовани узорак је један од најчешће коришћених планова узорка. Његова примена је изузетно велика у истраживањима јавног мњења, али и у многим другим истраживањима, као што је оцењивање различитих демографских параметара. Овај план узорка такође заузима веома значајно место у испитивањима у области привреде.

Међутим, стратификовани узорак је сложен план узорка, што подразумева да се увек примењује у комбинацији са још неким планом. У овом раду су, поред стратификованог, описани и они планови узорка који се са њим најчешће примењују. Дати су и примери примене стратификованог узорка.

Овомприликомсезахваљујемсвимпрофесоримаиасистентиманапренесеном

знањутокомстудирања. Посебносезахваљујемсвомментору, Проф. дрЗагорки

Лозанов-Црвенковић, наподршцииразумевањутокомписањаовограда.

Нови Сад, јануар 2012. РадославБожић

4

1. Увод

1.1 Основнипојмовитеоријеузорака

Да би се испитала нека карактеристика популације, неопходно је анализирати карактеристике елемената те популације, било да се ради о становницима неке области, запосленима у неком предузећу, одређеним производима,... Међутим, често због бројности популације није могуће анализирати карактеристике (обележја) свих јединица, већ се посматра само један део популације, на основу чијих се карактеристика изводи закључак о читавој популацији. Тај део се назива узорак.

Важно је да се резултати испитивања узорка, без већих одступања, могу применити на читаву популацију. Дакле, битно је да узорак буде репрезентативан.

За разлику од статистичке теорије, у теорији узорака се посматра коначна популација. Нека популација има N јединица (u1, u2,..., uN). Посматрана карактеристика јединице обележава се са yi, где је i = 1,..., n, и назива се обележје. Када се одабере узорак и региструју обележја, приступа се оцењивању одређених функција обележја.

Поступак којим се јединица из популације бира у узорак назива се план узорка. Планови се деле на стандарсне, који могу бити конвенционални и адаптивни, и нестандардне. Код конвенционалних планова, вероватноћа избора јединице у узорак не зависи ни од једне величине која се испитује, док код адаптивних поступак избора може да зависи од испитиване величине, али само на елементима који су изабрани у узорак. Код нестандардних планова вероватноћа избора зависи од посматране величине.

Нека је θпосматрана карактеристика. Оцена  је центрирана (непристрасна), ако је њена средња вредност, узета по свим могућим узорцима, једнака θ, односно:

Е() = θ

Ако оцена није непристрасна, тада се величина:

B = Е() – θназива пристрасност (бијас) у .

За поређење различитих оцена неког параметра користи се средње квадратна грешка (одступање) оцене:

MSE() = V() + (B())2 , где је V() варијанса оцене , а B() бијас. Од две оцене повољнија је она која има

мању средње квадратну грешку. Уређен узорак величине n је низ s0 = (i1, i2,…, in) од n ознака, при чему неке ознаке

могу бити исте ако се ради о узорку са понављањем. Уређење је одређено редоследом избора елемената. Редуковани узорак s се сасоји од ν различитих ознака из s0, а уређен је по растућем редоследу индекса.

Минимална довољна статистика за узорке из коначне популације је неуређен скуп различитих вредности обележја за јединица из узорка, и ознака тих јединица. За сваку оцену која није функција минималне довољне статистике може се добити оцена која зависи од минималне довољне статистике.

5

1.2 Простслучајниузорак

Прост случајни узорак је план узорка у коме се n различитих јединица бира из популације тако да свака могућа комбинација од n јединица има исту вероватноћу да буде изабрана у узорак.

Узорак од n јединица назива се случајан узорак са понављањем ако се свака изабрана јединица након избора враћа у популацију и може поново бити изабрана. Код узорка без понављања изабрана јединица се може одстранити из популације, или вратити у исту, али тако да буде занемарена приликом евентуалног каснијег извлачења.

Основне оцене карактеристика популације су тотал и средина. Њих дефинишемо на следећи начин:

За популацију:

Тотал:   ∑   = y1+y2+…+yN Средина:  = 1 2  N = ∑   i

За узорак:

Тотал:   ∑  = y1+…+yn Средина:   1  n = ∑   

где је Ii индикатор функција ( Ii = 0,   та јединица није укључена у узорак1,   та јединица је изабрана ( ). Вероватноћа избора i-те јединице у узорак је:

πi = P(Ii = 1) = ) * * +/) + =  ,

јер је број узорака који садрже јединицу i ) * * +, а вероватноћа да јединица i буде изабрана је ) +. Дакле, важи:

-./= ∑   i P(Ii = 1) = ∑   i =  ,

па је  центрирана оцена за . Број различитих елемената узорка (ν) назива се ефективна величина узорка, а ni је

број појављивања i-те јединице у узорку, па важи и:  = ∑   ini  је центрирана оценa за , било да се ради о узорку са или без понављања.  = N  је центрирана оцена тотала обележја популације.

6

Варијанса обележја је: σ2 = ∑ .  yi - )2 ,

а варијанса популације: S2 = * σ2 = * ∑ .  yi - )2

Варијанса средине  је: V() = Е(  )2 = 02 * = 02 (1- f) ,

где је f =  фракција узорка (фактор се  назива експанзија узорка).

Стандардна грешка од  је: 2 = 0√4.5  6//5 = 0√41  7

Варијанса од  = N је:

V() = E(  )2 = N2 V() = 808 * = 808 (1-f)

Стандардна грешка од  је: 29 = 0√ 4.5  6//5 = 0√ 41  7

Варијанса средње вредности за прост случајни узорак из бесконачне популације

једнака је σ2/n , а фактори 1-(N/n) за варијансу и 41  .5/6/ за стандардну грешку се називају фактори корекције за коначну популацију. Ако је узорак мали у односу на популацију, ти фактори су приближно једнаки 1, па варијанса од  тежи ка S2/n. Аналогно, за јако велики узорак фактори корекције теже нули, па је варијанса занемариво мала.

Средња вредност елемената узорка са различитим ознакама је такође центрирана оцена средине обележја популације:

: = :∑ : = :∑   Ii

Оцена : је ефикаснија од : V(:) < V()

У формулама стандардне грешке популацијске средине и тотала фигурише варијанса популације S2, која у пракси обично није позната, па се зато оцењује:

Израз:

s 2 =

* ∑ .  /;

представља центрирану оцену за:

S 2 =

* ∑ .  yi - )2 .

7

Центриране оцене варијансе од  и  = N  су: <./ = =8 * = =8 (1- f )

<./ = 8 =8 * = 8 =8 (1- f )

Оцене стандарсних грешака имају веома малу пристрасност: 29 = =√41  7299 = =√ 41  7

Интервалиповерења

Када се, након избора узорка, оцени одређени параметар, важно је проценити тачност те оцене, што се постиже налажењем интервала поверења.

Нека је I интервал поверења за средину обележја популације . Ако је α вероватноћа грешке, за интервал поверења важи:

P( > ) = 1- α

Интервал I се зове 100(1-α)% интервал поверења, а величина 1-α ниво поверења. Параметар  је фиксиран, а крајеви интервала зависе од узорка. Најчешће се за α бирају вредности 0.01, 0.05, 0.1.

Приближни 100(1-α)% интервали поверења за неке оцене:

• За средину обележја популације:

 ± ?@ * =8 ,

где је c квантил реда 1  A; Студентове t–расподеле са n-1 степени слободе.

• За тотал обележја популације:

 ±?@5.5  6/ =8

Ако је обим узорка већи од 30, вредност ? је квантил нормалне B(0,1) расподелу.

8

Централнаграничнатеоремазаконачнупопулацију

Нека је y1,y2,...,yN низ независних случајних променљивих са једнаким расподелама,

коначном средином и варијансом, тада је расподела од  @C./ приближно стандардна

нормална за довољно велико n. Нека је  средина обележја, а  средина узорка популације величине N из које се

бира случајни узорак без понављања, тада је расподела од 55@C.5/ приближно стандардна

нормална за довољно велико n и N-n.

Величинаузорка

Нека је  оцена параметра θ, а d највећа дозвољена разлика између оцене и стварне вредности, и нека је α вероватноћа да је грешка већа од d. Тада се величина узорка бира тако да важи:

P(D  D > d) < α

За прост случајни узорак, код оцене средине обележја популације, потребна

величина узорка се добија решавањем једначине E@ * =8 = d по n:

n =

. F8G8 H8 IJ/= IKL IJ ,

где је n0 = M8 =8N8 , а z квантил нормалне B(0,1) расподеле.

Код оцене тотала, n се добија решавањем једначине E@5.5  6/ =8 = d:

n =

. F8J8 G8 H8 IJ/= IKL IJ ,

где је n0 = 8 M8 =8N8 .

Како за прост случајни узорак, тако и за било који други план узорка, важи правило да се величина узорка бира тако да се постигне што већа прецизност приликом оцењивања, али и да трошкови целокупног истраживања буду што мањи. Када трошкове истраживања, укључујући и утрошено време, не бисмо узимали у обзир, тада би оптимално било посматрати целу популацију као узорак. Са друге стране, када бисмо гледали само на трошкове, узорак би био сувише мали и добијене оцене би биле неупотребљиве.

9

1.3 Узораксанеједнакимвероватноћама

1.3.1 Изборузорка

Прост случајни узорак има велики теоријски значај, али се ретко користи у пракси, јер се јединице које се бирају у узорак често разликују по величини, па би применом простог случајног узорка оцене имале велике варијансе. Због тога се чешће примењује избор јединица са вероватноћом пропорционалном величини јединица узорка. Тако ће, на пример, приликом анкете која обухвата више фабрика, фабрика са већим бројем запослених имати веће шансе да буде изабрана у узорак.

Код примене узорка са вероватноћом пропорционалном величини (PPS), i-та јединица из популације се бира у узорак са вероватноћом pi = Mi / M , где је Mi величина i–те јединице, а M = ∑ O величина целе популације. PPS узорак може бити са и без понављања, а њихова ефикасност се не разликује много када се употребљавају скупови са фракцијом f = n / N. Постоје два поступка за избор оваквих узорака. У PPS узорак се бира n јединица из популације од N јединица чије су величине M1, M2....,Mn, где су M1, M2....,Mn цели бројеви. Први поступак се састоји у томе да се бира случајан број између 1 и М, па ако изабрани број припада интервалу [1,М1] у узорак се бира јединица 1. Ако је изабран случајан број из интервала [М1+1,М1+М2] у узорак се бира јединица 2, ако је број из интервала [М1+М2+1,М1+М2+М3], бира се трећа јединица, итд. Поступак се понавља све до избора n-те јединице у у зорак. Уколико се, код PPS узорка без понављања, у једном тренутку изабере јединица која је раније већ изабрана, она се одбацује и поступак се наставља. Међутим овај поступак захтева познавање величине свих јединица популације, што може бити проблематично када је популација велика. Други поступак, који се назива Лахиријев метод, подразумева избор пара случајних бројева (i,R), таквих да је 1 ≤ i ≤ N и 1 ≤ RK, где је K = maxi{Mi}. Ako je RMi, i-та јединица ће бити изабрана у узорак. У супротном, она се одбације и поступак се понавља. Код Лахиријевог метода, вероватноћа да i-та јединица буде изабрана при избору првог пара случајних бројева је: P ./  QRS ,

док је вероватноћа да у првом покушају не буде изабрана ни једна јединица из популације: T  1  ∑  QRS  1  МS O је просечна велчина јединице. Вероватноћа избора i-те јединице у другом покушају је: P;./  T QRS

Даљим поступком добија се да је вероватноћа избора i-тe јединице из популације:

pi = p1(i) + p2(i) + ... = p1(i) + q p1(i) + q 2 p1(i) + ... =

UI./ *V  QRQ ,

10

јер бесконачни ред конвергира, пошто је T  1  МS W 1 . За разлику од досад посматраних, у неким плановима узорка јединице могу имати различиту вероватноћу укључења у узорак. Нека јединица i има вероватноћу укључења Xi, која је функција од pi. Важи: -./  ∑ Y.  1/  ∑ X * *

добијени израз је, у општем случају, различит од , што значи да  није непристрасна оцена за .

Пример 1.3.1

Популација се састоји од N = 12 јединица чије су величине Mi дате у табели:

Јединица 1 2 3 4 5 6 7 8 9 10 11 12 Mi 8 17 14 25 6 11 26 36 19 9 21 32

Изабраћемо узорак са неједнаким вероватноћама без понављања обима n = 3, и то применом Лахиријевог метода.

Бирамо пар случајних бројева (i,R), такав да је 1 ≤ i ≤ N i 1 ≤ RK, где је K = maxi{Mi}. Неко је то пар (6,23). Будући да је 23 > M6 = 11, јединицу 6 нећемо изабрати у узорак, него ћемо је одбацити и наставити поступак. Сада бирамо пар (8,19), па пошто је 19 < M8 = 36, јединицу 8 узимамо у узорак. Даље бирамо пар (3,11). Видимо да је 11 < M3 = 14, па у узорак бирамо и јединицу 3. Нека је следећи пар (11,34). Јединицу 11 не бирамо у узорак јер је 34 > M11 = 21. Поступак настављамо избором пара (12,17) и закључујемо да је 17 < M12 = 32, па ћемо и јединицу 12 изабрати у узорак.

Дакле, применом Лахиријевог метода добили смо узорак s = (8, 3, 12).

1.3.2 Horvitz - Thompson-оваоцена

Нека је X вероватноћа укључења за i-ту јединицу, нека је X>0, за све i = 1,..., N. Нека су y1, y2, ....yv вредности обележја за v различитих елемената у узорку. Horvitz - Thompson-ова оцена средине обележја популације је :

Z[ \  ∑ R]R:

Уколико су вредности πi различите, оцена зависи од тога који индекси су изабрани у узорак. Такође важи:

Z[ \  ∑ R^R]R   ∑   ^R_.^R/

11

Показујемо да је Z[ \ центрирана оцена: - `Z[ \ a  ∑ R]R  -./  

Нека је Xb  Y.b  1/ заједничка вероватноћа укључења, m = N и X  X. Тада је варијанса Horvitz-Thompson - oвe оцене: < ` Z[ \ a  8 ∑ ∑ ]Rc*]R]c]R]c b  b ,

док је центрирана оцена варијансе: < `Z[ \ a  8∑ ∑ ]Rc*]R]c]R]c]Rc b  b b  8∑ ∑ ]Rc*]R]c]R]c]Rc b:b : ,

где је Xb d 0 за све i и ј таква да је i j. Иако се ради о оцени варијансе, овај израз може бити негативан. Због тога су дате и друге оцене, али и оне су имале своје недостатке. Тако је, на пример, једна од њих центрирана само за фиксирану величину узорка. Непристрасна оцена тотала обележја популације је: Z[  ∑ R]R  ∑ R^R]R  :

Варијанса ове оцене је: <)Z[+  ∑ ∑ ]Rc*]R]c]R]c b  b  ∑ *]R]R ; e  ∑ ∑ ]Rc*]R]c]R]cbf  b Ако важи Xb d 0, за све i,ј, тада је центрирана оцена варијансе оцене тотала: <)Z[+  ∑ ∑ ]Rc*]R]c]R]c]Rc b  b b  ∑ :* ∑ ]Rc*]R]c]R]c]Rcg b  ∑ :* *]R]R8 ; e ∑ : ∑ ]Rc*]R]c]R]c]Rc b bf  ∑ : h ]R8  ]R i; e 2∑ : ∑ h ]R]c  ]Rci b bj

Приближни .1  k/100% интервал поверења за тотал обележја популације је једнак:

Z[ l z@<)Z[\ +

12

z је, за велике узорке, квантил реда 1 - α стандардне нормалне расподеле Z: B(0,1). За узорке чији је обим мањи од 30, z представља квантил Студентове t-расподеле са ν-1 степеном слободе. Ако су yi и πi пропорционални, оцена Z[ има малу варијансу, али ако yi и πi нису приближно пропорционални, варијанса ће бити већа и оцена може бити непоуздана. Због тога је Хајек предложио следећу модификацију ове оцене: Z[m  ∑ R]R : n ∑ ]R :

Ова оцена се користи када број јединица популације (N) није познат, односно када се N оцењује непрстрасном оценом: 5o  ∑ ]R :  ∑ ^R]R 

Коришћењем теорије количинског оцењивања добија се апроксимација варијансе Хајекове оцене. < `Z[ma p 8∑  ∑ b h]Rc*]R]c]R]c i )  +)b  +,

као и оцена ове варијансе: < `Z[ma  8∑ : ∑ h]Rc*]R]c]R]c]Rc i `  Z[ma `b  Z[ma :b Пример 1.3.2

Из популације величине N = 11 изабрли смо узорак обима n = 3. Вероватноће са којима су елементи изабрани, и у–вредности елемената су: у1 = 5, р1 = 0.21, у2 = 12, р2 = 0.06, у3 = 7, р3 = 0.12.

Сада ћемо оценити тотал и средину обележја популације користећи Horvitz - Thompson-ову оцену, као и варијансе тих оцена.

Најпре за сваку јединицу налазимо вероватноћу укључења у узорак. Ако је вероватноћа избора i–те јединице у једном покушају једнака pi, онда је вроватноћа да та јединица уопште не буде изабрана: (1- pi)

n . Одатле следи да је вероватноћа укључења i–те

јединице у узорак πi = 1 - (1 - pi) n , па имамо:

π1 = 1 - (1 - p1) 3 = 1 - (1 - 0.21)

3 = 1- 0.4930 = 0.5070

π2 = 1 - (1 - p2) 3 = 1 - (1 - 0.06)

3 = 1- 0.8306 = 0.1694

π3 = 1 - (1 - p3) 3 = 1 - (1 - 0.12)

3 = 1- 0.6815 = 0.3185

Horvitz - Thompson-овa оцена тотала обележја популације је: Z[  ∑ R]R: = qr.qrtr e ;r. uvw e tr.x yq = 102.68

13

Оцена средине обележја популације је: Z[ \  ∑ R]R: = r;.uy = 9.33

Заједничке вероватноће укључења су Xb  X e Xb  z1  )1  P  Pb+{, па добијемо да је X ; = 0.0654, X x = 0.1263, X;x = 0.0393.

Оцена варијансе добијене оцене тотала је: <)Z[+ = ∑ : h ]R8  ]R i; e 2∑ : ∑ h ]R ]c  ]cR i b bj = ` r.qrtr8  r.qrtra | 5; e ` r. uvw8  r. uvwa | 12; e` r.x yq8  r.x yqa | 7; e2` r.qrtr|r. uvw  r.ruqwa | 5 | 12 e2` r.qrtr|r.x yq  r. ;uxa | 5 | 7 e2` r. uvw|r.x yq  r.rxvxa | 12 | 7 = 2825.69

Оцена варијансе оцене средине је: < `Z[ \ a  8 <)Z[\ + = 23.35

1.3.3 Hansen - Hurwitz-оваоцена

Hansen - Hurwitz-ова оцена је предложена код узорка са понављањем. Нека је Pi вероватноћа избора i–те јединице у једном кораку, а ni број избора i–те јединице. Тада је: ZZ \   ∑ RUR   

∑ RRUR 

будући да ni има биномну (ni, Pi) расподелу, важи: ZZ \  ∑  R_zR{  Tакође важи: - `ZZ \ a  ∑   €  ,

14

пa je ZZ \ центрирана оцена. Знамо да важи: E(ni) = n pi, V(ni) = npi (1-pi), cov(ni,nj) = - npi pj(ij) и ∑ P = 1. Одатле добијамо:

< `ZZ \ a  8 8 ∑ R8UR8 <.6/ e  ( ∑ ∑ c RURUc ?‚)66b+bf    8 ƒ∑ R8 UR .1  P/ * ∑ ∑ bbf * „

  8 ƒ∑ R8 UR  .∑ /;   „  ∑ P  . R UR  €/;

Пошто се на овај начин не добија непристрасна оцена од V `ZZ \ a, потребно је направити општији приступ, у коме се ZZ \ записује као узорачка средина независних случајних променљивих са истом расподелом. Нека је Т случајна променљива која узима вредности yi/Npi са вероватноћама pi , i=1,...,N.

Тада важи: [  -.†/  ∑ R UR Y   €

2[;  <.†/  ∑ ` R UR  €a; Y 

Нека је ti елемент случајног узорка из расподеле Т. Пошто је у питању узорак са понављањем, важи: ZZ \  ∑ ‡  ‡ˆДаље важи: - `ZZ \ a  -.‡ˆ/  €[  € и < `ZZ \ a  ‰Š8  ∑ ` R UR  €a; P 

Тражимо центрирану оцену за V(ZZ \ /: < `ŒŒ \ a  0Š8  .* /∑ . ‡  ‡ˆ/;  .* /∑ ` R UR  ŒŒ \ a;

Уколико се се ради о случајном узорку с понављањем, важи: P  и< `ZZ \ a  €, па је:

15

<.€/   ∑ .   €/;

Такође важи: <.€/  .* /∑ .  €/;

Центрирана оцена тотала, њена варијанса и центрирана оцена варијансе су дате следећим изразима: ZZ  ∑ RUR 

<)ZZ+  ∑ P ` RUR  a; <)ZZ+  .* /∑ ` RUR  ZZ\ a; .1  k/100% интервал поверења за тотал обележја популације је:

ZZ l E@<)ZZ\ +

За веће узорке z представља квантил реда 1- k стандардне нормалне расподеле Z: B(0,1), а за узорке обима мањег од 30 користи се t-расподела са n-1 степени слободе.

Пример 1.3.3

Прво ћемо за узорак из примера 1.2.2 помоћу Hansen - Hurwitz-ове оцене наћи оцену тотала обележја популације, а затим и њену варијансу.

ZZ  ∑ RUR  x ` qr.; e ;r.rue tr. ;a  x .23.81 e 200 e 58.33/  94.05 <)ZZ+  .* /∑ ` RUR  ZZ\ a;

 x|; z.23.81  94.05/;e.200  94.05/; e .58.33  94.05/;{ = 2905.82

Оцена станадрдне грешке је: @<)ZZ+ = √2905.82 = 53.91

16

1.4 Систематскиузорак

Систематски узорак са кораком k јесте узорак добијен на следећи начин: Из популације од N јединица на случајан начин бирамo једну од првих k јединица,коју означавамо са i. Затим бирамо сваку k–ту јединицу, тако да се узорак формира од јединица са индексима:

i, i+k, i+2k,, i+(n-1)k

На овај начин се само прва јединица бира случајно, а остале су аутоматски одређене изабраном јединицом. Број могућих узорака код систематског избора је мањи него код, на пример, простог случајног узорка, и до њих се једноставније долази. Такође је, у већини случајева, стандардна грешка код систематског узорка мања него код простог случајног узорка. Нека је N=nk. Тада је број могућих систематских узорака једнак k. Они су дати као колоне у табели 1.3.1, и сваки од њих има n елемената.

Табела 1.4.1:

Број узорка 1 2 ... i ... k

y1 y2 … yi … yk

yk+1 yk+2 … yk+i … y2k

… … … … … …

y(n-1)k+1 y(n-1)k+2 … y(n-1)k+i … ynk € €; € €’

Вероватноћа избора једног узорка је 1/k. Такође, постоји могућност да је Nnk, па различити систематски узорци из исте популације имају различит број елемената. У овом случају, аритметичка средина узорка није непристрасна оцена , али за веће узорке, са више од 50 елемената, пристрасност аритметичке средине није велика.

Варијансаузорачкесредине

Нека је yijj–ти члан у i–том систематском узорку, где j=1, …, n , а i=1, …, k. Нека су: € - средина i –тог узорка €= – средина систематског узорка €= је случајна променљива чије су вредности €.

Теорема 1.4.1 Нека је: “”= ;  ’.* /∑ ∑ .b  €/;b ’

варијанса између јединица које су у истом систематском узорку.

17

Тада је варијанса средине систематског узорка дата са: <)€= +  * “;  ’.* / “”= ;

Доказ: На основу једначине за анализу варијансе, знамо: .5  1/“;  ∑ ∑ .b  €/;b  6∑ .€  €/; e ∑ ∑ .b  €/;b €= је непристрасна оцена средине популације €, па важи: Е(€= ) = € Одатле следи да је варијанса за €= : <)€= +  ’∑ .€  €/;’ Даље важи: .5  1/“;  6•<)€= + e •.6  1/“”= ;

а одатле следи: <)€= +  * “;  ’.* / “”= ;

што је и требало доказати. □

Последица 1.4.1.1 Средина систематског узорка је прецизнија од средине простог случајног узорка, ако и само ако је:

“”= ; d “;

Доказ: Нека је € средина простог случајног узорка величине n. Тада је: <.€/  * · 08

Знамо да важи: <)€= + — <.€/, ако и само ако је: * “;  ’.* / “”= ; — * · 08

односно: •.6  1/“”= ; d `5  1  * a “;  •.6  1/“; □

Може се закључити да систематски узорак има већу прецизност у односу на прост случајни узорак уколико је варијанса унутар систематских узорака већа од варијансе целе популације. Дакле, систематски узорак је прецизан када су јединице унутар истог узорка хетерогене, а непрецизан када су хомогене, јер ће узастопне јединице у узорку давати приближно исте информације када су варијације унутар систематског узорка мање од популацијске.

18

Теорема 1.4.2 Нека је ˜™ коефицијент корелације између парова јединица које су у истом систематском узорку, дефинисан са:˜™  _) Rc*š€+. RK*š€/_. Rc*š€/8 Тада важи: <)€= +  08 · * .1 e .6  1/ · ˜™/

Одавде видимо да позитивна корелација између јединица у истом узорку повећава варијансу узорачке средине. Уколико је списак јединица популације, на основу кога бирамо узорак, уређен случајно, систематски узорак се неће разликовати од простог случајног узорка без враћања. У том случају се могу применити исте формуле за оцену варијансе. Ако је списак јединица унапред формиран, у систематском узорку ћемо имати позитивну корелацију, која повећава варијансу и смањује прецизност. Понекад се, ради повећања прецизности, списак јединица одређује на унапред одређен начин. Тада је корелација унутар класа негативна. Ни у једном од ова два случаја не може се применити прост случајан узорак. Приликом спровођења анкета, често се примењује систематски узорак са вероватноћом пропорционалном величини (систематски ППС узорак). Овде се свакој јединици придружује цео број xi, који представља њену величину, а затим се формирају кумулане тих бројева према списку јединица Нека је: †  ›  ∑ ›  ; †  › ee ›

•  [  œ

Бирамо случајан број r између 1 и k. Тако је узорак од n јединица одређен бројевима r+jk ; j=0, 1, …, n-1. Јединица i је укључена у узорак ако за неко j важи: †* —  e ž• W †

Вероватноћа укључења i–те јединице у узорак је: X  œR’  œRœ  6P ,

при чему је k >Xi,за свако i. Оцена тотала у систематском ППС узорку је:

 Ÿ X  •Ÿ  

  

›6Ÿ    

16ŸP  

Ова оцена је центрирана јер је добијена из Horvitz-Thompson–ове оцене.

19

1.5 Узоракскупина

У случајевима када је потребно испитати карактеристике јако великих популација, није практично примењивати прост случајан, стратификовани или систематски узорак. Због тога се основни скуп дели на примарне јединице (скупине), од којих се свака састоји од секундарних јединица. Затим се, једном од метода избора узорка, бира одређени број скупина, а у даљој анализи се посматрају сви њихови елементи. На тај начин се формира узорак скупина. Међутим, овај узорак је мање прецизан од стратификованог и простог случајног узорка. Наиме, потребно је да скупине по својој структури буду што сличније основном скупу, док се стратуми формирају као хомогени скупови. Стратификовани узорак се користи када желимо да што прецизније оценимо параметре, а узорак скупина када је потребно смањити време и трошкове оцењивања.

1.6 Вишеетапниузорак

Двоетапни узорак представља план узорка код кога се популација дели на одређен број примарних јединица, након чега се, из сваке примарне јединице, бира узорак од секундарних јединица. Уколико поступак наставимо, добија се вишеетапни узорак. Разликују се случајеви када су скупине на које је подељена популације јаднаке и када су различите, а подузорци се из примарних јединица могу бирати и неким другим планом узорка, најчешће стратификованим или систематским узорком. Основна разлика између стратификованог и вишеетапног узорка је у томе што се, код стратификованог узорка, елементи бирају у узорак из сваке групе (стратума), док се код вишеетапног узорка одређене групе (примарне јединице) бирају у узорак, а потом се, из тако одабраних примарних јединица, бирају секундарне јединице.

1.7 Двофазниузорак

Често се избор узорка врши на основу неког познатог параметра. На пример, стратификација популације се врши на основу неке величине чију расподелу познајемо. Међутим, када нам такви параметри нису познати, могуће је наћи најпре њихове оцене, на основу узорка одабраног у првој фази, а затим, у другој фази, одабрати нови узорак и на основу њега оценити жељени параметар. Узорак се у другој фази најчешће бира као подузорак узорка одабраног у првој фази.

Ова техника се назива двофазни (дупли) узорак, а уколико је потребно оценити више непознатих параметара, поступак се понавља у више ваза (онолико колико је потребно) и тада се цео процес назива вишефазни узорак. План узорка се може разликовати у различитим фазама.

20

2. Стратификованиузорак

Код стратификованог узорка се, ради повећања прецизности оцене, врши стратификација. Она подразумева поделу популације на делове који се називају стратуми. Приликом поделе важно је водити рачуна о томе да стратуми буду релативно хомогени, али међусобно разграничени. Као критеријум поделе се узима бар једна карактеристика популације. Сваки стратум мора имати бар две јединице. Стратификацијом се може потићи изузетно велика прецизност у оценама целе популације. Хетерогене популације је могуће поделити на потпопулације, од којих је свака хомогена унутар себе, на шта асоцира и сам назив „стратум“, који означава поделу на слојеве. Тако се, на пример, ради постизања што већег степена хомогености, код стратификације привреде велике и мале фирме сврставају у различите стратуме, код стратификације људске популације одвајају се људи који живе у домаћинствима од оних који бораве у институцијама попут затвора, болница, и сл. Ако је сваки стратум хомоген, разлике у мерењима између јединица су мале, па се прецизне оцене могу добити на основу малог узорка у стратуму. Овако добијене оцене могу такође бити прецизне и када се уопште на целу популацију. Теорија стратификованог узорковања се бави својствима оцена добијених помоћу стратификованог узорка, најбољим избором величине узорка и оптималним распоредом, а све у циљу постизања што веће прецизности приликом оцењивања параметара. Поступак стратификације се састоји у томе да се популација која садржи N јединица дели на L потпопулација (стратума) који немају заједничких елемената. Нека је број елемената у h-том стратуму Nh, где је h = 1,...,L. Тада је Ν1 +...+ ΝL = L. Након формирања стратума, по одређеном плану се бира узорак из сваког стратума, при чему су избори елемената из стратума међу собом независни. Нека је nh величина узорка из h-тог стратума, тада је n1+...+nL = n обим узорка. Са ¡R oзначавамо вредност i-те јединице, у h-том стратуму, Wh = Nh/N је релативна фреквенција узорка у стратуму (тежина стратума), fh = nh/Nh фракција узорка у стратуму, а Yh тотал стратума. Средине стратума и узорка и варијанса стратума, дате су редом, следећим изразима: €¡  ¢∑ ¡R ¢

€¡  ¢∑ ¡R¢ “¡;  ¢* ∑ .¡R  ¢ €¡/;

Уколико се из сваког стратума бира прост случајни узорак, цео поступак називамо стратификовани случајни узорак. Стратификовани узорак се често комбинује и са другим плановима узорка,као што су узорак са неједнаким вероватноћама (пре свега узорак са вероватноћама пропорционалним величини), систематски узорак, узорак скупина, вишеетапни и вишефазни узорак, у зависности од потреба које одређују врсте и особине популације.

21

2.1 Варијансаосновногскупа

Следећи израз представља варијансу стратификованог основног скупа: “;  * ∑  .   £/;  * ∑ ∑ .¡R   £/; ¢ ¤ ¡

Међутим, варијанса основног скупа се састоји од варијансе унутар стратума (“¥;) и варијансе између стратума (“;):

“;  * ∑ ¤ ¡ ∑ ¢ .¡R   £/; * ∑ ¤ ¡ ∑ ¢ ¦.¡R  €¡/ e .€¡   £/ § ; * ¦∑ ¤ ¡ ∑ .¡R  €¡/; e ¢ ∑ ¤ ¡ 5¡.€¡   £/;§ * ∑ ¤ ¡ .5¡  1/“¡; e * ∑ 5¡¤ ¡ .€¡   £/; “¥; e “; Ефикасност стратификације је већа што је варијанса унутар стратума мања.

2.2 Оцењивање

Средина обележја популације по јединици је:  £  ∑ ∑ ¡R ¢  ¤ ¡ ∑ 5¡€¡ ¤ ¡

а њена оцена на основу L стратума је:  £=¨  ∑ 5¡€¡ ¤ ¡

Cредина узорка је:  £   ∑ ∑ ¡R   ¢  ∑ 6¡€¡ ¤ ¡ ¤ ¡

а разликује се од €=¨ по томе што код €=¨ оцене из сваког стратума посебно добијају корекцију тежина 5¡/5.  £ и €=¨ се покалапају ако за сваки стратум важи да је фракција узорка иста у свим стратумима:

¢  ¢ —d ¢ ¢   —d 7¡  7

Oваква стратификација се зове стратификација са пропорционалним распоредом.

22

Теорема 2.1 Ако је узорачка оцена €¡ центрирана оцена за €¡, тада је€=¨ центрирана оцена за € . Доказ: -.€=¨/  - ` ∑ 5¡€¡ ¤ ¡ a  ∑ 5¡-.€¡/  ¤ ¡ ∑ 5¡€¡ ¤ ¡  €

(Bажи -.€¡/  €¡ , јер је €¡ центрирана оцена од €¡) □ Последица 2.1.1 €=¨ је центрирана оцена од € за стратификован случајни узорак.

Теорема 2.2 Нека је  £¡ центрирана оцена од €¡ и нека се узорци бирају независно из различитих стратума. Тада је варијанса оцене €=¨: <.€=¨/  8∑ 5¡;¤ ¡ <.€¡/  ∑ ©¡;¤ ¡ <.€¡/ ,

где је, <.€¡/  -.€¡  €¡/;.

Доказ: .€=¨  €/;  ` ∑ 5¡€¡ ¤ ¡  ∑ 5¡€¡ ¤ ¡ a;  ª ∑ 5¡¤ ¡ .€¡  €¡/«

;

 8 ∑ 5¡;¤ ¡ .€¡  €¡/; e ; 8 ∑ 5¡5b ¡¬b .€¡  €¡/)€b  €b+

Даље рачунамо средину преко свих узорака. Код међупроизвода, за други члан, фиксирамо узорак из h-тог стратума па узимамо средину свих узорака уј-том стратуму. Узорци у ј-том стратуму имају исте вероватноће без обзира на узорак у стратуму h, јер су узорци у различитим стратумима независни. yј је непристрасна оцена, па важи да је: - ` £b  €ba  0, одакле следи да су сви међупроизводи једнаки нули. Даље је: <.€=¨/  -.€=¨  € /;  8 ∑ 5¡;¤ ¡ -.€¡  €¡/;  8 ∑ 5¡;¤ ¡ <.€¡/

Варијанса оцене €=¨ зависи само од варијансе оцена средина €¡ у појединим стратумима.

Теорема 2.3 Варијанса оцене €=¨ у стратификованом случајном узорку је: <.€=¨/  8 ∑ 5¡ ¤ ¡ .5¡  6¡ / 0¢8¢  ∑ ©¡;¤ ¡ 0¢8¢ .1  7¡/  ∑ ©¡;¤ ¡ 0¢8¢  ∑ ­¢80¢8 ¢¤ ¡

23

Доказ:

Знамо да важи: <.€¡/  0¢8¢ ¢*¢ ¢ , где је €¡ средина обележја простог случајног узорка у h-том стратуму. На основу претходне теореме важи: <.€=¨/  8 ∑ 5¡;¤ ¡ <.€¡/  8 ∑ 5¡¤ ¡ .5¡  6¡ / 0¢8¢ □ Ако су узорачке фракције биле занемарене важило би: <.€=¨/  8 ∑ ¢80¢8¢¤ ¡  ∑ ­¢80¢8¢¤ ¡

Овде такође занемарујемо и фактор корекције коначне популације. Заменом 6¡   ¢ и израз за варијансу оцене €=¨ за прост случајан узорак за пропорционалан распоред добија се: <.€=¨/  8 ∑ ¢ ¤ ¡ 0¢8 *   *®  ∑ ©¡ ¤ ¡ “¡;

Ако су узорци пропорционални, а сву стратуми имају исту варијансу .“™; /, важи :

<.€=¨/  “™;6 5  6 6

Центрирана оцена тотала h-тог стратума је ¡  5¡€¡, а оцена тотала популације st  ∑ 5¡ €¡¤ ¡  5€=¨.

Теорема 2.4 Ако је st  5 £=¨ оцена тотала обележја популације, тада је њена варијанса: <)st+  ∑ 5¡¤ ¡ .5¡  6¡ / 0¢8¢Ако је из сваког стратума биран прост случајан узорак, тада је непристрасна оцена варијансе стратума .“¡;/: ¯¡;  ¢ ∑ 5¡.¤  ¡R  €¡/;

Теорема 2.5 Непристрасна оцена варијансе тотала варијансе од €=¨ код стратификованог случајног узорка дате су следећим изразима: <)st+  ∑ 5¡¤ ¡ .5¡  6¡/ =¢8¢ <.€=¨/  8 ∑ 5¡¤ ¡ .5¡  6¡/ =¢8¢ ∑ ­¢8=¢8¢¤ ¡  ∑ ­¢8=¢8 ¢¤ ¡

24

Приближни .1  k/100% интервали поверења за тотал обележја популације и за средину су:

st l E@<)st+€=¨ l E@<) £=¨+

Ако су сви узорци обима већег или једнаког 30, за E се узима приближна вредност квантила реда 1 - α нормалне расподеле Z: B(0,1). У супротном се користи t-расподела чији се број степени слободе одређује апроксимацијом: °  )∑ ±¡¯¡;¤ ¡ +; n )∑ ..±¡¯¡;/; .6¡  1/⁄ /¤ ¡ +

где је ±¡  5¡.5¡  6¡/ 6¡⁄ . поред ове апроксимације, могу се користити још неке. Ако су сви стратуми једнаких величина, као и сви узорци, тада је број степени слободе6  ³.

Пример 2.1

За оцену месечне продаје хране у једном региону, прикупљени су подаци из 20 продавница, од укупно 120, колико их има у том региону. Будући да је већина продавница део одређеног трговинског ланца, формирају се стратуми састављени од продавница из истог ланца. У наредној табели приказан је број продавница у оквиру сваког ланца:

Фирма Број продавница А 50 Б 30 Ц 20 Д 10 Е 6

Остале продавнице 4 Укупно 120

Пошто је број продавница у ланцу Е, као и продавница које нису део ниједног ланца мали, оне се спајају у један стратум. Из сваког од 5 тако добијених стратума бирају се узорци чије су величине: n1=8, n2=5, n3=3, n4=2, n5=2.

Нека су дате вредности месечне продаје за сваку од изабраних продавница, у хиљадама динара:

Стратум Вредност продате робе 1 250 330 210 280 380 190 220 305

2 420 380 470 520 440

3 200 190 160

4 100 78

5 70 58

25

Оценићемо просечну вредност продате робе. Да бисмо то учинили, најпре морамо наћи средине узорка по стратумима:

€ = ;qr xxr  xrqy = 270.625 €; = 446.000 €x = 183.333 €w = 89.000 €q = 64.000 Оцена просечне вредности продате робе је:  £=¨  ∑ 5¡€¡ ¤ ¡ = qr ;r 270.625 + xr ;r 446.000 +…+ r ;r 64.000 = 267.5659

Оцене варијанси стратума су: ¯ ;  I* ∑ . R  € /; ¢ =

y* [(250 - 270.625)2 +…+ (305 – 270.325)2] = 4274.5536 ¯;; = 2780.0000 ¯x; = 433.3333 ¯w; = 242.0000 ¯q; = 72.0000

Оцена варијансе добијене оцене средине је једнака: <.€=¨/  8 ∑ 5¡¤ ¡ .5¡  6¡/ =¢8¢

= ;r8 [50 (50 - 8) w;tw.qqxuy +…+ 10 (10 - 2) t;.rrrr; ] = 111.1626

Оцена укупне вредности продаје је: st = N = 120 * 267.5659 = 32108

2.3 Оптималанраспоред

Одређивање обима узорка 6, и обима по стратумима 6¡ може се вршити тако што се минимизира <.€=¨/ за фиксне трошкове или тако што се минимизирају трошкови за фиксно <.€=¨/.

nema postavljenih komentara
ovo je samo pregled
3 prikazano na 65 str.
preuzmi dokument