Teoria de amostragem, Pesquisas de Processamento de Materiais. Centro Universitário do Pará (CESUPA)
mluciabh
mluciabh2 de maio de 2014

Teoria de amostragem, Pesquisas de Processamento de Materiais. Centro Universitário do Pará (CESUPA)

PDF (274 KB)
63 páginas
2Números de download
1000+Número de visitas
Descrição
Artigo com a teoria de amostragem de materiais fragmentados
20 pontos
Pontos de download necessários para baixar
este documento
baixar o documento
Pré-visualização3 páginas / 63

Esta é apenas uma pré-visualização

3 shown on 63 pages

baixar o documento

Esta é apenas uma pré-visualização

3 shown on 63 pages

baixar o documento

Esta é apenas uma pré-visualização

3 shown on 63 pages

baixar o documento

Esta é apenas uma pré-visualização

3 shown on 63 pages

baixar o documento

Caṕıtulo 1

Teoria da Amostragem

1.1 Introdução

A amostragem e em particular os processos de amostragem aplicam-se em variad́ıssimas áreas do conhecimento e constituem, muitas vezes, a única forma de obter informações sobre uma determinada realidade que importa conhecer.

A teoria da amostragem é assim um dos instrumentos que possibilita esse conhecimentos cientifico da realidade, onde outros processos ou métodos al- ternativos, por razões diversas, não se mostram adequados ou até mesmo posśıveis.

A teoria da amostragem estuda as relações existentes entre uma população e as amostras extráıdas dessa população. É útil para avaliação de grandezas desconhecidas da população, ou para determinar se as diferenças observadas entre duas amostras são devidas ao acaso ou se são verdadeiramente signi- ficativas.

Amostragem é o processo de determinação de uma amostra a ser pesquisada. A amostra é uma parte de elementos seleccionada de uma população es- tat́ıstica.

Enquanto que um senso envolve um exame a todos os elementos de um dado grupo, a amostragem envolve um estudo de apenas uma parte dos el- ementos. A amostragem consiste em seleccionar parte de uma população e observá-la com vista a estimar uma ou mais caracteŕısticas para a totalidade da população.

1

”Para se saber se o bolo de chocolate está bom, basta comer uma fatia.”

Alguns exemplos da utilização da amostragem são:

Sondagens à opinião pública que servem para conhecer a opinião da população sobre variadas questões. As mais populares são as sondagens poĺıticas.

Inspecção de mercado utilizada com o intuito de descobrir as pre- ferências das pessoas em relação a certos produtos. Um dos exemplos mais conhecidos da aplicação desta amostragem é a lista de audiências dos programas de televisão.

Para estimar a prevalência de uma doença rara, a amostra pode ser constitúıda por algumas instituições médicas, cada uma das quais tem registo dos pacientes.

O censo apresenta dificuldades que tornam a amostragem um porco mais atraente. Entre as dificuldades que o senso apresenta, podem ser apresen- tadas as seguintes:

(i) A população pode ser infinita, neste caso o senso seria imposśıvel;

(ii) A amostra pode ser actualizada mais facilmente que o censo;

(iii) O custo do senso pode torná-lo proibitivo;

(iv) Factores de tempo e custo podem apontar pela preferência entre uma amostra e um censo.

Porém há ocasiões em que o levantamento do censo pode ser vantajoso:

(i) Quando a população é pequena e o custo entre o censo e a amostra forem praticamente iguais;

(ii) Se o tamanho da amostra necessária tiver que ser muito grande em relação à população examinada;

(iii) Nas ocasiões em que se exige precisão completa;

(iv) Nas ocasiões em que já existe informação completa.

2

Os termos básicos em amostragem são:

População - o grupo inteiro de objectos (unidades) dos quais se pretende obter informações. A população deve ser definida claramente e em termos daquilo que se pretende conhecer.

Unidade - qualquer elemento individual da população. Amostra - uma parte ou subconjunto da população usada para obter

informação acerca do todo.

Variável - uma caracteŕıstica de uma unidade que será medida a partir daquela unidade da amostra.

1.1.1 As fases de um processo de amostragem

Depois de se identificar os dados que deverão ser recolhidos e o instrumento (questionário estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um processo de amostragem adequado ao tipo de dados e ao instrumento de análise.

No processo de recolha de dados é necessário desenvolver um processo sis- temático que assegure a fiabilidade e comparabilidade desses dados. Mais es- pecificamente, é necessário que se estabeleça à partida um plano de amostragem de acordo com a população alvo, com a definição da população a inquirir e com um processo adequado de administração do inquérito.

O plano de amostragem deverá começar por determinar qual o ńıvel de ex- tensão geográfica em que o processo de amostragem deverá ser conduzido (mundial, nacional, regional, urbano, rural, grupo de indiv́ıduos, etc.).

A construção da amostra propriamente dita envolve várias etapas igualmente importantes e que são:

(i) A identificação da população alvo/população inquirida;

(ii) O método de selecção da amostra;

(iii) A dimensão da amostra.

3

A identificação da população alvo/população inquirida

A identificação da população de uma forma clara e objectiva é imprescind́ıvel, embora possa parecer demasiado óbvia em muitas circunstâncias. Designa-se por população alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo de informações.

Exemplo: Um estudo sobre as intenções de voto terá como população alvo todos aqueles que estão em idade e em condições de votar. No entanto, a população inquirida poderá incluir apenas aqueles que votaram nas últimas eleições.

Resumindo, a população alvo é constitúıda por todos os elementos sobre os quais se deseja obter um determinado conjunto de informações. No entanto, em muitas situações, não é operacional inquirir uma amostra retirada da população alvo, havendo necessidade de definir qual é a população a inquirir, não coincidente com a população alvo, e a partir da qual se retirará a amostra.

Os métodos de selecção da amostra

O objectivo geral na extracção de uma amostra é obter uma representação ”honesta”da população que conduza a estimativas das caracteŕısticas da pop- ulação com ”boa”precisão relativamente aos custos de amostragem, isto é, obter uma amostra representativa da população.

Existem dois grandes grupos de métodos para seleccionar/recolher amostras: os métodos aleatórios e métodos não aleatórios.

Os métodos de amostragem não aleatória são métodos ad-hoc de carácter pragmático ou intuitivo e são largamente utilizados, pois possibilitam um estudo mais rápido e com menores custos. Um claro inconveniente destes métodos é o facto de que a inclusão de um elemento da população na amostra é determinada por um critério subjectivo, normalmente uma opinião pessoal, um outro inconveniente é que existem elementos da população que não têm possibilidade de ser escolhidos.

Tipos de amostras não aleatórias:

(i) Amostra intencional: Composta por elementos da população selec- cionados intencionalmente pelo investigador, porque este considera que esses elementos possuem caracteŕısticas t́ıpicas ou representativas da

4

população; Exemplo: escolha de localidades ”representativas”em tempo de eleições legislativas.

(ii) Amostra ”snowball”: Tipo de amostra intensional em que o inves- tigador escolhe um grupo inicial de indiv́ıduos e pede-lhes o nome de outros indiv́ıduos pertencentes à mesma população. A amostra vai as- sim crescendo como uma bola de neve à medida que novos indiv́ıduos são indicados ao investigador. É um tipo de amostragem bastante útil quando se pretende estudar pequenas população muito espećıficas (e.g. os ”sem abrigo”), no entanto pode originar em resultados enviesados uma vez que as pessoas tendem a indicar o nome de pessoas intimas ou amigos (com comportamentos e pensamentos similares).

(iii) Amostra por quotas: As amostras são obtidas dividindo a população por categorias ou estratos e seleccionando um certo número (quota) de elementos de cada categoria de modo não aleatório.

(iv) Amostra por conveniência: Os elementos são escolhidos por con- veniência ou por facilidade. Um exemplo diste tipo de amostragem é os casos em que os espectadores de um determinado programa são convidados a responder a um questionário. As amostras obtidas desta forma não são representativas da população e em geral são enviesadas.

Os métodos de amostragem aleatória são caracterizados por todos os ele- mentos da população poderem ser seleccionados de acordo com uma probabil- idade pré-definida e em que se podem avaliar objectivamente as estimativas das propriedades da população obtidas a partir da amostra.

Uma das vantagens da amostragem aleatória é a possibilidade de estimar as margens de erro dos resultados que são devidas à amostragem. Além disso, a amostragem aleatória evita o enviesamento das amostras que acon- tece (mesmo quando o objectivo não é esse) sempre que se usa a opinião e a experiência para escolher as amostras.

No entanto, deverão ser também referidas as dificuldades em recolher uma amostra aleatória. E a principal dificuldade consiste na obtenção de uma listagem completa da população a inquirir. Estas listagens são, na maioria dos casos, dif́ıceis de conseguir, de custo elevado, demoradas na sua obtenção e nem sempre de fiabilidade aceitável.

5

O segundo tipo de dificuldades relaciona-se com as não respostas. Depois de definidos os respondentes, não poderão haver substituições, pelo que as não-respostas constituem uma importante fonte de enviesamento e terá de ser feito tudo para que a sua taxa seja minimizada. Todas as novas tenta- tivas (por entrevista pessoal, telefone ou correio) para obter respostas bem sucedidas implicam aumento de custos e demora na obtenção dos resultados.

A amostragem aleatória é, sem dúvida, o processo mais caro, mas os custos tendem a tornar-se pouco importantes face à fiabilidade dos resultados obti- dos.

Métodos de amostragem aleatória:

(i) Amostragem aleatória simples Uma amostra aleatória simples de n elementos de uma população de N elementos é um subconjunto de n elementos distintos da população,

extráıdos de modo que qualquer das

( N n

) amostras posśıveis tem igual

probabilidade, 1/

( N n

) de ser seleccionada.

A amostragem aleatória simples pode ser feita com reposição (caso em que cada elementos da população pode entrar mais do que uma vez na amostra) ou sem reposição (caso em que cada elemento da população só pode entrar uma vez na amostra).

Este tipo de amostra é muito dispendioso, e muitas vezes impraticável por exigir a listagem e enumeração de toda a população, dáı ser poucas vezes adoptado. Mas se a população for pequena ou se existirem listas com os elementos da população, este método mostra-se bastante útil.

(ii) Amostragem Casual sistemática Este método é também chamado quasi-aleatório por não dar a todas as amostras que se podem retirar de uma população a mesma probabili- dade de ocorrência. Para aplicação deste método é necessário calcular o rácio K = N

n . Em seguida, escolhe-se aleatoriamente um número,

no intervalo [1, K], que servirá como ponto de partida e primeiro el- emento da amostra. Adicionando ao primeiro valor obtido o rácio K (arredondando o resultado por defeito), obtém-se o segundo elemento

6

e a adição sucessiva do mesmo rácio permite encontrar os restantes el- ementos da amostra. Como se verifica, apenas o primeiro elemento é escolhido aleatoriamente enquanto que os restantes são determinados de modo sistemático pelo rácio.

Por exemplo, se K = 2, então a dimensão da amostra será constitúıda por metade (50%) da dimensão da população. Se K = 20, então a amostra será apenas 5% da população.

As empresas que executam estudos de mercado utilizam frequente- mente o método denominado Random Route, que mais não é do que um processo de amostragem sistemática, já que partem de um ponto de partida escolhido aleatoriamente, seguindo depois um itinerário obtido com intervalos sistemáticos (inquéritos de porta a porta, por exemplo).

(iii) Amostragem estratificada Este método consiste em dividir a população em grupos relativamente homogéneos e mutuamente exclusivos, chamados estratos, e em selec- cionar amostras aleatórias simples em independentes de cada estrato. Se o número de elementos de cada amostra estiver de acordo com a proporção do estrato na população, as observações podem ser mistu- radas para se obter os resultados globais. Se, no entanto, todas as amostras tiverem o mesmo número de elementos, os resultados de cada estrato têm que ser pesados pela proporção desse estrato na população.

A estratificação de uma população faz sentido quando é posśıvel iden- tificar sub-populações que variam muito entre si no que diz respeito à variável em estudo, mas que variam pouco dentro de si. Nestas condições, uma amostra estratificada pode fornecer resultados mais precisos do que uma amostra simples extráıda do conjunto da pop- ulação.

Esta eficiência será ainda mais importante se a variável a ser estrat- ificada se encontrar correlacionada com várias outras variáveis como por exemplo idade, sexo, rendimento, status, área geográfica, etc., o que permitirá estratificar simultaneamente segundo várias variáveis, desde que se assegure uma adequada representatividade dos estratos existentes na população.

7

(iv) Amostragem por clusters Tal como na amostragem estratificada, na amostragem por clusters, a população é dividida em grupos, ou clusters. Este tipo de amostragem torna-se particularmente útil quando a população se encontra dividida num reduzido número de grupos, caracterizados por terem uma dis- persão idêntica à população total, isto é, os grupos deverão, tanto quanto posśıvel, ser ”microcosmos”da população a estudar. Primeiro, seleccionam-se aleatoriamente alguns dos grupos e em seguida, incluem- se na amostra todos os indiv́ıduos pertencentes aos grupos selecciona- dos. Trata-se de um processo amostral casual simples em que cada unidade é o cluster.

Neste tipo de amostragem exige apenas que se disponha de uma listagem dos grupos (de indiv́ıduos ou elementos da população) e não uma listagem completa dos elementos da população, como é o caso das amostragens anteriores.

Um exemplo deste tipo de amostragem é o caso em que se pretende fazer uma sondagem de opinião aos alunos de uma escola (população), da qual apenas se dispõe de uma listagem das turmas (grupos de alunos). Uma amostra por clusters obtém-se seleccionando uma amostra aleatória de turmas e inquirindo, dentro de cada turma escolhida, todos os alunos.

(v) Amostragem multi-etapas O primeiro passo deste tipo de amostra é idêntico ao anterior. A pop- ulação encontra-se dividida em vários grupos e seleccionam-se aleato- riamente alguns desses grupos. No passo seguinte, também os elemen- tos de cada grupo são escolhidos aleatoriamente. Este processo pode multiplicar-se am mais de duas etapas se os grupos estiverem divididos em sub-grupos.

Um exemplo deste tipo de amostragem é o caso de uma sondagem de opinião aos alunos do ensino secundário em que se pode começar por se- leccionar aleatoriamente algumas direcções escolares. Em seguida, de cada uma delas, seleccionar aleatoriamente algumas escolas, de cada uma das escolas escolhidas seleccionar aleatoriamente algumas turmas e, finalmente, de cada uma das turmas escolhidas seleccionar aleatori- amente alguns alunos. Este exemplo consiste em 4 etapas.

Como desvantagem deste método adiante-se de que os posśıveis erros de amostragem se podem multiplicar, dado que ao longo deste processo se vão utilizando várias sub-amostras com a possibilidade de erros de

8

amostragem em cada uma delas.

(vi) Amostragem multi-fásica Este processo de amostragem não deve ser confundido com o processo de amostragem multi-etapas. No primeiro processo as unidades amostrais variam de uma etapa para outra. No exemplo referido no ponto an- terior, as unidades amostrais eram, sucessivamente, as direcções esco- lares, as escolas, as turmas e os alunos, enquanto que na amostragem multi-fásica se define sempre a mesma unidade amostral em todas as fases de extracção da amostra.

Neste caso, em cada fase da amostragem, consideram-se sempre os el- ementos da população, obtendo-se de alguns mais informações do que de outros. Na primeira fase, recolhem-se dados sobre determinadas caracteŕısticas dos respondentes - por exemplo, o seu comportamento e frequência quanto ao consumo de determinado produto, variáveis de- mográficas, tamanho das empresas, a sua disponibilidade para respon- der novamente a um inquérito. Esta informação pode ser usada para a definição de uma listagem dos posśıveis respondentes à segunda fase do inquérito. É então retirada desta listagem uma segunda amostra que responderá a um questionário com um ńıvel de profundidade mais elevado.

Deste modo, nem todos os inquiridos respondem a todas as questões, isto permite reduzir os custos e permite ainda que a amostra principal seja utilizada como base de amostragem para amostragens seguintes.

1.1.2 Os conceitos principais da amostragem aleatória

O nosso interesse centra-se nos valores tomados por uma variável aleatória Y para os vários elementos de uma população e, em medidas globais dessa variável na população. Se a população tiver dimensão N , podemos representar- la por

Y1, Y2, . . . , YN

sendo estes valores de Y designados para os diferentes membros da população.

Estamos interessados em caracteŕısticas da população definidas relativamente a Y . As que são estudadas mais usualmente são:

9

(i) O total da população, YT = ∑N

i=1 Yi;

(ii) A média da população, YT = PN

i=1 Yi N

= YN N

;

(iii) A proporção, P , de membros da população que pertencem a deter- minada categoria de classificação da variável Y . Por exemplo, num estudo sobre hábitos de condução num adulto, P poderá representar a proporção de condutores que dirigem mais de 10 Km por dia.

O objectivo de um estudo por amostragem é estimar uma ou mais dessas categorias a partir da informação contida na amostra de n(≤ N) membros da população. Suponha-se que os valores de Y para os membros da amostra são designados por

y1, y2, . . . , yN

onde cada yi é um dos valores Yj da população.

Terminologia

O quociente entre a dimensão da amostra e a dimensão da população

f = n

N

é chamado de fracção amostral.

Para estimar YT , ou P , é necessário calcular algumas medidas que sumariem a informação contida na amostra. Para estimar é intuitiva a utilização da média amostral

=

N i=1 yi n

Uma parte importante no processo de amostragem é como determinar as pro- priedades dos estimadores obtidos (e.g. o estimador para a média amostral dado pela equação anterior). Uma possibilidade é tentar descobrir como é que os valores de variam relativamente a em diferentes situações quando se considera o procedimento amostral no mesmo problema. No entanto, para determinar as propriedades de tais estimadores, tem que se ter em conta o mecanismo aleatório de extracção de amostras.

Em termos genéricos, depois de especificar o tamanho da amostra, n, consideram- se todas as posśıveis amostras de dimensão n que podem ser formadas a

10

partir da população, S1, S2, . . . . Um esquema de amostragem aleatório é definido pela associação de uma probabilidade πi a cada Si, isto é, πi = P (extrair a amostra Si), e escolha de uma amostra particular S de acordo com esta distribuição de probabilidade. São vastas as possibilidades para os esquemas de amostragem aleatória, correspondendo a diferentes funções de probabilidade π = 1, π2, . . . } sobre o conjunto das posśıveis amostras, {S1, S2, . . . }.

Vamos considerar alguns dos esquemas de amostragem mais utilizados e com- pará-los em termos de custos e eficiência para a estimação de , YT , etc.

Suponha-se que θ é uma caracteŕıstica da população (pode ser YT ) e que

se vai escolher uma função da amostra, θ̃(S), para a estimar. θ̃ é desig- nado, como usualmente, estat́ıstica ou estimador. Podem-se estudar as pro- priedades dos estimadores em relação à distribuição amostral de θ̃ induzida pela distribuição de probabilidade, π. Diferentes valores de θ̃ vão ser obtidos para diferentes amostras, com probabilidades dadas por π = 1, π2, . . . }.

Enviesamento

Um posśıvel critério para analisar se o esquema de amostragem é ”represen- tativo”é verificar que θ̃ é não enviesado (centrado), isto é,

Eπ[θ̃(S)] = θ

onde E representa o valor esperado.

Precisão

Usualmente o estimador θ̃ tem, pelo menos em amostras grandes, distribuição aproximadamente normal. É razoável estabelecer a precisão ou eficiência de um estimador centrado através da variância,

V ar[θ̃(S)] = Eπ{[θ̃(S)− θ]2}. Quanto mais pequena for a variância, mais preciso é o estimador. Se, para uma dada dimensão amostral, um estimador centrado tiver menor variância do que outro, diz-se que ele é mais eficiente. Pode-se, assim, comparar estimadores respeitantes ao mesmo ou a diferentes esquemas de amostragem

11

aleatória.

O maior objectivo da teoria da amostragem é implementar esquemas de amostragem que sejam mais económicos e fáceis de implementar, e que con- duzem a estimadores centrados com variância mı́nima.

Em geral, o factor V ar[θ̃(S)] decresce com o aumento da dimensão da amostra, mas os custos aumentam. O ideal é encontrar um ponto de equiĺıbrio. Têm que se comparar os esquemas de amostragem para determinar qual deles per- mite obter um estimador centrado com menor variância para um dado custo ou para uma dada dimensão da amostra.

12

1.2 Amostragem Aleatória Simples

A forma mais básica de amostragem aleatória é a amostragem aleatória sim- ples que é relativamente simples de utilizar do ponto de vista estat́ıstico e serve também de base a para esquemas de amostragem mais complexos como a amostragem aleatória estratificada e a amostragem aleatória por grupos. As propriedades dos estimadores obtidos a partir de amostras aleatórias sim- ples são facilmente demonstrados.

1.2.1 O procedimento de Amostragem Aleatória Sim- ples

Se a população tiver dimensão N , e quisermos uma amostra aleatória simples

de dimensão n, esta amostra é escolhida aleatoriamente das

( N n

) amostras

distintas posśıveis, em cada uma das quais nenhum dos elementos da pop- ulação é inclúıdo mais de uma vez. Isto é o mesmo que dizer que cada uma das(

N n

) amostras posśıveis tem a mesma probabilidade

( N n

)1 de ser escolhida.

Para produzir uma amostra aleatória simples de dimensão n (amostra aleatória sem reposição de n elementos da população) deve-se proceder do seguinte modo. Suponha-se que este método de extracção sequencial sem reposição produz n elementos (distintos) da população cujos valores são

y1, y2, . . . , yn

onde yi se refere ao i-ésimo elemento, i = 1, . . . , n.

A probabilidade de obter esta sucessão ordenada é

1

N .

1

N − 1 . . . 1

N − n + 1 = (N − n)!

N !

Mas, qualquer ordenação de y1, y2, . . . , yn corresponde à mesma escolha de n elementos distintos da população (isto é, corresponde à mesma amostra). Ex- istem n! ordenações posśıveis. Assim, a probabilidade de obter uma amostra particular de n elementos (independente da ordem) é dada por

n!(N − n)! N !

=

( N n

)1 .

13

Existem

( N n

) amostras distintas e são igualmente prováveis, isto é, são

amostras aleatórias simples.

A escolha de uma observação individual na amostra é conseguido em cada etapa por um mecanismo aleatório aplicado aos restantes membros da pop- ulação, por exemplo, utilizando uma tabela de números aleatórios.

Exemplo 1.2.1: Quer-se extrair uma amostra aleatória simples de 5 elemen- tos de 25. Primeiro deve-se numerar a população de 0 a 24, depois procurar numa tabela de números aleatórios os primeiros pares de números menores que 25, obtendo assim os 5 elementos da população que devem ser selecciona- dos. Não esquecer de medir o respectivo valor desses elementos na variável em estudo, nem de ignorar os que foram seleccionados anteriormente na procura na tabela de números aleatórios. Para amostras e populações grandes, esta tarefa de escolher a amostra a partir de uma tabela de números aleatórios pode ser demasiado morosa.

Variância

A variância de uma população finita Y1, Y2, . . . , YN é dada por

σ2 = 1

N − 1 N

i=1

(Yi − Ȳ )2.

Na amostragem aleatória simples pode-se definir o valor esperado de yi, a i-ésima observação na amostra, isto é,

E[yi] = N

j=1

YiP (yi = Yj) = 1

N

Nj=1

Yj = Ȳ .

O resultado que diz que P (yi = Yj) = 1 N

é devido ao facto de que o número

de amostras em que yi = Yj ser de (N−1)! (N−n)! , e cada uma tem probabilidade de

(N−n)! N !

.

Facilmente se verifica que

E[y2i ] = 1

N

Nj=1

Y 2j ,

e

14

E[yiyj] = 2

N(N − 1) ∑ r<s

YrYs (i 6= j)

Assim, a variância e covariância de yi são dadas por

V ar[yi] = E[(yi − Ȳ )2] = E[y2i ]− Ȳ 2

= (N − 1)σ2

N

e

Cov[yi, yj] = E{(yi − Ȳ )(yi − Ȳ )} = E[yiyj]− Ȳ 2

= 1

N(N − 1)

 

( N

j=1

Yj

)2

Nj=1

Y 2j −N(N − 1)Ȳ 2  

= −σ 2

N .

Pode-se assim concluir que existe uma pequena e negativa correlação entre as potenciais observações amostrais.

Pode-se, agora, proceder ao estudo do estimador da média da população.

1.2.2 Estimação da média,

Um estimador de , baseado numa amostra aleatória simples de dimensão n, imediatamente intuitivo é a média amostral,

=

n i=1 yi n

.

Facilmente se verifica que é um estimador centrado de , pois

E[ȳ] = 1

n E

[ n

i=1

yi

] =

nȲ

n = Ȳ .

Além disso,

15

V ar[ȳ] = (1− f)σ2

n , (1.1)

em que f = n N

é a fracção amostral.

A variância amostral de é reduzida por um factor f = n N

, fracção de amostragem, comparado com o resultado análogo para uma população in- finita. Este efeito é conhecido como correcção de população finita (c.p.f.). Se o valor da fracção amostral for muito pequeno, a c.p.f. tem pouca im- portância e pode ser ignorada. Empiricamente, pode-se ignorar a c.p.f. se f é menor ou igual a 0.05. A consequência deste procedimento é obter-se uma variância um pouco maior para o estimador ȳ.

Terminologia

O erro padrão (standard error) de é dado por [V ar(ȳ)]1/2.

Pode-se dizer que é um estimador centrado de e (1.1) permite-nos com- parar a eficiência de diferentes estimadores de baseados em amostragem aleatória simples ou amostras obtidas por outros processos de amostragem.

Além disso, é um estimador consistente de no caso de populações finitas, isto é, quando n → N , ȳ → Ȳ .

Quanto à questão de saber como é que se compara com outros posśıveis estimadores de , num esquema de amostragem aleatória simples, pode ser apresentada a seguinte propriedade, facilmente demonstrável:

Propriedade: A média amostral, ȳ, é o melhor (com menor variância) esti- mador linear centrado de baseado numa amostra aleatória de dimensão n.

1.2.3 Amostragem Aleatória com reposição

Observe-se como os resultados diferem se for utilizado um método de amostragem aleatório simples, mas agora com reposição, para obtenção de uma amostra aleatória de dimensão n de uma população de dimensão N .

16

A amostragem aleatória simples com reposição de uma população finita é um método de mostragem em que cada elemento Yi da amostra Y1, Y2, . . . , Yn é es- colhido aleatoriamente entre todos os N elementos da população y1, y2, . . . , yn, e de forma que todos os elementos da população tenham a mesma proba- bilidade de serem escolhidos, isto é, P (Yi = yk) =

1 N

, i = 1, 2, . . . , n; k = 1, 2, . . . , N . Isto corresponde a extrair uma amostra aleatória de dimensão n de uma uma distribuição uniforme discreta no conjunto dos pontos Y1, Y2, . . . , YN .

Observe-se que, neste caso, cada elementos da amostra é estatisticamente in- dependente dos restantes, e todos os elementos são identicamente distribúıdos e têm a mesma distribuição de probabilidade da população.

Verifica-se facilmente que:

• E(yi) = Ȳ , i = 1, 2, . . . , n; • E(y2i ) = 1N

N i=1 Y

2 j ;

• V ar(yi) = N−1N σ2.

Se se considerar a média amostral = 1 n

n i=1 yi como sendo o estimador de

, tem-se que

• E(ȳ) = ; • V ar(ȳ) = 1

n

( 11

N

) σ2.

Compare-se este último resultado para a variância com a expressão (1.1), 1 n

( 1− n

N

) σ2, para o caso da amostragem aleatória simples (sem reposição).

O estimador de referente à amostragem aleatória com reposição é menos eficiente que o mesmo estimador referente à amostragem aleatória simples, uma vez que 1− f < 11

N para n > 1. A sua eficiência relativa é dada por

N−n N−1 .

1.2.4 Estimação da variância σ2

A expressão (1.1) para V ar(ȳ) é utilizada de três formas:

(i) para estabelecer a precisão do estimador de ;

(ii) para comparar com outros estimadores de ;

17

(iii) Para determinar a dimensão da amostra necessária para obter a pre- cisão do estimador pretendida.

Normalmente, não se conhece o verdadeiro valor de σ2, como tal é necessário estimá-lo a partir da amostra. Considerando a amostra aleatória simples y1, y2, . . . , yn, utiliza-se, como habitualmente,

s2 = 1

n− 1 n

i=1

(yi − ȳ)2.

Note-se que s2 é um estimador centrado de σ2, isto é, E(s2) = σ2.

Relativamente aos pontos (i) e (ii), pode-se substituir a variância descon- hecida da população, σ2, em (1.1) pelo seu estimador centrado s2, obtendo-se assim um estimador centrado de V ar(ȳ) dado por

s2(ȳ) = (1− f)s 2

n .

Em algumas situações, a estimação de σ2 é útil, por si só, e tal estimação pode ser feita utilizando os estimador s2. Mas quanto ao problema referido em (iii), em se quer determinar a dimensão da amostra necessária para obter a precisão pretendida, o estimador s2 não tem relevância porque ainda não se dispõe da amostra para o calcular. Como tal, tem que se determinar a dimensão da amostra requerida antes de efectuar o processo de amostragem. Posteriormente ver-se-á como realizar este processo.

1.2.5 Intervalo de confiança para

Para se obter um intervalo de confiança para é necessário que se conheça a sua distribuição. Como se está perante um caso de amostragem, o que se pretende é a distribuição por amostragem, e, a forma de a obter é utilizar um caso análogo ao Teorema do Limite Central para populações finitas que permite concluir que a média amostral, ȳ, de uma amostra aleatória simples tem aproximadamente distribuição normal,

ȳ ∼ N (

Ȳ , (1− f)σ 2

n

) (1.2)

18

Esta suposição é usualmente bastante razoável, mesmo se existe simetria na população. Uma regra emṕırica para a utilização desta aproximação de é que a dimensão da amostra, n, satisfaça

n > 25G21

onde

G1 = 1

3

Ni=1

(Yi − Ȳ )3

Note-se que para populações finitas G1 é o análogo ao coeficiente de assime- tria de Fisher. Além disso, a função de amostragem, f = n

N não deve ser

muito grande. Quando esta aproximação é apropriada, pode-se utilizar a distribuição nor- mal para realizar inferências sobre . Um intervalo de confiança a 100(1 − α)% para pode ser escrito da seguinte forma

] ȳ − Φ1

( 1− α

2

) σ

√ 1− f

n ; + Φ1

( 1− α

2

) σ

√ 1− f

n

[ ; (1.3)

Mas na prática, o valor de σ2 não é conhecido e tem que se utilizar a sua estimativa, s2. Isto é razoável se o valor de n for suficientemente grande.

No caso do valor de n não ser grande (se n ≤ 40) pode-se utilizar a dis- tribuição t de Student e o intervalo de confiança a 100(1 − α)% para é dado por

] ȳ − tn−1,1−α/2.s.

√ 1− f

n ; + tn−1,1−α/2.s.

√ 1− f

n

[ (1.4)

onde tn−1,1−α/2 é o quantil de probabilidade 1 − α/2 da distribuição t de Student com n− 1 graus de liberdade.

Geralmente, os inquéritos por amostragem são relativos a populações muito grandes (N = 10000 ou mais) com dimensões amostrais substanciais (n = 100 ou mais). Assim, usualmente utiliza-se a forma do intervalo de confiança (1.3)

19

substituindo σ2 por s2.

Exemplo: Para investigar a taxa de absentismo não relacionado com fe- riados ou férias, mum sector da indústria foi realizado um inquérito. Foi recolhida uma amostra aleatória de 1000 indiv́ıduos de um total de 36000 trabalhadores, aos quais foi questionado quantos dias tinham faltado ao tra- balho nos 6 meses anteriores. Os resultados obtidos foram os seguintes:

Número de faltas 0 1 2 3 4 5 6 7 8 9 Número de trabalhadores 451 162 187 112 49 21 5 11 2 0

Para estimar o número médio, de faltas, dadas pelos empregados deste sector, nos últimos 6 meses pode-se utilizar a média amostral

= 1.296

A variância amostral é dada por

s2 = 2.397

Utilizando uma aproximação à distribuição normal para a média, ȳ, obtém-se um intervalo de confiança a 95% para dado por

] 1.296±; 1.962.397

√ (11000/36000)/1000

[ = ]1.201; 1.391[

(ou ]1.200; 1.392[ se se ignorar a c.p.f. uma vez quef = n N

= 1 36

= 0.028 < 5%)

Note-se que a distribuição dos valores de Y na população é altamente as- simétrica. Este facto afecta a qualidade da aproximação normal, mas a di- mensão elevada da amostra e da população compensa esse facto.

1.2.6 Escolha da dimensão da amostra

É evidente que um aumento da dimensão da amostra conduzirá a um aumento da precisão de como estimador de .Contudo os custos de amostragem também irão aumentar e existem limites para aquilo que podemos gastar. Uma amostra demasiado grande implica um desperd́ıcio de esforço; uma amostra demasiado pequena produzirá uma estimação de precisão inade- quada. O ideal será estabelecermos a precisão desejada, ou o gasto máximo que podemos realizar, e escolher a dimensão da amostra de acordo com estas

20

restrições.

Para alcançar este objectivo é necessário ter em conta um vasto leque de considerações:

Conhecer o custo de amostragem para dada situação; Saber como aferir da precisão dos estimadores; Saber como equilibrar as necessidades em relação a várias caracteŕısticas

da população que estejam a ser estimadas (caracteŕısticas de interesse).

Como lidar com o desconhecimento de alguns parâmetros da população (e.g. a variância da população) que podem afectar a precisão dos esti- madores.

Vai-se considerar apenas um caso simples. Vai-se assumir que o objectivo é estimar apenas uma caracteŕıstica, a média da população, , utilizando a média obtida a partir de uma amostragem aleatória simples, e impondo que a probabilidade da diferença absoluta entre e ser superior a um dado valor não exceda um certo ńıvel. Não fazemos quaisquer considerações sobre custos embora, se os custos de amostragem forem proporcionais à dimensão da amostra, o objectivo de redução ao mı́nimo custo seja alcançado do mesmo modo.

Suponhamos que procuramos encontrar o valor mı́nimo de n que assegura que

P (|Ȳ − ȳ| > d) ≤ α (1.5)

para valores especificados de d (tolerância) e (pequeno) α (risco de não re- speitar essa tolerância). (1.5) pode ser escrito como

P

( |Ȳ − ȳ|

σ

(1− f)/n > d

σ

(1− f)/n

) ≤ α, (1.6)

assim, utilizando a aproximação à distribuição normal de pode-se escrever

d

σ

(1− f)/n ≥ Φ 1

( 1− α

2

) (1.7)

21

ou ainda

n ≥ N  1 + N

( d

σ.Φ1 ( 1− α

2

) )2

1

(1.8)

A inequação (1.6), declara de modo equivalente que

V ar(ȳ) ≤ (

d

Φ1 ( 1− α

2

) )2

= V, (1.9)

e portanto a desigualdade (1.8) pode ser escrita como

n ≥ σ 2

V

[ 1 +

1

N

σ2

V

]1 , (1.10)

Verificamos assim que, como primeira aproximação para a pretendida di- mensão da amostral, podemos considerar

n0 = σ2

V . (1.11)

Contudo esta expressão avalia por excesso a dimensão da amostra, especial- mente se a fracção de amostragem f = n0

N for substancial. Se tal acontecer,

é necessário diminuir a nossa aproximação e, em vez de n0, considerar

n = n0

( 1 +

n0 N

)1 (1.12)

Tudo isto pressupõe naturalmente que σ2 é conhecido. Na prática isso não acontece, como tal é necessário estimar a dimensão da amostra requerida, n quando σ2 é desconhecido. Existem basicamente 4 formas de o fazer:

(i) A partir de estudos piloto: Muitas vezes é posśıvel fazer um estudo piloto antes do inquérito principal. Se tal for feito os resultados dão alguma indicação sobre o valor de σ2 a utilizar na escolha da dimensão da amostra. No entanto, esta estimativa poderá ser bastante enviesada uma vez que os estudos piloto incidem, em geral, sobre uma parte da população apenas.

22

(ii) A partir de inquéritos anteriores: É bastante comum repetir es- tudos anteriores para estudar caracteŕısticas similares em populações similares, especialmente em áreas como a educação, a medicina ou soci- ologia. A medida para a variância, σ2 nesses estudos anteriores poderá ser utilizada no novo estudo de modo a determinar a dimensão da amostra, no entanto é necessário cautela ao extrapolar de uma pop- ulação para a outra.

(iii) A partir de uma amostra preliminar: Esta é a abordagem mais objectiva e mais indicada, mas pode não ser admisśıvel em termos administrativos ou de custos. O procedimento consiste em recolher uma amostra aleatória simples de pequena dimensão, n1, e utilizar a variância amostral, s21 para estimar a variância, σ

2. Com esta estima- tiva de σ2 calculamos o valor mı́nimo para n, após o qual se recolhem mais (n− n1) observações dos restantes elementos da população. Com este procedimento, e se for razoável ignorar a correcção de pop- ulação finita (c.p.f.), a dimensão da amostra, n, deverá ser igual a

( 1 +

2

n1

) s21 V

Este processo de amostragem é um caso de amostragem em 2 fases.

(iv) A partir de considerações práticas acerca da estrutura da pop- ulação: Ocasionalmente temos algum conhecimento sobre a estrutura da população de que pode dar indicação sobre o valor de σ2. Por exem- plo, considerem-se o número de ”gralhas”em livros de uma dada editora (aproximadamente do mesmo tamanho ou mum número prefixado de páginas) num certo peŕıodo de tempo, ou o número de falhas que ocor- rem numa marca de cassetes de v́ıdeo no primeiro ano de uso. Em ambos os casos se pode admitir que os valores da variável em estudo, Y , seguem uma distribuição de Poison, sendo então plauśıvel considerar que σ2 e sejam aproximadamente iguais. Logo, qualquer informação sobre pode ser utilizada para estimar σ2 e intervir na escolha da dimensão da amostra, n.

23

1.2.7 Estimação do total da população, YT

Existem muitas situações em que é interessante estimar o total da população

YT = NȲ . (1.13)

em vez da média da população, . Através desta relação entre YT e podemos, facilmente deduzir as propriedades sobre estimação do total pop- ulacional.

O estimador por amostragem aleatória simples que é mais utilizado é dado por

yT = Nȳ

Dos resultados anteriores, tem-se que yT é um estimador centrado de YT e

V ar(yT ) = N 2(1− f)σ

2

n .

yT é o estimador linear centrado de variância mı́nima de YT baseado numa amostra aleatória simples de dimensão n. Com as mesmas restrições relativamente à dimensão da amostra, n, e ao valor da fracção de amostragem, f , pode-se usar a aproximação à distribuição normal dada por

yT ∼ N (

YT , (1− f)N2σ2

n

)

para construir intervalos de confiança para YT . Se n > 40, um intervalo de confiança a 100(1− α) para YT é dado por

] yT − Φ1

( 1− α

2

) σN

√ 1− f

n ; yT + Φ

1 ( 1− α

2

) σN

√ 1− f

n

[ ;

Se n ≤ 40, é prefeŕıvel utilizar o quantil tn−1,1−α 2

em vez do quantil Φ1 ( 1− α

2

) da distribuição normal reduzida.

Quanto à questão da escolha da dimensão da amostra, n, tem-se em conta que

P (|yT − YT | > d) ≤ α.

24

Utilizando a aproximação pela distribuição normal, vem que

n ≥ N  1 + 1

N

( d

σ.Φ1 ( 1− α

2

) )2

1

. (1.14)

Equivalentemente,

V ar(yT ) (

d

Φ1 ( 1− α

2

) )2

= V

Assim, (1.14) pode ser escrito como

n ≥ N 2σ2

V

( 1 +

1

N

N2σ2

V

)1

Assim, se 2

V é muito menor que 1, é razoável tomar

n0 = n2σ2

V

como dimensão aproximada da amostra, caso contrário deve-se utilizar

n0

( 1 +

n0 N

)1 .

1.2.8 Estimação de uma proporção, P

O objecto de um estudo de amostragem pode incidir sobre um atributo ou qualidade dos elementos de uma população, nomeadamente sobre o estudo da proporção de indiv́ıduos da população que tem o atributo. Por exem- plo a proporção de casas alugados na área da grande Lisboa. Já vimos que podemos atribuir o valor 1 aos elementos da população que têm o atributo e o valor 0 aos elementos que não têm o atributo. Do mesmo modo, a amostra vai ser constitúıda por 0s e 1s, isto é, xi = 1 se o i-ésimo elemento da amostra tem o atributo e xi = 0 se o i-ésimo elemento da amostra não tem o atributo.

Sendo assim, se r elementos da amostra tiverem o atributo, então

ni=1

xi = r.

25

comentários (0)

Até o momento nenhum comentário

Seja o primeiro a comentar!

Esta é apenas uma pré-visualização

3 shown on 63 pages

baixar o documento