Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Conceitos básicos e princípios de estatística, Notas de estudo de zootecnia

Apostila de Estatistica basica

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 06/12/2010

lenice-mendonca-de-menezes-7
lenice-mendonca-de-menezes-7 🇧🇷

5

(2)

18 documentos

1 / 12

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
1
1
CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA
1. Conceitos Básicos de Probabilidade
Variável aleatória: é um número (ou vetor) determinado por uma resposta, isto é, uma
função definida em pontos do espaço amostral. Uma variável aleatória pode ser discreta (como no
lançamento de um dado) ou contínua (como na medição de temperatura).
Valor esperado (expectativa,significado): é a média ponderada dos possíveis valores de
X, cada valor ponderado por sua probabilidade. É representada por E(X) ou
µ
x
, sendo definida
por
E(X) = x1 f(x1) + x2 f(x2) +...+ xn f(xn)
E(X) = Σi xiP(X = xi), para i=1, 2, ..., n.
Variância: é uma medida da dispersão de X. É representada por Var(X) e por
σ
2
e é
definida por
( )
( ) ( )
( )
[
]
( )
( )
Var XxfxE X ou
Var X E X
i i
x
= =
=
Σµ µ
µ
2 2
2 2
Desvio padrão: é a raiz quadrada não-negativa da variância. É representado por σ.
Variável aleatória padronizada: seja x a variável aleatória com significado µ e desvio
padrão σ. A variável aleatória padronizada (z), que corresponde à x é definida por
(
)
zx= µσ.
Uma variável padronizada tem valor esperado igual a 0 e variância igual a 1 (desvio padrão igual a
1).
Teste amostral simples: constitui-se de uma sucessão de leituras tomadas sob condições
idênticas (mesmo observador e mesmo instrumento de medição), exceto o tempo.
Teste multiamostral: ocorre quando são feitas medições repetidas de uma quantidade,
utilizando diferentes instrumentos de medição e diferentes observadores. As trocas, tanto de
observador como de instrumento, causam mudanças na distribuição dos erros e, consequentemente,
tem-se um conjunto de variáveis aleatórias.
Distribuição multivariada: é a distribuição conjunta de duas ou mais variáveis aleatórias
definidas no mesmo espaço amostral, própria de um teste multiamostral. Um exemplo é a
distribuição associada com a observação simultânea de temperatura, pressão, direção e velocidade
do vento. A função distribuição de uma distribuição bivariada é:
P(X x,Y y) e é, usualmente, simbolizada por
(
)
Fx y
XY,,
pf3
pf4
pf5
pf8
pf9
pfa

Pré-visualização parcial do texto

Baixe Conceitos básicos e princípios de estatística e outras Notas de estudo em PDF para zootecnia, somente na Docsity!

CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA

1. Conceitos Básicos de Probabilidade

Variável aleatória : é um número (ou vetor) determinado por uma resposta, isto é, uma função definida em pontos do espaço amostral. Uma variável aleatória pode ser discreta (como no lançamento de um dado) ou contínua (como na medição de temperatura).

Valor esperado (expectativa,significado) : é a média ponderada dos possíveis valores de X, cada valor ponderado por sua probabilidade. É representada por E(X) ou μx , sendo definida por

E(X) = x 1 f(x 1 ) + x 2 f(x 2 ) +...+ xn f(xn) E(X) = Σi xiP(X = xi), para i=1, 2, ..., n.

Variância : é uma medida da dispersão de X. É representada por Var(X) e por σ^2 e é definida por

( ) ( ) ( ) [ ( ) ]

Var X x f x E X ou

Var X E X

i i

x

Σ μ μ

μ

2 2

2 2

Desvio padrão : é a raiz quadrada não-negativa da variância. É representado por σ.

Variável aleatória padronizada : seja x a variável aleatória com significado μ e desvio

padrão σ. A variável aleatória padronizada (z), que corresponde à x é definida por z = ( x − μ ) σ.

Uma variável padronizada tem valor esperado igual a 0 e variância igual a 1 (desvio padrão igual a 1).

Teste amostral simples : constitui-se de uma sucessão de leituras tomadas sob condições idênticas (mesmo observador e mesmo instrumento de medição), exceto o tempo.

Teste multiamostral : ocorre quando são feitas medições repetidas de uma quantidade, utilizando diferentes instrumentos de medição e diferentes observadores. As trocas, tanto de observador como de instrumento, causam mudanças na distribuição dos erros e, consequentemente, tem-se um conjunto de variáveis aleatórias.

Distribuição multivariada : é a distribuição conjunta de duas ou mais variáveis aleatórias definidas no mesmo espaço amostral, própria de um teste multiamostral. Um exemplo é a distribuição associada com a observação simultânea de temperatura, pressão, direção e velocidade do vento. A função distribuição de uma distribuição bivariada é:

P(X ≤ x,Y ≤ y) e é, usualmente, simbolizada por F X Y , ( x y , )

Valor verdadeiro de uma variável : é aquele que seria obtido na medição se não houvesse característica estocástica (aleatória) associada com a medição.

Erro aleatório : é um erro que representa a diferença entre o valor medido da variável aleatória e seu valor verdadeiro.

Erro sistemático : é um erro introduzido continuamente, devido, por exemplo, a erro de calibração, desvios instrumentais, erro de técnica e, também, devido à representação inadequada de um processo (como a não-consideração da ocorrência de vazamentos, depósitos).

Variáveis aleatórias independentes : um número finito de variáveis aleatórias X, Y,..., Z, num espaço amostral definido, são consideradas independentes se:

P (X =xi ,Y=yj,...,Z=zk) =P( X=xi) P( Y=yj)... P( Z=zk)

para quaisquer valores de x (^) i , y (^) j ,..., zk. Elas têm as seguintes propriedades:

i)E(XY) = E(X) E(Y)

ii)Var(X+Y) = Var(X) + Var(Y)

iii)Cov(X,Y) = 0

onde Cov(X,Y) = covariância.

Covariância : é o conceito que relaciona duas variáveis aleatórias, X e Y, definidas num mesmo espaço amostral, representada por Cov(X,Y). É definida por

Cov X Y ( , (^) ) = E [ (^) ( Xμ (^) x )( Yμy )]

ou equivalentemente,

Cov X Y ( , ) = E XY ( )− μ μx y

Coeficiente de correlação : fornece a correlação entre duas variáveis aleatórias, X e Y, definidas num mesmo espaço amostral, representada por ρX Y,. É definido por

ρ X Y , = Cov ( X Y , ) σ x σy

Autocovariância : ao lidar com o registro contínuo da temperatura X(t) em função do tempo, pode-se estar interessado na relação entre X(t) nos tempos t 1 e t 2 .A covariância entre

Na definição da variância das Eq.(1), desvios positivos e negativos em torno da média não se cancelam uns aos outros. A última forma desta equação, que define a variância, é a mais conveniente, quando cálculos reais estão sendo feitos.

O valor da variância se torna mais confiável quanto mais medições forem obtidas e a exatidão real do procedimento de medição é indicada pelo valor da variância, calculada a partir de uma quantidade muito grande de dados. Quando o número de pontos experimentais obtido se tornar infinito, o conjunto infinito é chamado uma população de valores. Para tal população, a média da população (μ) é definida como:

μ = →∞

lim n

n x n

e a variância da população σ^2 é definida como

n

lim^ x^2

n

n

σ 2 = Σ −μ →∞

O desvio padrão da população é a raiz quadrada não-negativa da variância da população.

A média da população é o melhor, ou mais provável, valor de x, desde que as variações de x sejam resultantes de efeitos pequenos, aleatórios, independentes e aditivos. Se, entretanto, erros de método e/ou erros não-aleatórios forem inerentes às medidas, então a média pode diferir substancialmente do valor verdadeiro de x.

Se em um conjunto infinito de dados, as variações de x forem aleatórias, diz-se que a distribuição de valores de x em torno da média é uma Distribuição Normal ou Gaussiana.

3.1 Distribuição Normal ou Gaussiana****.

As distribuições de fenômenos observados assumem, frequentemente, uma forma simétrica em torno da média. Uma função desse tipo, de extrema importância em estatística, é chamada de Distribuição Normal ou Distribuição de Gauss, que é descrita pela função

( ) (^ )

σ

− −μ σ π

x^2 2

exp^1 2

Fx^1

De forma abreviada, se a variável aleatória x apresenta distribuição normal, com média μ e variância σ^2 , diz-se, simplesmente,

x = N( μ,σ^2 )

Do exame da função densidade, verifica-se que:

i) ela é simétrica em torno do eixo vertical que passa por μ;

ii) o valor máximo de F(x) ocorreu quando x = μ;

iii) tem por assíntota o eixo das abscissas;

iv) tem pontos de inflexão em x = μ ±σ.

Quando a variável aleatória x é padronizada, ela passa a ter uma Distribuição Normal Padronizada, que tem média zero e desvio padrão unitário, ou equivalentemente, uma distribuição N(0,1).

Os valores desta função distribuição são tabelados e com eles se tem um meio de obter as probabilidades associadas a qualquer variável normal, conhecidos a média e o desvio padrão e a definição de variável aleatória padronizada (z),

onde a Cov(Xi, Xj) é zero, se as variáveis Xi e Xj são independentes uma da outra.

Os chamados testes nodal e de medida, muito utilizados para detectar e identificar fontes de erros grosseiros, são testados contra uma distribuição normal padronizada.

3.2. Distribuição Qui-quadrado

A variável aleatória, formada pela soma dos quadrados de n variáveis aleatórias independentes Zi , definida por

χ^2 = (^) ∑ Z (^) i^2 ( Z = N ( 0 1)) i

n , (^) i ,

tem uma distribuição χ^2.

O valor n é também conhecido como o número de graus de liberdade da χ^2.

A média e a variância dessa distribuição são expressas em graus de liberdade, sendo iguais, respectivamente, a n e 2 n.

A função densidade de probabilidade qui-quadrado é representada por χν^2 , onde ν designa

o número de graus de liberdade da χ^2. Se ν observações de uma variável são independentes, então o número de graus de liberdade é igual a ν. Entretanto, um grau de liberdade é perdido para cada restrição sobre as ν observações.

A função distribuição F (^) ( χα^2 ) é tabulada de forma a fornecer valores χα ν^2 , , que são

disponíveis na maioria dos livros de estatística, para os quais

P ( (^) χ^2 ≥ χ (^) α ν^2 , )= α

onde α é a probabilidade de somas dos quadrados iguais ou superiores ao valor correspondente tabelado. O nível de significância α é, geralmente, fixado em torno do valor 0,05. Quanto maior α, maior é o risco de rejeitar hipóteses boas; inversamente, o risco de aceitar hipóteses falsas aumenta, na medida que o valor de α diminue.

Se o valor calculado da variável aleatória χ^2 for maior do que o valor tabelado χα ν^2 ,, rejeita-

se a hipótese de que as variáveis Zi sejam aleatórias, entretanto, se ele for menor ou igual, a hipótese é aceita.

Então, a amostra é coletada e θ$ é calculado. Se θ$ for maior do que θ (^1) −α 2 ou menor do

que θα 2 , a hipótese é rejeitada. Caso contrário, ela é aceita.

H 0 : θˆ^ = θ 0

α = 0,05 ⇒ em 5 % dos casos H 0 será rejeitada (decisão errada)

A faixa de valores de θ$ em que a hipótese é rejeitada é chamada região de rejeição; a faixa de θ$ em que a hipótese é aceita é chamada de região de aceitação. O teste descrito é um teste de dois lados, também chamado bilateral ou bicaudal.

Um teste unilateral pode ser baseado em duas possibilidades, sendo que numa delas θ$ seria maior do que algum θ (^1) −α , onde a hipótese seria rejeitada, se θ$ fosse de fato maior do que θ (^1) −α ; a

outra seria supor que θ$ seja menor do que θα.

Himmelblau (1978) observa que a rejeição da hipótese não implica num resultado definitivo, mas indica que os dados e o procedimento experimental devem ser submetidos a um exame cauteloso para averiguar se ocorreu alguma coisa errada com a coleta de medidas ou com a instrumentação.

A estrutura de teste mais simples é imaginar que haja uma dicotomia de estado para as variáveis aleatórias:

i) Ho : x é o valor verdadeiro da variável aleatória (que é a hipótese nula );

ii) H 1 : x não é o valor verdadeiro da variável (que é a hipótese alternativa).

No teste de hipóteses, a decisão é tomada da seguinte forma: com base na suposição de que a hipótese nula é verdadeira, se a estatística calculada a partir da amostra experimental aleatória

cair fora da região de aceitação, a hipótese nula é rejeitada e a hipótese alternativa é aceita. Caso contrário, a hipótese Ho é aceita e H 1 é rejeitada.

Podem-se distinguir dois tipos de erros ao testar uma hipótese:

i) Erro Tipo I , que é o risco de declarar falsa uma hipótese verdadeira;

ii) Erro Tipo II , que é o risco de não rejeitar uma hipótese, quando ela é falsa.

Isto pode ser resumido no esquema abaixo, onde a hipótese que está sendo testada é a hipótese H.

Hipótese Aceitar H Rejeitar H H é verdadeira Decisão correta Erro do Tipo I H é falsa Erro do Tipo II Decisão correta

Certamente, o erro do Tipo I existe porque α é selecionado para ser um valor não-zero. Quando a hipótese é verdadeira e α = 0,05, por exemplo, em 5 % dos testes a hipótese será rejeitada, o que é uma decisão errada.

A probabilidade β é a probabilidade de não rejeitar uma diferença quando ela existe. Existem curvas, chamadas curvas de operação características, para determinar a probabilidade β. A probabilidade (1-β) é chamada potência do teste e representa a probabilidade de tomar-se a decisão correta (rejeitar a hipótese), quando ela é realmente errada. Quando a diferença entre as médias (δ) aumenta, (1-β) aumenta e β diminue. A seguir, apresenta-se de forma resumida um exemplo:

Se Probabilidade de concluir que μ = μA μ ≠ μA μ = μA 1-α α μ = μ (^) A +δ β 1-β

Himmelblau (1978) relata que, pela descrição dos dois tipos de erros, pode-se observar que a tentativa de diminuir um tipo de erro resulta em um aumento no outro tipo de erro. O único modo de diminuir os dois tipos de erro, simultâneamente, é aumentar o tamanho da amostra, o que pode ser caro, na prática. Observa que talvez um tipo de erro tenha consequências menos sérias do que o outro e, neste caso, há alguma decisão adequada referente à seleção de valores de α e ao número de observações a ser feito. A experiência leva em conta os instrumentos, o projeto do processo e os custos, de modo a tomar-se uma decisão econômica para α e β.

Em geral, os estudos descritos na literatura para detecção e identificação de erros grosseiros, na reconciliação de dados de processo, consideram a probabilidade de ocorrência de erro Tipo I.

Um teste de hipótese é usado na reconciliação de dados para testar a hipótese nula: