Estatística Descritiva - Apostilas - Estatística_Parte2, Notas de estudo de Estatística. Universidade Paulista (UNIP)
Boto92
Boto928 de Março de 2013

Estatística Descritiva - Apostilas - Estatística_Parte2, Notas de estudo de Estatística. Universidade Paulista (UNIP)

PDF (949.7 KB)
25 páginas
4Números de download
1000+Número de visitas
100%de 1 votosNúmero de votos
Descrição
Apostilas e exercicios de Estatística da Universidade Paulista sobre o estudo da Estatística Descritiva, média aritmética, média ponderada, moda, mediana, medidas de tendência central para variáveis quantitativas discret...
20pontos
Pontos de download necessários para baixar
este documento
baixar o documento
Pré-visualização3 páginas / 25
Esta é apenas uma pré-visualização
Consulte e baixe o documento completo
Esta é apenas uma pré-visualização
Consulte e baixe o documento completo
Pré-visualização finalizada
Consulte e baixe o documento completo
Esta é apenas uma pré-visualização
Consulte e baixe o documento completo
Esta é apenas uma pré-visualização
Consulte e baixe o documento completo
Pré-visualização finalizada
Consulte e baixe o documento completo
No dia 29/01/2010 realizou-se nas dependências do Campus Marquês, no horário das 19h30min às 20h30min, a primeira reunião ordinária do primeiro semestre de 2010, com a presença dos professores e um aluno representante do corpo discente do curso de Admini

CONTEÚDO UNIDADES DE 1 A 11

UNIDADE 7 – MEDIDAS DE TENDÊNCIA CENTRAL

Como já mencionado anteriormente, diversos procedimentos, em estatística, visam a uma redução do conjunto de informações coletadas de modo a identificar padrões que facilitem a análise, a elaboração de hipóteses e a tomada de decisões.

É neste contexto que se enquadra a procura por valores específicos ou índices que representem o conjunto inteiro de dados coletados. Tais números devem se assemelhar, o máximo possível, aos demais valores do conjunto considerado. Ou seja, a identificação de valores típicos, ou centrais, é um dos procedimentos mais fundamentais da estatística. É por essa razão que tais valores recebem a denominação genérica de medidas de tendência central. As medidas de tendência central mais empregadas são a média, a moda e a mediana.

1) Média

1.1) Média aritmética

A média aritmética ou média simples, à qual nos referiremos daqui por diante apenas pelo nome “média”, é obtida pela soma de todos os valores do conjunto de dados, dividida pelo número total de dados do conjunto.

Para exemplificar, considere o seguinte conjunto de dados X = {1, 3, 5, 7}. Há, neste conjunto, um total de 4 elementos (n = 4). Para encontrar o valor da média, basta somar os valores dos 4 elementos e dividir por 4:

No exemplo acima, observamos que o valor da média, representada por (lê-se “xis barra”), é igual a 4. A representação genérica desta fórmula para o cálculo da média, partindo-se de uma amostra qualquer X = {x1, x2, x3,..., xn}, é:

A leitura da fórmula acima é: “xis barra é igual ao somatório de xis-i, onde i varia de 1 até n, dividido por n”. Ao desenvolvermos esta fórmula, teríamos:

Página 27 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Neste caso, a leitura seria: “xis barra é igual ao primeiro valor de x mais o segundo valor de x mais o terceiro valor de x .... mais o enésimo valor de x, e a soma final disso tudo dividido por n”. Ou seja, “x” representa cada valor da amostra. Logo, “x1” representa o primeiro valor da amostra, “x2” representa o segundo, e assim por diante. O “i”, da representação “xi”, apenas serve para indicar que o “x” pode assumir um valor qualquer dentro do grupo (primeiro valor, segundo valor, etc.).

Em nosso exemplo numérico, teríamos:

É importante ressaltar que existe uma diferença de representação entre a média amostral e a média populacional, diferença esta existente apenas na simbologia adotada:

Nesta fórmula, a letra grega µ (mi) representa a média populacional, e a letra maiúscula N representa o número total de elementos populacionais. Em se tratando de amostra, utiliza-se o já mencionado “x barra” para representar a média e a letra minúscula n para representar o total de elementos da amostra. De qualquer modo, seja em casos populacionais ou amostrais, a dinâmica do cálculo é exatamente a mesma.

1.2) Média ponderada

Quando se pretende atribuir maior importância a determinados valores do conjunto de dados, de modo que isto se reflita no cálculo final da média, é usual atribuir pesos diferenciados aos dados. A média

assim calculada é denominada média ponderada (representada por ), e seu cálculo é realizado de acordo com a fórmula

Página 28 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

O cálculo de médias finais, adotadas por diversas instituições de ensino, é realizado desta forma. É comum atribuir pesos 1, 2, 3 e 4 aos quatro bimestres letivos (primeiro, segundo, terceiro e quarto, respectivamente). Neste contexto, se considerarmos que as notas bimestrais (b1, b2, b3 e b4) de um aluno foram, nesta seqüência, 3, 4, 6 e 8, sua média final ponderada seria:

2) Moda

Outra maneira de se determinar um valor que seja representativo de um conjunto de dados amostrais ou populacionais é pelo critério da maioria. Neste caso, o valor que aparece o maior número de vezes, ou seja, o mais freqüente, é aquele que irá representar o conjunto.

Como exemplo, considere os números de filhos de dez casais que freqüentam certa comunidade:

O número de filhos que mais se repete nesta amostra é 2. Dizemos, pois, que a moda amostral é

2. O símbolo é utilizado para representar a moda. Em nosso exemplo, portanto, teríamos = 2.

Página 29 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Nem sempre um conjunto de dados possuirá uma moda. Isto acontece nos conjuntos em que todos os valores apresentam a mesma freqüência. Neste caso, estamos diante de uma distribuição amodal. Por outro lado, existem conjuntos de dados em que dois valores são igualmente mais freqüentes. Sendo assim, a distribuição será bimodal. Existem também as distribuições multimodais, em que no conjunto de dados há três ou mais valores que apresentam a freqüência máxima.

3) Mediana

A mediana de um conjunto de dados corresponde ao valor central quando os dados são dispostos em ordem crescente ou decrescente. Em outras palavras, a mediana é o valor central de um conjunto de

dados ordenados, e é representada pelo símbolo .

Quando a quantidade de dados no conjunto é ímpar, a mediana é exatamente o valor que ocupa a posição central no conjunto ordenado de dados. Veja o exemplo abaixo, que representa o número de cáries em sete crianças em idade pré-escolar, freqüentadoras de uma creche pública:

A disposição {2, 1, 0, 1, 0, 0, 3}, apresentada na tabela, não está ordenada. Ao ordenarmos de modo crescente estes dados, teríamos a seguinte disposição de números de cáries: {0, 0, 0, 1, 1, 2, 3}. O valor central desta distribuição, ou seja, o número que ocupa a posição central dentre as sete posições existentes no conjunto, é o número 1: {0, 0, 0, 1, 1, 2, 3}. Podemos, pois, afirmar que, neste conjunto de

dados, = 1, pois a quantidade de valores que se encontra à esquerda deste número é a mesma que se encontra à direita.

Por outro lado, se a quantidade de dados no conjunto é par, não haverá apenas um valor central, e sim dois valores centrais. A mediana, neste caso, será a média entre estes dois valores centrais do conjunto ordenado de dados. Como exemplo dessa situação, considere a tabela abaixo, que representa as idades de seis crianças selecionadas ao acaso em um parque de diversões:

Ao ordenarmos os valores da tabela, teríamos: {1, 2, 3, 4, 5, 8}. Os valores centrais desta

distribuição ordenada seriam 3 e 4: {1, 2, 3, 4, 5, 8}. Portanto, .

Página 30 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

É importante salientar que a mediana é uma medida que não é afetada pela presença de valores extremos no conjunto de dados, ao contrário da média. Voltemos ao exemplo do número de cáries por criança, mencionado anteriormente: {0, 0, 0, 1, 1, 2, 3}. Tanto a mediana quanto a média deste conjunto de dados apresentam valor igual a 1. Porém, se este conjunto de dados fosse: {0, 0, 0, 1, 1, 2, 15}, a presença do valor extremo 15 afetaria substancialmente a média, que seria 2,7 neste caso, ao passo que a mediana continuaria a ser igual a 1. Portanto, em situações como esta, em que existe a presença de um dado muito destoante dos demais, o uso da mediana como valor representativo do conjunto é preferível ao uso da média.

Página 31 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

UNIDADE 8 – MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS DISPOSTOS EM TABELAS DE FREQÜÊNCIAS

Quando os dados encontram-se dispostos em tabelas de distribuição de freqüências, mesmo que os valores brutos sejam desconhecidos, é possível obter a média, moda ou mediana do conjunto.

O que caracteriza estas situações é o fato de existirem observações repetidas de valores dentro do conjunto de dados, sejam valores individuais (discretos) ou valores agrupados, que se incluem em intervalos de classes determinados (contínuos). Nestes casos, na determinação da média, moda ou mediana, os valores das freqüências absolutas devem ser computados.

1) Medidas de tendência central para variáveis quantitativas discretas

Vamos nos basear em um exemplo para ilustrar a forma de se obter a média, a mediana e a moda de um conjunto de dados caracterizado por apresentar poucos valores diferentes entre si (variável quantitativa discreta). Para tanto, considere a tabela abaixo, que apresenta a freqüência de erros de impressão encontrados em uma amostra de 50 páginas de um livro.

Veja que existem apenas 5 valores diferentes entre si no conjunto de dados, os quais se repetem em números de vezes igualmente distintos. Se a tabela acima fosse revertida em uma tabela de dados brutos, encontraríamos uma distribuição como a que se segue abaixo:

Página 32 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Para obter a média de um conjunto de dados brutos, como os dispostos na tabela acima, teríamos que efetuar o seguinte cálculo:

No entanto, a realização deste cálculo seria facilitada se multiplicássemos cada número de erros pela freqüência com que aparece no conjunto de dados e somássemos os resultados de todas estas multiplicações, antes de dividir por 50. Essa freqüência é fornecida pela tabela de distribuição de freqüências. Sendo assim, teríamos:

Quando se dispõe da tabela de distribuição de freqüências, a partir da qual pretende-se determinar a média, convém adicionar uma coluna, na qual os valores das multiplicações dos dados (xi) por suas respectivas freqüências (fi) possam ser inseridos, como demonstrado abaixo:

Página 33 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Portanto, o cálculo da média, levando em consideração as freqüências absolutas, pode ser representado pela fórmula:

Considerando que a soma de todas as freqüências é igual ao número de dados do conjunto (ou seja, Σfi = n ), temos:

No exemplo adotado, , ou seja, há, em média, 0,66 erro de impressão por página do livro analisado.

Para obter a mediana, é necessário ordenar os dados. No entanto, os dados já se encontram ordenados de cima para baixo na tabela. Ou seja, os primeiros 25 valores são iguais a zero, os próximos 20 valores são iguais a 1, e assim por diante. Como o tamanho da amostra é par (n = 50), a mediana é igual à média entre os valores que ocupam a 25ª e a 26ª posições nesta distribuição ordenada. Sendo assim, temos

A moda, por outro lado, é o valor mais freqüente do conjunto de dados. Em uma tabela de distribuição de freqüências, este valor é facilmente identificável. No nosso exemplo, o valor mais freqüente é igual a 0, que se repete 25 vezes.

2) Medidas de tendência central para variáveis quantitativas contínuas

Para variáveis quantitativas contínuas, cujos valores em uma tabela de freqüências são agrupados em classes, é difícil estabelecer os valores exatos da média, da mediana e da moda quando os dados brutos não são conhecidos. Sendo assim, um dos procedimentos mais usuais é a obtenção de valores aproximados, determinados a partir dos pontos médios das classes.

Vamos tomar como exemplo a tabela a seguir, que representa a distribuição de freqüências de tempos da última conexão à internet de um grupo de 50 pessoas:

Página 34 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Para a obtenção da média, uma das etapas consiste em multiplicar os pontos médios de cada classe por suas respectivas freqüências absolutas, tal como realizado para as variáveis quantitativas discretas. Esta tarefa é facilitada pela adição de uma coluna à direita da tabela acima, contendo os valores destas multiplicações, como demonstrado abaixo:

Página 35 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

A mesma fórmula para determinação da média a partir da tabela de freqüências de dados discretos também serve para valores agrupados em classes. Sendo assim, temos:

Para a obtenção da mediana, procedemos como já descrito no caso das variáveis quantitativas discretas, levando em consideração que cada classe é representada apenas pelo seu ponto médio. Sendo assim, consideramos que, na ordenação de dados da tabela, os 6 primeiros valores são iguais a 12,5, os próximos 10 valores são iguais a 24,5, e assim por diante. Como o tamanho amostral é par (n = 50), determinamos a mediana da seguinte forma:

A moda corresponde ao valor mais freqüente da distribuição. Na tabela, verificamos que a classe modal possui 13 valores. O ponto médio desta classe é igual a 36,5. Logo, a moda aproximada deste conjunto de dados é igual a 36,5.

Página 36 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

UNIDADE 9 – MEDIDAS DE DISPERSÃO OU VARIAÇÃO

Como visto anteriormente, as medidas de tendência central (média, mediana e moda) são índices cuja determinação se justifica pela necessidade de resumir as informações contidas no conjunto de dados. No entanto, ao caracterizar uma amostra ou população por meio destes índices, informações importantes sobre a variação numérica existente no conjunto não são reveladas.

Para registrar de maneira resumida a variabilidade contida nos dados, são calculadas as medidas de dispersão ou variação. O termo “dispersão” sugere a idéia de quanto os dados estão separados uns dos outros. Existem conjuntos de dados cujos valores são muito diferentes uns dos outros, o que caracteriza uma grande dispersão ou variabilidade. Por outro lado, existem situações em que os valores numéricos dos dados são muito próximos uns dos outros, o que revela uma dispersão ou variabilidade reduzida.

Para exemplificar o que acabamos de afirmar, considere os conjuntos de dados A = {5, 5, 5, 5, 5} e B = {2, 5, 5, 6, 7}. Em ambos os casos, o tamanho amostral é o mesmo (n = 5) e as medidas de tendência

central têm o mesmo valor ( , tanto em A quanto em B). No entanto, é evidente que em A não existe variação nenhuma, e em B a variabilidade numérica existe. Dizendo de outra forma, o conjunto A é mais homogêneo que B.

A caracterização da variabilidade contida nos dados é algo essencial no contexto da estatística. Parâmetros sócio-econômicos, tais como analfabetismo, distribuição de renda, dentre outros, podem ser comparados entre municípios, estados e países com base na variabilidade de seus índices. Por exemplo, é de se esperar que a renda familiar em países desenvolvidos seja mais homogênea que nos países em desenvolvimento.

Serão apresentados, a seguir, alguns índices que pretendem dimensionar a variabilidade contida em conjuntos de dados: a amplitude total, a soma dos desvios simples e absolutos e o desvio médio.

1) Amplitude total

Esta é a mais simples das medidas de variabilidade. A amplitude total (AT) dos dados é fornecida pela diferença entre o maior e o menor valor do conjunto.

Se considerarmos o conjunto de dados C = {1, 5, 5, 5, 7, 7, 9, 9, 15}, então a amplitude total do conjunto C seria ATC = 15 – 1 = 14.

A amplitude total não é um bom índice de medida de dispersão, pois não leva em consideração a variabilidade de dados. Para ter uma idéia exata do que estamos dizendo, considere outro conjunto de dados D = {1, 2, 3, 6, 8, 10, 12, 15}. Embora o valor de ATD também seja igual a 15, é possível observar

Página 37 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

que o conjunto D possui uma dispersão de dados nitidamente maior que o conjunto C. Portanto, um bom índice de dispersão deve considerar a diversidade de números existentes no conjunto total.

2) Soma dos desvios simples

Um índice que leva em consideração a diversidade entre os valores de um conjunto de dados é o desvio simples. O termo “desvio” (d) é aqui empregado com o significado de “diferença” entre cada valor do conjunto e um valor de referência do grupo, que é a média. Formalizando esta idéia como uma expressão, teríamos que o desvio simples de um valor em relação à média seria:

onde,

di = desvio simples de qualquer valor “i” em relação à média

xi = qualquer valor “i” do conjunto de dados

= média

Como o interesse é dimensionar a variabilidade do conjunto inteiro, todos os desvios simples individuais devem ser empregados no cálculo de um índice que represente o grupo. Uma possibilidade poderia ser a soma dos desvios simples, representada por:

onde

SDS = soma dos desvios simples;

somatório dos desvios simples de cada valor “i” em relação à média.

Apesar de servir aos propósitos de considerar toda a variabilidade existente no conjunto de dados, existe um problema quanto ao uso da soma dos desvios simples como medida de dispersão. Para compreender esse problema, considere o conjunto de dados X = {2, 4, 6, 8}, cuja média é igual a 5. Os desvios simples, neste caso, seriam:

Página 38 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Sendo assim, ao efetuarmos a soma destes desvios simples, teríamos:

Como podemos constatar, a soma de todos os desvios simples é igual a zero, uma vez que os desvios negativos e positivos se anulam. Isso é verdadeiro para qualquer conjunto de dados. Portanto, a soma dos desvios simples não pode ser uma medida de dispersão dos dados, mas será útil na determinação de outros índices, conforme veremos adiante.

3) Soma dos desvios absolutos

Para evitar que os valores negativos e positivos dos desvios se anulem, como ocorre no caso da soma dos desvios simples, uma alternativa seria utilizar somente os valores dos módulos de cada desvio simples na soma final. Neste caso, os módulos, que são apenas valores positivos, são denominados desvios absolutos.

Considerando o exemplo anterior, no conjunto de dados X = {2, 4, 6, 8} os valores dos desvios absolutos seriam iguais aos módulos dos desvios simples:

Sendo assim, a soma dos desvios absolutos (SDA) seria:

Problemas no uso da soma dos desvios absolutos como medida de dispersão podem ocorrer quando estes índices obtidos a partir de conjuntos de dados de tamanhos muito diferentes são

Página 39 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

comparados. Um conjunto grande de valores, mas pouco variável, pode fornecer uma SDA maior que outro conjunto pequeno, porém de maior variabilidade. Para que esse tipo de erro não ocorra, utiliza-se o desvio médio.

4) Desvio médio

O desvio médio equivale a uma medida de dispersão obtida pela média dos desvios absolutos. Em outras palavras, o desvio médio (DM) equivale ao quociente entre a SDA e o tamanho do conjunto de dados (n):

O cálculo do desvio médio para o conjunto de dados X = {2, 4, 6, 8} está apresentado abaixo:

Dentre todas as medidas de dispersão apresentadas até agora, o desvio médio é a mais aceitável, pois leva em consideração toda a variabilidade contida nos dados e o tamanho do conjunto.

Página 40 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

UNIDADE 10 – VARIÂNCIA E DESVIO PADRÃO PARA DADOS BRUTOS

De todas as medidas de dispersão estudadas até o momento, o desvio médio é aquela que se enquadra melhor nos propósitos de dimensionar a variabilidade contida nos dados. No entanto, é uma medida pouco empregada em estatística. A preferência, nestes casos, recai sobre o cálculo dos desvios ao quadrado.

O uso dos desvios ao quadrado ao invés dos desvios absolutos se justifica pelo fato de que, ao se elevar ao quadrado o valor de um desvio, além de remover os eventuais sinais negativos, faz com que os maiores desvios tenham efetivamente um peso maior no valor do índice de variabilidade calculado. A seguir, veremos como os desvios ao quadrado são utilizados na obtenção de dois dos mais importantes índices da estatística, a variância e o desvio padrão.

1) Soma dos desvios ao quadrado

A forma de se obter os valores dos desvios ao quadrado é simples. Como exemplo, usaremos

o conjunto de dados brutos X = {2, 4, 6, 8}, cuja média = 5.

Para calcular os valores dos desvios ao quadrado, seguiremos as etapas descritas abaixo:

Página 41 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Portanto, os valores 9, 1, 1 e 9 correspondem aos desvios ao quadrado que estávamos interessados em obter. No entanto, os valores individuais dos desvios ao quadrado devem ser somados para obter um número único que represente o conjunto. Sendo assim, ainda há mais uma etapa a cumprir.

Este valor da soma dos desvios ao quadrado será utilizado para o cálculo da variância.

2) Variância

Quando o valor da soma dos desvios absolutos é calculado, o próximo procedimento é a obtenção do desvio médio (vide unidade 14), por meio da divisão desta soma pelo tamanho do conjunto de dados (n). No caso dos desvios ao quadrado, esse procedimento também é realizado, com o intuito de obter uma média dos desvios ao quadrado, também conhecida como variância (σ2).

Desta forma, a variância, como descrita acima, pode ser representada pela seguinte expressão geral:

No exemplo mencionado no item anterior, o valor da soma dos desvios ao quadrado é igual a 20 para o conjunto de dados cujo tamanho n = 4. Neste caso temos:

É importante ressaltar que o símbolo adotado para representar a variância, a letra grega sigma ao quadrado (σ2), somente deve ser utilizado quando o conjunto de dados analisado corresponde a uma

Página 42 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

população. Quando o conjunto de dados se referir a uma amostra extraída de uma população qualquer, a variância é simbolizada pela letra s minúscula elevada ao quadrado (s2).

A mesma diferenciação de símbolos descrita para a variância, também existe para a representação da média. A média populacional costuma ser representada pela letra grega µ (mi), enquanto a média

amostral é representada pelo já mencionado símbolo (xis barra). O mesmo ocorre também para o tamanho do conjunto de dados: a letra maiúscula N é usada para conjuntos populacionais, e a letra minúscula n, para amostras.

Sendo assim, a melhor representação para a variância populacional seria:

Para efetuar o cálculo da variância amostral, é necessário realizar uma pequena modificação na fórmula da variância apresentada anteriormente. Essa modificação é denominada correção amostral, representada a seguir:

Observe que a correção amostral consiste apenas em substituir “N” da fórmula aplicada para dados populacionais, para “n-1”. Na prática, essa correção praticamente não mudará o resultado final se a amostra contar com 30 ou mais elementos na sua composição.

3) Desvio padrão

Por representar valores de desvios elevados ao quadrado, a variância também expressa a variabilidade contida nos dados como uma grandeza também elevada ao quadrado, como, por exemplo, m2, anos2, etc. Para que a variabilidade dos dados não seja expressa em uma grandeza ao quadrado, e sim em uma grandeza da mesma ordem que os valores apresentados pelos dados brutos, costuma-se tirar a raiz quadrada do valor da variância. O resultado desta operação é denominado desvio padrão.

Portanto, de acordo com a descrição acima, o desvio padrão é calculado de acordo com a seguinte fórmula:

Página 43 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Quando se dispõe de amostras, e não de conjuntos populacionais, o desvio padrão é simbolizado pela letra minúscula s, e sua fórmula, após a correção amostral, passa a ser:

No exemplo mencionado nos itens anteriores, o valor calculado para a variância foi σ2 = 5. Logo, o desvio padrão, neste caso, seria:

Há casos particulares em que se pretende comparar a variabilidade dos dados de duas ou mais variáveis medidas por grandezas diferentes. Por exemplo, imagine que um pesquisador esteja interessado em comparar as variações de idade e de estatura em um grupo de estudantes. A idade, fornecida em anos, e a estatura, medida em centímetros, certamente fornecerão valores de variância e desvio padrão muito distintos e, portanto, incomparáveis. Nestes casos, é recomendável usar o coeficiente de variação para comparar as duas variáveis.

O coeficiente de variação (cv) é um índice sem grandeza (adimensional), que se obtém pela divisão do desvio padrão pela média do conjunto. Esta prática é denominada normalização. Portanto, a fórmula para o cálculo do coeficiente de variação pode ser escrita do seguinte modo:

No exemplo que temos mencionado, o valor do desvio padrão é 2,24 e a média é igual a 5. Sendo assim, o coeficiente de variação, neste caso, é:

Página 44 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

O valor do coeficiente de variação também pode ser representado na forma de porcentagem. Neste caso, basta multiplicar o valor fracionário por 100. No exemplo acima, temos que cv = 0,448 x 100 = 44,8%.

4) Organizando as idéias em uma tabela de desvios

Uma maneira de organizar o raciocínio no cálculo da variância e desvio padrão é organizar os dados brutos em uma tabela e criar duas colunas, uma para incluir os valores dos desvios e outra, para os desvios ao quadrado. Considere, como exemplo, o conjunto de dados abaixo, relativos aos salários (em milhares de reais) recebidos anualmente pelos dez trabalhadores de um dos principais setores de uma empresa: 41, 38, 39, 45, 47, 41, 44, 41, 37, 42.

Observe que a descrição acima se refere a uma população e não a uma amostra, pelo fato de que estão sendo considerados todos os dez trabalhadores do setor mencionado. Para calcularmos a variância e o desvio padrão dos salários, o primeiro passo é obter a média:

Em seguida, fazemos a montagem da tabela contendo os dados brutos e os respectivos valores dos desvios em relação à média:

Página 45 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Como esta população sob estudo conta com apenas 10 indivíduos, temos N = 10. Como o valor da

soma dos desvios ao quadrado foi obtido na tabela , é possível, pois, calcular a variância:

Em seguida, calculamos o desvio padrão:

Podemos, inclusive, determinar o coeficiente de variação:

É importante salientar que os valores salariais fornecidos neste exemplo compõem uma população. Se estivéssemos diante de 10 valores extraídos de uma população, ou seja, se os 10 valores

Página 46 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

correspondessem a uma amostra e não a uma população, teríamos então que aplicar a correção amostral para n = 10. Os valores da variância, desvio padrão e coeficiente de variação, neste caso, seriam:

UNIDADE 11 - VARIÂNCIA E DESVIO PADRÃO PARA DADOS DISPOSTOS EM TABELAS DE FREQÜÊNCIAS

Muitas vezes os dados encontram-se distribuídos em tabelas de freqüências, e, nestas situações, como já descrito para as medidas de tendência central, as freqüências devem entrar no cálculo dos atributos estatísticos. Não poderia ser diferente no caso da variância e do desvio padrão. Descreveremos, a seguir, como estas medidas de dispersão são determinadas a partir destas tabelas.

1) Medidas de dispersão para variáveis quantitativas discretas

O primeiro procedimento para se obter a variância e desvio padrão de dados organizados em tabelas de freqüência é o mesmo que foi adotado para os conjuntos de dados brutos, ou seja, a determinação da média. Em seguida, devem ser obtidos os valores dos desvios ao quadrado, os quais serão, finalmente, multiplicados pelas freqüências com que os dados se apresentam na tabela e somados.

Para ilustrar esta seqüência de etapas, adotaremos o mesmo exemplo utilizado na unidade 13, que se refere às freqüências de erros de impressão encontrados em uma amostra de 50 páginas de um livro.

Página 47 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Como descrito na unidade 13, a média é obtida da seguinte forma:

Uma vez determinada a média, o próximo passo é obter os desvios. Para organizar melhor as idéias, é recomendável dispor os desvios na própria tabela de dados:

Observe na tabela acima que as freqüências dos dados ( fi ) apenas irão participar dos cálculos

após os desvios ao quadrado terem sido determinados. Após a soma dos resultados das multiplicações dos desvios ao quadrado pelas respectivas freqüências ter sido obtida

Página 48 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

, a variância pode ser calculada, lembrando que os dados acima correspondem a uma amostra, e, portanto, é necessário fazer a correção amostral (n-1):

Uma vez determinada a variância, podemos efetuar o cálculo do desvio padrão:

Ou seja, na amostra de 50 páginas do livro, há uma média de 0,66 erro por página e um desvio padrão de 0,85 erro por página.

2) Medidas de dispersão para variáveis quantitativas contínuas

Para as tabelas de dados agrupados em classes, o procedimento permanece o mesmo que o descrito no item anterior. No entanto, é importante lembrar que os números que irão representar cada classe nos cálculos efetuados são os pontos médios.

Adotaremos o mesmo exemplo citado na unidade 13, relativo à distribuição de freqüências de tempos (em minutos) da última conexão à internet de um grupo de 50 pessoas:

Página 49 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

O cálculo da média para os dados acima é feito da seguinte forma:

Uma vez calculada a média, o próximo passo é determinar os desvios. Para melhor organização, os desvios são dispostos na tabela:

Página 50 de 51

docsity.com

CONTEÚDO UNIDADES DE 1 A 11

Para calcular a variância, teríamos:

A partir da variância, calculamos o desvio padrão:

Portanto, nesta amostra de 50 pessoas, a última conexão à internet demorou em média 41,8 minutos, com desvio padrão de 20,16 minutos.

Página 51 de 51

docsity.com

comentários (0)
Até o momento nenhum comentário
Seja o primeiro a comentar!
Esta é apenas uma pré-visualização
Consulte e baixe o documento completo
Docsity is not optimized for the browser you're using. In order to have a better experience we suggest you to use Internet Explorer 9+, Chrome, Firefox or Safari! Download Google Chrome