Baixe Analisando Dados e outras Provas em PDF para Desvio, somente na Docsity! ANALISANDO DADOS PROF:MOISES Vivemos num mundo repleto de dados. Sua capacidade em lidar com eles, transformando-os em informações importantes, é o que vai diferenciar você das demais pessoas no mundo contemporâneo. Da leitura crítica das notícias de um jornal até a decisão de fazer um determinado investimento, passando por situações críticas no seu local de trabalho, a capacidade de se obter, organizar, representar, descrever e analisar dados requer o conhecimento de métodos e técnicas que permitam extrair o máximo que eles podem oferecer. Se entendermos Estatística como a Ciência dos Dados, será de grande valia o domínio que seu corpo de conhecimento pode nos oferecer. Primeiramente, como ponto de partida, podemos dividir a Estatística em duas áreas: a Descritiva e a Inferencial. A Estatística Descritiva postula os métodos e técnicas relacionadas à obtenção, representação, mensuração, análise e conclusões a partir de um conjunto de dados oriundos de uma população ou de uma amostra. Quando os dados são oriundos de uma população, podemos descrevê-la através de medidas estatísticas adequadas vis a vis o nível de mensuração das características estudadas. Nesse caso dizemos que o conhecimento da população em apreço é, por extensão, o conhecimento das medidas a ela associadas. Não há erro no processo, a não ser aqueles devidos à informação quando da obtenção dos dados. A aritmética, através de suas operações básicas, é suficiente para os cálculos necessários à obtenção das medidas estatísticas. No entanto, quando os dados são extraídos de uma amostra sua descrição segue as mesmas técnicas e métodos utilizados para dados populacionais. A análise, entretanto, já passa a ser feita com base nos métodos inferenciais. A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados oriundos de uma amostra para generalizações sobre a população. Constitui esse conjunto de técnicas: a determinação do número de observações (tamanho da amostra); o esquema de seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação da confiança nas estimativas; a significância dos testes estatísticos; a precisão das estimativas; dentre outras. Essa generalização é feita a partir do processo de estimação das medidas estatísticas que podem ser calculadas, porém não sem antes se antecipar um grau de certeza de que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a população fosse estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau de certeza é a probabilidade. Com ela teremos condições de mensurar a fidedignidade de cada inferência feita com base na amostra. Antes de começarmos a estudar os métodos estatísticos que nos permitirão analisar dados, sejam eles qualitativos ou quantitativos, é importante introduzirmos alguns conceitos preliminares a fim não apenas de dar nomes aos instrumentos, mas também adequar e eqüalizar a terminologia a ser utilizada ao longo do curso. Você verá que uma nova linguagem será desenvolvida ao longo desse curso e o seu domínio é fundamental para um melhor aproveitamento. DEFINIÇÕES E CONCEITOS BÁSICOS 1. População É o conjunto de todos os elementos (unidades observacionais) que constituem a abrangência do estudo. Exemplos: 1.1 Conjunto dos 5507 municípios brasileiros. 1.2 Conjunto constituído pelos alunos deste curso. 1.3 Conjunto dos discursos do presidente da república desde a sua posse. 2. Amostra É um subconjunto da população. Exemplos: 2.1 Conjunto dos municípios da Região Nordeste. 2.2 Alunos do Estado do Rio de Janeiro. 2.3 Discursos proferidos em recintos abertos. 3. Unidade Observável É a portadora da(s) característica(s), ou propriedade(s), que se deseja investigar. Exemplos: 3.1 Cada um dos 5507 municípios brasileiros. 3.2 Cada aluno deste curso. 3.3 Cada discurso presidencial. 4. Variável É a representação simbólica da característica ou propriedade que se deseja investigar. Exemplos: 4.1 Receita tributária municipal arrecadada no ano passado. 4.2 Gênero dos alunos. 4.3 Emprego da expressão “jamais neste país”. 5. Medidas Estatísticas São os parâmetros da população, ou amostra, em apreço. Permitem reduzir a totalidade dos dados a apenas um certo número de medidas. Exemplos: 5.1 Receita tributária municipal média. 5.2 Percentagem de mulheres. 5.3 Freqüência com que a expressão “jamais neste país” foi utilizada em cada discurso. 6. Inferência É o processo de generalizar na população resultados obtidos em uma amostra. Exemplos: 6.1 Como a receita tributária municipal média da Região Sudeste é de $150.000.000 podemos concluir que no Brasil esta receita é de $150.000.000, em média. 6.2 Como a turma do Rio de Janeiro tem 40% de mulheres, concluímos que todas as turmas deste curso tem 40% de mulheres. 6.3 Como o presidente utilizou a expressão “jamais neste país” 55 vezes, em média, nos discursos em recintos abertos desde a sua posse, podemos concluir que seus discursos utilizam, em média, 55 vezes esta expressão em seus discursos. 2 1. Níveis de Mensuração Como visto anteriormente, a associação de números a propriedade(s) de indivíduos deve seguir alguma regra sistemática preestabelecida e representativa do fenômeno estudado. Ao desenvolvimento de tais regras dá-se o nome de escala métrica. Conseqüentemente, medir as propriedades de um indivíduo, ou unidade, é em última forma estabelecer seu posicionamento relativo na escala métrica definida. Por exemplo, o nível de desenvolvimento econômico de um país pode ser obtido através de um índice, geralmente consagrado ou preestabelecido por agências internacionais. A distribuição dos países de acordo com tal objeto permite não apenas comparações, mas também a ordenação para fins de classificação e transformações de seus valores para outra escala métrica equivalente. Como outro exemplo, suponha que um teste com dez itens, do tipo certo ou errado, seja administrado a uma grande amostra de pessoas. Caso o interesse seja medir a proficiência das pessoas, uma possível escala métrica poderia ser definida como o número de itens respondidos corretamente, o que levaria a escala a receber valores inteiros entre zero e dez. Porém, como a etapa três, das regras descritas acima, não é única, a escala métrica também não é unicamente determinada, sendo passível de transformação matemática desde que não altere a ordenação dos indivíduos. Possíveis transformações seriam, por exemplo, elevar a nota, expressa pelo total de pontos, ao quadrado, extrair a sua raiz quadrada, ou ainda calcular o logaritmo da razão entre o número de itens respondidos corretamente e o número de itens respondidos incorretamente. No primeiro caso a escala varia entre zero e 100, no segundo entre zero e 10 , e no último caso a escala seria constituída de valores obtidos no conjunto dos números reais (entre -∞ e +∞). Uma escala fica perfeitamente determinada quando fixamos uma origem e uma unidade. Na matemática, geralmente a origem é fixada em zero por uma questão de conveniência. Da mesma forma a unidade é geralmente unitária. Na estatística, também por questão de conveniência, a origem de uma escala pode ser centrada na média e a unidade estabelecida como desvio em relação à media. A classificação das escalas métricas não é única. Diferentes autores classificam os fenômenos de modo diferente. Stevens (1946) define quatro níveis de mensuração: nominal, ordinal, intervalar e de razão. Torgerson (1958) não considera as variáveis nominais como mensuração pela ausência de uma origem e unidade, mas distingue dois níveis ordinais. Coombs (1950), por sua vez, define um nível de mensuração intermediário entre o ordinal e o intervalar. Neste ponto, o aluno é encorajado a ler as citações acima e criar a sua opinião própria a respeito da taxonomia que melhor lhe convier. No entanto, para efeitos deste curso, será adotada a classificação proposta por Stevens, embora se reconheça que algumas limitações existam. 5 Variáveis nominais e ordinais são também conhecidas como qualitativas enquanto as variáveis intervalares e de razão são denominadas de quantitativas, ou de escala. 1.1 Escala Nominal A escala de medidas com o nível mais baixo de mensuração é obtida quando as variáveis são utilizadas simplesmente para classificar os sujeitos (objetos). Nesse caso os “valores” assumidos pela variável são meramente rótulos, isto é, os números associados às diferentes categorias mutuamente exclusivas e exaustivas assumidas pela variável não possuem qualquer tipo de tratamento matemático. Qualquer conjunto de números pode ser utilizado para substituir os “valores” originais, desde que se mantenha a relação unívoca entre os valores originais e os substitutos. A tal transformação chamamos transformação isomórfica. Por exemplo, suponha que a cada pessoa do gênero masculino se associe o número 1 e caso a pessoa seja do gênero feminino se associe o número 0. O conjunto original {0,1} pode ser transformado para o conjunto {-1,10}, sem qualquer perda de sentido na informação, já que esses algarismos funcionam como rótulos das respectivas categorias. Na escala nominal de mensuração, não existe uma medida no sentido que vem sendo adotado até o presente. Por isso Torgerson (1958) não a considera como nível de mensuração. Não há nesse nível de mensuração qualquer propriedade relativa à ordenação dos “valores”, nem origem, bem como não faz sentido se tentar definir qualquer unidade de distância entre as possíveis categorias da variável. Nas ciências sociais, no entanto, esse tipo de unidade de mensuração é muito utilizado, principalmente para “medir” itens que denotam atributos individuais, tais como estado civil, naturalidade, tipo de formação universitária, nacionalidade, etc. Pela natureza e limitações impostas por este nível de mensuração, as estatísticas descritivas aplicáveis às variáveis nominais são restritas àquelas que se baseiam nas freqüências das observações como, por exemplo, proporção e moda. Às variáveis definidas nesse nível de mensuração dá-se o nome de variáveis categóricas (ou categorizadas). Considere, como exemplo, a variável Estado Civil e suponha que uma amostra de 500 unidades apresentou a seguinte distribuição de freqüência nas cinco classes consideradas. Tabela 1 – Distribuição das unidades amostrais por classe de Estado Civil Classes Freq. Perc. (%) SOLTEIRO 125 25,0 CASADO 175 35,0 DIVORCIADO 50 10,0 VIÚVO 75 15,0 OUTRO 75 15,0 6 TOTAL 500 1,00 1.2 Escala Ordinal Caso as categorias de uma variável nominal possam ser ordenadas, isto é, permitam uma relação do tipo maior do que (>) ou menor do que (<) entre pares de possíveis categorias mutuamente exclusivas e além disso cada categoria seja associada a um e apenas um número do conjunto dos números reais, então o nível de mensuração ordinal é obtido. Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de valores associados a cada categoria, desde que a ordem original das categorias seja mantida. A tal transformação chamamos transformação monotônica. A hierarquia do exército é um bom exemplo de uma variável com nível ordinal de mensuração. Considere apenas as categorias Soldado, Cabo e Sargento. Note que, em termos de patente, Soldado < Cabo < Sargento. Embora Cabo seja uma patente menor do que a de Sargento e maior do que Soldado, não se pode afirmar que Cabo esteja mais próximo de Soldado do que de Sargento. Em outras palavras, não se pode medir distâncias entre as categorias de uma escala ordinal. Uma condição necessária para que esta escala seja ordinal é que, se a < b e b < c, então a < c. Como no nível de mensuração nominal, esta escala não possui origem nem unidade. Além disso, a ordenação dos indivíduos só pode ser feita através de uma variável apenas. Não é possível a ordenação das unidades de acordo com duas ou mais variáveis simultaneamente. Ordenamos os indivíduos, por exemplo, pelo grau de satisfação com um certo produto, porém jamais podemos ordená-los pela satisfação com dois produtos simultaneamente. Considere uma amostra de 200 freqüentadores de um restaurante classificados pelo nível de instrução mais elevado, conforme apresentada na tabela abaixo: Tabela 2 – Distribuição dos Freqüentadores do Restaurante, Classificados pelo Nível de Instrução mais Elevado NÍVEL Freq Perc. (%) Freqüência Acumulada Percentagem Acumulada (%) Sem Formação 4 2 4 2 Fundamental 18 9 22 11 Médio 42 21 64 32 Superior 86 43 150 75 Pós Graduação 50 25 200 100 Total (n) 200 100 -- -- Cada categoria, ou classe de nível instrução completa, obteve na amostra os quantitativos apresentados na coluna das freqüências, sendo que o percentual de cada classe é mostrado na coluna 3. Como a variável tem nível de mensuração ordinal, faz sentido calcular a freqüência acumulada até cada uma das classes. São apresentadas as freqüências acumuladas absolutas e relativas nas colunas 4 e 5, respectivamente. 7 transformação diminuímos as possibilidades de aplicação dos instrumentos de análise estatística, por passarmos para um nível de mensuração inferior. Essas técnicas são apresentadas na seção seguinte. 10 2. Descrevendo Dados Qualitativos Dados qualitativos são aqueles expressos pelos níveis de mensuração nominal e ordinal. Posto de outra forma, são aqueles na qual a variável assume “valores” em categorias, classes ou rótulos. São, portanto, por natureza, dados não numéricos. Apesar de ser considerada de baixo nível de mensuração, do ponto de vista da aplicação de instrumental estatístico, a variável qualitativa oferece um vasto espectro de aplicação nas ciências sociais e do comportamento. Variáveis qualitativas denotam características individuais das unidades sob análise, tais como sexo, estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo estratificar as unidades para serem analisadas de acordo com outras variáveis. Esta segmentação permite que as generalizações fiquem restritas aos níveis da variável qualitativa. Por exemplo: faixa salarial por sexo; renda por nível de instrução; instrução por raça; etc. De acordo com Motta (1999), os dados qualitativos são, geralmente, obtidos através de pesquisas conhecidas na literatura como “pesquisas qualitativas”. São meios não muito estruturados tais como: grupo focal; incidente crítico; entrevista em profundidade; dentre outros. A sistematização dos dados em tabelas de freqüências nem sempre é uma tarefa simples e requer um profundo conhecimento do objeto de análise. Obtidos os dados, a tarefa seguinte é representá-los através de uma tabela e de um gráfico. Posteriormente, poderá ser útil calcular as freqüências, simples ou acumuladas, absolutas ou relativas. O exemplo a seguir oferece uma orientação de como proceder a uma análise de um fenômeno qualitativo. Exemplo: Um grupo industrial está avaliando a possibilidade de oferecer um plano de incentivo a vendas. Quatro programas alternativos foram definidos e propostos a uma amostra de 40 vendedores que manifestaram a sua preferência. O quadro abaixo sumariza as respostas obtidas: B A D C A C D B D B D D B A D B D A D C D B C D A D B D B C B A D B A B A C D B Notamos que os dados são classificados como qualitativos, uma vez que a variável considerada, Plano de Incentivo, é expressa através de quatro categorias: A; B; C; e D. Cada elemento da amostra manifestou a sua preferência escolhendo a categoria que melhor se ajustava aos seus interesses. Não há números envolvidos. O nível de mensuração dessa variável é nominal. A classificação dos diferentes planos não altera o sentido da distribuição. O primeiro passo para analisar a distribuição acima é organizar os dados de acordo com uma tabela de freqüências. Observamos que 8 vendedores elegeram o plano A, 12 o B, 6 o C e os restantes 14 vendedores escolheram o plano D, o mais votado. A tabela representativa da distribuição de freqüência é fornecida abaixo: 11 Tabela 3 – Distribuição de Freqüência da Preferência dos Vendedores pelos Planos de Incentivo PLANO Votos Percentual A 8 20 B 12 30 C 6 15 D 14 35 TOTAL 40 100 A primeira coluna da tabela apresenta cada uma das categorias dos planos avaliados. A segunda coluna apresenta as freqüências de votos para cada plano e a terceira a freqüência relativa, ou percentagem, de votos de cada plano. Como variáveis qualitativas somente são analisadas à luz de suas freqüências, podemos dizer que o plano mais votado foi o D, representando 35% do total de votos, ficando o C com menor número de votos, representando apenas 15% do total da amostra. O próximo passo é representar os dados obtidos segundo uma forma gráfica. Dados qualitativos são, geralmente, expressos através de gráficos de barras ou gráficos de setores (ou de pizza). Ambas as formas podem ser expressas pelas freqüências absolutas ou relativas. Abaixo são apresentados os dois tipos de gráficos. Fig. 1 – Gráfico de Barras Fig. 2 – Gráfico de Setores Plano DCBA C ou nt 16 14 12 10 8 6 4 2 0 35,0% 15,0% 30,0% 20,0% D C B A O gráfico de setores é uma representação pictórica de grande efeito visual. Enfatiza, principalmente, as diferenças das freqüências relativas entre as categorias da variável. A obtenção dos graus representativos dos setores basta proceder a uma regra de três simples. Como o círculo tem 360 graus, representando 100% das observações, o percentual de cada setor vai equivaler ao grau do respectivo setor. Quando a variável qualitativa é expressa por uma variável com nível de mensuração ordinal, pode ser de interesse avaliar as freqüências acumuladas, tanto absolutas quanto relativas. 12 3. Descrevendo Dados Quantitativos Dados quantitativos são aqueles expressos pelas variáveis com níveis de mensuração intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis assumem valores numa escala métrica definida por uma origem e uma unidade. Como esses valores têm significado concreto: • todas as operações matemáticas envolvendo os valores da distribuição fazem sentido; • as medidas de posição, variação e forma permitem a simplificação de todos os valores da distribuição para alguns poucos parâmetros; • as representações tabulares servem apenas para efeito de simplificação visual da distribuição; • as representações gráficas são mais informativas. 3.1 Representação Tabular Quando o número de observações cresce e os valores são diferenciados entre si, há que se representá-los de modo resumido. Para dados quantitativos a melhor forma de representação tabular é através de distribuições de freqüência por classes de valores. Não há um modo único para se construir uma tabela de freqüência por classe de valores. No entanto, algumas regras são apresentadas abaixo, visando facilitar esse procedimento. (3) A escolha do número de classes a ser considerado depende do número de observações, do menor e do maior valor da série. Embora subjetiva, essa escolha deve recair para algo entre cinco e dez classes, devendo se evitar classes com baixo número de observações; (4) As classes não precisam ter amplitude constante, mas por uma questão de simplificação da construção da representação gráfica, geralmente consideramos classes com intervalos constantes. O cálculo da amplitude dos intervalos das classes pode ser feito dividindo-se a amplitude da distribuição (diferença entre o maior e o menor valor da série) pelo número de classes; (5) Como as classes devem ser exaustivas (não pode haver uma observação sem classe), e mutuamente exclusivas (uma observação tem que ser alocada em uma e apenas uma classe), é importante decidir os limites das classes que serão incluídas ou excluídas. Como pode-se notar, esse procedimento deve ser feito apenas para efeito de representação dos dados. O cálculo das medidas estatísticas deve ser feito utilizando-se os dados observados. Quando estes não são disponíveis e apenas a tabela é fornecida, as medidas estatísticas são calculadas assumindo-se que as freqüências das classes são concentradas no ponto médio de cada classe. As medidas, nesse caso, são valores aproximados. 15 Exemplo: Uma amostra de 40 pessoas selecionadas de uma população forneceu a seguinte distribuição de pesos, em quilogramas: 71 74 65 72 64 41 62 62 58 82 49 83 58 65 68 60 76 86 74 53 78 64 55 89 56 50 71 58 57 75 58 86 64 56 45 73 54 85 70 73 Se estabelecermos cinco classes de pesos, o intervalo de cada classe será igual a: 106,9 5 4189h ≈=−= . A tabela contendo a distribuição de freqüência por classe de valores será da forma: Tabela 4 – Distribuição de Freqüência dos Pesos da Amostra Classes de Peso (kg) Freqüência 40 –| 50 4 50 –| 60 11 60 –| 70 9 70 –| 80 10 80 –| 90 6 TOTAL 40 De acordo com a notação utilizada, as classes incluem o limite superior, mas não incluem o limite inferior de cada classe. 3.2 Medidas Estatísticas O conhecimento de uma população ou de uma amostra é, por extensão, o conhecimento dos parâmetros, ou medidas estatísticas, associados a essa população ou amostra. Assim, a representação, ou caracterização, de uma série de dados quantitativos através de uns poucos parâmetros permite um conhecimento razoável desses dados. Geralmente são utilizados três tipos de medidas estatísticas: • medidas de posição: média; separatrizes; ou moda. Posicionam a distribuição no eixo da escala da variável estudada; • medidas de variação: amplitude; desvio médio; desvio padrão e coeficiente de variação. Informam o grau de homogeneidade da distribuição; • medida de forma: assimetria Verifica a adequação de outros parâmetros. Há que se fazer uma distinção entre a notação utilizada para as medidas estatísticas relativas a uma população e uma amostra. Por convenção, parâmetros populacionais são representados por 16 letras gregas enquanto os parâmetros estimados de uma amostra são representados por letras latinas. Assim, a média de uma população, é representada por µ, e a de uma amostra por X . 3.2.1 Medidas de Posição (Tendência Central) Representar os valores de uma série de observações a respeito de uma variável não é uma tarefa das mais simples. O maior problema prático é decorrente da aplicação do parâmetro certo para a distribuição inadequada. Por exemplo, a renda per capta de um país mede a riqueza produzida pelo país, num período, dividida pelo número de habitantes dessa população nesse período, fornecendo uma idéia da riqueza média dessa população. No entanto, o grau de concentração dessa riqueza não é informado, podendo se ter uma idéia errada da riqueza individual para os países com elevada concentração dessa renda. O objetivo das medidas de posição é o de fixar a distribuição dos valores no eixo da variável em termos do seu valor central, posicional e de maior freqüência. Abaixo são apresentadas as três principais medidas de posição, com suas aplicações, vantagens e desvantagens. 3.2.1.1 Média Aritmética Uma das medidas estatísticas mais utilizadas na representação de uma distribuição de dados é a média aritmética, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de todos os valores da série pelo número de observações, enquanto no segundo, mais utilizado em distribuições de freqüências, os valores são ponderados pelas freqüências com que ocorrem e depois divide-se pelo total das freqüências. Ou seja: N X N 1i i∑ ==µ para dados populacionais, e n X X n 1i i∑ == para dados amostrais. A média representa o centro da distribuição de valores e é expressa na mesma unidade das observações (R$, cm, etc...). Pela sua simplicidade e facilidade de cálculo e de interpretação, a média é a medida estatística mais utilizada para representar uma distribuição de valores. Muitas vezes, no entanto, sua utilização é precária, senão vejamos. A principal vantagem da média é a facilidade de seu cálculo, tanto para grupos quanto para subgrupos, ou estratos. Como a média é influenciada por valores extremos da distribuição, ela só 17 3.2.2.1 Medidas Absolutas de Variação As medidas absolutas de variação são expressas na mesma unidade da variável, ou alguma função dela. As principais são: 3.2.2.1.1 Amplitude da Distribuição A amplitude da distribuição é a diferença entre o maior e o menor valor da distribuição: ,xXH −= onde X é o maior e x o menor valor observado na distribuição. Apesar de fornecer uma idéia do espectro de variação dos dados, essa medida é pobre pois só considera dois de seus valores, deixando de informar como os demais valores estão distribuídos. Com essa medida, podemos avaliar apenas qual extremo está influindo mais na média, por exemplo. 3.2.2.1.2 Desvio Médio Para suprir as deficiências da Amplitude da Distribuição é necessário se definir uma medida de variação que não só incorpore todas as observações mas também meça como essas observações estão dispostas em relação a um valor-critério. Estabeleceu-se como valor-critério a média da distribuição. Como a soma dos afastamentos das observações em relação à média é nula (a média é o valor central da distribuição), tomou-se a média dos valores absolutos dos desvios das observações em relação à média da distribuição, ou seja: N X N 1i i∑ = µ− =∆ para a população, e n XX DM n 1i i∑ = − = para a amostra. 3.2.2.1.3 Variância Embora o desvio médio seja um parâmetro melhor do que a Amplitude da Distribuição, ainda não é uma medida ideal, pois não discrimina pequenos dos grandes afastamentos em relação à média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o problema dos sinais como também potencializando os afastamentos, enfatizando os grandes desvios em 20 relação às observações mais próximas da média. Como resultado definimos a medida de variação, denominada variância, como: ( ) N X 2N 1i i 2 ∑ = µ− =σ para a população, e ( ) 1n XX s 2n 1i i 2 − − = ∑ = para a amostra. A razão de termos (n – 1) no denominador da variância da amostra ficará mais clara mais à frente, quando desenvolvermos os instrumentos para a estimação de parâmetros de uma população com base em dados amostrais. Embora a variância represente um passo à frente em relação às medidas de variação anteriormente apresentadas, ela padece de um problema complicado: sua unidade de medida é expressa pela unidade de medida do fenômeno, elevada ao quadrado. Avaliar uma medida quadrática não é uma tarefa das mais simples, certo? 3.2.2.1.4 Desvio Padrão Para manter as mesmas propriedades da variância e restituir a unidade de medida do fenômeno, expresso pela variável X, devemos extrair a raiz quadrada da variância. Definimos, então a medida de dispersão dos dados em relação à média da distribuição como o Desvio Padrão: ( ) N X N 1i 2 i∑ = µ− =σ para a população, e ( ) 1 2 1 − − = ∑ = n XX s n i i para a amostra. O único problema do desvio padrão é a dificuldade de se avaliar a sua ordem de grandeza, ou seja, julgar se um valor do desvio padrão calculado para uma distribuição é elevado ou baixo, face à sua natureza absoluta. A alternativa é trabalhar com medidas relativas de variação. 3.2.2.2 Medida Relativa de Variação Medidas absolutas, via de regra, são problemáticas face à dificuldade de se estabelecer uma base de comparação que permita concluir sobre a ordem de grandeza da medida obtida. Por exemplo, até que ponto podemos dizer que 144 anos2 exprime uma grande variação das idades? Como vimos, a variância é uma medida quadrática, o que torna a sua ordem de grandeza difícil de 21 ser avaliada. Tudo bem, extraímos a sua raiz quadrada. Até que ponto 12 anos pode ser considerada uma alta dispersão das idades em torno da média? A amostra é heterogênea ou homogênea em relação à idade média de seus membros? Por que numa distribuição uma dispersão igual a 12 é baixa e em outra alta? Como comparar dispersões oriundas de distribuições com médias diferentes? Como se vê, a medida absoluta de dispersão dos dados tem limitações no tocante às conclusões. Principalmente na comparação de grupos com médias diferentes. Como o desvio padrão varia com a ordem de grandeza da média, comparar grupos, quanto à sua variação, quando as respectivas médias são diferentes não pode ser feita com os desvios padrões. Surge, então, a medida adimensional, isto é, sem unidade de medida, definida como Coeficiente de Variação: µ σ=γ para a população, e X sCV = para a amostra. O coeficiente de variação mede a percentagem de dispersão dos dados em relação à média, podendo ser expressa em termos decimais ou percentuais (multiplicando-o por 100). Dizemos que uma distribuição é homogênea quando a variabilidade relativa, expressa pelo coeficiente de variação, não ultrapassar a 20 ou 25%. Obviamente a distribuição não deixa de ser homogênea para valores maiores do que 25%, mas vai perdendo grau de homogeneidade na medida em que o coeficiente aumenta. Exemplos de Aplicação Considere, ainda, a distribuição das idades apresentada no item 3.1. Identificamos o valor da idade da pessoa mais jovem, 41 anos, e o da pessoa mais “madura”, 89 anos. Com esses valores podemos dizer que as idades das pessoas da amostra variam entre 41 e 89 anos, isto é, têm uma AMPLITUDE de variação de 48 anos. Calculando a média dos desvios absolutos das observações em relação à média da distribuição, através do DESVIO MÉDIO da amostra, obtemos: 9,9 40 66X DM 40 1i i = − = ∑ = anos. O desvio padrão da amostra, expresso como a raiz quadrada da variância é igual a: ( ) 94,11 39 66X S 40 1i 2 i = − = ∑ = anos. 22 localizações onde o fenômeno estudado atua com mais intensidade. As demais distribuições podem ser representadas através de dois tipos principais de gráficos: histogramas e Box Plots. 3.3.1 Histograma Histograma é um gráfico de barras justapostas contendo as classes de valores na abscissa e as freqüências, absolutas ou relativas, nas ordenadas, centradas nos pontos médios das classes. Quando os intervalos de classes da variável não são constantes, a área da barra deve ser proporcional à freqüência da classe. Nesse caso devemos dividir a freqüência de cada classe pela amplitude da respectiva classe. Considere o histograma construído para os dados das idades do exemplo do item 3.1. Note que pela linha unindo as barras do histograma, também denominada poligonal característica, a distribuição, embora não simétrica, guarda uma moderada simetria em relação aos valores centrais. A linha poligonal característica desempenha um papel importante na identificação da simetria dos dados. No exemplo notamos que ela mostra uma forma levemente assimétrica como as medidas descritivas já haviam antecipado. Idade (anos) 9085807570656055504540 Fr eq ue nc y 8 6 4 2 0 3.3.2 Box Plot O diagrama Box Plot é a forma de representar graficamente os dados da distribuição de uma variável quantitativa em função de seus parâmetros descritivos. O gráfico abaixo representa o Box Plot para os dados das idades da amostra do item 3.1. Na sua construção são considerados os quartis e os limites da distribuição, permitindo uma visualização do posicionamento da distribuição na escala da variável. Para melhor compreensão deste gráfico, note que: 25 dq • A escala de medida da variável encontra-se na linha vertical do quadro onde está inserido o gráfico; • Na caixa retangular vertical do gráfico são fornecidos os quartis Q1, na parte inferior, e Q2 na parte superior da caixa. Entre eles encontra-se a Mediana da distribuição. Alguns Box Plots apresentam, ainda, a média dentro da caixa. Observe que 50% da distribuição têm valores dentro da caixa; • As linhas verticais que saem da caixa terminam nos limites inferior e superior da distribuição. Entre esses limites encontram-se os valores considerados como típicos da distribuição. Esses limites são determinados em função da distância entre os dois quartis, isto é, do desvio interquartílico: dq = Q2 – Q1. Observações com afastamento superior a 1,5 desvio interquartílico, para cima ou para baixo, são consideradas atípicas, aparecendo no gráfico com asteriscos. • Quanto maior for o valor do desvio interquartílico, maior a variabilidade da distribuição; • Quanto mais próxima a caixa estiver de um dos extremos, maior a evidência sobre a assimetria da distribuição; Os Box Plots são de grande utilidade, também, quando uma variável quantitativa é analisada à luz das categorias de uma variável qualitativa, como por exemplo, a distribuição de salários para cada categoria da variável formação educacional, esta medida pelo último nível de instrução completo das unidades observacionais (s/ formação, nível fundamental, nível médio, nível superior e pós-graduação). Idade (anos) 100 90 80 70 60 50 40 30 26 1,5dq 1,5dq 4. Transformações de Variáveis Antes de qualquer análise é fundamental que se proceda a um exame dos dados relativos a uma variável, seja ela qualitativa ou quantitativa. Este procedimento é importante como um primeiro contato do analista com a distribuição, além de servir, também, para avaliar a existência de possíveis valores atípicos na distribuição. Se a variável for do tipo qualitativa, a concentração de respostas em torno de umas poucas categorias, a existência de células esparsas, com baixa freqüência, ou até mesmo o aparecimento de respostas não esperadas, pode indicar algum problema no levantamento dos dados (questão mal formulada ou resposta inválida). No caso da variável ser quantitativa, valores muito afastados da distribuição, ou até mesmo distribuições com assimetria acentuada pode indicar a existência de outliers ou a necessidade de se proceder a uma transformação na escala da variável. Como já se sabe, uma escala de valores fica perfeitamente caracterizada quando a origem e a unidade de medida são conhecidas. Embora originalmente sejam atribuídos os valores zero e um para caracterizar, respectivamente, a origem e a unidade de uma escala de valores, essa escolha é arbitrária. Matematicamente justifica-se tal escolha pelo fato de ser o valor nulo o separador dos números positivos e negativos e a unidade unitária pela simplicidade e propriedades. Não obstante, salvo nos casos de fenômenos expressos na escala de razão, onde o zero representa a ausência do que se está medindo, atribuí-se à média e o desvio padrão como a origem e a unidade da distribuição. Tal escolha, no entanto, só faz sentido, e é recomendada, quando as distribuições forem levemente assimétricas e com baixa variabilidade, casos em que a média pode representar o conjunto de valores observados. A escolha e a mudança de escalas são artifícios úteis para melhor compreensão de fenômenos. Suponha que o leitor se encontre nos Estados Unidos da América e necessite medir a sua temperatura corporal. Adquire um termômetro numa farmácia e ao medir a sua temperatura observa que a escala do instrumento é expressa em graus Fahrenheit. O que você deve fazer se souber interpretar temperatura apenas na escala Celsius? Sem problemas. Como as escalas Fahrenheit e Celsius são relacionadas através da expressão 9 160F5C − = , o leitor poderá fazer a devida transformação da escala, no caso linear, para poder interpretar o resultado e avaliar o seu possível estado febril. Define-se, então, como transformação linear de X para Y a qualquer relação do tipo Y = aX + b, com a e b constantes conhecidas. A seguir são apresentadas algumas das mais importantes transformações lineares. 27 podemos comparar valores quando expressos em escalas comuns como as obtidas através da padronização dos escores. 4.3 Re-escalonamento dos Escores Com as escalas expressas na mesma origem e unidades podemos proceder, por uma questão de conveniência, a novas mudanças de origem e/ou unidade a fim de permitir melhor representação dos valores. Assim, se quisermos ordenar os alunos em função dos respectivos desempenhos, uma possibilidade seria eliminar os valores negativos e trabalhar apenas com escores positivos. Com base na operação inversa estabelecida na padronização dos escores, podemos fixar uma nova origem e uma nova unidade de medidas para as três distribuições, de modo que os valores pudessem ser expressos apenas através de escores positivos. Como sabemos, mais de 99% dos valores em uma distribuição simétrica estão localizados entre 3 unidades de desvios em torno da média. Se estabelecermos uma nova média de, por exemplo, 100 pontos e uma nova unidade de 20 pontos, esperamos que praticamente todos os valores estejam localizados entre 40 e 160 pontos. Então para cada exame k, procedemos ao re- escalonamento dos escores com base na transformação 100Z.20Y kiki += , onde Yki representa a escore do indivíduo i no exame k, Zki é o escore padronizado do indivíduo i no exame k, 100 e 20 são, respectivamente, a média (origem) e desvio padrão (unidade) do novo sistema de pontuação dos escores. Abaixo são apresentados os escores dos dez alunos após o re- escalonamento dos escores padronizados. ALUNO EXAME 1 2 3 4 5 6 7 8 9 10 PORTUGUÊS 80 75 125 90 100 110 120 130 70 100 MATEMÁTICA 120 130 70 100 110 90 110 70 120 80 CIÊNCIAS 100 120 60 80 100 100 120 80 140 100 De acordo com esse procedimento, todas as propriedades dos escores padronizados são aplicadas e os valores re-escalonados podem ser operados aritmeticamente a fim de se estabelecer um ordenamento final dos indivíduos. 4.4 Combinação Linear (Compósito) Geralmente, o objetivo de uma transformação é permitir o ordenamento dos indivíduos. Como não podemos ordenar unidades com base em mais de uma dimensão, utilizamos um compósito dos valores nas suas diversas dimensões, transformando os dados multidimensionais em uma distribuição unidimensional. Um processo simples para se proceder a essa transformação é calcular a média ponderada dos escores dos indivíduos nas diversas dimensões. Assim procedendo, preservamos a escala comum às diferentes dimensões, obtida através dos métodos 30 até agora expostos, e ordenamos os indivíduos com base na combinação resultante. As ponderações são, em geral, ad hoc, e representam o grau de importância de cada dimensão no resultado final. No exemplo dos três exames, podemos pensar as disciplinas Português, Matemática e Ciências como recebendo pesos 3, 2 e 1, respectivamente. Os resultados encontram- se no quadro abaixo: ALUNO 1 2 3 4 5 6 7 8 9 10 Escore Final 96,67 100,83 95,83 91,67 103,33 101,67 116,67 101,67 98,33 93,33 Classificação 7 5 8 10 2 3,5 1 3,5 6 9 De acordo com o critério estabelecido, chegamos a um resultado que, embora não tenha qualquer significado próprio, possibilita ordenar os indivíduos com base no desempenho em cada exame e no grau de importância de cada exame no resultado final. Note que os indivíduos 5 e 7 têm o mesmo escore final (101,67). Como ficaram empatados, ocupando a terceira e quarta classificações, recomenda-se diluir o rank de ambos atribuindo-lhes, por exemplo, a média dos ranks. Resumindo, a presente seção levou em conta as possíveis transformações, todas lineares, que podem ser aplicadas a uma determinada variável a fim de possibilitar um maior espectro de possíveis aplicações, principalmente comparações e ordenações. Essas transformações consistem no deslocamento e re-formatação da distribuição original que, quando aplicadas simultaneamente recebem o nome de padronização, cujo objetivo principal é trazer diferentes escalas a uma escala comum a todas as distribuições. Após o processo de padronização, as variáveis podem receber tratamentos aritméticos tais como o re-escalonamento e cálculo de médias, consoante o objetivo da análise a ser desenvolvida. 31