




























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
APOSTILA DE ESTATÍSTICA
Tipologia: Notas de estudo
1 / 100
Esta página não é visível na pré-visualização
Não perca as partes importantes!





























































































A utilização da Estatística pelas diversas áreas Biomédicas tem crescido de forma significativa nos últimos anos ao ponto de ter dado origem ao termo Bioestatística. Assim, toda pesquisa científica nessa área apresenta o cálculo de uma média, um gráfico, o resultado de um teste ou outra ferramenta estatística adequada para o problema específico. A própria Estatística tem se desenvolvido a passos agigantados ao ponto de muitos dos recentes avanços ainda não serem conhecidos pelos profissionais da área Biomédica, o que sugere a necessidade de uma interação constante com os estatísticos. A interação mencionada anteriormente exige uma compreensão dos con- ceitos básicos da Bioestatística de forma a facilitar a troca de informação com os estatísticos, o que resultará num melhor planejamento da pesquisa e uma melhor utilização dos dados coletados. O presente trabalho nasceu a partir das anotações de aula das disciplinas Estatística I e Estatística Aplicada às Ciências Médicas com a intenção de apresentar as ferramentas básicas da Bioestatística aos alunos dos cursos de graduação e pós-graduação em áreas das Ciências Biomédicas da Universi- dade Federal Fluminense, especificamente para os alunos da Faculdade de Nutrição e para os alunos do Curso de Pós-Graduação em Ciências Médicas. O primeiro capítulo apresenta as idéias básicas envolvidas numa pesquisa como população, tipo de estudo, dados, entre outros. A seguir são apresen- tadas as ferramentas usadas para o resumo inicial dos dados. Posteriormente, são mostrados os elementos básicos da teoria de probabilidades, incluindo al- gumas aplicações. Finalmente, os três últimos capítulos tratam da inferência estatística, apresentando os conceitos básicos e os testes mais usados. É necessário mencionar que a intenção deste trabalho não é entrar nos de- talhes da teoria Estatística envolvida por trás das ferramentas apresentadas, contudo, não podemos esquecer que ela é indispensável para que as decisões baseadas em resultados estatísticos sejam as mais confiáveis possíveis. Várias pessoas contribuíram para a elaboração deste texto. Os alunos a quem eu dei aulas desde 1998 na UFF sempre solicitaram este tipo de auxilio e por isto serviram como motivação. Diversos monitores, alunos do curso de Nutrição, trabalharam comigo e ajudaram a criar ou compilar os exem- plos e exercícios desta apostila. Em especial, as monitoras Cristine e Mariá
Diariamente, os meios de comunicação apresentam informações estatísticas provenientes de pesquisas científicas, porém, diversos graus de confiabilidade devem ser atribuídos a essas estatísticas, já que existem diversos fatores que não são incluídos nos relatórios lidos pela população. A palavra pesquisa tem uma conotação poderosa, ficando implícita a con- fiabilidade dos resultados apresentados por ela. Sendo assim, poucas pessoas que não estão envolvidas com a pesquisa estão interessadas com os detalhes dela, importando-se apenas com os resultados finais. Por outro lado, pode se assumir que é possível replicar qualquer pesquisa em igualdade de condições, questionando se os resultados obtidos seriam os mesmos em cada uma das replicações. Pelo exposto anteriormente, toda pesquisa apresenta um ingrediente que foge do controle dos envolvidos e que pode ser chamado de incerteza. A análise estatística permite colocar limites a esta incerteza. Nas pesquisas em ciências biomédicas, geralmente são coletados dados de alguns indivíduos para fazer afirmações sobre grupos maiores, sem interesse particular nesses indivíduos. Então, a informação proveniente de amostras de indivíduos é utilizada para fazer inferência sobre uma população que contém esses mesmos indivíduos. Dessa forma, os conceitos de amostra e população estão ligados com a pesquisa que está sendo desenvolvida. Em algumas situa- ções, geralmente de interesse governamental, é necessária a observação das características de interesse em todos os indivíduos que formam uma popu- lação. Isto constitui um censo. A Estatística aparece nas diversas áreas que um profissional da área de Ciências da Vida pode atuar. Por exemplo, a distribuição Normal padrão, que será vista posteriormente, é utilizada para determinar o estado nutri- cional de crianças. Os modelos de regressão são utilizados para avaliar e quantificar a influência de fatores socioeconômicos e biológicos sobre algu- mas variáveis de interesse como peso ao nascer, estado nutricional, nível de albumina, entre outros.
De forma geral, uma população é um conjunto de indivíduos que apresen- tam uma característica de interesse. Uma amostra é qualquer subconjunto de indivíduos de uma população. Para realizar uma pesquisa que leve a fazer afirmações sobre a população de interesse é necessário seguir os seguintes passos:
O primeiro passo desta lista será abordado superficialmente a seguir, as- sim como algumas ideias de amostragem e tipos de variáveis.
1.1 Planejamento de uma pesquisa
É necessário apresentar as diversas formas que se pode realizar um trabalho científico com a finalidade de obter os resultados apropriados ao interesse da pesquisa de forma adequada. Estes estudos serão apresentados de forma a mostrar suas principais características.
Em um estudo observacional, o pesquisador coleta a informação sobre os atributos ou faz as medições necessárias, mas não influência as unidades amostrais. Por exemplo, quando se pretende determinar o estado nutricional de uma certa população. Em um estudo experimental, o pesquisador deliberadamente influencia os indivíduos e pesquisa o efeito da intervenção. Estudos em que se pretende conhecer o efeito de uma nova dieta sobre a rapidez em aumentar os níveis de cálcio são exemplos de estudos experimentais. De forma geral, inferências mais fortes são obtidas de estudos experimen- tais porque estes pressupõem um maior controle das unidades amostrais.
Existe uma clara diferença entre estudos prospectivos e retrospectivos. Os estudos prospectivos são utilizados quando se pretende conhecer o efeito de algum fator, sendo os dados gerados a partir do início do estudo. Já os
Dependendo das características da populção é possível identificar um es- quema de amostragem para ela. Os esquemas mais adotados estão enumera- dos a seguir:
Do ponto de vista estatístico, uma amostra deve estar constituída pelo maior número possível de observações. A teoria de amostragem define pro- cedimentos para calcular o tamanho de amostra necessário para atingir um certo grau de precisão. Em muitas situações este tamanho de amostra é um valor que, sendo o ideal, está fora das possibilidades da pesquisa devido a diversos fatores como tempo ou dinheiro; assim, é necessário desenvolver um estudo específico que leve em consideração a teoria estatística e as possibili- dades reais da pesquisa.
1.3 Tipos de dados
Para qualquer estudo e sob qualquer esquema de amostragem, as informações necessárias serão obtidas a partir de um conjunto de dados. Estes dados podem ser classificados em dois grandes grupos: categóricos e numéricos, e a natureza deles leva à escolha certa de métodos estatísticos de análise.
Dados categóricos ou qualitativos são aqueles cujos valores possíveis são ca- tegorias ou características não-numéricas. Estes dados podem ser divididos em ordinais ou nominais dependendo da existência ou não de uma ordem entre os valores possíveis. Como exemplo de dados ordinais, tem-se o estágio de uma doença e de dados nominais o sexo de um indivíduo e o tipo sangüíneo.
Duas categorias
Este tipo de dados categóricos geralmente refere-se à presença ou ausência de algum atributo ou característica. Também recebem os nomes de variáveis sim/não, binárias, dicotômicas ou 0-1. São exemplos: sexo (homem/mulher), gravidez (sim/não), estado civil (casado/solteiro), tabagismo (fumante/não- fumante), entre outros. Estas variáveis binárias geralmente são classificadas como nominais.
Também chamados de quantitativos assumem valores numéricos, podendo ser discretos ou contínuos.
Dados discretos
Resultam de contagens de eventos. Exemplo: número de filhos, número de batimentos cardíacos por minuto.
Dados contínuos
Estes dados são obtidos de algum tipo de medição: altura, peso, pressão arterial, temperatura corporal.
Ranks ou postos
Ocasionalmente, os dados representam a posição relativa dos membros de um grupo com relação a algum ranking. A posição de um indivíduo neste ranking é chamado de posto.
Porcentagens
É necessário ter cuidado quando os dados com os quais se trabalha são por- centagens observadas. Notar que, para uma pressão arterial sistólica (PAS) inicial de 150 mmHg, um aumento de 20% significa que a PAS vai para 180 mmHg e uma diminuição subseqüente de 20% leva a PAS para 144 mmHg.
Escores
São usados quando não é possível fazer medições diretas. Em sua forma mais simples, estes sistemas numéricos classificam uma característica em diversas categorias segundo a opinião de um indivíduo. Por exemplo a dor de um ferimento pode ser classificada como leve, moderada ou severa, podendo ser designado um valor numérico a cada categoria. Deve ser notado que estas escalas são subjetivas.
Dados censurados
Uma observação é chamada censurada se não pode ser medida de forma precisa, mas sabe-se que está além, ou aquém, de um limite. Por exemplo, em alguns experimentos existe um período fixo de acompanhamento, sendo a va- riável de interesse o tempo para aparecer um sintoma ou desaparecer alguma
Quando se estuda uma variável, o primeiro interesse do pesquisador é conhe- cer a distribuição dessa variável através das possíveis realizações (valores) da mesma. O objetivo por trás disto é obter informação que não poderia ser observada através da inspeção visual dos dados. Porém, a informação fornecida pelos dados pode ser apresentada de várias formas: usando tabelas, gráficos ou, inclusive, medidas representativas de dados ou variáveis. Em resumo, os dados precisam ser organizados.
Os dados brutos podem não ser práticos para responder a questões de inte- resse, então, é necessário resumi-los e para isto se faz necessário definir alguns conceitos:
Este tipo de distribuição é utilizada quando o número de valores possíveis da variável em estudo é reduzido. Serve para representar variáveis categóricas e, em alguns casos, numéricas. A disribuição de freqüências não-agrupadas é representada em uma tabela que contém, pelo menos duas colunas:
Exemplo: Em uma escola do município de Niterói, foram avaliadas 145 crianças com idade entre 6 e 10 anos, calculando-se o estado nutricional segundo os critérios da OMS. Para estas crianças, as tabelas de distribuição de freqüências das variáveis estado nutricional e idade aparecem a seguir:
Categoria f fr Baixo peso 11 0, Normal 105 0, Sobrepeso 25 0, Obeso 4 0, 145 1, Idade f f r F F r 6 11 0,11 11 0, 7 27 0,27 38 0, 8 16 0,16 54 0, 9 19 0,19 73 0, 10 26 0,27 99 1, 99 1,
Onde f é a freqüência absoluta, fr é a freqüência relativa, F é a freqüência absoluta acumulada e F r é a freqüência relativa acumulada.
A distribuição de freqüências agrupadas é utilizada para variáveis numéri- cas contínuas, ou quando existem muitos valores possíveis para uma variável discreta. O procedimento de construção da tabela é simples mas tedioso ten- do como idéia básica criar intervalos, ou classes, para a variável em estudo e calcular as freqüências para esses intervalos. Os dados de idade de vítimas fatais em acidentes de trânsito na Inglaterra na década de 70, que apare- cem nas tabelas 2.1 e 2.2, serão usados como exemplo. Nestes dados é fácil
perceber a dificuldade de apontar qualquer característica geral da situação em estudo devido ao grande volume de números existentes. Uma consideração importante para a elaboração de tabelas de distribuição de freqüências agrupadas é sobre o tamanho de cada intervalo. Nesse sentido existem duas alternativas, a primeira que consiste em considerar intervalos do mesmo tamanho ou a segunda que define tamanhos diferentes para os intervalos, dependendo de diversos fatores associados ao problema específico.
Intervalos de tamanhos iguais
A primeira alternativa na construção de tabelas de distribuição de freqüências é sempre considerar intervalos de tamanho igual. Neste caso, será fácil calcu- lar a freqüência relativa de cada intervalo como sendo a divisão da freqüência absoluta pelo tamanho da amostra. A tabela de distribuição de freqüências para os dados citados anteriormente aparece a seguir:
Idade f fr F F r X^0 0 8 61 0,07 61 0,07 4 8 16 71 0,09 132 0,16 12 16 24 264 0,32 396 0,48 20 24 32 54 0,07 450 0,55 28 32 40 83 0,10 533 0,65 36 40 48 83 0,10 616 0,75 44 48 56 72 0,09 688 0,84 52 56 64 48 0,06 736 0,90 60 64 72 45 0,06 781 0,96 68 72 80 34 0,04 815 1,00 76 815 1,
Nesta tabela, há uma coluna contendo a marca de classe (X^0 ) que é o ponto central de cada intervalo e que será usada, posteriormente, para calcular a média.
Tamanhos de intervalos diferentes
Existe informação adicional quando se trabalha com alguns problemas da área biomédica e esta informação pode ser útil para construir intervalos de tamanhos diferentes. Por exemplo, quando se trabalha com idades e desen- volvimento de massa corporal sabe-se que existem algumas faixas etárias com características importantes e outras em que não existe grande desenvolvimen- to. Isto poderia levar a definir intervalos de tamanho menor em que se espera maior e mais rápido desenvolvimento e intervalos de maior tamanho em que existe relativa estabilidade nesse desenvolvimento. Desta forma, será possível observar as mudanças nas faixas de interesse.
alguns dados numéricos em que existem poucos valores possíveis. Para a elaboração destes gráficos serão construídos setores de uma circunferência cujo ângulo, a partir do centro, será proporcional ao número de indivíduos com uma particular característica, isto é, proporcional com a freqüência. As tabelas 2.3, 2.4 e 2.5 geram exemplos de gráficos de setores em três situações diferentes, apresentados nas Figuras 2.1, 2.2 e 2.3.
Origem dos alunos Frequência Urbana 240 Suburbana 1400 Rural 360
Tabela 2.3: Distribuição da origem de estudantes de uma escola pública
Classificação Número de crianças Normal 84 Sobrepeso 9 Obeso 6
Tabela 2.4: Distribuição da avaliação nutricional de um grupo de crianças usando o índice peso para altura
Classificação Número de jovens Baixo peso 11 Normal 105 Sobrepeso 25 Obeso 4
Tabela 2.5: Distribuição da avaliação nutricional de um grupo de jovens
Este tipo de gráficos é utilizado para representar dados numéricos discretos e, em alguns casos, dados categóricos. Nele, num dos eixos coordenados são rep- resentadas as frequências e no outro os valores da variável. São construidas colunas ou barras para cada valor da variável com uma altura proporcional com a frequência. Não existe diferença entre o gráfico de barras e o de col- unas a não ser pela troca de variáveis nos eixos coordenados, como aparece no gráfico de colunas da figura 2.4 e no de barras da figura 2.5.
Origem de 2000 estudantes
1 2 %
7 0 %
1 8 % Urbana Suburbana Rural
Figura~2.1: Gráfico de setores da origem de estudantes de uma escola públi- ca.
Índice P/A para crianças
Normal 8 5 %
Sobrepeso 9 %
Obesidade 6 %
Figura~2.2: Gráfico de setores da avaliação nutricional de um grupo de cri- anças, usando o índice peso para altura.