Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas


Estatística Descritiva e Gráficos em R: Exemplos e Aplicação, Resumos de Matemática Aplicada

Este documento fornece exemplos de análise estatística descritiva e criação de gráficos utilizando o software r, abordando conceitos como variância amostral, desvio padrão, distribuição de frequência, testes de hipóteses e matrizes de gráficos. Além disso, são apresentados exemplos de leitura e manipulação de arquivos csv.

Tipologia: Resumos

2020

Compartilhado em 16/08/2020

adery-faustino
adery-faustino 🇧🇷

5

(1)

3 documentos

1 / 62

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Estatítica Descritiva Gráficos Exemplos de Funções Estatísticas Testes para a Média e Proporção Correlação
Curso de Estatística no R
Análise de Dados
Prof. Enivaldo Carvalho da Rocha
Monitor: Antônio Fernandes
Aulas dos dias 9/11 e 16/11
Cada encontro de 4 horas de exposição
8 de novembro de 2018
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e

Pré-visualização parcial do texto

Baixe Estatística Descritiva e Gráficos em R: Exemplos e Aplicação e outras Resumos em PDF para Matemática Aplicada, somente na Docsity!

Curso de Estatística no R

Análise de Dados

Prof. Enivaldo Carvalho da Rocha

Monitor: Antônio Fernandes

Aulas dos dias 9/11 e 16/

Cada encontro de 4 horas de exposição

8 de novembro de 2018

Enivaldo Rocha

Sumário

1 Noções do R

Data Frame

2 Estatística descritiva

Gráficos

3 Testes para média e proporção

4 Correlação

5 Regressão linear

6 Regressão logística

7 Análise fatorial

8 Análise de correspondência

Enivaldo Rocha

Mediana dos Elementos de um Vetor

O comando sort

Ordenando os elementos do vetor

svetor <- sort(vetor)

svetor

svetor[5/2+1]

Definição da Mediana

Seja x ( 1 ), x ( 2 ),..., x ( n ) denotar uma amostra em ordem crescente,

então a mediana será:

˜ x = x n + 1

, se n é impar

˜ x =

x n

+ x ( n

2 +^1 )

, se n é par

median(vetor)

Enivaldo Rocha

Separatrizes

Percentil

Representa o elemento que divide a amostra e ordena em

percentis, por exemplo: o percentil 50 é igual a mediana.

Quantil

O comando quantile apresenta o valor que divide os dados em

percentis 25, 50 e 75.

quantile(vetor, probs=0.5)

quantile(vetor, probs=c(0.25,0.75))

diff(quantile(vetor,probs=c(0.25,0.75)))

Enivaldo Rocha

Medidas de Variabilidade

Range

É a medida de variação mais simples, range amostral, definido

como a diferença entre a maior e a menor das observações na

amostra

r = max ( xi ) − min ( xi )

Intervalo interquartílico

Definido como a diferença entre o 3o quartil e o primeiro quartil

IQR = q 3 − q 1

Exemplo: Considere a amostra ( 1 , 5 , 5 , 5 , 7 , 7 , 9 )

n <- c(1,5,5,5,7,7,9)

r <- 9 − 1

IQR <- quantile ( n, probs = 0. 75 ) − quantile ( n, probs = 0. 25 )

ou

IQR <- diff(quantile(n,probs=c(0.25,0.75)))

Enivaldo Rocha

Variância e Desvio Padrão

Variância

Se as observações numa amostra de tamanho n são x 1 , x 2 , ..., xn ,

então a variância amostral é:

s

∑ n

i = 1 ( xi^ − x^ )

n − 1

e o desvio padrão amostral é a raiz quadrada positiva de s

Exemplo: Considere a amostra ( 1 , 5 , 5 , 5 , 7 , 7 , 9 )

n <- c(1,5,5,5,7,7,9)

var(n) [1] 6.285714 sqrt(var(n)) [1] 2.507133 mean(n)

Enivaldo Rocha

Distribuição de Frequência

notas <- read.csv("notas.csv", sep=";", dec=",",header=TRUE)

Ordenação das Notas

sort(notas$notas) 1_._ 52_._ 52_._ 52_._ 53_._ 03_._ 03_._ 03_._ 03_._ 53_._ 53_._ 53_._ 53_._ 54_._ 04_._ 04_._ 04_._ 04_._ 04_._ 04_._ 54_._ 54_._ 54_._ 5 4.5 4.5 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 5.5 6. 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.0 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6.5 6. 7.0 7.0 7.0 7.0 7.0 7.0 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 7.5 8.0 8.0 8.0 8.0 8.0 8.0 8. 8.5 8.5 9.0 9.0 9.5 10.0 10.0 10.

Tabela: Distribuição de Frequências das Notas na

Disciplina Análise de Dados: MPPP - 2017.

Classes Frequência Porcentagem [1,2) 1 1% [2,3) 3 3% [4,5) 12 12% [5,6) 20 20% [6,7) 24 24% [7,8) 16 16% [8,9) 9 9% [9,10) 6 6% Total 100 100%

Enivaldo Rocha

Histograma

hist(notas$notas, main="Histograma da variável Notas",prob=T, xlab="Notas", ylab="Densidade")

Histograma da variável Notas

Densidade

2 4 6 8 10

Enivaldo Rocha

BoxPlot - Exemplos

Exemplo 1 - Considere as notas da disciplina análise de dados e verifique se tem algum outlier presente na distribuição.

boxplot(notas$notas, main = "Notas - Análise de Dados",

ylab="Notas", col=("green"))

5

10

15

20

Boxplot de salários

Salários

Enivaldo Rocha

Dados: Bussab

m <- read.csv("milsa.csv", sep=";", dec=",",header=TRUE)

O R possui uma enorme capacidade para gerar diversos tipos de

gráficos de alta qualidade totalmente configuráveis, desde cores e

tipos de linhas, até legendas e textos adicionais.

Opções :// xlim: (inicio,fim) dupla contendo os limites do eixo X.

ylim: (inicio,fim) dupla contendo os limites do eixo Y.

xlab: rótulo para o eixo X.

ylab: rótulo para o eixo Y.

main: título principal do gráfico.

col: cor de preenchimento do gráfico, podendo ser um vetor. A

lista das cores disponíveis pode ser obtida através do comando

colors().

Enivaldo Rocha Histograma

Notas na disciplina análise de dados

Comando : hist(dados, opções) opções: prob: T plota a densidade. F plota a freqüência absoluta. breaks: vetor contendo os pontos de definição das larguras das barra do histograma.

notas <- read.csv("notas.csv", sep=";", dec=",",header=TRUE) head(notas) hist(notas$notas, main="Histograma da variável Notas", prob=T, xlab="Notas", ylab="Densidade", col=c("orange"), ylim=c(0,0.3), col.main="darkgray")

Histograma da variável Notas

Notas

Densidade

2 4 6 8 10

0.^ 0.^

Enivaldo Rocha BoxPlot

Boxplot - Dados Bussab

Comando : boxplot(dados, opções) opções: outline: T plota os outliers.

boxplot(m$salario, xlab="Boxplot de Salários", ylab="Salários", col="green") boxplot(m$salario ˜. m$educacao, xlab="Boxplot de salários", ylab="Salários", col=c("yellow","orange","red"))

5

10

15

20

Boxplot de salários

Salários

1o Grau 2o Grau Superior

5

10

15

20

Boxplot de salários

Salários

Enivaldo Rocha

Tipos de câncer

par(mfrow=c(2,2)) plot(ca[,1], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Mama", col="pink") plot(ca[,2], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Pele", col="green") plot(ca[,3], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Próstata", col="red") plot(ca[,4], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Linfoma", col="blue")

Mortalidade no Brasil por Câncer de Mama

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0.^

Mortalidade no Brasil por Câncer de Pele

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0.^ 0.^ 0.^ 0.^ 0.^ 0.^

Mortalidade no Brasil por Câncer de Próstata

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

4

6

8

10

12

14

Mortalidade no Brasil por Linfoma

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0.^

Enivaldo Rocha

Tipos de câncer

par(mfrow=c(2,2)) plot(ca[,1], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Mama", col="pink",ylim=c(0,15)) plot(ca[,2], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Pele", col="green",ylim=c(0,15)) plot(ca[,3], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Câncer de Próstata", col="red",ylim=c(0,15)) plot(ca[,4], ylab="Taxa de mortalidade (por 100000)", main="Mortalidade no Brasil por Linfoma", col="blue", ylim=c(0,15))

Mortalidade no Brasil por Câncer de Mama

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0

5

10

15

Mortalidade no Brasil por Câncer de Pele

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0

5

10

15

Mortalidade no Brasil por Câncer de Próstata

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0

5

10

15

Mortalidade no Brasil por Linfoma

Time

Taxa de mortalidade (por 100000)

1980 1985 1990 1995 2000 2005 2010 2015

0

5

10

15