Prepara tus exámenes
Consigue puntos
Orientación Universidad
Vende en Docsity
Docsity AI

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Docsity AI

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca tu universidad

Encuentra los documentos específicos para los exámenes de tu universidad

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

estadistica practica, Apuntes de Estadística

Universitat Autònoma de Barcelona (UAB)Estadística

MATERIAL para re alizar las practicas con R

Tipo: Apuntes

2018/2019

Subido el 27/10/2019

ariadna9015 🇪🇸

4

(10)

10 documentos

1 / 16

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

Resum de les Pràctiques d’Introducció a R - Estadística

I

Dolors Màrquez i Xavier Vilà

Índex

1 Introducció 1

2 Preparant R: instal·lant paquets addicionals 2

3 Llegint dades 2

4 Taules of Frequencies Univariants 2

4.1 Peravariablesdiscretes ....................................... 3

4.2 Peravariablescontínues....................................... 3

5 Taules de Freqüències Bivariants 3

5.1 Taulesdecontingència........................................ 4

5.2 Taules de freqüències marginals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5.3 Taules de Freqüències Condicionals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

6 Reresentacions gràfiques 4

6.1 Peravariablesdiscretes ....................................... 4

6.2 Peravariablescontínues....................................... 5

7 Mesures de posició, dispersió i forma 6

7.1 Mesuresdeposició .......................................... 6

7.2 Mesuresdedispersió......................................... 6

7.3 Mesuresdeforma........................................... 6

8 Covariància i coeficient de correlació 7

9 Variables Aleatòries 7

9.1 DistribucióBinomial ......................................... 7

9.2 DistribucióGeomètrica........................................ 8

9.3 DistribuciódePoisson ........................................ 9

9.4 DistribucióExponencial ....................................... 10

9.5 DistribucióNornal .......................................... 10

9.5.1 Càlcul de probabilitats i valors crítics . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

9.5.2 Simulació d’una variable aleatòria Normal . . . . . . . . . . . . . . . . . . . . . . . . . 12

9.6 TaulaResum ............................................. 15

1 Introducció

Aquest document és un recull dels conceptes més importants sobre Rque es van tractar durant les sessions

pràctiques d’

Estadística I

, i pretén ser d’utilitat per continuar amb les pràctiques de Ren

Estadística II

.

Suposarem que Restà correctament instal

·

lat i actualitzat, tal com s’explica al primer capítol

del document “Estadística per l’economia i l’empresa amb R Studio”, que va ser distribuït durant

el curs d’Estadística I

1

Descubre Apuntes de Estadística Universitat Autònoma de Barcelona (UAB)

Documentos relacionados

(1)

(2)

(10)

(12)

practica estadistica resuelta

Práctica 3 estadística

Practica 4 Rstudio estadistica I

Estadística l práctica 1

Primera práctica de estadistica

(2)

PRÁCTICA 1 ESTADISTICA I

(8)

Vista previa parcial del texto

¡Descarga estadistica practica y más Apuntes en PDF de Estadística solo en Docsity!

Resum de les Pràctiques d’Introducció a R - Estadística

I

Dolors Màrquez i Xavier Vilà

Índex

1 Introducció 1

2 Preparant R : instal·lant paquets addicionals 2

3 Llegint dades 2

4 Taules of Frequencies Univariants 2 4.1 Per a variables discretes....................................... 3 4.2 Per a variables contínues....................................... 3

5 Taules de Freqüències Bivariants 3 5.1 Taules de contingència........................................ 4 5.2 Taules de freqüències marginals................................... 4 5.3 Taules de Freqüències Condicionals................................. 4

6 Reresentacions gràfiques 4 6.1 Per a variables discretes....................................... 4 6.2 Per a variables contínues....................................... 5

7 Mesures de posició, dispersió i forma 6 7.1 Mesures de posició.......................................... 6 7.2 Mesures de dispersió......................................... 6 7.3 Mesures de forma........................................... 6

8 Covariància i coeficient de correlació 7

9 Variables Aleatòries 7 9.1 Distribució Binomial......................................... 7 9.2 Distribució Geomètrica........................................ 8 9.3 Distribució de Poisson........................................ 9 9.4 Distribució Exponencial....................................... 10 9.5 Distribució Nornal.......................................... 10 9.5.1 Càlcul de probabilitats i valors crítics........................... 11 9.5.2 Simulació d’una variable aleatòria Normal......................... 12 9.6 Taula Resum............................................. 15

1 Introducció

Aquest document és un recull dels conceptes més importants sobre R que es van tractar durant les sessions pràctiques d’ Estadística I , i pretén ser d’utilitat per continuar amb les pràctiques de R en Estadística II.

Suposarem que R està correctament instal·lat i actualitzat, tal com s’explica al primer capítol del document “ Estadística per l’economia i l’empresa amb R Studio ”, que va ser distribuït durant el curs d’Estadística I

2 Preparant R : instal·lant paquets addicionals

Recordeu: Quan s’executa, R s’inicia amb només un conjunt bàsic d’instruccions disponibles. Depenent de la tasca a realitzar, però, cal proporcionar més instruccions a R. Aquestes es poden obtenir instal·lant paquets addicionals que no formen part de la instal·lació base de R. Aquests paquets sempre es troben a la Xarxa d’arxius de R , CRAN, i estan preparats per ser descarregats i instal·lats des de R. Per Estadística I es van fer servir els següents paquets:

readr per importar fitxers de dades emmagatzemats en diferents formats
questionr per construir taules de freqüències amb formats entenedors per a variables discretes
agricolae per construir taules de freqüències amb formats entenedors i representacions gràfiques per a variables contínues
gmodels per construir taules de contingència amb moltes opcions
psych per calcular estadístiques descriptives detallades
plot3D per representar gràfics en 3D Per instal·lar tots aquests paquets alhora, es pot executar el codi R que es troba al bloc següent install.packages ( c ("knitr","readr","questionr","agricolae", "gmodels","psych","plot3D"),dependencies=TRUE)

Aquest procés només s’ha de fer una vegada. Un cop aquests paquets estan instal·lats al sistema, es poden carregar a R mitjançant la comanda libray (nom_del_paquet)

D’aquesta manera, totes les comandes que pertanyen al paquet nom_del_paquet estan disponibles per a ser usades a la sessió activa de R.

3 Llegint dades

Per a fer que un conjunt de dades emmagatzemades a un fitxer csv anomenat nom_del_fitxer.csv estiguin disponibles a R Studio :

primer carreguem el paquet readr amb la comanda library(readr) i
després creem un nou objecte (una matriu en aquest cas) en R que anomenarem Dades amb la comanda read_csv("nom_del_fitxer.csv") library (readr) Dades <- read_csv ("nom_del_fitxer.csv")

El símbol <- al codi de dalt. És l’ operador d’assignació a R. Assigna un objecte (un número, un vector, una taula,... ) a un nom. És a dir, dóna un nom a aquest objecte. Recordeu: Si el fitxer nom_del_fitxer.csv no es troba a la mateixa carpeta que el fitxer de R amb el qual s’està treballant, si no dins una sub-carpeta anomenada Carpeta_de_Dades, per exemple, cal especificar aquesta localització en la comanda corresponent de R. Si no es fa així, R no podrà trobar aquestes dades library (readr) Dades <- read_csv ("Carpeta_de_Dades/nom_del_fitxer.csv")

4 Taules of Frequencies Univariants

Les taules de freqüències s’obtenen de diferents maneres depenent de si la variable que estem considerant és discreta o contínua. Això és així perquè en el cas continu les observacions s’han d’agrupar en intervals (o

5.1 Taules de contingència

Per crear una taula de contingència amb les variables variable_1 i variable_2, que anomenarem ContingencyTable utilitzarem la comanda CrossTable Notar al codi que segueix que totes les opcions disponibles s’estableixen en FALSE. En les subsegüents seccions veurem com els resultats varien quan canviem algunes d’aquestes opcions. Observar a més que el paquet gmodels es carrega primer. És necessari per utilitzar la comanda CrossTable, que construeix la taula. library (gmodels) ContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = FALSE, prop.chisq = FALSE)

Per produir la mateixa taula però amb freqüències relatives conjuntes , només cal canviar l’opció prop.t de FALSE a TRUE de la següent manera: RelContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = TRUE, prop.chisq = FALSE)

5.2 Taules de freqüències marginals

Les freqüències marginals s’obtenen sumant simplement les freqüències conjuntes per columnes (per a la variable variable_1) o les files (per a la variable variable_2). Això ja estava calculat per defecte a les taules anteriorment obtingudes RelContingencyTable <- CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = FALSE, prop.t = TRUE, prop.chisq = FALSE)

5.3 Taules de Freqüències Condicionals

Les freqüències condicionals per a cada variable s’obtenen de la següent manera:

Per a la variable variable_1 condicionada a variable_2 -> establint prop.c=TRUE
Per a la variable variable_2 condicionada a *variable_1 -> establint prop.r=TRUE Per tant, per a variable_1 condicionada a variable_2 fem: CrossTable (variable_1, variable_2, prop.r = FALSE, prop.c = TRUE, prop.t = FALSE, prop.chisq = FALSE)

6 Reresentacions gràfiques

Veurem com representar un conjunt de dades L’objectiu és tenir una instantània visual de la informació continguda en les dades. La majoria d’aquestes representacions gràfiques se centraran en les freqüències de les diferents variables

6.1 Per a variables discretes

Les principals representacions gràfiques en el cas de variables quantitatives qualitatives o discretes són diagrames de barres i diagrames circulars (o gràfics de pastís)

El codi R per al diagrama de barres és molt simple: la comanda table calcula les freqüències absolutes d’una variable anomenada variable_discreta i, a continuació, la comandabarplot s’ocupa de construir la gràfica corresponent. barplot ( table (variable_discreta))

En aquest gràfic, l’alçada de cada barra és proporcional a la freqüència de cada valor de la variable El gràfic seria el mateix si utilitzem les freqüències relatives en lloc de les absolutes, només l’escala en l’eix vertical seria diferent. El que importa és que les barres són proporcionals a les freqüències que representen. És molt útil explorar les possibilitats que ofereix aquesta comanda per personalitzar la gràfica que s’obté. L’exemple següent mostra algunes opcions. barplot ( table (variable_discreta), xlab = "Valors", ylab = "Freqüència absoluta", ylim = c (0,50), names.arg = c ("Molt alt", "Alt", "Mitjà", "Baix", "Molt baix"), col = c ("blue"), main = "Barplot de variable_discreta" )

D’una manera molt similar, podem crear un gràfic circular en R Studio A <- c ("Molt alt", "Alt", "Mitjà", "Baix", "Molt baix") B <- table (variable_discreta) C <- "Freqüències absolutes per variable_discreta"

pie (B, labels = paste (A, B), main = C)

6.2 Per a variables contínues

Les principals representacions gràfiques en el cas de les variables contínues són histogrames i diagrames de caixa (barplots).

Primer crearem un histograma per a la variable variable_continua. Recordar que quan calculem una taula de freqüències per a una variable contínua amb el paquet agricolae primer es construeix un histograma amb la comandagraph.freq () i després es calcula la taula de freqüències corresponent amb la comanda ’table .freq ()‘. El codi era: library (agricolae) graph.freq (variable_continua, breaks = c (0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0), frequency = 2)

Notar que s’ha introduït l’opció frequency = 2 que, d’acord amb la “pàgina d’ajuda” (Help) de graph.freq, considerarà les freqüències relatives a l’hora de fer la gràfica. Ara crearem un diagrama de caixa per a variable_continua amb R. El codi utilitzat no podria ser més senzill: boxplot (variable_continua)

De vegades és interessant disposar d’un diagrama de caixa d’una variable donada per a diferents valors d’una altra variable. Això es coneix com una “diagrama de caixa factoritzat”. Per exemple, amb el següent codi tindrem un diagrama de caixa per la variable variable_continua per a cada valor diferent de la variable variable_discreta. De nou, la comanda és molt senzilla. boxplot (variable_continua ~ variable_discreta)

8 Covariància i coeficient de correlació

Per construir una taula amb variàncies i covariances i una altra amb els coeficients de correlació entre les variables contínues variable_1, variable_2, variable_3 utilitzem les comandes cov() i cor() que formen part de la instal·lació base R. cor (variable_1, variable_2, variable_3) cov (variable_1, variable_2, variable_3)

Cada una de les entrades a la primera taula mostrarà el coeficient de correlació entre les variables de la fila i la columna corresponents. La segona taula és equivalent, però mostra les variàncies i les covariàncies. Quan es treballa amb dues variables conjuntament, una representació gràfica adequada dels seus valors, un gràdic de dispersió , és una manera ràpida de fer-se una idea aproximada de la seva relació. Per exemple, per a les variables variable_1, variable_2 tindríem: plot (variable_1, variable_2, xlab = "variable_1", ylab = "variable_2", pch = 20, cex = 0.5)

9 Variables Aleatòries

Veurem com simular i calcular probabilitats associades a diferents tipus de variables aleatòries. En particular:

Per variables aleatòries discretes

Simular i calcular probabilitats per una distribució Binomial
Simular i calcular probabilitats per una distribució Geomètrica
Simular i calcular probabilitats per una distribució de Poisson

Per variables aleatòries contínues

Simular i calcular probabilitats per una distribució Exponencial
Simular i calcular probabilitats per una distribució Normal

9.1 Distribució Binomial

Per treballar amb la majoria de les distribucions de probabilitat clàssiques, tant discretes com contínues, R ofereix eines que faciliten la tasca. Per al cas específic de la distribució Binomial, per exemple, X ∼ B ( n, p ), R té les següents comandes que resulten útils:

dbinom → per a, donat a , calcular P ( X = a )
pbinom → per a, donat a , calcular P ( X ≤ a )
qbinom → per a, donat p , trobar a tal que P ( X ≤ a ) = p
rbinom → genera una seqüència aleatòria de realitzacions de X (tal com s’ha utilitzat anteriorment) Per a una altra distribució, les ordres són semblants, només es modifiquen per a referir-se a cada cas: pgeom per a la distribució geomètrica, ppois per Poisson, etc. Per exemple, en el cas de X ∼ B (10 , 0_._ 5), trobem: paste ("P (X = 4) =", dbinom (4,10,0.5))

[1] "P (X = 4) = 0.205078125"

paste ("P (X <= 4) =", pbinom (4,10,0.5))

[1] "P (X <= 4) = 0.376953125"

paste ("P (2 paste ("P (10 <= X <11) = P (X = 10) =", dpois (10,5))

[1] "P (10 <= X <11) = P (X = 10) = 0.0181327887078219"

9.4 Distribució Exponencial

Per simular el comportament d’una variable Exponencial amb el paràmetre λ = 15 , és a dir, exp( 15 ) utilitzem el codi R:

EXPONENTIAL_SIMUL <- rexp (10000,1 / 5)

En aquest cas, els valors passats a la funció rexp en R són: 10.000 realitzacions d’una Exponencial amb paràmetre λ = (^15)

Com és habitual, fem una ullada als primers valors generats

head (EXPONENTIAL_SIMUL, 20)

[1] 13.4620459 3.8167066 0.1269993 9.1000963 5.8735626 2.

[7] 5.1419492 5.9495520 12.2992890 0.3816239 0.9347280 6.

[13] 2.1258920 2.1557812 16.7761813 5.0289301 4.4499821 2.

[19] 7.0291476 32.

Per calcular probabilitats podem utilitzar les comandes:

paste ("P (1 <= X <= 2) =", pexp (2,1 / 5) - pexp (1,1 / 5))

[1] "P (1 <= X <= 2) = 0.148410707042343"

paste ("P (4 <= X <= 5) =", pexp (5,1 / 5) - pexp (4,1 / 5))

[1] "P (4 <= X <= 5) = 0.0814495229457792"

paste ("P (6 <= X <= 7) =", pexp (7,1 / 5) - pexp (6.1 / 5))

[1] "P (6 <= X <= 7) = 0.0486332029824078"

paste ("P (10 <= X <= 11) =", pexp (11,1 / 5) - pexp (10,1 / 5))

[1] "P (10 <= X <= 11) = 0.0245321248742788"

9.5 Distribució Nornal

La distribució Normal és probablement la distribució més important en estadística. Descriu qualsevol escenari en què els diferents valors de la variable es concentren principalment al voltant de la mitjana, amb una certa dispersió simètrica cap als extrems.

Per exemple, els ingressos personals en una població determinada es troben, en la seva majoria, propera als ingressos mitjans, amb certa dispersió cap a ingressos més alts i més baixos.

A més, l’anomenat “Teorema central del límit” estableix que si sumem un gran nombre de variables aleatòries, independentment de la distribució que segueixin, aquesta suma estarà molt propera a una distribució Normal.

Finalment, algunes distribucions importants com la Binomial o la Poisson es poden aproximar mitjançant una distribució Normal.

9.5.1 Càlcul de probabilitats i valors crítics

En molts casos, el procés que hem de seguir per trobar les probabilitats associades a una distribució X ∼ N ( μ, σ^2 ) mitjançant taules resulta feixuc, i de vegades tan sols podem arribar a tenir un resultat aproximat. En aquest sentit, l’ús de R fa que la tasca sigui més simple i acurada. Podem trobar qualsevol probabilitat amb la comanda pnorm, que forma part de la instal·lació base de R.

Bàsicament, només hem de recordar que:

Si busquem una probabilitat “a l’esquerra” d’un valor determinat x , P ( X ≤ x ), hem d’utilitzar l’opció lower.tail = TRUE a la comanda pnorm.
Si busquem una probabilitat “a la dreta” d’un valor determinat x , P ( X ≥ x ), hem d’utilitzar l’opció lower.tail = FALSE a la comanda pnorm.
Si busquem una probabilitat “al mig” de dos valors x 1 i x 2 , P ( x 1 ≤ X ≤ x 2 ), hem de recordar el general regla P ( x 1 ≤ X ≤ x 2 ) = P ( X ≤ x 2 ) − P ( X ≤ x 1 ) i seguiu el pas 1 anterior.

Ara utilitzarem R per calcular les següents probabilitats per una variable X ∼ N (3 , 2)

P ( X ≤ 4) (Probabilitat “a l’esquerra” de 4)
P ( X ≥ 1) (Probabilitat “a la dreta” de 1)
P (1 ≤ X ≤ 2) (Probabilitat “al mig” d’1 i 2)

_# En tots els casos, notar l'ús de sqrt (2).

Això és així perquè la comanda pnorm considera

la desviació estàndard (no la variància)_

paste ("P (X <= 4) =", pnorm (4,3, sqrt (2), lower.tail = TRUE))

[1] "P (X <= 4) = 0.760249938906523"

paste ("P (X> = 1) =", pnorm (1,3, sqrt (2), lower.tail = FALSE))

[1] "P (X> = 1) = 0.921350396474857"

paste ("P (1 <= X <= 2) =", pnorm (2,3, sqrt (2), lower.tail = TRUE) - pnorm (1,3, sqrt (2), lower.tail = TRUE ))

[1] "P (1 <= X <= 2) = 0.161100457568334"

Per tant,

P ( X ≤ 4) ≈ 0_._ 76
P ( X ≥ 1) ≈ 0_._ 92
P (1 ≤ X ≤ 2) ≈ 0_._ 16

De manera anàloga, podem trobar valors crítics que corresponen a una distribució Normal. És a dir, donada una probabilitat p , trobar el valor x tal que P ( X ≤ x ) = p (o P ( X ≥ x ) = p ).

En aquest cas, la comanda a utilitzar és qnorm.

De la mateixa manera que quan usem R per calcular les probabilitats, només ens hem de preocupar de:

Si busquem un valor x pel qual se’ns dóna la probabilitat p “a la seva esquerra”, P ( X ≤ x ) = p , hem d’utilitzar l’opció lower.tail = TRUEa la comanda qnorm
Si busquem un valor x pel qual se’ns dóna la probabilitat p “a la seva dreta”, P ( X ≥ x ) = p , hem d’utilitzar l’opció lower.tail = FALSE a la comanda qnorm

NORMAL_SIMUL

density

NormalFreqTable

1 20 25 22.5 1 0.0 1 0. ## Lower Upper Main Frequency Percentage CF CPF
2 25 30 27.5 2 0.0 3 0.
3 30 35 32.5 2 0.0 5 0.
4 35 40 37.5 8 0.1 13 0.
5 40 45 42.5 16 0.2 29 0.
6 45 50 47.5 33 0.3 62 0.
7 50 55 52.5 52 0.5 114 1.
8 55 60 57.5 100 1.0 214 2.
9 60 65 62.5 179 1.8 393 3.
10 65 70 67.5 264 2.6 657 6.
11 70 75 72.5 369 3.7 1026 10.
12 75 80 77.5 519 5.2 1545 15.
13 80 85 82.5 659 6.6 2204 22.
14 85 90 87.5 779 7.8 2983 29.
15 90 95 92.5 950 9.5 3933 39.
16 95 100 97.5 991 9.9 4924 49.
17 100 105 102.5 1000 10.0 5924 59.
18 105 110 107.5 911 9.1 6835 68.
19 110 115 112.5 857 8.6 7692 76.
20 115 120 117.5 707 7.1 8399 84.
21 120 125 122.5 545 5.5 8944 89.
22 125 130 127.5 389 3.9 9333 93.
23 130 135 132.5 282 2.8 9615 96.
24 135 140 137.5 167 1.7 9782 97.
25 140 145 142.5 101 1.0 9883 98.
26 145 150 147.5 53 0.5 9936 99.
27 150 155 152.5 33 0.3 9969 99.
28 155 160 157.5 14 0.1 9983 99.
29 160 165 162.5 10 0.1 9993 99.
30 165 170 167.5 3 0.0 9996 100.
31 170 175 172.5 2 0.0 9998 100.

L’histograma que representa les freqüències relatives d’aquesta variable és molt similar a la funció de densitat d’una variable aleatòria Normal.

A més, per als intervals [65 , 70] , [80 , 85) , [95 , 100) i [140 , 145), per considerar només alguns, podem verificar que les seves freqüències relatives són molt similars a les seves probabilitats segons una N (100 , 400). Per fer-ho, procedim com hem fet a la secció anterior.

paste ("P (65 <= Z <= 70) =", pnorm (70,100,20, lower.tail = TRUE) -pnorm (65,100,20, lower.tail = TRUE))

[1] "P (65 <= Z <= 70) = 0.026748044405041"

paste ("P (80 <= Z <= 85) =", pnorm (85,100,20, lower.tail = TRUE) -pnorm (80,100,20, lower.tail = TRUE))

[1] "P (80 <= Z <= 85) = 0.0679720984454112"

paste ("P (95 <= Z <= 100) =", pnorm (100,100,20, lower.tail = TRUE) -pnorm (95,100,20, lower.tail = TRUE))

[1] "P (95 <= Z <= 100) = 0.0987063256829237"

paste ("P (140 <= Z <= 145) =", pnorm (145,100,20, lower.tail = TRUE) -pnorm (140,100,20, lower.tail = TRUE))

[1] "P (140 <= Z <= 145) = 0.0105256592931345"

Comparant aquestes probabilitats (freqüències teòriques) amb les freqüències empíriques que hem obtingut de la nostra variable simulada NORMAL_SIMUL deixa clar que les diferències són molt petites.

Finalment, calculem la mitjana ( X ¯) i la variància ( S^2 ) d’aquesta variable NORMAL_SIMUL per verificar que aquests valors són consistents amb els esperats (teòrics) per una variable N (100 , 400). És a dir, comprovar que:

X ¯ = μ = 100
S^2 = σ^2 = 400

paste ("mitjana =", mean (NORMAL_SIMUL))

[1] "mitjana = 100.291477812344"

paste ("variància =", var (NORMAL_SIMUL))

[1] "variància = 396.011306412728"

Un cop més, observem que els valors empírics trobats en R (observats) són similars als esperats (teòrics).

A més, si calculem el coeficient d’asimetria ( CA ) i la curtosi (millor dit, exces de curtosi, EC ),

paste ("CA=", skewness (NORMAL_SIMUL))

[1] "CA= -0.0329708850503415"

paste ("EC =", kurtosis (NORMAL_SIMUL))

[1] "EC = 0.0483348149818221"

llavors observem que l’asimetria és gairebé zero, el que suggereix una distribució simètrica (com en una distribució Normal), i que l’excés de kurtosi també és zero. Això ha de ser així perquè el EC es mesura amb respecte a la distribució Normal.

Càlcul de probabilitats amb R Studio

Distribucions discretes

Binomial (X ∼ B(n, p)) Geomètrica (X ∼ G(p)) Poisson (X ∼ P (λ)) P (X = a) dbinom(a,n,p) dgeom(a,p) dpois(a,λ) P (X ≤ a) pbinom(a,n,p) pgeom(a,p) ppois(a,λ) P (X > a) pbinom(a,n,p,lower.tail=FALSE) pgeom(a,p,lower.tail=FALSE) ppois(a,λ,lower.tail=FALSE) a tal que P (X ≤ a) = q qbinom(q ,n,p) qgeom(q ,p) qpois(q ,λ)

Notar que

P (X < a) = P (X ≤ a) − P (X = a)
P (X ≥ a) = P (X > a) + P (X = a)

Distribucions continues

Recordar que en aquest cas, per qualsevol a, tenim que P (X = a) = 0.

Exponencial (X ∼ exp(λ)) Normal (X ∼ N (μ, σ^2 ) P (X ≤ a) = P (X < a) pexp(a,λ) pnorm(a,μ,σ) P (X > a) = P (X ≥ a) pexp(a,λ,lower.tail=FALSE) pnorm(a,μ,σ,lower.tail=FALSE) a tal que P (X ≤ a) = q qexp(q ,λ) qnorm(q ,μ,σ)

En tots els casos, P (a ≤ X ≤ b) = P (X ≤ b) − P (X < a)

estadistica practica, Apuntes de Estadística

Documentos relacionados

Vista previa parcial del texto

¡Descarga estadistica practica y más Apuntes en PDF de Estadística solo en Docsity!

Resum de les Pràctiques d’Introducció a R - Estadística

I

Dolors Màrquez i Xavier Vilà

Índex

1 Introducció

5.1 Taules de contingència

5.2 Taules de freqüències marginals

5.3 Taules de Freqüències Condicionals

6.1 Per a variables discretes

6.2 Per a variables contínues

9.1 Distribució Binomial

[1] "P (X = 4) = 0.205078125"

[1] "P (X <= 4) = 0.376953125"

[1] "P (10 <= X <11) = P (X = 10) = 0.0181327887078219"

9.4 Distribució Exponencial

[1] 13.4620459 3.8167066 0.1269993 9.1000963 5.8735626 2.

[7] 5.1419492 5.9495520 12.2992890 0.3816239 0.9347280 6.

[13] 2.1258920 2.1557812 16.7761813 5.0289301 4.4499821 2.

[19] 7.0291476 32.

[1] "P (1 <= X <= 2) = 0.148410707042343"

[1] "P (4 <= X <= 5) = 0.0814495229457792"

[1] "P (6 <= X <= 7) = 0.0486332029824078"

[1] "P (10 <= X <= 11) = 0.0245321248742788"

9.5 Distribució Nornal

Això és així perquè la comanda pnorm considera

la desviació estàndard (no la variància)_

[1] "P (X <= 4) = 0.760249938906523"

[1] "P (X> = 1) = 0.921350396474857"

[1] "P (1 <= X <= 2) = 0.161100457568334"

NORMAL_SIMUL

1 20 25 22.5 1 0.0 1 0. ## Lower Upper Main Frequency Percentage CF CPF

2 25 30 27.5 2 0.0 3 0.

3 30 35 32.5 2 0.0 5 0.

4 35 40 37.5 8 0.1 13 0.

5 40 45 42.5 16 0.2 29 0.

6 45 50 47.5 33 0.3 62 0.

7 50 55 52.5 52 0.5 114 1.

8 55 60 57.5 100 1.0 214 2.

9 60 65 62.5 179 1.8 393 3.

10 65 70 67.5 264 2.6 657 6.

11 70 75 72.5 369 3.7 1026 10.

12 75 80 77.5 519 5.2 1545 15.

13 80 85 82.5 659 6.6 2204 22.

14 85 90 87.5 779 7.8 2983 29.

15 90 95 92.5 950 9.5 3933 39.

16 95 100 97.5 991 9.9 4924 49.

17 100 105 102.5 1000 10.0 5924 59.

18 105 110 107.5 911 9.1 6835 68.

19 110 115 112.5 857 8.6 7692 76.

20 115 120 117.5 707 7.1 8399 84.

21 120 125 122.5 545 5.5 8944 89.

22 125 130 127.5 389 3.9 9333 93.

23 130 135 132.5 282 2.8 9615 96.

24 135 140 137.5 167 1.7 9782 97.

25 140 145 142.5 101 1.0 9883 98.

26 145 150 147.5 53 0.5 9936 99.

27 150 155 152.5 33 0.3 9969 99.

28 155 160 157.5 14 0.1 9983 99.

29 160 165 162.5 10 0.1 9993 99.

30 165 170 167.5 3 0.0 9996 100.

31 170 175 172.5 2 0.0 9998 100.

[1] "P (65 <= Z <= 70) = 0.026748044405041"

[1] "P (80 <= Z <= 85) = 0.0679720984454112"

[1] "P (95 <= Z <= 100) = 0.0987063256829237"

[1] "P (140 <= Z <= 145) = 0.0105256592931345"

[1] "mitjana = 100.291477812344"

[1] "variància = 396.011306412728"

[1] "CA= -0.0329708850503415"

[1] "EC = 0.0483348149818221"