




























































































Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Encuentra los documentos específicos para los exámenes de tu universidad
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Dossier de pràctiques d'estadísitca
Tipo: Resúmenes
1 / 101
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!





























































































Objectius:
L’Estadística és la ciència de les dades. La informació (dades) es pot obtenir de dues maneres: per observació i per disseny:
Qualsevol conjunt de dades conté informació sobre individus. La informació s’organitza en forma de variables.
La següent figura mostra esquemàticament la tipologia de les variables.
Exemple: La següent taula conté informació sobre els treballadors d’una empresa.
Els individus descrits són els treballadors (columna Nom ). Cada fila descriu un individu o cas. Cada columna conté els valors d’una variable per a cada individu. Hi ha 6 variables, però només té interés fer una anàlisi estadístic sobre 5 d’elles.
La variable Nom és de tipus categòrica nominal que fa el paper de codi identificador de l’individu (fila), no té interés analitzar-la estadísticament, només serveix per a identificar l’individu. La variable Triennis és una variable numèrica discreta, la variable Sexe és una variable categòrica nominal, la variable Estudis és una variable categòrica ordinal, la variable Salari és una variable numèrica contínua i la variable Escala salarial és una variable categòrica, possiblement ordinal.
La distribució d’una variable ens informa dels valors que pren i de la freqüència de cadascun d’aquests valors. Quan estudiem la freqüència d’un valor ens pot interessar estudiar:
$ ampl : num 176 176 176 176 161 161 161 161 163 163 ... $ altu : num 140 140 140 140 135 135 135 135 140 140 ... $ male : num 504 504 504 504 400 400 400 400 500 500 ... $ pes : num 1200 1320 1430 1300 940 970 970 1000 1090 1100 ... $ npla : num 5 5 5 5 5 5 5 5 5 5 ... $ vmax : num 210 200 237 230 176 181 190 208 180 190 ... $ acce : num 9.2 10.8 7.7 7.9 10. ... $ conpon: num 12.1 7.6 11.3 12.3 8. ... $ costkm: num 17.5 9.6 16.8 17.7 13. ... $ preu : num 3120 3967 5562 4800 1587 ... $ mida : Factor w/ 3 levels "G","M","P": 2 2 2 2 2 2 2 2 2 2 ...
D’entrada ens centrarem en l’estudi a nivell descriptiu de la variable tipus.
1.3.1 Tabulació de les dades
El que farem primerament és una taula de freqüències absolutes dels valors (en aquest cas categories) de la variable tipus. Guardem la taula en un objecte anomenat tab per utilitzar-ho després.
tab <- table (cotxes $ tipus) tab
Podem obtenir les freqüències relatives simplement dividint les freqüències absolutes obtingudes amb table pel nombre d’observacions, 490 en aquest cas, que és la longitud ( length ) del vector de valors de la variable; és a dir, la mida de la mostra.
tab /length (cotxes $ tipus)
O si ho volem en percentatges,
tab /length (cotxes $ tipus) ***** 100
Tot observant detalladament els resultats obtinguts responeu les següents preguntes:
1.3.2 Representacions gràfiques
Representarem la variable tipus amb un diagrama de sectors i un diagrama de barres utilitzant les funcions pie i barplot. Noteu que aquestes funcions no s’apliquen directament sobre la variable tipus si no que s’apliquen sobre l’objecte table:
pie (tab)
barplot (tab,col="red")
Aquests gràfics es poden personalitzar una mica a través dels arguments de les funcions (podeu escriure i executar a la finestra d’instruccions ?pie o ?barplot per tal de modificar les opcions per defecte). També hi ha paquets de R especialitzats en gràfics amb funcionalitats més avançades. Per exemple els paquets lattice i ggplot2. Aquest últim és un dels més populars avui en dia i es poden trobar molts tutorials a Internet.
Un gràfic que té molta utilitat en el camp industrial és el gràfic de Pareto. Aquest gràfic consisteix en un
opcions per a millorar la figura resultant: es posa un títol al gràfic main="Mides dels vehicles", s’hi posa l’etiqueta Freqüència ylab = "Freqüència" a l’eix de les Y, i finalment, es posa color a les barres amb la funciò rainbow.
Anem a fer ús de la comanda pareto.chart per a fer un gràfic de Pareto de les principals causes dels defectes esdevinguts en la nostra producció resumides en la següent taula:
Definirem primer una taula amb els valors de les freqüències; a continuació, donarem nom als valors de la taula i finalment executem la funció pareto.chart.
causa <- c (23, 12, 7, 76, 34, 12, 6, 5) names (causa) <- c ('Matèria primera','Operari','Muntatge','Tornejat','Fresatge','Polit', 'Zincat','Acabat') pareto.chart (causa, main = "Causes dels defectes", ylab = "Freqüència")
Pareto chart analysis for causa Frequency Cum.Freq. Percentage Cum.Percent. Tornejat 76.0 76.0 43.4 43. Fresatge 34.0 110.0 19.4 62. Matèria primera 23.0 133.0 13.1 76. Operari 12.0 145.0 6.9 82. Polit 12.0 157.0 6.9 89. Muntatge 7.0 164.0 4.0 93. Zincat 6.0 170.0 3.4 97. Acabat 5.0 175.0 2.9 100.
El més usual en l’anàlisi exploratòria de variables numèriques és començar pels gràfics i després afegir un resum numèric de les dades.
D’entrada ens centrarem en l’estudi a nivell descriptiu de la variable consum ponderat conpon.
h
$breaks [1] 4 6 8 10 12 14 16 18 20
$counts [1] 23 129 189 85 31 20 11 2
$density [1] 0.023 0.132 0.193 0.087 0.032 0.020 0.011 0.
$mids [1] 5 7 9 11 13 15 17 19
$xname [1] "cotxes$conpon"
$equidist [1] TRUE
attr(,"class") [1] "histogram"
Anem a interpretar l’histograma obtingut:
El perfil de l’histograma ens dona informació de com es distribueixen les dades. Podem veure cap on tenim les freqüències més altes, si és simètric o no té simetria (en aquest cas direm que té biaix o assimetria cap el costat on s’escampen més les dades). També, en certs casos, podem detectar valors atípics, és a dir, valors que quedin aïllats de la resta per ser o bé molt petits o bé molt grans.
Observem el perfil de l’histograma.
1.4.2 Anàlisi numèrica
Realitzarem ara una anàlisi numèrica de la variable conpon que ens proporcioni els estadístics descriptius més habituals: mitjana , desviació estàndard , quantils ,...
1.4.3 Anàlisi numèrica: centre
La descripció d’una variable numèrica x que en una mostra de mida n pren els valors x 1 , x 2 ,... , xn ha d’incloure mesures de centre i mesures de dispersió.
La mesura de centre més comuna és la mitjana , que es defineix com:
x ¯ =
x 1 + x 2 +... + xn n
∑ n i =1 xi n
Una altra mesura de centre habitual és la mediana. La mediana és el punt mitjà de la distribució quan les dades estan ordenades de més petites a més grans. Per a calcular-la:
Per exemple, de les n = 10 dades: 3 , 7 , 5 , 6 , 8 , 4 , 2 , 3 , 9 , 10 obtenim que
dades <- c (3,7,5,6,8,4,2,3,9,10) mean (dades)
[1] 5.
median (dades)
[1] 5.
La mitjana és molt sensible a les dades extremes o atípiques, en canvi, la mediana no ho és. En una distribució amb biaix o asimètrica, la mitjana queda desplaçada cap al costat de l’assimetria (cua més llarga de l’histograma). En una distribució simètrica, la mediana i la mitjana prenen valors semblants.
quantile (cotxes $ conpon, probs = 0.33)
33%
NOTA : Les calculadores o altres paquets estadístics poden fer servir altres definicions similars per calcular els percentils i proporcionar valors aproximats però diferents als calculats per RStudio.
Una mesura més comuna i adequada per mesurar la dispersió és la desviació tipus o desviació típica , que mesura, en terme mig, quina és la separació de les dades de la mostra en relació al valor de la mitjana.
Es defineix la variància d’una mostra de dades com la suma dels quadrats de les diferències de les observacions respecte a la mitjana dividit per n − 1 :
s^2 x =
∑ n i =1( xi^ −^ x ¯)
2 n − 1
∑ n i =1 x
2 i )^ −^ n ¯ x 2 n − 1
var (cotxes $ conpon)
[1] 6.
La desviació típica o tipus és l’arrel quadrada de la variància:
sx =
s^2 x =
n i =1( xi^ −^ x ¯) 2 n − 1
sd (cotxes $ conpon)
[1] 2.
La desviació és igual a 0 només quan no hi ha dispersió; això només passa quan totes les observacions són iguals. En cas contrari, sempre és major que 0. La desviació té les mateixes unitats que la variable d’estudi i per tant és més adequada que la variància per a la interpretació, on les unitats són al quadrat. La desviació, com la mitjana, no és robusta davant la presència de dades extremes, és a dir, es veu molt influenciada per aquestes.
La funció summary és útil per a produir un resum estadístic de una variable:
summary (cotxes $ conpon)
Min. 1st Qu. Median Mean 3rd Qu. Max. 4.7 7.9 8.9 9.4 10.6 19.
En relació als resultats obtinguts sobre la variable conpon :
1.4.5 Altres representacions gràfiques
Vegem una altra gràfica per a variables numèriques que habitualment és més informativa que l’histograma: el diagrama de caixa ( boxplot ).
Amb la informació dels quartils i la mediana es pot construir un gràfic de gran importància: el diagrama de caixa, que dóna una descripció clara de la forma de la distribució i, a més, de l’existència de valors atípics. Anem a veure el procés de construcció d’un diagrama de caixa:
Es consideren dades atípiques les dades per sota de Q 1 − 1_._ 5 AIQ i per sobre de Q 3 + 1_._ 5 AIQ i, si n’hi ha, en el diagrama de caixa es representen amb un símbol, habitualment cercles.
Fem un gràfic de caixa bàsic de la variable conpon :
boxplot (cotxes $ conpon)
Quan volem analitzar dues variables, és a dir, ens interessen estudiar-les conjuntament, haurem de distingir principalment tres casos d’acord amb la tipologia de les dades. Aquests tres casos són:
En cadascun d’aquests casos els gràfics i els estadístics numèrics s’adequaran. Les eines que utilitzarem són:
Carreguem de nou l’arxiu de dades cotxes.rda. Per a carregar el fitxer cotxes.rda (fitxer amb extensió .rda en aquest cas) o bé fem clic en la icona d’obrir fitxers de l’àrea de l’entorn de treball Environment o bé executem la funció load en la consola (o un script que hàgim obert i usem per recopliar totes les comandes d’aquesta pràctica):
load ("cotxes.rda")
2.2.1 Taules de contingència
Quan es vol estudiar conjuntament dues variables categòriques el procediment més usual és mitjançant una taula de contingència o de doble entrada. Anem a fer-ho amb les variables categòriques mida i tipus.
Per tal de fer la taula de doble entrada podem utilitzar o bé la funció table com en el case univariant o bé la funció xtabs (variables introduïdes en format fórmula i resultat incloent els noms de les variables):
table (cotxes $ mida,cotxes $ tipus)
# Alternativament, xtabs ( ~ mida + tipus, data = cotxes)
tipus mida D ND G 5 27 M 47 359 P 0 52
La variable introduïda en la primera posició és la variable filera de la taula ( mida ), i la segona és la variable columna ( tipus ). També podem tenir una representació gràfica de la taula aplicant plot a la taula trasposada ( t(taula) ) per a què el gràfic coincideixi amb la sortida numèrica anterior. Executem les comandes:
taula <- table (cotxes $ mida,cotxes $ tipus) plot ( t (taula), main = "Tipus versus mida", ylab = "Mida ", xlab = "Tipus", col = rainbow (3))
D ND G
M
P
Si volem els resultats com percentatges del total de dades ( n = 490) podem dividir pel nombre d’observacions (490 files, rows ) o nombre de files de la matriu de dades cotxes.
table (cotxes $ mida,cotxes $ tipus) /nrow (cotxes)
Podem utilitzar la funció round per controlar el nombre de decimals dels resultats en RStudio: tau <- table (cotxes $ mida,cotxes $ tipus) /nrow (cotxes) round (tau,4)
La funció addmargins inclou les distribucions relatives univariants ( marginals ) de cada una de les variables categòriques: