Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Dossier Pràctiques estadística, Resúmenes de Estadística Aplicada

Dossier de pràctiques d'estadísitca

Tipo: Resúmenes

2023/2024

Subido el 16/12/2025

oriol-bassols-ammetller-1
oriol-bassols-ammetller-1 🇪🇸

1 documento

1 / 101

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Dossier Pràctiques de Estadística amb R
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga Dossier Pràctiques estadística y más Resúmenes en PDF de Estadística Aplicada solo en Docsity!

Dossier Pràctiques de Estadística amb R

Taula de continguts

1 Anàlisi descriptiva o exploratòria de dades I

Objectius:

  1. Presentar les diferents tipologies de variables i les seves característiques.
  2. Aprendre a descriure estadísticament una variable tant a nivell gràfic com a nivell numèric.

1.1 Introducció

L’Estadística és la ciència de les dades. La informació (dades) es pot obtenir de dues maneres: per observació i per disseny:

  • Estudi observacional: l’observació és passiva. Els estudis observacionals consisteixen en observar, sense interferir, el procés o fenomen d’interès, i prendre nota dels valors de les variables que interessa analitzar. Exemples: enquestes d’opinió, mesures d’objectes o persones...
  • Estudi experimental o disseny: l’experimentació és activa. En un experiment controlat es fixen i controlen els valors de les variables influents i es pren nota dels valors de les variables que interessa analitza. Exemples: efecte de medicaments, proves per mesurar la resistència de certs materials...

Qualsevol conjunt de dades conté informació sobre individus. La informació s’organitza en forma de variables.

  • Individus: són els objectes descrits pel conjunt de dades. Poden ser persones, animals o objectes.
  • Variables: una variable és qualsevol característica dels individus que volem conèixer i que mesurarem. Pot prendre diferents valors per a diferents individus. Una forma de classificar-les és: - Categòriques Una variable és categòrica (o qualitativa o nominal) si informa sobre el grup o categoria al que pertany l’individu. ∗ Nominals – categories entre les que no es poden establir relacions d’ordre. Tipologia de producte, color...Ordinals – categories que poden ser ordenades segons la seva magnitud. Escales d’abundància, tipus de magnitud d’un defecte...Binàries – categories que són dicotòmiques. Sexe, presència-absència... - Numèriques Una variable és numèrica o quantitativa si pren valors numèrics, amb els quals té sentit fer operacions aritmètiques. ∗ Contínues – poden agafar infinits valors. Longituds, pesos, temperatures...Discretes – només poden agafar un número fix de valors i mai valors intermedis entre aquests. Nombre de defectes, unitats reprocessades...Mixtes – és contínua excepte en un conjunt petit de punts on és discreta. Quantitat de pluja recollida en un observatori per dia... - Multivariants – poden ser juxtaposicions o composicions de variables ∗ Homogènies – són la juxtaposició de variables del mateix tipus. Dimensions en mm d’una peça. Nivells de contaminació per substàncies químiquesHeterogènies – són la juxtaposició de variables de diferents tipus. Descripció d’un vehicle (combustible, consum, velocitat màx., longitud, pes... ). Caracterització d’un estany (pH, conductivitat, profunditat, nivell de contaminació... )Composicionals – són variables multivariants les components dels quals es caracteritzen per tenir suma constant, donat que recullen la participació relativa que cada component té dins el total. Composició d’un contaminant, composició d’un sòl, d’una producció, composició dels tipus de residus...

La següent figura mostra esquemàticament la tipologia de les variables.

Exemple: La següent taula conté informació sobre els treballadors d’una empresa.

Els individus descrits són els treballadors (columna Nom ). Cada fila descriu un individu o cas. Cada columna conté els valors d’una variable per a cada individu. Hi ha 6 variables, però només té interés fer una anàlisi estadístic sobre 5 d’elles.

La variable Nom és de tipus categòrica nominal que fa el paper de codi identificador de l’individu (fila), no té interés analitzar-la estadísticament, només serveix per a identificar l’individu. La variable Triennis és una variable numèrica discreta, la variable Sexe és una variable categòrica nominal, la variable Estudis és una variable categòrica ordinal, la variable Salari és una variable numèrica contínua i la variable Escala salarial és una variable categòrica, possiblement ordinal.

La distribució d’una variable ens informa dels valors que pren i de la freqüència de cadascun d’aquests valors. Quan estudiem la freqüència d’un valor ens pot interessar estudiar:

  • Freqüència absoluta: Nombre de vegades que observem un valor. Comptatge d’esdeveniments del valor.
  • Freqüència relativa o tant per u : Nombre de vegades que observem un valor en relació a les observacions totals. És la freqüència absoluta dividida pel nombre d’observacions fetes. Sempre serà un valor entre 0 i 1.
  • Freqüència percentual o percentatge: Expressió de la freqüència relativa en tant per cent. Sempre serà un valor entre 0 i 100.

$ ampl : num 176 176 176 176 161 161 161 161 163 163 ... $ altu : num 140 140 140 140 135 135 135 135 140 140 ... $ male : num 504 504 504 504 400 400 400 400 500 500 ... $ pes : num 1200 1320 1430 1300 940 970 970 1000 1090 1100 ... $ npla : num 5 5 5 5 5 5 5 5 5 5 ... $ vmax : num 210 200 237 230 176 181 190 208 180 190 ... $ acce : num 9.2 10.8 7.7 7.9 10. ... $ conpon: num 12.1 7.6 11.3 12.3 8. ... $ costkm: num 17.5 9.6 16.8 17.7 13. ... $ preu : num 3120 3967 5562 4800 1587 ... $ mida : Factor w/ 3 levels "G","M","P": 2 2 2 2 2 2 2 2 2 2 ...

1.3 Estudi de variables de tipus factor o categòrica

D’entrada ens centrarem en l’estudi a nivell descriptiu de la variable tipus.

1.3.1 Tabulació de les dades

El que farem primerament és una taula de freqüències absolutes dels valors (en aquest cas categories) de la variable tipus. Guardem la taula en un objecte anomenat tab per utilitzar-ho després.

tab <- table (cotxes $ tipus) tab

D ND

Podem obtenir les freqüències relatives simplement dividint les freqüències absolutes obtingudes amb table pel nombre d’observacions, 490 en aquest cas, que és la longitud ( length ) del vector de valors de la variable; és a dir, la mida de la mostra.

tab /length (cotxes $ tipus)

D ND

O si ho volem en percentatges,

tab /length (cotxes $ tipus) ***** 100

D ND

Tot observant detalladament els resultats obtinguts responeu les següents preguntes:

  • Quantes dades corresponen a la categoria ‘dièsel D’? _______. Quin percentatge representen? _______.
  • Quin percentatge de cotxes de gasolina (No Diesel) tenim? _______. Quina és la seva freqüència absoluta? _______.
  • Quina de les dues categories és la modal? _______. S’anomena categoria modal o moda al valor que la variable pren amb major freqüència. Si només hi ha una categoria de major freqüència, la distribució s’anomena distribució unimodal.

1.3.2 Representacions gràfiques

Representarem la variable tipus amb un diagrama de sectors i un diagrama de barres utilitzant les funcions pie i barplot. Noteu que aquestes funcions no s’apliquen directament sobre la variable tipus si no que s’apliquen sobre l’objecte table:

pie (tab)

D

ND

barplot (tab,col="red")

D ND

Aquests gràfics es poden personalitzar una mica a través dels arguments de les funcions (podeu escriure i executar a la finestra d’instruccions ?pie o ?barplot per tal de modificar les opcions per defecte). També hi ha paquets de R especialitzats en gràfics amb funcionalitats més avançades. Per exemple els paquets lattice i ggplot2. Aquest últim és un dels més populars avui en dia i es poden trobar molts tutorials a Internet.

  • Quines són les característiques principals del diagrama de sectors? ________________.
  • Quines són les característiques principals del diagrama de barres? ________________.

Un gràfic que té molta utilitat en el camp industrial és el gràfic de Pareto. Aquest gràfic consisteix en un

opcions per a millorar la figura resultant: es posa un títol al gràfic main="Mides dels vehicles", s’hi posa l’etiqueta Freqüència ylab = "Freqüència" a l’eix de les Y, i finalment, es posa color a les barres amb la funciò rainbow.

Anem a fer ús de la comanda pareto.chart per a fer un gràfic de Pareto de les principals causes dels defectes esdevinguts en la nostra producció resumides en la següent taula:

Definirem primer una taula amb els valors de les freqüències; a continuació, donarem nom als valors de la taula i finalment executem la funció pareto.chart.

causa <- c (23, 12, 7, 76, 34, 12, 6, 5) names (causa) <- c ('Matèria primera','Operari','Muntatge','Tornejat','Fresatge','Polit', 'Zincat','Acabat') pareto.chart (causa, main = "Causes dels defectes", ylab = "Freqüència")

TornejatFresatge

Matèria primera

Operari

Polit

Muntatge

ZincatAcabat

Freqüència

Causes dels defectes

Cumulative Percentage

Pareto chart analysis for causa Frequency Cum.Freq. Percentage Cum.Percent. Tornejat 76.0 76.0 43.4 43. Fresatge 34.0 110.0 19.4 62. Matèria primera 23.0 133.0 13.1 76. Operari 12.0 145.0 6.9 82. Polit 12.0 157.0 6.9 89. Muntatge 7.0 164.0 4.0 93. Zincat 6.0 170.0 3.4 97. Acabat 5.0 175.0 2.9 100.

  • Quina és la causa més freqüent? ___________. Quina freqüència absoluta té? _____.
  • Si solucionem les tres causes més freqüents, quin percentatge d’errors haurem solucionat? ______.
  • Quantes causes no arriben al 5%? ________. Quines són? ____________________ ______________.

1.4 Estudi de variable numèriques

El més usual en l’anàlisi exploratòria de variables numèriques és començar pels gràfics i després afegir un resum numèric de les dades.

D’entrada ens centrarem en l’estudi a nivell descriptiu de la variable consum ponderat conpon.

Histograma

Consum ponderat

Freqüència absoluta

h

$breaks [1] 4 6 8 10 12 14 16 18 20

$counts [1] 23 129 189 85 31 20 11 2

$density [1] 0.023 0.132 0.193 0.087 0.032 0.020 0.011 0.

$mids [1] 5 7 9 11 13 15 17 19

$xname [1] "cotxes$conpon"

$equidist [1] TRUE

attr(,"class") [1] "histogram"

Anem a interpretar l’histograma obtingut:

  • Quants intervals de classe ens ha fet? _____________________.
  • Quins són els límits del primer interval de classe? ____________________.
  • Quin és l’interval de classe modal? ____________________.

El perfil de l’histograma ens dona informació de com es distribueixen les dades. Podem veure cap on tenim les freqüències més altes, si és simètric o no té simetria (en aquest cas direm que té biaix o assimetria cap el costat on s’escampen més les dades). També, en certs casos, podem detectar valors atípics, és a dir, valors que quedin aïllats de la resta per ser o bé molt petits o bé molt grans.

Observem el perfil de l’histograma.

  • Creieu que es pot considerar una distribució de freqüències ‘simètrica’? ____________. Cap a on té el biaix? ____________.
  • És una distribució unimodal? ____________.
  • Hi observeu valors atípics? _______. Quins? __________________________.

1.4.2 Anàlisi numèrica

Realitzarem ara una anàlisi numèrica de la variable conpon que ens proporcioni els estadístics descriptius més habituals: mitjana , desviació estàndard , quantils ,...

1.4.3 Anàlisi numèrica: centre

La descripció d’una variable numèrica x que en una mostra de mida n pren els valors x 1 , x 2 ,... , xn ha d’incloure mesures de centre i mesures de dispersió.

La mesura de centre més comuna és la mitjana , que es defineix com:

x ¯ =

x 1 + x 2 +... + xn n

n i =1 xi n

Una altra mesura de centre habitual és la mediana. La mediana és el punt mitjà de la distribució quan les dades estan ordenades de més petites a més grans. Per a calcular-la:

  1. Ordenem les dades.
  2. Si el nombre d’observacions és senar, llavors, la mediana és l’observació central, la dada situada en la posició ( n + 1) / 2 des del començament de la llista.
  3. Si el nombre d’observacions és parell, la mediana és la mitjana de les dues observacions centrals, observacions situades en les posicions n/ 2 i ( n + 1) / 2.

Per exemple, de les n = 10 dades: 3 , 7 , 5 , 6 , 8 , 4 , 2 , 3 , 9 , 10 obtenim que

dades <- c (3,7,5,6,8,4,2,3,9,10) mean (dades)

[1] 5.

median (dades)

[1] 5.

  • Indiqueu el valor de la mitjana________ i de la mediana___________.

La mitjana és molt sensible a les dades extremes o atípiques, en canvi, la mediana no ho és. En una distribució amb biaix o asimètrica, la mitjana queda desplaçada cap al costat de l’assimetria (cua més llarga de l’histograma). En una distribució simètrica, la mediana i la mitjana prenen valors semblants.

  • Hi ha diferències o són semblants la mitjana i la mediana anteriors? ________________.

quantile (cotxes $ conpon, probs = 0.33)

33%

NOTA : Les calculadores o altres paquets estadístics poden fer servir altres definicions similars per calcular els percentils i proporcionar valors aproximats però diferents als calculats per RStudio.

Una mesura més comuna i adequada per mesurar la dispersió és la desviació tipus o desviació típica , que mesura, en terme mig, quina és la separació de les dades de la mostra en relació al valor de la mitjana.

Es defineix la variància d’una mostra de dades com la suma dels quadrats de les diferències de les observacions respecte a la mitjana dividit per n − 1 :

s^2 x =

n i =1( xi^ −^ x ¯)

2 n − 1

n i =1 x

2 i )^ −^ n ¯ x 2 n − 1

var (cotxes $ conpon)

[1] 6.

La desviació típica o tipus és l’arrel quadrada de la variància:

sx =

s^2 x =

n i =1( xi^ −^ x ¯) 2 n − 1

sd (cotxes $ conpon)

[1] 2.

La desviació és igual a 0 només quan no hi ha dispersió; això només passa quan totes les observacions són iguals. En cas contrari, sempre és major que 0. La desviació té les mateixes unitats que la variable d’estudi i per tant és més adequada que la variància per a la interpretació, on les unitats són al quadrat. La desviació, com la mitjana, no és robusta davant la presència de dades extremes, és a dir, es veu molt influenciada per aquestes.

La funció summary és útil per a produir un resum estadístic de una variable:

summary (cotxes $ conpon)

Min. 1st Qu. Median Mean 3rd Qu. Max. 4.7 7.9 8.9 9.4 10.6 19.

En relació als resultats obtinguts sobre la variable conpon :

  • Indiqueu quantes dades tenim ( n )______, i si n’hi ha de mancants (missing o NA)________.
  • Indiqueu el valor de la dada mínima (0%)________, la dada màxima (100%)________ i l’amplitiud de dades ___________.
  • Indiqueu el valor de la mitjana (mean)________ i la mediana (50%) ________. Observeu que la mitjana és superior a la mediana. Per què? __________________.
  • Indiqueu el valor de la desviació tipus (sd)____________.
  • Indiqueu el valor del 1r quartil (25%)________, el 3r quartil (75%)________ i l’amplitud interquartílica (AIQ o IQR) ________.

1.4.5 Altres representacions gràfiques

Vegem una altra gràfica per a variables numèriques que habitualment és més informativa que l’histograma: el diagrama de caixa ( boxplot ).

Amb la informació dels quartils i la mediana es pot construir un gràfic de gran importància: el diagrama de caixa, que dóna una descripció clara de la forma de la distribució i, a més, de l’existència de valors atípics. Anem a veure el procés de construcció d’un diagrama de caixa:

  1. Sobre un eix etiquetat es fa una caixa, on els costats de la caixa es corresponen als quartils.
  2. Dividim amb un segment interior la caixa, a l’alçada de la mediana.
  3. Afegim a cada costat de la caixa un segment.
  4. Per a calcular els extrems dels segments es calcula el amplitud interquartílica AIQ = Q 3 − Q 1. Els límits són: - per la part baixa la mínima dada superior a Q 1 − 1_._ 5 AIQ - per la part alta la màxima dada inferior a Q 3 + 1_._ 5 AIQ

Es consideren dades atípiques les dades per sota de Q 1 − 1_._ 5 AIQ i per sobre de Q 3 + 1_._ 5 AIQ i, si n’hi ha, en el diagrama de caixa es representen amb un símbol, habitualment cercles.

Fem un gràfic de caixa bàsic de la variable conpon :

boxplot (cotxes $ conpon)

2.1 Introducció

Quan volem analitzar dues variables, és a dir, ens interessen estudiar-les conjuntament, haurem de distingir principalment tres casos d’acord amb la tipologia de les dades. Aquests tres casos són:

  1. Estudi de dues variables categòriques
  2. Estudi d’una variable categòrica i una variable numèrica.
  3. Estudi de dues variables numèriques.

En cadascun d’aquests casos els gràfics i els estadístics numèrics s’adequaran. Les eines que utilitzarem són:

2.2 Estudi conjunt de dues variables categòriques

Carreguem de nou l’arxiu de dades cotxes.rda. Per a carregar el fitxer cotxes.rda (fitxer amb extensió .rda en aquest cas) o bé fem clic en la icona d’obrir fitxers de l’àrea de l’entorn de treball Environment o bé executem la funció load en la consola (o un script que hàgim obert i usem per recopliar totes les comandes d’aquesta pràctica):

load ("cotxes.rda")

2.2.1 Taules de contingència

Quan es vol estudiar conjuntament dues variables categòriques el procediment més usual és mitjançant una taula de contingència o de doble entrada. Anem a fer-ho amb les variables categòriques mida i tipus.

Per tal de fer la taula de doble entrada podem utilitzar o bé la funció table com en el case univariant o bé la funció xtabs (variables introduïdes en format fórmula i resultat incloent els noms de les variables):

table (cotxes $ mida,cotxes $ tipus)

D ND
G 5 27
M 47 359
P 0 52

# Alternativament, xtabs ( ~ mida + tipus, data = cotxes)

tipus mida D ND G 5 27 M 47 359 P 0 52

La variable introduïda en la primera posició és la variable filera de la taula ( mida ), i la segona és la variable columna ( tipus ). També podem tenir una representació gràfica de la taula aplicant plot a la taula trasposada ( t(taula) ) per a què el gràfic coincideixi amb la sortida numèrica anterior. Executem les comandes:

taula <- table (cotxes $ mida,cotxes $ tipus) plot ( t (taula), main = "Tipus versus mida", ylab = "Mida ", xlab = "Tipus", col = rainbow (3))

Tipus versus mida

Tipus

Mida

D ND G

M

P

Si volem els resultats com percentatges del total de dades ( n = 490) podem dividir pel nombre d’observacions (490 files, rows ) o nombre de files de la matriu de dades cotxes.

table (cotxes $ mida,cotxes $ tipus) /nrow (cotxes)

D ND
G 0.010 0.
M 0.096 0.
P 0.000 0.

Podem utilitzar la funció round per controlar el nombre de decimals dels resultats en RStudio: tau <- table (cotxes $ mida,cotxes $ tipus) /nrow (cotxes) round (tau,4)

D ND
G 0.010 0.
M 0.096 0.
P 0.000 0.

La funció addmargins inclou les distribucions relatives univariants ( marginals ) de cada una de les variables categòriques: