Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica 1 con Rstudio, Esercizi di Statistica

Statistica descrittiva con l’ausilio del software statistico Rstudio

Tipologia: Esercizi

2022/2023

Caricato il 30/11/2025

Giovanni89999
Giovanni89999 🇮🇹

3 documenti

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Analisi marginale:
Le frequenze:
Dato un carattere X esso sarà distribuito per ni frequenze assolute; le
frequenze assolute danno origine alle relative, relative cumulate che possono
tornare utili nello studio dei caratteri; a tal fine sarà utile porle in tabella:
ni <- table(X)
fi <- prop.table(ni)
fic <- cumsum(fi)
A tal fine sarà utile porle in tabella
tavole.delle.frequenze <- cbind(ni, fi, fic)
misure di tendenza centrale:
Caratteri qualitativi non ordinabili: osservo dalla tavola.delle.frequenze la
modalità con la ni maggiore; Moda.
Caratteri qualitativi ordinabili: osservo dalla tavola.delle.frequenze la modalità
con la fic>0.50
Caratteri quantitativi discreti: osservo dalla tavola.delle.frequenze la modalità
con la fic>0.50;
oppure ne calcolo la media pesata:
k <- n.di modalità
X <- 1:k
Mx<-weighted.mean(X, ni)
Caratteri quantitativi continui: se ne può misurare la media aritmetica:
Mx <- mean(X)
Mx<- weighted.mean(xc, ni) ; nel caso di una distribuzione di frequenze in
classi.
Misure di variabilità:
Caratteri qualitativi: coefficiente di gini:
G <- 1 – sum(fi^2)
G.norm <- G*(k/(K-1))
Caratteri quantitativi discreti: coefficiente di diversità
# indice di variabilità per quantitativi discreti:
# sequenza delle modalità
X <- 1:k
#prodotto esterno tra vettori |Xi-Xj|
X.tbl<-outer(X, X, FUN = "-")
X.Tbl<-abs(X.tbl)
# prodotto esterno tra vettori (ni*nj)
ni.tbl<-outer(ni, ni, FUN = "*")
#prodotto tra |xi-xj|*(ni*nj)
X.Tbl*ni.tbl
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Statistica 1 con Rstudio e più Esercizi in PDF di Statistica solo su Docsity!

Analisi marginale: Le frequenze: Dato un carattere X esso sarà distribuito per ni frequenze assolute; le frequenze assolute danno origine alle relative, relative cumulate che possono tornare utili nello studio dei caratteri; a tal fine sarà utile porle in tabella: ni <- table(X) fi <- prop.table(ni) fic <- cumsum(fi) A tal fine sarà utile porle in tabella tavole.delle.frequenze <- cbind(ni, fi, fic) misure di tendenza centrale: Caratteri qualitativi non ordinabili: osservo dalla tavola.delle.frequenze la modalità con la ni maggiore; Moda. Caratteri qualitativi ordinabili: osservo dalla tavola.delle.frequenze la modalità con la fic>0. Caratteri quantitativi discreti: osservo dalla tavola.delle.frequenze la modalità con la fic>0.50; oppure ne calcolo la media pesata: k <- n.di modalità X <- 1:k Mx<-weighted.mean(X, ni) Caratteri quantitativi continui: se ne può misurare la media aritmetica: Mx <- mean(X) Mx<- weighted.mean(xc, ni) ; nel caso di una distribuzione di frequenze in classi. Misure di variabilità: Caratteri qualitativi: coefficiente di gini: G <- 1 – sum(fi^2) G.norm <- G*(k/(K-1)) Caratteri quantitativi discreti: coefficiente di diversità

indice di variabilità per quantitativi discreti:

sequenza delle modalità

X <- 1:k #prodotto esterno tra vettori |Xi-Xj| X.tbl<-outer(X, X, FUN = "-") X.Tbl<-abs(X.tbl)

prodotto esterno tra vettori (ni*nj)

ni.tbl<-outer(ni, ni, FUN = "") #prodotto tra |xi-xj|(ninj) X.Tblni.tbl

sommo la matrice sopra calcolata e Calcolo indice di variabilita per caratteri

discreti: rD1 <- sum(X.Tbl*ni.tbl)/ sum(ni)

normalizzazione

C.div<-rD1.1/(My1*2) Caratteri quantitativi continui; Varianza, scarto quadratico e normalizzazione:

per procedere al calcolo del’ indice di variabilità normalizzato dobbiamo

calcolare le seguenti

quantità:

Mx2<-mean(X^2) ; caso di C.Q.D Mx2 <- weighted.mean<-(X, ni) S2x <- Mx2 – Mx^ Sx <- sqrt(S2) C.V <- Sx/Mx C.V;

Analisi probabilistica:

Variabile binomiale : necessarie Mx e n

calcolo delle probabilità

pi<-Mx/n pr <- dbinom(0:4, size = n, prob = pi) Pr <- c(pr, 1 - sum(pr)) round(Pr, 4) Variabile poisson : necessaria Mx

calcolo delle probabilità:

pr <- dpois(0:k-1, lambda = m) Pr <- c(pr, 1 - sum(pr)) Round(Pr, 4) Variabile gaussiana: necessarie Mx, Sx

Parte 1

Espansione degli estremi della variabile:

X <- c(-Inf, n2 ,…, ni, …,n-1, +Inf)

Riporto alla variabile Z

Z <- (X - Mx) / Sx round(Z, 2)

applico la funzione di ripartizione

Fr <- pnorm(Z) round(Fr, 4)

Calcolo la densita di probabilità:

Dpr <- diff(Fr) round(Dfr, 4)

verifico la bontà di adattamento:

n.s <- n * Dfr round(n.s, 2) X2 <- (n - n.s)^2 / n.s Bontà di adattamento uguale in tutti e tre i modelli

bontà di adattamento:

nis <- n * Pr round(nis, 2) X2 <-sum((ni - nis)^2 / nis)

Individuate le coordinate della cella perno si moltiplica la frequenza assoluta

osservata^ n^ ij per la sommatoria delle frequenze assolute contenute nella

sottomatrice sinistra, ripetendo il calcolo finché possibile in tabella e

sommando i risultati si ottiene^ N^ s.

Procedimento analogo per^ N^ d , moltiplicando la frequenza assoluta osservata

n ij all’interno della cella perno per la sommatoria delle frequenze assolute

contenute nella sottomatrice destra, ripetendo il calcolo finché possibile in tabella e sommando i risultati. **Appendice: nella tabella: Utilizzo_Sigar ette:Y Utilizzo_Alcoli ci:X basso nella norm a alto Basso 12 45 108 Nella norma 41 76 49 alto 144 44 9

Valutazione del grado di concordanza o discordanza dei due

caratteri

in distribuzione condizionata: utilizzo dell'indice gamma di Goodman

e kruskal:(Ns-Nd)/(Ns+Nd)

Ns<-(12(76+49+44+9)+ 45(49+9)+ 41(44+9)+ 76(9)) Nd<-(108+(76+41+114+44)+ 45+(41+114)+ 49(44+114)+ 76(114)) Gamma<-(Ns-Nd)/(Ns+Nd) round(Gamma, 3)

Dai risultati ottenuti tramite l'indice ideato da Goodman e Kruskal

possiamo estrapolare una misura percentuale della concordanza o

discordanza dei caratteri in analisi: gamma variando tra il un

minimo

di -1 e un massimo di 1 può essere facilmente interpretato come

una

misura percentuale, di concordanza o discordanza in funzione del

segno

di gamma; nel caso specifico i due caratteri discordano per il 38.2%

rispetto al grado massimo di discordanza possibile.

Indipendenza in media** Si può valutare il grado di indipendenza in media di una variabile rispetto all’altra:

Verifica dell'ipotesi di indipendenza in media;

calcolo media marginale di y e della varianza marginale:

Prima modalità di X in cui studiare Y:

n1j<-Tab[1,] n1.<-sum(n1j) My.x1<-mean(n1j)

Ripetere il calcolo per le modalita di X in cui puoi studiare Y

Kesima modalità di X in cui studiare Y:

nkj<-Tab[k,] nk.<-sum(nkj) My.x1<-mean(nkj) Si prosegue ora al calcolo delle misure di sintesi marginali di Y

Calcolo della media marginale di Y e della varianza marginale

My<- mean(Y) My2<- mean(Y^2) s2y<-My2-My^

calcolo della varianza delle medie condizionate:

My.x<-c(My1, My2, …, Myk) Mmy.x2<-sum(My.x^2)/k S2My.x<- Mmy.x2-My^

Una volta calcolata la varianza delle medie condizionate

di Y dato X si rapporta tale quantità alla varianza totale di Y:

eta<-S2y.x/s2y eta

Essendo eta un numero compreso tra 0 e 1 se tendente a 0 si può affermare

che

l'ipotesi formulata sulla indipendenza in media della variabile Y dalla

variabile X

è stata confermata: i due parametri sono indipendenti in media; in caso

contrario

si ha dipendenza in media; Eta è esprimibili in termini percentuali della

massima

dipendenza osservabile

L’analisi svolta può essere rappresentata tramite spezzata di regressione

X<-1:k My.x<-c(My1, My2, …, Myk) Spezzata.regressione<-plot(x, y, type = "b", pch = 20) Indice di correlazione : rho

Calcoli relativi all’indice Rho:

cbind(X, Y, X2=X^2, Y2=Y^2, XY=XY) Mx<-mean(X) My<-mean(Y) Mx2<-mean(X^2) My2<-mean(Y^2) Mxy<-mean(XY) Mx; My; Mx2; My2; Mxy

Le stime così ottenute sono da ritenere attendibili in funzione del risultato

dell’indice R2.

Appendice:

Esempio di analisi bivariata prima marginale e poi condizionata: X e Y sono due titoli azionari che intendiamo studiare prima marginalmente e poi uno in relazione all’aòtro tramite la stima di una retta di regressione.

Esercizio Caratteri quantitativi continui Bivariata:

Tab ni.<-colSums(Tab) n.j<-rowSums(Tab) xc<-seq(from = 22.5, to = 42.5, by = 5) yc<-seq(from = 32.5, to = 52.5, by = 5)

Studio marginale dei caratteri:

Carattere X

Media pesata e media del quadrato dei dati per calcolo della varianza:

Mx<-weighted.mean(xc, n.j) Mx2<-weighted.mean(xc^2, n.j) sx2<-Mx2-Mx^

Scarto quadr. medio:

sx<-sqrt(sx2) C.Vx<-sx/Mx round(C.Vx, 3)

Il coeff. di variazione appena calcolato informa su una percemtuale

di variabilità dall media dei dati: in particolare la vriabilità dei

dati relativi al carattere Y è pari al 21.8% dalla media.

Carattere Y

Media pesata e media del quadrato dei dati per calcolo della varianza:

My<-weighted.mean(yc, ni.) My2<-weighted.mean(yc^2, ni.) sy2<-My2-My^

Scarto quadr. medio:

sy<-sqrt(sy2) C.Vy<-sy/My round(C.Vy, 3)

Il coeff. di variazione appena calcolato informa su una percemtuale

di variabilità dall media dei dati: in particolare la vriabilità dei

dati relativi al carattere Y è pari al 15.6% dalla media.

Si prosegue ora con la verifica dell'ipotesi di indipendenza

in distribuzione dei caratteri: per verificare tale ipotesi

faremo ricorso all'indice X quadro di pearson:

n<-sum(Tab) Tab.teorica<-outer(n.j, ni., FUN = "*")/n Cij<-Tab-Tab.teorica Cij Cij^2/Tab.teorica X2<-sum(Cij^2/Tab.teorica) phi2<-X2/n V<-sqrt(phi2/4) P<-sqrt(phi2/(phi2+1))

i risultati ottenuti per l'indice P di pearson per verificare

l'ipotesi di indipendenza indistribuzione ci fanno riggettare tale

ipotesi, indi per cui si proseguirà con il più opportuno studio

condizionzato delle due variabii in analisi.

Valutare il grado di interdipendenza lineare in distribuzipone delle due

variabili titoli azionari; per il calcolo del più opportuno indice

in grado di informare sul grado di interdipendenza in distribuzione

è opporuno partire dal calcolo delle statistiche di sintesi che utilizzeremo.

L'indice in questione è detto indice rho, ed è definito come rapporto tra

la covarianza e il prodotto tra i gli scarti quadratici medi delle due

variabili: per il calcolo degli scarti sarà opportuno misurare la varianza

ed estrarne la radice, la vrianza che si calcola come differenza tra

media dei quadrati e quadrato della media; per quanto riguarda la

covarianza

utilizzeremo la formula ridotta calolando la covarianza di X e Y come la

differenza tra la media del prodotto dei dati e il prodotto delle medie delle

deu variabili in studio:

Mx; My; sx; sy

Durante lo svolgimento delle parti precedenti si è giunti a calcolare

4 su 5 delle misure di sintesi necessarie per il calcolo del Rho;

infatti per il calcolo dell'indice Rho è necessaria solo un ultima misura

di sintesi: la media del prodotto dei dati:

xcyc<-outer(xc, yc, FUN = "") Mxy<- sum(xcycTab)/n

Si può adesso proseguire con il calcolo della covarianza di X e Y

ed infine al calcolo dell'indice rho:

Sxy<-Mxy-MxMy rho<-Sxy/(sysx)

Essendo l'indice in questione un numero compreso tra -1 e 1 si puo

facilmente interpretare come misura percentuale di correlazione positiva

o negativa, nel caso in questione è evidente dal risultato dell'indice

Rho vi è il 56,9% della massima correlazione positiva possibile.

si può proseguire lo studio della relazione dei due titoli tramite la

stima dei parametri della retta di regressione:Y=a.hat+b.hat*xi

n2j<-X.tab[2,] n2.<-sum(n2j)

calcolo della più opportuna misura di tendenza centrale e di variabilità;

My2 <- weighted.mean(Y, n2j)

indice di variabilità per quantitativi discreti:

sequenza delle modalità

Y <- 0: #prodotto esterno tra vettori |yi-yj| Y.tbl<-outer(Y, Y, FUN = "-") Y.Tbl<-abs(Y.tbl) Y.Tbl

prodotto esterno tra vettori (ni*nj)

n1j.tbl<-outer(n1j, n1j, FUN = "") n2j.tbl<-outer(n2j, n2j, FUN = "") #prodotto tra |xi-xj|(ninj) Y.Tbln1j.tbl Y.Tbln2j.tbl

sommo la matrice sopra calcolata e Calcolo

indice di variabilita per caratteri discreti:

con ripetizione

Primo semestre:

rD1.1 <- sum(Y.Tbl*n1j.tbl)/ n1.^

Secondo semestre:

rD1.2 <- sum(Y.Tbl*n2j.tbl)/ n2.^

normalizzazione

C.div.1<-rD1.1/(My12) C.div.2<-rD1.2/(My22)

Presento le misure di tendenza centrale e di variabilità

prima di proseguire con il secondo quesito:

My1; C.div.1; My2; C.div. #Commento:

la varibilità con la quale si trovano lampadine rotte nelle confezioni

è maggiore nel primo semestre rispetto al secondo; la media di

lampadine rotte per scatola nel primo semestre è lievemente inferiore a

quella del secondo in esame, la piccola differenza potrebbe far supporre

l'ipotesi di indipendenza in media della variabile Y rispetto ai semestri

Verifica dell'ipotesi di indipendenza in media.

(non richiesta nel compito ma di esempio per il testo)

se confermata implica indipendenza in distribuzione.

calcolo media marginale di y e della varianza marginale:

n.j<-colSums(X.tab)

My<-weighted.mean(Y, n.j) My2<-weighted.mean(Y^2, n.j) s2y<-My2-My^

calcolo della varianza delle medie condizionate:

My.x<-c(My1,My2) Mmy.x2<-sum(My.x^2)/ S2y.x<- Mmy.x2-My^

Una volta calcolata la varianza delle medie condizionate a X di Y

si rapporta tale quantità alla varianza totale di Y:

eta<-S2y.x/s2y eta

Essendo eta un numero tendente a 0 molto piccolo si può affermare che

l'ipotesi formulata sulla indipendenza in media della variabile lampadine

rotte per confezione dalla variabile semestre è stata confermata:

i due parametri sono indipendenti in media.

Y si distribuisce secondo una Poisson con parametro lambda:

i valori utili per lo studio sono:

Y; n1j; n1.; n2j; n2.; My1; My

calcolo distribuzione di probabilità secondo poisson:

Primo semestre:

Pr1.1 <- dpois(0:4, lambda = My1) Pr1 <-c(Pr1.1, 1- sum(Pr1.1)) round(Pr1, 4)

calcolo frequenze teoriche:

nis1 <- n1. * Pr round(nis1, 2)

calcolo Chi quadrato:

X2.1.1 <- (n1j - nis1)^2 / nis round(X2.1.1, 2) X2.1<-sum(round(X2.1.1, 2))

Secondo semestre:

Pr2.1 <- dpois(0:4, lambda = My2) Pr2 <-c(Pr2.1, 1- sum(Pr2.1)) round(Pr2, 4)

calcolo frequenze teoriche:

nis2 <- n2. * Pr round(nis2, 2)

calcolo Chi quadrato:

X2.2.1 <- (n2j - nis2)^2 / nis round(X2.2.1, 2) X2.2<-sum(round(X2.2.1, 2))

presento i risultati per le due distribuzioni di frequenze e di prob:

X2.1 ; X2.

G.norm<-G*(k/(k-1)) G.norm

l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei

dati in analisi; in particolare possiamo notare che essendo prossimo

all'unità vi è un elevato grado di eterogeneità nei dati in esame:

G.norm = 0..

studio condizionato della variabile attitudine al consumo di sigarette:

estrazione delle righe:

n1j<-X.tab[1,] n2j<-X.tab[2,] n3j<-X.tab[3,]

una volta estratte le righe si può proseguire con lo studio

condizionato della variabile attitudine al fumo condizionata

all'attitudine al consumo di alcol:

basso consumo di alcolici:

n1j f1j<-prop.table(n1j) f1jc<-cumsum(f1j) Attitudine.sigarette.sotto.basso.consumo.alcolici<-cbind(n1j, f1j, f1jc) round(Attitudine.sigarette.sotto.basso.consumo.alcolici,3)

Come si evince dalla disrtibuzione di frequenze condizionata al basso

consumo di alcolici la variabile attitudine al consumo di sigarette

ha come modalità mediana "alto"

per il tipo di variabile in esame è opportuno calcolare il coeff. di

eterogeneità di Gini per la variabile attitudine al fumo di sigaretta

condizionata alla bassa propensione al consumo di alcolici:

G.1<-1-sum(f1j^2) k<- G.1.norm<-G.1*(k/(k-1)) round(G.1.norm, 3)

l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei

dati in analisi; in particolare possiamo notare che attestandosi al

valore di G.norm = 0.738 possimo affermare che vi è eterogeneità del

73.8% rispetto la massima eterogeneità osservabile.

consumo di alcolici nella norma :

n2j f2j<-prop.table(n2j) f2jc<-cumsum(f2j) Attitudine.sigarette.sotto.consumo.alcolici.nella.norma<-cbind(n2j, f2j, f2jc) round(Attitudine.sigarette.sotto.consumo.alcolici.nella.norma,3)

Come si evince dalla disrtibuzione di frequenze condizionata al consumo

di alcolici nella norma la variabile attitudine al consumo di sigarette

ha come modalità mediana "nella norma"

per il tipo di variabile in esame è opportuno calcolare il coeff. di

eterogeneità di Gini per la variabile attitudine al fumo di sigaretta

condizionata alla bassa propensione al consumo di alcolici:

G.2<-1-sum(f2j^2) k<- G.2.norm<-G.2*(k/(k-1)) round(G.2.norm, 3)

l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei

dati in analisi; in particolare possiamo notare che attestandosi al

valore di G.norm = 0.963 possimo affermare che vi è eterogeneità del

96.3% rispetto la massima eterogeneità osservabile.

alto consumo di alcolici:

n3j f3j<-prop.table(n3j) f3jc<-cumsum(f3j) Attitudine.sigarette.sotto.alto.consumo.alcolici<-cbind(n3j, f3j, f3jc) round(Attitudine.sigarette.sotto.alto.consumo.alcolici,3)

Come si evince dalla disrtibuzione di frequenze condizionata al consumo

di alcolici nella norma la variabile attitudine al consumo di sigarette

ha come modalità mediana "basso"

per il tipo di variabile in esame è opportuno calcolare il coeff. di

eterogeneità di Gini per la variabile attitudine al fumo di sigaretta

condizionata alla alta propensione al consumo di alcolici:

G.3<-1-sum(f3j^2) k<- G.3.norm<-G.3*(k/(k-1)) round(G.3.norm, 3)

l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei

dati in analisi; in particolare possiamo notare che attestandosi al

valore di G.norm = 0.693 possimo affermare che vi è eterogeneità del

69.3% rispetto la massima eterogeneità osservabile.

Valutazione del grado di concordanza o discordanza dei due caratteri

in distribuzione condizionata: utilizzo dell'indice gamma di Goodman

e kruskal:(Ns-Nd)/(Ns+Nd)

Ns<-(12(76+49+44+9)+ 45(49+9)+ 41(44+9)+ 76(9)) Nd<-(108+(76+41+114+44)+ 45+(41+114)+ 49(44+114)+ 76(114))

in quanto il X2 di pearson maggiore della soglia data da k

modalità - 1; il modello binomiale mostra comunque una maggiore

bonta di adattamento.

Esercizio 13 pdf 7. Su probabilità e bontà di adattamento

sia X la variabile spesa mensile in farmaci

Parte 1

xc <- seq(from = 0.5, to = 3.5, by = 1) ni <- c(2, 4, 7, 36) cbind(xc, ni) n<-sum(ni)

Calcolo della media ponderata di X:

Mx <- weighted.mean(xc, ni) Mx

Calcolo della varianza dei dati:

Mx2<-weighted.mean(xc^2, ni) S2x <- Mx2 - Mx^ S2x Sx <- sqrt(S2x) Sx

Parte 1

Espansione degli estremi della variabile:

X <- c(-Inf, 1, 2, 3, +Inf)

Riporto alla variabile Z

Z <- (X - Mx) / Sx round(Z, 2)

applico la funzione di ripartizione

Fr <- pnorm(Z) round(Fr, 4)

Calcolo la densita di probabilità:

Dpr <- diff(Fr) round(Dfr, 4)

verifico la bontà di adattamento:

n.s <- n * Dfr round(n.s, 2) X2 <- (n - n.s)^2 / n.s