Scarica Statistica 1 con Rstudio e più Esercizi in PDF di Statistica solo su Docsity!
Analisi marginale: Le frequenze: Dato un carattere X esso sarà distribuito per ni frequenze assolute; le frequenze assolute danno origine alle relative, relative cumulate che possono tornare utili nello studio dei caratteri; a tal fine sarà utile porle in tabella: ni <- table(X) fi <- prop.table(ni) fic <- cumsum(fi) A tal fine sarà utile porle in tabella tavole.delle.frequenze <- cbind(ni, fi, fic) misure di tendenza centrale: Caratteri qualitativi non ordinabili: osservo dalla tavola.delle.frequenze la modalità con la ni maggiore; Moda. Caratteri qualitativi ordinabili: osservo dalla tavola.delle.frequenze la modalità con la fic>0. Caratteri quantitativi discreti: osservo dalla tavola.delle.frequenze la modalità con la fic>0.50; oppure ne calcolo la media pesata: k <- n.di modalità X <- 1:k Mx<-weighted.mean(X, ni) Caratteri quantitativi continui: se ne può misurare la media aritmetica: Mx <- mean(X) Mx<- weighted.mean(xc, ni) ; nel caso di una distribuzione di frequenze in classi. Misure di variabilità: Caratteri qualitativi: coefficiente di gini: G <- 1 – sum(fi^2) G.norm <- G*(k/(K-1)) Caratteri quantitativi discreti: coefficiente di diversità
indice di variabilità per quantitativi discreti:
sequenza delle modalità
X <- 1:k #prodotto esterno tra vettori |Xi-Xj| X.tbl<-outer(X, X, FUN = "-") X.Tbl<-abs(X.tbl)
prodotto esterno tra vettori (ni*nj)
ni.tbl<-outer(ni, ni, FUN = "") #prodotto tra |xi-xj|(ninj) X.Tblni.tbl
sommo la matrice sopra calcolata e Calcolo indice di variabilita per caratteri
discreti: rD1 <- sum(X.Tbl*ni.tbl)/ sum(ni)
normalizzazione
C.div<-rD1.1/(My1*2) Caratteri quantitativi continui; Varianza, scarto quadratico e normalizzazione:
per procedere al calcolo del’ indice di variabilità normalizzato dobbiamo
calcolare le seguenti
quantità:
Mx2<-mean(X^2) ; caso di C.Q.D Mx2 <- weighted.mean<-(X, ni) S2x <- Mx2 – Mx^ Sx <- sqrt(S2) C.V <- Sx/Mx C.V;
Analisi probabilistica:
Variabile binomiale : necessarie Mx e n
calcolo delle probabilità
pi<-Mx/n pr <- dbinom(0:4, size = n, prob = pi) Pr <- c(pr, 1 - sum(pr)) round(Pr, 4) Variabile poisson : necessaria Mx
calcolo delle probabilità:
pr <- dpois(0:k-1, lambda = m) Pr <- c(pr, 1 - sum(pr)) Round(Pr, 4) Variabile gaussiana: necessarie Mx, Sx
Parte 1
Espansione degli estremi della variabile:
X <- c(-Inf, n2 ,…, ni, …,n-1, +Inf)
Riporto alla variabile Z
Z <- (X - Mx) / Sx round(Z, 2)
applico la funzione di ripartizione
Fr <- pnorm(Z) round(Fr, 4)
Calcolo la densita di probabilità:
Dpr <- diff(Fr) round(Dfr, 4)
verifico la bontà di adattamento:
n.s <- n * Dfr round(n.s, 2) X2 <- (n - n.s)^2 / n.s Bontà di adattamento uguale in tutti e tre i modelli
bontà di adattamento:
nis <- n * Pr round(nis, 2) X2 <-sum((ni - nis)^2 / nis)
Individuate le coordinate della cella perno si moltiplica la frequenza assoluta
osservata^ n^ ij per la sommatoria delle frequenze assolute contenute nella
sottomatrice sinistra, ripetendo il calcolo finché possibile in tabella e
sommando i risultati si ottiene^ N^ s.
Procedimento analogo per^ N^ d , moltiplicando la frequenza assoluta osservata
n ij all’interno della cella perno per la sommatoria delle frequenze assolute
contenute nella sottomatrice destra, ripetendo il calcolo finché possibile in tabella e sommando i risultati. **Appendice: nella tabella: Utilizzo_Sigar ette:Y Utilizzo_Alcoli ci:X basso nella norm a alto Basso 12 45 108 Nella norma 41 76 49 alto 144 44 9
Valutazione del grado di concordanza o discordanza dei due
caratteri
in distribuzione condizionata: utilizzo dell'indice gamma di Goodman
e kruskal:(Ns-Nd)/(Ns+Nd)
Ns<-(12(76+49+44+9)+ 45(49+9)+ 41(44+9)+ 76(9)) Nd<-(108+(76+41+114+44)+ 45+(41+114)+ 49(44+114)+ 76(114)) Gamma<-(Ns-Nd)/(Ns+Nd) round(Gamma, 3)
Dai risultati ottenuti tramite l'indice ideato da Goodman e Kruskal
possiamo estrapolare una misura percentuale della concordanza o
discordanza dei caratteri in analisi: gamma variando tra il un
minimo
di -1 e un massimo di 1 può essere facilmente interpretato come
una
misura percentuale, di concordanza o discordanza in funzione del
segno
di gamma; nel caso specifico i due caratteri discordano per il 38.2%
rispetto al grado massimo di discordanza possibile.
Indipendenza in media** Si può valutare il grado di indipendenza in media di una variabile rispetto all’altra:
Verifica dell'ipotesi di indipendenza in media;
calcolo media marginale di y e della varianza marginale:
Prima modalità di X in cui studiare Y:
n1j<-Tab[1,] n1.<-sum(n1j) My.x1<-mean(n1j)
Ripetere il calcolo per le modalita di X in cui puoi studiare Y
Kesima modalità di X in cui studiare Y:
nkj<-Tab[k,] nk.<-sum(nkj) My.x1<-mean(nkj) Si prosegue ora al calcolo delle misure di sintesi marginali di Y
Calcolo della media marginale di Y e della varianza marginale
My<- mean(Y) My2<- mean(Y^2) s2y<-My2-My^
calcolo della varianza delle medie condizionate:
My.x<-c(My1, My2, …, Myk) Mmy.x2<-sum(My.x^2)/k S2My.x<- Mmy.x2-My^
Una volta calcolata la varianza delle medie condizionate
di Y dato X si rapporta tale quantità alla varianza totale di Y:
eta<-S2y.x/s2y eta
Essendo eta un numero compreso tra 0 e 1 se tendente a 0 si può affermare
che
l'ipotesi formulata sulla indipendenza in media della variabile Y dalla
variabile X
è stata confermata: i due parametri sono indipendenti in media; in caso
contrario
si ha dipendenza in media; Eta è esprimibili in termini percentuali della
massima
dipendenza osservabile
L’analisi svolta può essere rappresentata tramite spezzata di regressione
X<-1:k My.x<-c(My1, My2, …, Myk) Spezzata.regressione<-plot(x, y, type = "b", pch = 20) Indice di correlazione : rho
Calcoli relativi all’indice Rho:
cbind(X, Y, X2=X^2, Y2=Y^2, XY=XY) Mx<-mean(X) My<-mean(Y) Mx2<-mean(X^2) My2<-mean(Y^2) Mxy<-mean(XY) Mx; My; Mx2; My2; Mxy
Le stime così ottenute sono da ritenere attendibili in funzione del risultato
dell’indice R2.
Appendice:
Esempio di analisi bivariata prima marginale e poi condizionata: X e Y sono due titoli azionari che intendiamo studiare prima marginalmente e poi uno in relazione all’aòtro tramite la stima di una retta di regressione.
Esercizio Caratteri quantitativi continui Bivariata:
Tab ni.<-colSums(Tab) n.j<-rowSums(Tab) xc<-seq(from = 22.5, to = 42.5, by = 5) yc<-seq(from = 32.5, to = 52.5, by = 5)
Studio marginale dei caratteri:
Carattere X
Media pesata e media del quadrato dei dati per calcolo della varianza:
Mx<-weighted.mean(xc, n.j) Mx2<-weighted.mean(xc^2, n.j) sx2<-Mx2-Mx^
Scarto quadr. medio:
sx<-sqrt(sx2) C.Vx<-sx/Mx round(C.Vx, 3)
Il coeff. di variazione appena calcolato informa su una percemtuale
di variabilità dall media dei dati: in particolare la vriabilità dei
dati relativi al carattere Y è pari al 21.8% dalla media.
Carattere Y
Media pesata e media del quadrato dei dati per calcolo della varianza:
My<-weighted.mean(yc, ni.) My2<-weighted.mean(yc^2, ni.) sy2<-My2-My^
Scarto quadr. medio:
sy<-sqrt(sy2) C.Vy<-sy/My round(C.Vy, 3)
Il coeff. di variazione appena calcolato informa su una percemtuale
di variabilità dall media dei dati: in particolare la vriabilità dei
dati relativi al carattere Y è pari al 15.6% dalla media.
Si prosegue ora con la verifica dell'ipotesi di indipendenza
in distribuzione dei caratteri: per verificare tale ipotesi
faremo ricorso all'indice X quadro di pearson:
n<-sum(Tab) Tab.teorica<-outer(n.j, ni., FUN = "*")/n Cij<-Tab-Tab.teorica Cij Cij^2/Tab.teorica X2<-sum(Cij^2/Tab.teorica) phi2<-X2/n V<-sqrt(phi2/4) P<-sqrt(phi2/(phi2+1))
i risultati ottenuti per l'indice P di pearson per verificare
l'ipotesi di indipendenza indistribuzione ci fanno riggettare tale
ipotesi, indi per cui si proseguirà con il più opportuno studio
condizionzato delle due variabii in analisi.
Valutare il grado di interdipendenza lineare in distribuzipone delle due
variabili titoli azionari; per il calcolo del più opportuno indice
in grado di informare sul grado di interdipendenza in distribuzione
è opporuno partire dal calcolo delle statistiche di sintesi che utilizzeremo.
L'indice in questione è detto indice rho, ed è definito come rapporto tra
la covarianza e il prodotto tra i gli scarti quadratici medi delle due
variabili: per il calcolo degli scarti sarà opportuno misurare la varianza
ed estrarne la radice, la vrianza che si calcola come differenza tra
media dei quadrati e quadrato della media; per quanto riguarda la
covarianza
utilizzeremo la formula ridotta calolando la covarianza di X e Y come la
differenza tra la media del prodotto dei dati e il prodotto delle medie delle
deu variabili in studio:
Mx; My; sx; sy
Durante lo svolgimento delle parti precedenti si è giunti a calcolare
4 su 5 delle misure di sintesi necessarie per il calcolo del Rho;
infatti per il calcolo dell'indice Rho è necessaria solo un ultima misura
di sintesi: la media del prodotto dei dati:
xcyc<-outer(xc, yc, FUN = "") Mxy<- sum(xcycTab)/n
Si può adesso proseguire con il calcolo della covarianza di X e Y
ed infine al calcolo dell'indice rho:
Sxy<-Mxy-MxMy rho<-Sxy/(sysx)
Essendo l'indice in questione un numero compreso tra -1 e 1 si puo
facilmente interpretare come misura percentuale di correlazione positiva
o negativa, nel caso in questione è evidente dal risultato dell'indice
Rho vi è il 56,9% della massima correlazione positiva possibile.
si può proseguire lo studio della relazione dei due titoli tramite la
stima dei parametri della retta di regressione:Y=a.hat+b.hat*xi
n2j<-X.tab[2,] n2.<-sum(n2j)
calcolo della più opportuna misura di tendenza centrale e di variabilità;
My2 <- weighted.mean(Y, n2j)
indice di variabilità per quantitativi discreti:
sequenza delle modalità
Y <- 0: #prodotto esterno tra vettori |yi-yj| Y.tbl<-outer(Y, Y, FUN = "-") Y.Tbl<-abs(Y.tbl) Y.Tbl
prodotto esterno tra vettori (ni*nj)
n1j.tbl<-outer(n1j, n1j, FUN = "") n2j.tbl<-outer(n2j, n2j, FUN = "") #prodotto tra |xi-xj|(ninj) Y.Tbln1j.tbl Y.Tbln2j.tbl
sommo la matrice sopra calcolata e Calcolo
indice di variabilita per caratteri discreti:
con ripetizione
Primo semestre:
rD1.1 <- sum(Y.Tbl*n1j.tbl)/ n1.^
Secondo semestre:
rD1.2 <- sum(Y.Tbl*n2j.tbl)/ n2.^
normalizzazione
C.div.1<-rD1.1/(My12) C.div.2<-rD1.2/(My22)
Presento le misure di tendenza centrale e di variabilità
prima di proseguire con il secondo quesito:
My1; C.div.1; My2; C.div. #Commento:
la varibilità con la quale si trovano lampadine rotte nelle confezioni
è maggiore nel primo semestre rispetto al secondo; la media di
lampadine rotte per scatola nel primo semestre è lievemente inferiore a
quella del secondo in esame, la piccola differenza potrebbe far supporre
l'ipotesi di indipendenza in media della variabile Y rispetto ai semestri
Verifica dell'ipotesi di indipendenza in media.
(non richiesta nel compito ma di esempio per il testo)
se confermata implica indipendenza in distribuzione.
calcolo media marginale di y e della varianza marginale:
n.j<-colSums(X.tab)
My<-weighted.mean(Y, n.j) My2<-weighted.mean(Y^2, n.j) s2y<-My2-My^
calcolo della varianza delle medie condizionate:
My.x<-c(My1,My2) Mmy.x2<-sum(My.x^2)/ S2y.x<- Mmy.x2-My^
Una volta calcolata la varianza delle medie condizionate a X di Y
si rapporta tale quantità alla varianza totale di Y:
eta<-S2y.x/s2y eta
Essendo eta un numero tendente a 0 molto piccolo si può affermare che
l'ipotesi formulata sulla indipendenza in media della variabile lampadine
rotte per confezione dalla variabile semestre è stata confermata:
i due parametri sono indipendenti in media.
Y si distribuisce secondo una Poisson con parametro lambda:
i valori utili per lo studio sono:
Y; n1j; n1.; n2j; n2.; My1; My
calcolo distribuzione di probabilità secondo poisson:
Primo semestre:
Pr1.1 <- dpois(0:4, lambda = My1) Pr1 <-c(Pr1.1, 1- sum(Pr1.1)) round(Pr1, 4)
calcolo frequenze teoriche:
nis1 <- n1. * Pr round(nis1, 2)
calcolo Chi quadrato:
X2.1.1 <- (n1j - nis1)^2 / nis round(X2.1.1, 2) X2.1<-sum(round(X2.1.1, 2))
Secondo semestre:
Pr2.1 <- dpois(0:4, lambda = My2) Pr2 <-c(Pr2.1, 1- sum(Pr2.1)) round(Pr2, 4)
calcolo frequenze teoriche:
nis2 <- n2. * Pr round(nis2, 2)
calcolo Chi quadrato:
X2.2.1 <- (n2j - nis2)^2 / nis round(X2.2.1, 2) X2.2<-sum(round(X2.2.1, 2))
presento i risultati per le due distribuzioni di frequenze e di prob:
X2.1 ; X2.
G.norm<-G*(k/(k-1)) G.norm
l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei
dati in analisi; in particolare possiamo notare che essendo prossimo
all'unità vi è un elevato grado di eterogeneità nei dati in esame:
G.norm = 0..
studio condizionato della variabile attitudine al consumo di sigarette:
estrazione delle righe:
n1j<-X.tab[1,] n2j<-X.tab[2,] n3j<-X.tab[3,]
una volta estratte le righe si può proseguire con lo studio
condizionato della variabile attitudine al fumo condizionata
all'attitudine al consumo di alcol:
basso consumo di alcolici:
n1j f1j<-prop.table(n1j) f1jc<-cumsum(f1j) Attitudine.sigarette.sotto.basso.consumo.alcolici<-cbind(n1j, f1j, f1jc) round(Attitudine.sigarette.sotto.basso.consumo.alcolici,3)
Come si evince dalla disrtibuzione di frequenze condizionata al basso
consumo di alcolici la variabile attitudine al consumo di sigarette
ha come modalità mediana "alto"
per il tipo di variabile in esame è opportuno calcolare il coeff. di
eterogeneità di Gini per la variabile attitudine al fumo di sigaretta
condizionata alla bassa propensione al consumo di alcolici:
G.1<-1-sum(f1j^2) k<- G.1.norm<-G.1*(k/(k-1)) round(G.1.norm, 3)
l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei
dati in analisi; in particolare possiamo notare che attestandosi al
valore di G.norm = 0.738 possimo affermare che vi è eterogeneità del
73.8% rispetto la massima eterogeneità osservabile.
consumo di alcolici nella norma :
n2j f2j<-prop.table(n2j) f2jc<-cumsum(f2j) Attitudine.sigarette.sotto.consumo.alcolici.nella.norma<-cbind(n2j, f2j, f2jc) round(Attitudine.sigarette.sotto.consumo.alcolici.nella.norma,3)
Come si evince dalla disrtibuzione di frequenze condizionata al consumo
di alcolici nella norma la variabile attitudine al consumo di sigarette
ha come modalità mediana "nella norma"
per il tipo di variabile in esame è opportuno calcolare il coeff. di
eterogeneità di Gini per la variabile attitudine al fumo di sigaretta
condizionata alla bassa propensione al consumo di alcolici:
G.2<-1-sum(f2j^2) k<- G.2.norm<-G.2*(k/(k-1)) round(G.2.norm, 3)
l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei
dati in analisi; in particolare possiamo notare che attestandosi al
valore di G.norm = 0.963 possimo affermare che vi è eterogeneità del
96.3% rispetto la massima eterogeneità osservabile.
alto consumo di alcolici:
n3j f3j<-prop.table(n3j) f3jc<-cumsum(f3j) Attitudine.sigarette.sotto.alto.consumo.alcolici<-cbind(n3j, f3j, f3jc) round(Attitudine.sigarette.sotto.alto.consumo.alcolici,3)
Come si evince dalla disrtibuzione di frequenze condizionata al consumo
di alcolici nella norma la variabile attitudine al consumo di sigarette
ha come modalità mediana "basso"
per il tipo di variabile in esame è opportuno calcolare il coeff. di
eterogeneità di Gini per la variabile attitudine al fumo di sigaretta
condizionata alla alta propensione al consumo di alcolici:
G.3<-1-sum(f3j^2) k<- G.3.norm<-G.3*(k/(k-1)) round(G.3.norm, 3)
l'indice normalizzato di Gini ci informa riguardo l'eterogeneita dei
dati in analisi; in particolare possiamo notare che attestandosi al
valore di G.norm = 0.693 possimo affermare che vi è eterogeneità del
69.3% rispetto la massima eterogeneità osservabile.
Valutazione del grado di concordanza o discordanza dei due caratteri
in distribuzione condizionata: utilizzo dell'indice gamma di Goodman
e kruskal:(Ns-Nd)/(Ns+Nd)
Ns<-(12(76+49+44+9)+ 45(49+9)+ 41(44+9)+ 76(9)) Nd<-(108+(76+41+114+44)+ 45+(41+114)+ 49(44+114)+ 76(114))
in quanto il X2 di pearson maggiore della soglia data da k
modalità - 1; il modello binomiale mostra comunque una maggiore
bonta di adattamento.
Esercizio 13 pdf 7. Su probabilità e bontà di adattamento
sia X la variabile spesa mensile in farmaci
Parte 1
xc <- seq(from = 0.5, to = 3.5, by = 1) ni <- c(2, 4, 7, 36) cbind(xc, ni) n<-sum(ni)
Calcolo della media ponderata di X:
Mx <- weighted.mean(xc, ni) Mx
Calcolo della varianza dei dati:
Mx2<-weighted.mean(xc^2, ni) S2x <- Mx2 - Mx^ S2x Sx <- sqrt(S2x) Sx
Parte 1
Espansione degli estremi della variabile:
X <- c(-Inf, 1, 2, 3, +Inf)
Riporto alla variabile Z
Z <- (X - Mx) / Sx round(Z, 2)
applico la funzione di ripartizione
Fr <- pnorm(Z) round(Fr, 4)
Calcolo la densita di probabilità:
Dpr <- diff(Fr) round(Dfr, 4)
verifico la bontà di adattamento:
n.s <- n * Dfr round(n.s, 2) X2 <- (n - n.s)^2 / n.s