


















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
domande complete aperte del paniere di statistica, corretto e voto positivo esame
Tipologia: Panieri
1 / 26
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



















delle colonne nella prima riga; c) quando ci sono i nomi di riga nella prima colonna
a) prova <- scan(“c:/mydat/prova.txt”) b) prova <- read.table(“c:/mydat/prova.txt”, header=TRUE) c)prova <- read.table(“c:/mydat/prova.txt”, header=TRUE, row.names=1)
comando matrix;c) per implementare la creazione del data frame "df" utilizzando il comando tab
a) Essa può essere visualizzata o modificata cliccando sulla RConsole e aprire da File l'opzione "Cambia directory" oppure tramite il comando di R: getwd () Per settare una nuova directory si può usare il comando: setwd() Poiche
ogni comando usato e una funzione memorizzata in una delle librerie, si ha la necessita di caricare le librerie prima di lavorare. Molte delle funzioni comuni si trovano nelle librerie, che vengono caricate da predefinito (di default). Le
funzioni base per importare i dati su R sono in particolare tre, e possono essere utilizzate per importare dei dati in formati quali .csv, .tsv o .txt. Si tratta delle funzioni read.table(), read.csv() e read.delim(). Se il file che si vuole leggere si
chiama prova.txt (contenente vettori colonna di dati senza il nome della colonna nella prima riga) che si trova nella directory mydat del disco C:/ il codice da utilizzare è: prova <- scan(«C:/mydat/prova.txt")
b) m1<- matrix(1:36, nrow=6)
df.data.frame(m1); df
c) tab <- matrix(c(1:18),6, 3)
rownames(tab) <- c (1,2,3,4,5,6)
colname(tab) <- c(“X1”, “X2”, “X3”)
tab
riga; c) importarlo con la versione di Excel in inglese se nella prima colonna ci sono i nomi di riga con l’estensione
E' opportuno ricordare che il file origine Excel deve essere salvato con l’estensione .csv oppure .csv2.
a) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE)
b) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE, row.names=1)
c) prova <- read.csv("c:/mydat/prova.csv", header=TRUE)
La popolazione presa in considerazione è l’insieme dei contagiati in un epidemia in italia, i dati raccolti sono di tipo qualitativo sconnesso: maschio o femmina; quantitativo discreto: età dei contagiati, qualitativo sconnesso: sintomi e
eventuali patologie, conseguenze riportate. Le fasi di rilevazione sono la modalità di raccolta dei dati, la vera e propria raccolta dei dati. Si possono anche utilizzare i dati rilevati dal ministero della salute
base fissa Maggio
tempo prezzo Indice a base fissa 𝟎 𝟏
𝑰
𝒙 𝟏
𝒙 𝒐
indice a base mobile 𝒕 − 𝟏 𝒕
𝑰
𝒙 𝒕
𝒙 𝒕−𝟏
passaggio da BF a BM Passaggio da BM a BF
gen- 17 12,4 12,4/12,4= 1 - - -
feb- 17 12,5 12,5/12,4=1,008 12,5/12,4=1,008 1,008/1=1,008 1*1,008=1,
mar- 17 11,9 11,9/12,4=0,9 6 11,9/12,5=0,952 0,96/1,008=0,952 1,008*0,952=0,
apr- 17 12,9 12,9/12,4=1,04 12,9/11,9=1,084 1,04/0,96=1,0 52 0,9596*1,084=1,0 40
mag- 17 13,1 13,1/12,4=1,056 13,1/12,9=1,01 6 1,056/1,05=1,015 1,040*1,016=1,05 7
giu- 17 11,1 11,1/12,4=0,895 11,1/13,1=0,847 0,895/1,056=0,847 1,057*0,847=0,
a) quali linee di codice di R si utilizzano per calcolare i numeri indice a base fissa 2015; b) quali linee di codice di R si utilizzano per calcolare i numeri indice a base mobile 2017; c) quali linee di codice di R si utilizzano per calcolare i numeri
indice a base fissa 2016
p_2015 <-c(2.48,2.97,2.23,2.67,2.90,3.06,2.89,3.88,3.22,3.90,3.12,3.01)
p_2016 <-c(3.52,3.99,3.08,3.88,3.96,4.01,4.07,4.25,4.89,4.08,4.78,4.71)
p_2017 <-c(5.01,5.57,5.34,5.09,5.25, 5.02,5.01,5.02,5.78,5.21,5.33,5.36)
Fissa <- function(P, Base) P/Base
Fissa(p_2015, 2.48)
Fissa(p_2016, 3.52)
Fissa(p_2017, 5.01)
p_2017 <- c(12.4;12.5;11.9)
Fissa <- function(P, Base) P/Base
Fissa(p_2017, 12.4)
p_2017 <- c(11.9;12.9;13.1;11.1)
Fissa <- function(P, Base) P/Base
Fissa(p_2017, 11.9)
p_2017 <- c(12.4,12.5,11.9,12.9,13.1,11.1)
Mobile <- function(P_t2, P_t1) P_t2/P_t
Mobile(p_2017 [-1] ,p_2017[-12])
assolute; c) rappresentare il relativo istogramma.
library(labstatR)
x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58,20,39,41,37); x
n <- length(x);n
k<- ceiling(1+3.322*log10(n)); k
a <- (max(x) - min(x)) / k ; a
Classi <- seq(min(x),max(x),length.out = k + 1); Classi ##### a. #####
FreqAss <- hist(x,Classi,plot = FALSE)$counts; FreqAss ##### b. #####
FreqRel <- FreqAss / length(x) ; FreqRel ##### b #####
cumsum(FreqAss) ##### b #####
cumsum(FreqRel) ##### b #####
par(bg="cornsilk") ##### c #####
h <- hist(x,Classi,plot = FALSE)
h$counts <- FreqRel
plot(h,ylab = "Frequenze Relative",axes = FALSE)
axis(1,at = Classi,cex.axis = 1.1)
axis(2,at = c(0,round(h$counts,digits = 2)),cex.axis = 1.1)
library(labstatR)
x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58)
k <- 4 ; k
a <- (max(x) - min(x)) / k ; a
n <- length(x);n
Classi <- seq(min(x),max(x),length.out = k + 1); Classi ##### a. #####
x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58); x
n<- length(x); n
k <- ceiling(sqrt(n)); k #####b#####
a <- (max(x) - min(x)) / k ; a
Classi <- seq(min(x),max(x),length.out = k + 1); Classi #####b#####
x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58,20,39,41,37) ; x
n <- length(x) ;n
k<- ceiling(1+3.322*log10(n)) ; k
a <- (max(x) – min(x)) / k ; a
Classi <- seq(min(x) ,max(x) ,length.out = k + 1) ; Classi #####c#####
Classi equi ampie Freq. Ass. (n) Val. centrale Freq. Rel. 𝒇 = 𝒏 𝒐
/𝒏 Freq. Rel. Cum. Freq. Ass.Cum.
Totale n=6 1,
Dfrequenza = nclasse / aclasse 𝑀 𝑜
𝑀𝑜
∆𝑓 𝑖𝑛𝑓
∆𝑓
𝑖𝑛𝑓
+∆𝑓 𝑠𝑢𝑝
𝑐𝑙𝑎𝑠𝑠𝑒
𝑀𝑜
è l’estremo inferiore della classe modale; ∆𝑓
𝑖𝑛𝑓
è la differenza fra la frequenza assoluta della classe modale e la frequenza assoluta della classe immediatamente inferiore a quella modale;
𝑠𝑢𝑝
è la differenza fra la frequenza assoluta della classe modale e la frequenza assoluta della classe immediatamente superiore a quella modale; 𝐴
𝑐𝑙𝑎𝑠𝑠𝑒
è l’ampiezza della classe modale
La distribuzione amodale presenta frequenze tutte uguali e una sola frequenza massima, di conseguenza la moda è una sola. Nella distribuzione amodale i valori si ripetono una sola volta. Nella distribuzione plurimodale esistono due o più
mode. Si dice bimodale se ha due valori modali, trimodale se ne ha tre, e così via. Di conseguenza i valori si ripetono più volte.
Posizione Q1 => (n+1)/ 4
Posizione Q2 => (n+1)/ 3
Posizione Q3 => 3 (n+1)/
library(labstatR)
x<-c(22,23,24,32,56); x
Q1<-quantile(x,probs=0.25,type=6,names=F);Q1 ## a ##
Q2<-quantile(x,probs=0.5,type=6,names=F); Q2 ## b. ##
Q3<-quantile(x,probs=0.75,type=6,names=F); Q3 ## c. ##
1
𝑄
1
0 , 25 −𝐹 𝑄 1
− 1
𝐹 𝑄 1
−𝐹 𝑄 1
− 1
𝑄
1
3
𝑄
3
0 , 75 −𝐹 𝑄 3
− 1
𝐹 𝑄 3
−𝐹 𝑄 3
− 1
𝑄
3
2
𝑄 2
0 , 50 −𝑓𝑟𝑒𝑞.𝑐𝑢𝑚.𝑎𝑠𝑠.
𝑀𝑒− 1
𝑓𝑟𝑒𝑞.𝑎𝑠𝑠 𝑀𝑒
𝑄 1
è l’estremo inferiore della classe dove cade il I Quartile;
𝑄 1
− 1
è la frequenza cumulata assoluta fino alla classe precedente a quella in cui cade il I Quartile;
𝑄 1
è la frequenza cumulata assoluta a fino alla classe che contiene il I Quartile;
𝑄 1
è l’ampiezza della classe che contiene il I Quartile.
Scarto semplice dalla media, E’ la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore medio 𝑆𝐶 𝑠𝑒𝑚
𝑖
Scarto semplice dalla mediana, E’ la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore mediano
𝑠𝑒𝑚
𝑖
𝑒
Scarto medio assoluto dalla media, E’ la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore medio rapportati al numero delle osservazioni 𝑆𝐶 𝑎𝑠𝑠
∑ |𝑥 𝑖
−𝑥̅ |
𝑛
Scarto medio assoluto dalla mediana, mediano rapportati al numero delle osservazioni 𝑆𝐶 𝑎𝑠𝑠
∑ |𝑥 𝑖
−𝑀 𝑒
|
𝑛
Dissomiglianza: 𝐼 𝐷𝐼𝑆𝑆
∑ |𝑓 1 𝑖
−𝑓 2 𝑖
|
2
𝑖
2
2
2
𝑛
𝑖= 1
2
2
2
2
𝑖
𝑛 2
𝑖= 1
a) i cinque numeri di sintesi; b) l’indice di asimmetria di Bowley; c) l’indice di asimmetria con la formula del momento terzo per valori singoli e per valori suddivisi in classi
library(labstatR)
x<-c(12,2,3,45)
n<- length(x); n
k <- ceiling(sqrt(n)); k #####b#####
a <- (max(x) - min(x)) / k ; a
Classi <- seq(min(x),max(x),length.out = k + 1); Classi #####a#####
FreqAss <- c(1,2,0,4);FreqAss
Q1<-quantile(x,probs=0.25,type=6,names=F);Q1 ## a ##
Q2<-quantile(x,probs=0.5,type=6,names=F); Q2 ## a ##
Q3<-quantile(x,probs=0.75,type=6,names=F); Q3 ## a ##
I_B<-(Q3+Q1-2*Q2)/(Q3-Q1); I_B ##b##
skew(x); ##c##
y <-c(1,2,0,4);y
mean_classi <- sum(y * FreqRel); mean_classi;
var_classi<-sum((mean_classi)^2*FreqRel); var_classi
sqm<-sqrt(var_classi); sqm
I_skew<-sum(1/n_X(y-mean_classi)^3FreqAss/sqm^3);I_skew
a) i cinque numeri di sintesi; b) l’indice di asimmetria di Bowley; c) l’indice di asimmetria con la formula del momento terzo per valori singoli e per valori suddivisi in classi
FreqAss FreqRel FreqRelCum FreqAssCum
n=Freq Ass Tot=
Indici di sintesi
Min e max = 2 e 45
1
𝑛+ 1
4
8 + 1
4
2
𝑛+ 1
2
8 + 1
2
3
3 (𝑛+ 1 )
4
Ordino i caratteri e cerco le posizioni 2- 2 - 2 - 2 - 12 - 45 - 45 - 45 𝑄 1
2
12 + 2
2
3
𝐵𝑜𝑤𝑙𝑒𝑦
3
1
2
3
1
𝐹𝑖𝑠ℎ𝑒𝑟 1
𝑀 3
𝜎
3
𝑛
∑ (𝑥 1
−𝑥̅)
𝑛 3
𝑖= 1
𝜎
3
𝑛
momento terzo valori singoli
𝑖
2
= ( 2 − 15 , 5 )
2
2
𝑛
𝑖= 1
2
2
= 1221
𝑖
𝑛 2
𝑖= 1
𝐹𝑖𝑠ℎ𝑒𝑟 1
3
3
3
3
3
∙ 4
𝐹𝑖𝑠ℎ𝑒𝑟 2
𝑀 3
𝜎
3
𝑛
∑ (𝑥 1
−𝑥̅)
𝑛 3
𝑖= 1
∙𝑛
𝑖
𝜎
3
𝑛
momento terzo classi
𝑖
2
=
2
∙ 4 +
2
∙ 0
𝑛
𝑖= 1
2
∙ 1 +
2
∙ 4
𝐹𝑖𝑠ℎ𝑒𝑟 2
3
3
3
3
3
∙ 8
a) la media per valori suddivisi in classi; b) lo scarto quadratico medio dalla media; c) l’indice di curtosi con la formula del momento quarto per valori singoli e per valori suddivisi in classi
library(labstatR)
x <- c(12,2,3,45)
y <-c(1,2,0,4);y
mean_classi <- sum(y * FreqRel); mean_classi;
var_classi<-sum((mean_classi)^2*FreqRel); var_classi
sqm<-sqrt(var_classi); sqm
I_kurt<-sum(1/n_X(y-mean_classi)^4FreqAss/sqm^4);I_kurt ; scost<-I_kurt-3;scost
kurt(x)
frequenze teoriche; c) la tabella delle contingenze assolute e il chi-quadrato
x/y H1 H2 H3 H
tab <- matrix(c(0, ,1,3,4,1,2,3,0,1,5,3,2))
rownames(tab) <- c("W1", "W2", "W3")
colnames(tab) <- c("H1", "H2", "H3" , "H4")
addmargins(tab) ##a##
tab_teor <- margin.table(tab, 1) %*% t(margin.table(tab, 2))/sum(tab); addmargins(tab_teor) ##b##
tab_contass<-(tab - tab_teor); addmargins (tab_contass) ##c##
tab_chi_quadr<- ((tab - tab_teor)^2)/tab_teor; addmargins (tab_chi_quadr) ##c##
chi_quadr<- sum(((tab - tab_teor)^2)/tab_teor); chi_quadr ## a ##
assolute e il chi-quadrato
x/y
𝟏
𝟐
tot
𝟏
𝟐
tot 3 5 8
x/y
𝟏
𝟐 tot
𝟏
𝟐
tot 3 5 8
x/y
𝟏
𝟐
𝒘 Chi quadrato=0,375+0,054+0,032+0,225=1, 𝟏
2
2
𝟐
2
2
massimo e normalizzato
tab <- matrix(c(0,1,3,4)
rownames(tab) <- c("w1", "w2")
colnames(tab) <- c("h1", "h2")
addmargins(tab)
tab_teor <- margin.table(tab, 1) %*% t(margin.table(tab, 2))/sum(tab); addmargins(tab_teor)
tab_contass<-(tab - tab_teor); addmargins (tab_contass)
tab_chi_quadr<- ((tab - tab_teor)^2)/tab_teor; addmargins (tab_chi_quadr)
chi_quadr<- sum(((tab - tab_teor)^2)/tab_teor); chi_quadr ## c ##
chi_max<-(sum(tab)*(min(dim(tab)-1))); chi_max ## c ##
chi_norm <- chi_quadr/(sum(tab)*(min(dim(tab)-1))); chi_norm ## c ##
library (labstatR)
x<- c(1,2,3,4)
y<- c(3,4,2,1) #ipotizzati#
par(bg="cornsilk")
mx<- mean(x)
var(x)<- mean((x-mx)^2)
dex(x)<- var*(length(x))
my<- mean(y)
var(y)<- mean((y-my)^2)
dex(y)<- var*(length(y))
cov (x,y) ## b ##
rho<-sqrt(R2);rho ## c##
library (labstatR)
x<- c(1,2,3,4)
length(x)
y<- c(11,9,7,5)
length(y)
par(bg="cornsilk")
mx<- mean(x)
var(x)<- mean((x-mx)^2)
dex(x)<- var*(length(x))
my<- mean(y)
var(y)<- mean((y-my)^2)
dex(y)<- var*(length(y))
cov (x,y) ## b ##
rho<-sqrt(R2);rho ## c##
relativa matrice di dati; b)calcolare le frequenze congiunte assolute e teoriche; c) le contingenze assolute e il chi-quadrato
2
∙ 0 , 90 + 1
2
∙ 0 , 07 + 2
2
∙ 0 , 02 + 3
2
∙ 0 , 01 – ( 0 , 14 )
2
= 0 , 2204
La funzione di ripartizione o distribuzione cumulata di probabilità assume una valenza oggi sempre più importante rispetto anche alla funzione di probabilità la quale può essere facilmente ottenuta dalla funzione di ripartizione stessa. Data
una v.c. discreta X, la funzione che fa corrispondere ai valori x le probabilità cumulate P(X≤x) viene detta funzione di ripartizione ed è indicata con: 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑃(𝑋 = 𝑤) 𝑤≤𝑥
Alla funzione di ripartizione si associano tre importanti proprietà:
𝑃(𝑋 ≤ 𝑥) è non decrescente ovvero 𝑥 1
2
1
2
) lim
𝑛→−∞
𝑃(𝑋 ≤ 𝑥) = 0 ; lim
𝑛→∞
𝑃(𝑋 ≤ 𝑥) = 1 ; 𝑃(𝑋 ≤ 𝑥) è continua a destra
grafico della funzione di densità; c) rappresentare il grafico della funzione di densità
rnorm(100,2,0.2)
curve(dnorm(x, 2,0.2), - 2 , 6 , ylab="Densità", main="funzione di densità di una v.c. Normale")
Se si vuole studiare il livello medio e quello di variabilità dei valori che compongono la distribuzione di probabilità medesima, occorre analizzare i concetti di valore atteso, di varianza e di deviazione standard. La media o valore atteso di una
v.c. continua unidimensionale è dato dalla seguente notazione: 𝐸(𝑥) = ∫ 𝑥𝑓(𝑥)𝑑(𝑥)
+∞
−∞
dove l’integrale, purché esista e sia finito, rappresenta la somma nel continuo di tutti i valori assunti dalla v.c. continua X.La varianza di una v.c. discreta
unidimensionale continua è data dalla seguente notazione: 𝑉𝑎𝑟(𝑋) = ∫ (𝑥 − 𝜇)
2
+∞
−∞
La deviazione standard è data semplicemente dalla radice quadrata della varianza ed è espressa dalla seguente notazione: 𝐷𝑠𝑡𝑑 = √
Il coefficiente di variazione è definito dal rapporto fra deviazione standard e media espressa in valore assoluto:
𝑉𝑎𝑟(𝑋)
𝐸(𝑥)
Si scelgano 100 numeri casuali da una v.c. continua normale con valore atteso 2 e deviazione standard 0,2; quali linee di codice di R si utilizzano per: a) trovare i numeri casuali; b) rappresentare lo sfondo colore beige del grafico della
funzione di ripartizione; c) rappresentare il grafico della della funzione di ripartizione
rnorm(100,2,0.2)
curve(pnorm(x,2,0.2),‐2, 6, ylab= “Ripartizione”,main= “Grafico della funzionedi ripartizione”)
Legge debole. Date n variabili mutuamente indipendenti con media μ e varianza σ2 ed un numero positivo a si può affermare che il limite per x che tende a ∞ della probabilità della differenza tra la media delle v.c. stesse e il valore atteso μ
in termini assoluti sia maggiore di un valore intero positivo a è uguale a zero. In simboli si avrà: 𝑙𝑖𝑚𝑥−> ∞ 𝑃[𝑙 (𝑋 1 + 𝑋 2 + ⋯. +𝑋𝑛)/ 𝑛] − 𝜇 𝑙 > 𝑎 ] = 0
Si può dedurre che la media μ converge in probabilità alla media aritmetica delle Xi per i=1,…,n
Legge forte. Date n variabili mutuamente indipendenti con media μ e varianza σ2, si può affermare che la probabilità che al limite per x che tende a ∞ della media aritmetica delle stesse v.c. uguale a μ in valore assoluto è uguale a uno. In
simboli si avrà: 𝑃 𝑙 𝑙𝑖𝑚𝑥−> ∞ (𝑋 1 + 𝑋 2 + ⋯. +𝑋𝑛)/ 𝑛 = 𝜇 𝑙 = 1
Si può stabilire una convergenza quasi sicura tra la media μ e la media delle Xi per i=1,…,n
Disuguaglianza di Markov. Nella situazione in cui non si è a conoscenza della distribuzione della v.c., si potrebbe avere l’esigenza di definire dei limiti alla probabilità. Con la disuguaglianza di Markov, che è un corollario di quella di
Chebyshev, si stabilisce che la probabilità che la v.c. X sia maggiore o uguale alla quantità h non deve superare il rapporto tra la media e la stessa quantità h e quindi essa può essere trovata conoscendo solo il valore atteso. La notazione
attraverso cui si stabilisce il limite superiore di probabilità è la seguente: 𝑃(𝑋 ≥ ℎ) ≤ 𝑥̅ / ℎ dove X è una v.c. non negativa, 𝑥̅ è il valore atteso e h è un numero positivo.
#PROB X=8 p(x)=1/N
#PROB X<2 escluso lo 0
pmin2<‐p
pmin3<.p1+p
pmag7<‐p8+p9+p
pcomp<‐p5+p6+p
N<-11; val_att<-(N+1)/2;val_att;var<-(N^2-1)/12; var; dev_std<-sqrt(var);dev_std;
x <- 0:
n <- 1
p <- 0.
qbinom(p=0.5,size=1,prob=0.25) ## a ##
dbinom(x=0,size=1,prob=0.25) ## b ##
pbinom(q=1,size=1,prob=0.25) ## c ##
n <- 11
p <- 0.
val_at<-p; val_at
var<- p*(1-p);var
dev_std<-sqrt(p*(1-p));dev_std
i_as<- 1 - 2*p/dev_std; i_as
i_cur1<- 1 - 6p-6p^2;i_cur
i_cur2<-p*(1-p);i_cur
i_cur<-i_cur1/i_cur2;i_cur
10
−𝜆
10
− 3 , 2
0
− 3 , 2
1
− 3 , 2
13
− 3 , 3
) = 1 − 0 , 04 + 1 , 28 + ⋯ ≅ 0 , 98
13
𝑥= 0
22
𝑥= 0
𝑥
− 3 , 2
𝑛= 40
𝑥= 30
Data la v.c. Poissoniana X con λ =3,2 con quali script di R si calcola: a) la probabilità che x=10; b) la probabilità che x< 13; c) la probabilità che x>22 e che x sia ricompreso fra 30 e 40
La<-3.
x<- 10
dpo<-dpois(x,La);dpo
ppo<-ppois(12,La);ppo
x<- 22
ppo<- 1 - ppois(x,La);ppo
ppo<-ppois(30,La)-ppois(40,La);ppo
lambda <- 3.
val_at<-lambda; val_at ## a ##
var<- lambda;var ## b ##
dev_std<-sqrt(lambda);dev_std ## c ##
i_as<-1/sqrt(lambda); i_as ## c ##
i_cur<-1/lambda;i_cur ## c ##
mean<- 0
std<- 1
dnorm(2.8,mean,std) ## a ##
pnorm(3. 2 ,mean,std) ## b ##
1 - pnorm(3.7,mean,std) ##c##
pnorm(3.1,mean,std) - pnorm(4.4,mean,std)
−
1
2
𝑧
2
df<- 23
var<-df/(df-2);var
dev_std<-sqrt(var);dev_std
i_as<-0;i_as
i_cur<-6/(df-4);i_cur
df<- 23
dt(2,df)
pt(12,df)
1 - pt(17,df)
pt(11,df)-pt(14,df)
g<- 23
dchisq(8,g)
pchisq(3,g)
1 - pchisq(17,g)
pchisq(13,df)-pchisq(20,g)
g<- 23
var<-2*g;var
dev_std<-sqrt(var);dev_std
i_as<-sqrt(g/8);i_as
i_cur<-12/g; i_cur
𝑎𝑠
𝑐𝑢𝑟𝑡
𝑎𝑡𝑡
2
2
2
2
1
2
2
2
𝑔 1
2
df1<- 16
df2<- 24
df(18, df1, df2)
pf(22, df1, df2)
1 - pf(17, df1, df2)
pf(14,df1,df2)-pf(19,df1,df2)
0
𝑛− 0
3
( 1 − 0 , 23
𝑛− 3
1
𝑛− 1
0
𝑛− 0
2
( 1 − 0 , 23
𝑛− 2
1
𝑛− 1
n<- 80
p<-0.
pbinom(18,n,p)
1 - pbinom(19,n,p)
pbinom(17.8,n,p)-pbinom(19.2,n,p)
ripetizione); b) l numero campioni ordinati di numerosità 2 (senza ripetizione); c) numero campioni non ordinati di numerosità 2 (con ripetizione e senza ripetizione);
x<-c(4,8,12,12,14,16)
n<- 2
number<-N^n;number
sample(x,number,replace=TRUE) ## a ##
number1<-factorial(N)/factorial(N-n); number
sample(number1)## b ##
number2<-factorial(N+n-1)/(factorial(n)*factorial(N-1)); number
sample(number2)## c ##
number3<-factorial(N)/(factorial(n)*factorial(N-n)); number
sample(number2)
2
di 8 e ricompreso fra 5 e 9;c) il valore atteso
𝑎𝑡𝑡
di confidenza per la media con varianza nota; b) il limite inferiore dell’intervallo di confidenza per la media con varianza nota; c) la numerosità campionaria e l’ampiezza dell’intervallo
mx_camp <- 987
n <- 397
var_stim<- 36
l.inf <- mx_camp - qt(0.01,n) * sqrt(var_stim/n);l.inf
l.sup <- mx_camp + qt(0.01,n) * sqrt(var_stim/n);l.sup
amp_inter<-2*qt(0.01,n) * sqrt(var_stim/n);amp_inter
num_camp <- round((qt(0.01,n)^2*6^2)/(1.5^2));num_camp
ampiezza; c) la numerosità campionaria per un valore massimo del termine di errore pari a 1,
n <- 29
var_stim<-1.
l.inf <- mx_camp - qt(0.995,29) * sqrt(var_stim/n);l.inf
l.sup <- mx_camp + qt(0.995,29) * sqrt(var_stim/n);l.sup
amp_inter<-2*qt(0.995,29) * sqrt(var_stim/n);amp_inter
num_camp <- round((qt(0.995,29)^2*6^2)/(1.5^2));num_camp
stimatore intervallare per la media con varianza nota.
L’intervallo di confidenza o intervallo fiduciale è l’intervallo di valori entro i quali si stima che cada, con un livello di probabilità prescelto, il valore vero di una variabile analizzata relativa all’intera popolazione.
Con la notazione seguente: 𝑃 (𝑋
𝑎
2
𝜎
√𝑛
𝑎
2
𝜎
√𝑛
) = 1 − 𝛼 si esprime la probabilità che, ad un livello di fiducia o di confidenza 1-α ovvero nel 100(1-α)% dei campioni, la media μ della popolazione è ricompresa negli estremi seguenti:
𝑎
2
𝜎
√𝑛
𝑎
2
𝜎
√𝑛
. Essa può essere denotata in modo equivalente come: 𝑃
1
2
= 1 − 𝛼 dove 1-α è appunto il livello di confidenza e α è il livello di significatività, ovvero la probabilità di compiere un errore qualora si affermi
che il valore dle parametro della popolazione di interessa sia compreso nei limiti(𝜇 1
2
). Il livello di confidenza 1-α è quell’intervallo di valori campionario che dovrebbe contenere il valore del parametro della popolazione di interesse ad un
prefissato livello di significatività α. Tale intervallo detto anche stimatore intervallare rappresenta lo strumento attraverso il quale è possibile dare un giudizio di affidabilità sulla stima dei parametri della popolazione.
Individuazione del livello di significatività 𝛼 = 0 , 01
α
2
il quantile 1 − α = 1 − 0 , 005 = 0 , 995 (probabilità)
2
1
2
𝑎
2
1
2
n 1
2
2
n 2
1
2
𝑎
2
1
2
n 1
2
2
n 2
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à
1 − 0 , 05 = 0 , 95 (𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à)
(tcritica=1,2925)
1
2
2
,𝑛 1
+𝑛 2
− 2
n
1
n
2
1
2
2
,𝑛 1
+𝑛 2
− 2
n
1
n
2
2
1
1
2
2
2
2
]
1
2
dello stimatore intervallare per la proporzione; c) la numerosità campionaria e l’ampiezza dell’intervallo.
p <-0.
n <- 50
l.inf<-p-qnorm(0.05)sqrt(p(1-p)/n);l.inf
l.sup<-p+qnorm(0.05)sqrt(p(1-p)/n);l.sup
amp_inter<-2qnorm(0.05) * sqrt(p(1-p)/n);amp_inter
num_camp <-((qnorm(0.05)(p(1-p))/1,5))^2;num_camp
campionaria pari a 0,47 su un campione di 320 elettori; c) lo stimatore intervallare con α =0,05 (zempirica=1,96) per la proporzione campionaria pari a 0,47 su un campione di 1550 elettori.
2
2
la sua ampiezza; c) la numerosità campionaria per un valore massimo del termine di errore pari a 0,
p<-0.
n <- 120
l.inf<-p-qnorm(0.9 75 )sqrt(p(1-p)/n);l.inf
l.sup<-p+qnorm(0.975)sqrt(p(1-p)/n);l.sup
amp_inter<-2qnorm(0.975) * sqrt(p(1-p)/n);amp_inter
num_camp <-((qnorm(0.975)(p(1-p))/0.047))^2;num_camp
del termine di errore pari a 1,
mx_camp <- 987
n <- 397
var_stim<- 36
l.inf <- mx_camp - qt(0.01,n) * sqrt(var_stim/n);l.inf
l.sup <- mx_camp + qt(0.01,n) * sqrt(var_stim/n);l.sup
amp_inter<-2*qt(0.01,n) * sqrt(var_stim/n);amp_inter
num_camp <- round((qt(0.01,n)^2*6^2)/(1.5^2));num_camp
Il concetto di test parametrico presuppone di affrontare la verifica di ipotesi sui parametri di una popolazione normale da cui sono estratti i campioni. L’approccio di Neyman e Pearson, noto come test di ipotesi, prende in considerazione
esplicitamente l’ipotesi alternativa rispetto a quella di interesse o nulla. Per ipotesi si intende stabilire un valore a priori riguardante un parametro della popolazione di interesse. Le due ipotesi in opposizione sono: quella nulla o di interesse,
definita H0 e quella alternativa, definita H1. L’ipotesi H0 è quella considerata vera fino a prova contraria. L’ipotesi H1 è quella in contrapposizione. Le procedure che permettono di decidere se accettare o rifiutare una data ipotesi o di
stabilire se un dato campione osservato differisce dai risultati attesi sono definite test statistici o test d’ipotesi o test di significatività dette anche regole di decisione. Se l’ipotesi nulla H0 è un’affermazione sul valore assunto da un parametro
incognito di una popolazione, l’ipotesi alternativa H1 risponde ad una delle seguenti affermazioni: il parametro è maggiore o uguale del valore ipotizzato (test unilatero con coda a destra); il parametro è minore o uguale del valore
ipotizzato (test unilatero con coda a sinistra); il parametro è diverso del valore ipotizzato (test bilatero o a due code).
p-value; c) si effettua il confronto fra il livello di significatività α e il p-value ai fini della verifica di ipotesi per un test bilatero
mu<- 987
var<- 36
z<qnorm(0,01) o qnorm(0,01) ACCETTO al contrario RIFIUTO
pnorm(z)
pnorm(z)=p-value>alfa o alfa/2 ACCETTO al contrario RIFIUTO
regioni di accettazione e di rifiuto per un test unilatero sinistro
con α/2 uguale a 0,025 la relativa z critica è pari a 1,96 la cui probabilità è rappresentata dall’area a sinistra e a destra rispettivamente dei valori - 1,96 e +1,96 se la struttura di ipotesi è bilaterale. Successivamente viene calcolata la z empirica
applicando la notazione della relativa statistica test e poi si pongono a confronto i due valori. A questo punto si possono avere due possibilità:
sotto quella alternativa H1 quando questa è falsa come è la scelta e quale probabilità assume; c) quando si decide di accettare l’ipotesi nulla H0 sotto quella alternativa H1 quando questa è falsa come è la scelta e quale probabilità assume?
Scelta Ipotesi nulla o di interesse H 0 (Vera) Ipotesi nulla o di interesse H 0 (Falsa)
H 0 (si rifiuta o non si accetta) Si commette errore I tipo con probabilità alfa Scelta corretta con probabilità 1 - beta
H 0 (accetta o non si rifiuta) Scelta corretta con probabilità 1 - alfa Si commette errore II tipo con probabilità beta
Se si rifiuta l’ipotesi di interesse H 0 sotto quella alternativa H 1 quando si sarebbe dovuta accettare, si commette un errore del I tipo.
Se si accetta l’ipotesi di interesse H 0 sotto quella alternativa H 1 quando si sarebbe dovuta rifiutare, si commette un errore del II tipo.
In entrambi i casi si assume una decisione errata o si commette un errore di valutazione. In linea generale è più grave commettere un errore del I tipo che uno del II. Potenza del test Si consideri un’ipotesi alternativa H1:μ=μ0. La potenza
del test è il complemento a 1 dell’errore di II tipo (1-β). Si può affermare che la potenza del test corrisponde alla probabilità di rifiutare H0 quando questa è falsa. Quindi si cerca di avere un valore molto alto di questa probabilità, come si
ribadisce che α deve avere un valore molto basso al fine di garantire una bassa probabilità di commettere l’errore di I tipo. Interrelazioni fra teoria della stima e verifica di ipotesi Dalle considerazioni svolte finora si può notare che esiste una
interrelazione tra la teoria della stima che coinvolge gli intervalli fiduciari e la teoria dei test di ipotesi. Se si prende a riferimento la verifica delle ipotesi per test bidirezionali su una media campionaria nel caso di grandi campioni (n>30)
distribuiti normalmente, il sistema di ipotesi relativo sarà: H0:μ=μ0 vs H1:μ≠μ0.
mu<- 200
n<- 92
media_camp<- 198
pnorm(z)
test bilatero (Z critica=1,96)
se Z ≥ - z α /2 secondo la tecnica del p-value.