Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


paniere completo aperte statistica, Panieri di Statistica

domande complete aperte del paniere di statistica, corretto e voto positivo esame

Tipologia: Panieri

2020/2021

In vendita dal 30/11/2021

Marco.Colucci
Marco.Colucci 🇮🇹

7 documenti

1 / 26

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1. Per importare il file di testo "prova.txt" descrivere quali linee di codice di R si utilizzano: a) quando non compare il nome della colonna nella prima riga; b) quando contiene due e più colonne separate da spazi vuoti con nome
delle colonne nella prima riga; c) quando ci sono i nomi di riga nella prima colonna
a) prova <- scan(“c:/mydat/prova.txt”) b) prova <- read.table(“c:/mydat/prova.txt”, header=TRUE) c)prova <- read.table(“c:/mydat/prova.txt”, header=TRUE, row.names=1)
2. Redigere le seguenti linee di codice di R: a) per cambiare una directory di lavoro, per settare una nuova directory e per importare un data frame presente in R; b) per implementare la creazione del data frame "df" utilizzando il
comando matrix;c) per implementare la creazione del data frame "df" utilizzando il comando tab
a) Essa può essere visualizzata o modificata cliccando sulla RConsole e aprire da File l'opzione "Cambia directory" oppure tramite il comando di R: getwd () Per settare una nuova directory si può usare il comando: setwd() Poiche
ogni comando usato e una funzione memorizzata in una delle librerie, si ha la necessita di caricare le librerie prima di lavorare. Molte delle funzioni comuni si trovano nelle librerie, che vengono caricate da predefinito (di default). Le
funzioni base per importare i dati su R sono in particolare tre, e possono essere utilizzate per importare dei dati in formati quali .csv, .tsv o .txt. Si tratta delle funzioni read.table(), read.csv() e read.delim(). Se il file che si vuole leggere si
chiama prova.txt (contenente vettori colonna di dati senza il nome della colonna nella prima riga) che si trova nella directory mydat del disco C:/ il codice da utilizzare è: prova <- scan(«C:/mydat/prova.txt")
b) m1<- matrix(1:36, nrow=6)
df.data.frame(m1); df
c) tab <- matrix(c(1:18),6, 3)
rownames(tab) <- c (1,2,3,4,5,6)
colname(tab) <- c(“X1”, “X2”, “X3”)
tab
3. Dato un file Excel quali linee di codice di R si utilizzano per: a) importarlo senza il nome della colonna nella prima riga; b) importarlo quando contiene due e più colonne separate da spazi vuoti con nome delle colonne nella prima
riga; c) importarlo con la versione di Excel in inglese se nella prima colonna ci sono i nomi di riga con l’estensione
E' opportuno ricordare che il file origine Excel deve essere salvato con l’estensione .csv oppure .csv2.
a) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE)
b) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE, row.names=1)
c) prova <- read.csv("c:/mydat/prova.csv", header=TRUE)
4. Definita una popolazione di interesse con dati a scelta stabilire: a) quale tipo di dati devono essere utilizzato; b) quali sono le fasi della rilevazione; c) la nomenclatura statistica completa.
La popolazione presa in considerazione è l’insieme dei contagiati in un epidemia in italia, i dati raccolti sono di tipo qualitativo sconnesso: maschio o femmina; quantitativo discreto: età dei contagiati, qualitativo sconnesso: sintomi e
eventuali patologie, conseguenze riportate. Le fasi di rilevazione sono la modalità di raccolta dei dati, la vera e propria raccolta dei dati. Si possono anche utilizzare i dati rilevati dal ministero della salute
5. Dati i seguenti valori dei prezzi del I semestre 2017 (12,4-12,5-11,9;12,9-13,1-11,1) calcolare: a) numeri indici a base fissa e mobile; b) passaggio da base fissa Marzo a base mobile Giugno; c) passaggio da base mobile Febbraio a
base fissa Maggio
tempo
prezzo
Indice a base fissa 𝟎𝟏
𝑰=𝒙𝟏
𝒙𝒐
indice a base mobile 𝒕𝟏𝒕𝑰=𝒙𝒕
𝒙𝒕−𝟏
passaggio da BF a BM
Passaggio da BM a BF
gen-17
12,4
12,4/12,4=1
-
-
-
feb-17
12,5
12,5/12,4=1,008
12,5/12,4=1,008
1,008/1=1,008
1*1,008=1,008
mar-17
11,9
11,9/12,4=0,96
11,9/12,5=0,952
0,96/1,008=0,952
1,008*0,952=0,9596
apr-17
12,9
12,9/12,4=1,04
12,9/11,9=1,084
1,04/0,96=1,052
0,9596*1,084=1,040
mag-17
13,1
13,1/12,4=1,056
13,1/12,9=1,016
1,056/1,05=1,015
1,040*1,016=1,057
giu-17
11,1
11,1/12,4=0,895
11,1/13,1=0,847
0,895/1,056=0,847
1,057*0,847=0,895
6. 13. Dati i valori dei prezzi per gli anni 2015 (2.48,2.97,2.23,2.67,2.90,3.06,2.89,3.88,3.22,3.90,3.12,3.01), 2016 (3.52,3.99,3.08,3.88, 3.96,4.01,4.07,4.25,4.89,4.08,4.78,4.71) e 2017 (5.01,5.57,5.34,5.09,5.25, 5.02,5.01,5.02,5.78,5.21,5.33,5.36):
a) quali linee di codice di R si utilizzano per calcolare i numeri indice a base fissa 2015; b) quali linee di codice di R si utilizzano per calcolare i numeri indice a base mobile 2017; c) quali linee di codice di R si utilizzano per calcolare i numeri
indice a base fissa 2016
p_2015 <-c(2.48,2.97,2.23,2.67,2.90,3.06,2.89,3.88,3.22,3.90,3.12,3.01)
p_2016 <-c(3.52,3.99,3.08,3.88,3.96,4.01,4.07,4.25,4.89,4.08,4.78,4.71)
p_2017 <-c(5.01,5.57,5.34,5.09,5.25, 5.02,5.01,5.02,5.78,5.21,5.33,5.36)
Fissa <- function(P, Base) P/Base
Fissa(p_2015, 2.48)
Fissa(p_2016, 3.52)
Fissa(p_2017, 5.01)
2015
2017
BF 2015
BF 2016
2,48
5,01
2,48/2,48=1
3,52/3,52=1
2,97
5,57
2,97/2,48=1,198
3,99/3,52=1,134
2,23
5,34
2,23/2,48=0,899
3,08/3,52=0,875
2,9
5,09
2,9/2,48=1,17
3,88/3,52=1,1023
3,06
5,02
3,06/2,48=1,234
4,01/3,52=1,139
2,89
5,01
2,89/2,48=1,165
4,07/3,52=1,156
3,88
5,02
3,88/2,48=1,56
4,25/3,52=1,207
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Anteprima parziale del testo

Scarica paniere completo aperte statistica e più Panieri in PDF di Statistica solo su Docsity!

  1. Per importare il file di testo "prova.txt" descrivere quali linee di codice di R si utilizzano: a) quando non compare il nome della colonna nella prima riga; b) quando contiene due e più colonne separate da spazi vuoti con nome

delle colonne nella prima riga; c) quando ci sono i nomi di riga nella prima colonna

a) prova <- scan(“c:/mydat/prova.txt”) b) prova <- read.table(“c:/mydat/prova.txt”, header=TRUE) c)prova <- read.table(“c:/mydat/prova.txt”, header=TRUE, row.names=1)

  1. Redigere le seguenti linee di codice di R: a) per cambiare una directory di lavoro, per settare una nuova directory e per importare un data frame presente in R; b) per implementare la creazione del data frame "df" utilizzando il

comando matrix;c) per implementare la creazione del data frame "df" utilizzando il comando tab

a) Essa può essere visualizzata o modificata cliccando sulla RConsole e aprire da File l'opzione "Cambia directory" oppure tramite il comando di R: getwd () Per settare una nuova directory si può usare il comando: setwd() Poiche

ogni comando usato e una funzione memorizzata in una delle librerie, si ha la necessita di caricare le librerie prima di lavorare. Molte delle funzioni comuni si trovano nelle librerie, che vengono caricate da predefinito (di default). Le

funzioni base per importare i dati su R sono in particolare tre, e possono essere utilizzate per importare dei dati in formati quali .csv, .tsv o .txt. Si tratta delle funzioni read.table(), read.csv() e read.delim(). Se il file che si vuole leggere si

chiama prova.txt (contenente vettori colonna di dati senza il nome della colonna nella prima riga) che si trova nella directory mydat del disco C:/ il codice da utilizzare è: prova <- scan(«C:/mydat/prova.txt")

b) m1<- matrix(1:36, nrow=6)

df.data.frame(m1); df

c) tab <- matrix(c(1:18),6, 3)

rownames(tab) <- c (1,2,3,4,5,6)

colname(tab) <- c(“X1”, “X2”, “X3”)

tab

  1. Dato un file Excel quali linee di codice di R si utilizzano per: a) importarlo senza il nome della colonna nella prima riga; b) importarlo quando contiene due e più colonne separate da spazi vuoti con nome delle colonne nella prima

riga; c) importarlo con la versione di Excel in inglese se nella prima colonna ci sono i nomi di riga con l’estensione

E' opportuno ricordare che il file origine Excel deve essere salvato con l’estensione .csv oppure .csv2.

a) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE)

b) prova <- read.csv2("c:/mydat/prova.csv", header=TRUE, row.names=1)

c) prova <- read.csv("c:/mydat/prova.csv", header=TRUE)

  1. Definita una popolazione di interesse con dati a scelta stabilire: a) quale tipo di dati devono essere utilizzato; b) quali sono le fasi della rilevazione; c) la nomenclatura statistica completa.

La popolazione presa in considerazione è l’insieme dei contagiati in un epidemia in italia, i dati raccolti sono di tipo qualitativo sconnesso: maschio o femmina; quantitativo discreto: età dei contagiati, qualitativo sconnesso: sintomi e

eventuali patologie, conseguenze riportate. Le fasi di rilevazione sono la modalità di raccolta dei dati, la vera e propria raccolta dei dati. Si possono anche utilizzare i dati rilevati dal ministero della salute

  1. Dati i seguenti valori dei prezzi del I semestre 2017 (12,4-12,5-11,9;12,9-13,1-11,1) calcolare: a) numeri indici a base fissa e mobile; b) passaggio da base fissa Marzo a base mobile Giugno; c) passaggio da base mobile Febbraio a

base fissa Maggio

tempo prezzo Indice a base fissa 𝟎 𝟏

𝑰

𝒙 𝟏

𝒙 𝒐

indice a base mobile 𝒕 − 𝟏 𝒕

𝑰

𝒙 𝒕

𝒙 𝒕−𝟏

passaggio da BF a BM Passaggio da BM a BF

gen- 17 12,4 12,4/12,4= 1 - - -

feb- 17 12,5 12,5/12,4=1,008 12,5/12,4=1,008 1,008/1=1,008 1*1,008=1,

mar- 17 11,9 11,9/12,4=0,9 6 11,9/12,5=0,952 0,96/1,008=0,952 1,008*0,952=0,

apr- 17 12,9 12,9/12,4=1,04 12,9/11,9=1,084 1,04/0,96=1,0 52 0,9596*1,084=1,0 40

mag- 17 13,1 13,1/12,4=1,056 13,1/12,9=1,01 6 1,056/1,05=1,015 1,040*1,016=1,05 7

giu- 17 11,1 11,1/12,4=0,895 11,1/13,1=0,847 0,895/1,056=0,847 1,057*0,847=0,

    1. Dati i valori dei prezzi per gli anni 2015 (2.48,2.97,2.23,2.67,2.90,3.06,2.89,3.88,3.22,3.90,3.12,3.01), 2016 (3.52,3.99,3.08,3.88, 3.96,4.01,4.07,4.25,4.89,4.08,4.78,4.71) e 2017 (5.01,5.57,5.34,5.09,5.25, 5.02,5.01,5.02,5.78,5.21,5.33,5.36):

a) quali linee di codice di R si utilizzano per calcolare i numeri indice a base fissa 2015; b) quali linee di codice di R si utilizzano per calcolare i numeri indice a base mobile 2017; c) quali linee di codice di R si utilizzano per calcolare i numeri

indice a base fissa 2016

p_2015 <-c(2.48,2.97,2.23,2.67,2.90,3.06,2.89,3.88,3.22,3.90,3.12,3.01)

p_2016 <-c(3.52,3.99,3.08,3.88,3.96,4.01,4.07,4.25,4.89,4.08,4.78,4.71)

p_2017 <-c(5.01,5.57,5.34,5.09,5.25, 5.02,5.01,5.02,5.78,5.21,5.33,5.36)

Fissa <- function(P, Base) P/Base

Fissa(p_2015, 2.48)

Fissa(p_2016, 3.52)

Fissa(p_2017, 5.01)

2015 2017 2017 BF 2015 BF 2016 BF 2017

  1. Dati i seguenti valori dei prezzi del I semestre 2017 (12,4-12,5-11,9;12,9-13,1-11,1) quali script di R si utilizzano per calcolare: a)numeri indici a base fissa da Gennaio a Marzo; b) numeri indici a base fissa da Marzo a Giugno; c) numeri indici a base mobile

p_2017 <- c(12.4;12.5;11.9)

Fissa <- function(P, Base) P/Base

Fissa(p_2017, 12.4)

p_2017 <- c(11.9;12.9;13.1;11.1)

Fissa <- function(P, Base) P/Base

Fissa(p_2017, 11.9)

p_2017 <- c(12.4,12.5,11.9,12.9,13.1,11.1)

Mobile <- function(P_t2, P_t1) P_t2/P_t

Mobile(p_2017 [-1] ,p_2017[-12])

  1. Si sono osservati i dati di Età di 20 unità statistiche (individui) quali linee di codice si utilizzano per a) individuare le classi con il metodo logaritmico e calcolare le frequenze assolute b) calcolare le frequenze relative e cumulate

assolute; c) rappresentare il relativo istogramma.

library(labstatR)

x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58,20,39,41,37); x

n <- length(x);n

k<- ceiling(1+3.322*log10(n)); k

a <- (max(x) - min(x)) / k ; a

Classi <- seq(min(x),max(x),length.out = k + 1); Classi ##### a. #####

FreqAss <- hist(x,Classi,plot = FALSE)$counts; FreqAss ##### b. #####

FreqRel <- FreqAss / length(x) ; FreqRel ##### b #####

cumsum(FreqAss) ##### b #####

cumsum(FreqRel) ##### b #####

par(bg="cornsilk") ##### c #####

h <- hist(x,Classi,plot = FALSE)

h$counts <- FreqRel

plot(h,ylab = "Frequenze Relative",axes = FALSE)

axis(1,at = Classi,cex.axis = 1.1)

axis(2,at = c(0,round(h$counts,digits = 2)),cex.axis = 1.1)

  1. Dati i seguenti dati del carattere x (22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58) con quali script di R si individuano: a)le classi con il metodo soggettivo; b) le classi con il metodo a radice; c) le classi con il metodo logaritmico

library(labstatR)

x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58)

k <- 4 ; k

a <- (max(x) - min(x)) / k ; a

n <- length(x);n

Classi <- seq(min(x),max(x),length.out = k + 1); Classi ##### a. #####

x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58); x

n<- length(x); n

k <- ceiling(sqrt(n)); k #####b#####

a <- (max(x) - min(x)) / k ; a

Classi <- seq(min(x),max(x),length.out = k + 1); Classi #####b#####

x<-c(22,48,58,61,38,42,53,64,37,58,21,24,34,44,46,58,20,39,41,37) ; x

n <- length(x) ;n

k<- ceiling(1+3.322*log10(n)) ; k

a <- (max(x) – min(x)) / k ; a

Classi <- seq(min(x) ,max(x) ,length.out = k + 1) ; Classi #####c#####

  1. Dati le seguenti classi equi ampie (12-16; 16-20; 20-24; 24-28) e la relativa frequenza assoluta (0,1,2,3) calcolare: a) i valori centrali di classe e la frequenza relativa; b) la frequenza cumulata assoluta; c) la frequenza cumulata relativa

Classi equi ampie Freq. Ass. (n) Val. centrale Freq. Rel. 𝒇 = 𝒏 𝒐

/𝒏 Freq. Rel. Cum. Freq. Ass.Cum.

Totale n=6 1,

Dfrequenza = nclasse / aclasse 𝑀 𝑜

𝑀𝑜

∆𝑓 𝑖𝑛𝑓

∆𝑓

𝑖𝑛𝑓

+∆𝑓 𝑠𝑢𝑝

𝑐𝑙𝑎𝑠𝑠𝑒

𝑀𝑜

è l’estremo inferiore della classe modale; ∆𝑓

𝑖𝑛𝑓

è la differenza fra la frequenza assoluta della classe modale e la frequenza assoluta della classe immediatamente inferiore a quella modale;

𝑠𝑢𝑝

è la differenza fra la frequenza assoluta della classe modale e la frequenza assoluta della classe immediatamente superiore a quella modale; 𝐴

𝑐𝑙𝑎𝑠𝑠𝑒

è l’ampiezza della classe modale

La distribuzione amodale presenta frequenze tutte uguali e una sola frequenza massima, di conseguenza la moda è una sola. Nella distribuzione amodale i valori si ripetono una sola volta. Nella distribuzione plurimodale esistono due o più

mode. Si dice bimodale se ha due valori modali, trimodale se ne ha tre, e così via. Di conseguenza i valori si ripetono più volte.

  1. Data una distribuzione di valori singoli descrivere con quali formule si calcolano: a) il I Quartile; b) il II Quartile (o Mediana); c) il III Quartile

Posizione Q1 => (n+1)/ 4

Posizione Q2 => (n+1)/ 3

Posizione Q3 => 3 (n+1)/

  1. Dati i seguenti valori di x (22,23,24,32,56) con quali script si calcola: a) il I quartile; il II quartile; c) il III quartile

library(labstatR)

x<-c(22,23,24,32,56); x

Q1<-quantile(x,probs=0.25,type=6,names=F);Q1 ## a ##

Q2<-quantile(x,probs=0.5,type=6,names=F); Q2 ## b. ##

Q3<-quantile(x,probs=0.75,type=6,names=F); Q3 ## c. ##

  1. Data una distribuzione di valori suddivisi in classi descrivere: a) la formula con cui si calcola il I Quartile; a) la formula con cui si calcola il II Quartile; a) la formula con cui si calcola il III Quartile

1

𝑄

1

0 , 25 −𝐹 𝑄 1

− 1

𝐹 𝑄 1

−𝐹 𝑄 1

− 1

𝑄

1

3

𝑄

3

0 , 75 −𝐹 𝑄 3

− 1

𝐹 𝑄 3

−𝐹 𝑄 3

− 1

𝑄

3

2

𝑄 2

0 , 50 −𝑓𝑟𝑒𝑞.𝑐𝑢𝑚.𝑎𝑠𝑠.

𝑀𝑒− 1

𝑓𝑟𝑒𝑞.𝑎𝑠𝑠 𝑀𝑒

𝑄 1

è l’estremo inferiore della classe dove cade il I Quartile;

𝑄 1

− 1

è la frequenza cumulata assoluta fino alla classe precedente a quella in cui cade il I Quartile;

𝑄 1

è la frequenza cumulata assoluta a fino alla classe che contiene il I Quartile;

𝑄 1

è l’ampiezza della classe che contiene il I Quartile.

  1. Con quale notazione si calcola: a) lo scarto semplice dalla media e dalla mediana; b) lo scarto medio assoluto dalla media e dalla mediana; c) l'indice di dissomiglianza

Scarto semplice dalla media, E’ la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore medio 𝑆𝐶 𝑠𝑒𝑚

𝑖

Scarto semplice dalla mediana, E’ la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore mediano

𝑠𝑒𝑚

𝑖

𝑒

Scarto medio assoluto dalla media, E’ la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore medio rapportati al numero delle osservazioni 𝑆𝐶 𝑎𝑠𝑠

∑ |𝑥 𝑖

−𝑥̅ |

𝑛

Scarto medio assoluto dalla mediana, mediano rapportati al numero delle osservazioni 𝑆𝐶 𝑎𝑠𝑠

∑ |𝑥 𝑖

−𝑀 𝑒

|

𝑛

Dissomiglianza: 𝐼 𝐷𝐼𝑆𝑆

∑ |𝑓 1 𝑖

−𝑓 2 𝑖

|

2

  1. Dati i seguenti dati del carattere x (22,48,58,61,38,42) calcolare: a) la devianza dalla media aritmetica; b) la varianza dalla media aritmetica; c) lo scarto quadratico medio dalla media aritmetica e il coefficiente di variazione

𝑖

2

2

2

𝑛

𝑖= 1

2

2

2

2

𝑖

𝑛 2

𝑖= 1

  1. Dati i seguenti valori centrali di classe x (12,2,3,45) e le relative frequenze assolute (1,2,0,4) con quali script di R si calcolano:

a) i cinque numeri di sintesi; b) l’indice di asimmetria di Bowley; c) l’indice di asimmetria con la formula del momento terzo per valori singoli e per valori suddivisi in classi

library(labstatR)

x<-c(12,2,3,45)

n<- length(x); n

k <- ceiling(sqrt(n)); k #####b#####

a <- (max(x) - min(x)) / k ; a

Classi <- seq(min(x),max(x),length.out = k + 1); Classi #####a#####

FreqAss <- c(1,2,0,4);FreqAss

Q1<-quantile(x,probs=0.25,type=6,names=F);Q1 ## a ##

Q2<-quantile(x,probs=0.5,type=6,names=F); Q2 ## a ##

Q3<-quantile(x,probs=0.75,type=6,names=F); Q3 ## a ##

I_B<-(Q3+Q1-2*Q2)/(Q3-Q1); I_B ##b##

skew(x); ##c##

y <-c(1,2,0,4);y

mean_classi <- sum(y * FreqRel); mean_classi;

var_classi<-sum((mean_classi)^2*FreqRel); var_classi

sqm<-sqrt(var_classi); sqm

I_skew<-sum(1/n_X(y-mean_classi)^3FreqAss/sqm^3);I_skew

  1. Dati i seguenti dati del carattere X (12,2,3,45) e le relative frequenze assolute (1,4,0,3) calcolare:

a) i cinque numeri di sintesi; b) l’indice di asimmetria di Bowley; c) l’indice di asimmetria con la formula del momento terzo per valori singoli e per valori suddivisi in classi

FreqAss FreqRel FreqRelCum FreqAssCum

n=Freq Ass Tot=

Indici di sintesi

Min e max = 2 e 45

1

𝑛+ 1

4

8 + 1

4

2

𝑛+ 1

2

8 + 1

2

3

3 (𝑛+ 1 )

4

Ordino i caratteri e cerco le posizioni 2- 2 - 2 - 2 - 12 - 45 - 45 - 45 𝑄 1

2

12 + 2

2

3

𝐵𝑜𝑤𝑙𝑒𝑦

3

1

2

3

1

𝐹𝑖𝑠ℎ𝑒𝑟 1

𝑀 3

𝜎

3

𝑛

∑ (𝑥 1

−𝑥̅)

𝑛 3

𝑖= 1

𝜎

3

𝑛

momento terzo valori singoli

𝑖

2

= ( 2 − 15 , 5 )

2

  • ( 3 − 15 , 5 )

2

𝑛

𝑖= 1

2

  • ( 45 − 15 , 5 )

2

= 1221

𝑖

𝑛 2

𝑖= 1

𝐹𝑖𝑠ℎ𝑒𝑟 1

3

3

3

3

3

∙ 4

𝐹𝑖𝑠ℎ𝑒𝑟 2

𝑀 3

𝜎

3

𝑛

∑ (𝑥 1

−𝑥̅)

𝑛 3

𝑖= 1

∙𝑛

𝑖

𝜎

3

𝑛

momento terzo classi

𝑖

2

=

2

∙ 4 +

2

∙ 0

𝑛

𝑖= 1

2

∙ 1 +

2

∙ 4

𝐹𝑖𝑠ℎ𝑒𝑟 2

3

3

3

3

3

∙ 8

  1. Dati i seguenti valori centrali di classe x (12,2,3,45) e le relative frequenze assolute (1,2,0,4) con quali script di R si calcolano:

a) la media per valori suddivisi in classi; b) lo scarto quadratico medio dalla media; c) l’indice di curtosi con la formula del momento quarto per valori singoli e per valori suddivisi in classi

library(labstatR)

x <- c(12,2,3,45)

y <-c(1,2,0,4);y

mean_classi <- sum(y * FreqRel); mean_classi;

var_classi<-sum((mean_classi)^2*FreqRel); var_classi

sqm<-sqrt(var_classi); sqm

I_kurt<-sum(1/n_X(y-mean_classi)^4FreqAss/sqm^4);I_kurt ; scost<-I_kurt-3;scost

kurt(x)

  1. Data la seguente matrice di dati composta di tre righe e quattro colonne (0,1,3,4,1,2,3,0,1,5,3,2) relativi ai caratteri X ed Y con quali script di R si calcolano: a) la tabella delle frequenze congiunte assolute; b) la tabella delle

frequenze teoriche; c) la tabella delle contingenze assolute e il chi-quadrato

x/y H1 H2 H3 H

W1 0 1 3 4

W2 1 2 3 0

W3 1 5 3 2

tab <- matrix(c(0, ,1,3,4,1,2,3,0,1,5,3,2))

rownames(tab) <- c("W1", "W2", "W3")

colnames(tab) <- c("H1", "H2", "H3" , "H4")

addmargins(tab) ##a##

tab_teor <- margin.table(tab, 1) %*% t(margin.table(tab, 2))/sum(tab); addmargins(tab_teor) ##b##

tab_contass<-(tab - tab_teor); addmargins (tab_contass) ##c##

tab_chi_quadr<- ((tab - tab_teor)^2)/tab_teor; addmargins (tab_chi_quadr) ##c##

chi_quadr<- sum(((tab - tab_teor)^2)/tab_teor); chi_quadr ## a ##

  1. Data la seguente matrice di dati composta di due righe e due colonne (0,1,3,4) relativi ai caratteri X ed Y calcolare: a) la frequenza marginale di riga e di colonna; b) la tabella delle frequenze teoriche; c) la tabella delle contingenze

assolute e il chi-quadrato

x/y

𝟏

𝟐

tot

𝟏

𝟐

tot 3 5 8

x/y

𝟏

𝟐 tot

𝟏

𝟐

tot 3 5 8

x/y

𝟏

𝟐

𝒘 Chi quadrato=0,375+0,054+0,032+0,225=1, 𝟏

2

2

𝟐

2

2

  1. Data la tabella di contingenza formata da due righe e due colonne (0,1,3,4) descrivere quale script di R si implementa per calcolare:a) la tabella delle frequenze teoriche; b) la tabella delle contingenze assolute; c) il chi-quadrato,

massimo e normalizzato

tab <- matrix(c(0,1,3,4)

rownames(tab) <- c("w1", "w2")

colnames(tab) <- c("h1", "h2")

addmargins(tab)

tab_teor <- margin.table(tab, 1) %*% t(margin.table(tab, 2))/sum(tab); addmargins(tab_teor)

tab_contass<-(tab - tab_teor); addmargins (tab_contass)

tab_chi_quadr<- ((tab - tab_teor)^2)/tab_teor; addmargins (tab_chi_quadr)

chi_quadr<- sum(((tab - tab_teor)^2)/tab_teor); chi_quadr ## c ##

chi_max<-(sum(tab)*(min(dim(tab)-1))); chi_max ## c ##

chi_norm <- chi_quadr/(sum(tab)*(min(dim(tab)-1))); chi_norm ## c ##

  1. Dati i seguenti valori della v.c. x (1,2,3,4) con quale script di R si calcolano: a) la codevianza; b) la covarianza; c) il coefficiente di correlazione di Bravais-Pearson

library (labstatR)

x<- c(1,2,3,4)

y<- c(3,4,2,1) #ipotizzati#

par(bg="cornsilk")

mx<- mean(x)

var(x)<- mean((x-mx)^2)

dex(x)<- var*(length(x))

my<- mean(y)

var(y)<- mean((y-my)^2)

dex(y)<- var*(length(y))

cov (x,y) ## b ##

rho<-sqrt(R2);rho ## c##

  1. Dati i seguenti valori di X(1,2,3,4) e di Y(11,9,7,5) calcolare: a) la codevianza XY; b) la covarianza XY; c) il coefficiente di correlazione di Bravais-Pearson

library (labstatR)

x<- c(1,2,3,4)

length(x)

y<- c(11,9,7,5)

length(y)

par(bg="cornsilk")

mx<- mean(x)

var(x)<- mean((x-mx)^2)

dex(x)<- var*(length(x))

my<- mean(y)

var(y)<- mean((y-my)^2)

dex(y)<- var*(length(y))

cov (x,y) ## b ##

rho<-sqrt(R2);rho ## c##

  1. Si è svolta un’analisi di Connessione tra il carattere (X) che assume le modalità 1,2 e 3 e il carattere (Y) che assume le modalità A, B e C. I dati rilevati di X sono: (1,1,3,2,3,2,1,3); quelli di (A,A,B,C,A,C,B,A) e si vuole: a)costruire la

relativa matrice di dati; b)calcolare le frequenze congiunte assolute e teoriche; c) le contingenze assolute e il chi-quadrato

  1. Data la seguente distribuzione di frequenza della v.c. discreta x (0,1,2,3) con f(x)(0.90, 0.07, 0.02, 0.01) calcolare: a) la funzione di probabilità; b) il valore atteso; c) varianza e deviazione standard

2

∙ 0 , 90 + 1

2

∙ 0 , 07 + 2

2

∙ 0 , 02 + 3

2

∙ 0 , 01 – ( 0 , 14 )

2

= 0 , 2204

  1. Data una funzione di ripartizione per una v.c. discreta: a) descrivere la notazione; b) elencare le relative proprietà; c) descrivere cosa si trova sull'asse delle ordinate del relativo grafico

La funzione di ripartizione o distribuzione cumulata di probabilità assume una valenza oggi sempre più importante rispetto anche alla funzione di probabilità la quale può essere facilmente ottenuta dalla funzione di ripartizione stessa. Data

una v.c. discreta X, la funzione che fa corrispondere ai valori x le probabilità cumulate P(X≤x) viene detta funzione di ripartizione ed è indicata con: 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑃(𝑋 = 𝑤) 𝑤≤𝑥

Alla funzione di ripartizione si associano tre importanti proprietà:

𝑃(𝑋 ≤ 𝑥) è non decrescente ovvero 𝑥 1

2

1

2

) lim

𝑛→−∞

𝑃(𝑋 ≤ 𝑥) = 0 ; lim

𝑛→∞

𝑃(𝑋 ≤ 𝑥) = 1 ; 𝑃(𝑋 ≤ 𝑥) è continua a destra

  1. Si scelgano 100 numeri casuali da una v.c. continua normale con valore atteso 2 e deviazione standard 0,2; quali linee di codice di R si utilizzano per: a) trovare i numeri casuali; b) rappresentare lo sfondo colorato beige del

grafico della funzione di densità; c) rappresentare il grafico della funzione di densità

rnorm(100,2,0.2)

curve(dnorm(x, 2,0.2), - 2 , 6 , ylab="Densità", main="funzione di densità di una v.c. Normale")

  1. Sia X è una v.c. continua con quali notazioni si calcolano: a) il valore atteso; b) la varianza; c) la deviazione standard e il coefficiente di variazione

Se si vuole studiare il livello medio e quello di variabilità dei valori che compongono la distribuzione di probabilità medesima, occorre analizzare i concetti di valore atteso, di varianza e di deviazione standard. La media o valore atteso di una

v.c. continua unidimensionale è dato dalla seguente notazione: 𝐸(𝑥) = ∫ 𝑥𝑓(𝑥)𝑑(𝑥)

+∞

−∞

dove l’integrale, purché esista e sia finito, rappresenta la somma nel continuo di tutti i valori assunti dalla v.c. continua X.La varianza di una v.c. discreta

unidimensionale continua è data dalla seguente notazione: 𝑉𝑎𝑟(𝑋) = ∫ (𝑥 − 𝜇)

2

+∞

−∞

La deviazione standard è data semplicemente dalla radice quadrata della varianza ed è espressa dalla seguente notazione: 𝐷𝑠𝑡𝑑 = √

Il coefficiente di variazione è definito dal rapporto fra deviazione standard e media espressa in valore assoluto:

𝑉𝑎𝑟(𝑋)

𝐸(𝑥)

Si scelgano 100 numeri casuali da una v.c. continua normale con valore atteso 2 e deviazione standard 0,2; quali linee di codice di R si utilizzano per: a) trovare i numeri casuali; b) rappresentare lo sfondo colore beige del grafico della

funzione di ripartizione; c) rappresentare il grafico della della funzione di ripartizione

rnorm(100,2,0.2)

curve(pnorm(x,2,0.2),‐2, 6, ylab= “Ripartizione”,main= “Grafico della funzionedi ripartizione”)

  1. Commentare brevemente: a) la legge debole dei grandi numeri; b) la legge forte dei grandi numeri; c) la disuguaglianza di Markov e la diseguaglianza di Chebyshev

Legge debole. Date n variabili mutuamente indipendenti con media μ e varianza σ2 ed un numero positivo a si può affermare che il limite per x che tende a ∞ della probabilità della differenza tra la media delle v.c. stesse e il valore atteso μ

in termini assoluti sia maggiore di un valore intero positivo a è uguale a zero. In simboli si avrà: 𝑙𝑖𝑚𝑥−> ∞ 𝑃[𝑙 (𝑋 1 + 𝑋 2 + ⋯. +𝑋𝑛)/ 𝑛] − 𝜇 𝑙 > 𝑎 ] = 0

Si può dedurre che la media μ converge in probabilità alla media aritmetica delle Xi per i=1,…,n

Legge forte. Date n variabili mutuamente indipendenti con media μ e varianza σ2, si può affermare che la probabilità che al limite per x che tende a ∞ della media aritmetica delle stesse v.c. uguale a μ in valore assoluto è uguale a uno. In

simboli si avrà: 𝑃 𝑙 𝑙𝑖𝑚𝑥−> ∞ (𝑋 1 + 𝑋 2 + ⋯. +𝑋𝑛)/ 𝑛 = 𝜇 𝑙 = 1

Si può stabilire una convergenza quasi sicura tra la media μ e la media delle Xi per i=1,…,n

Disuguaglianza di Markov. Nella situazione in cui non si è a conoscenza della distribuzione della v.c., si potrebbe avere l’esigenza di definire dei limiti alla probabilità. Con la disuguaglianza di Markov, che è un corollario di quella di

Chebyshev, si stabilisce che la probabilità che la v.c. X sia maggiore o uguale alla quantità h non deve superare il rapporto tra la media e la stessa quantità h e quindi essa può essere trovata conoscendo solo il valore atteso. La notazione

attraverso cui si stabilisce il limite superiore di probabilità è la seguente: 𝑃(𝑋 ≥ ℎ) ≤ 𝑥̅ / ℎ dove X è una v.c. non negativa, 𝑥̅ è il valore atteso e h è un numero positivo.

  1. Data la distribuzione di probabilità Uniforme discreta con N=10 con quali script si calcola: a) la probabilità che x=8; b) la probabilità che x< 2; c) la probabilità che x>7 e che x sia ricompreso fra 8 e 4

N<‐ 10

#PROB X=8 p(x)=1/N

P8<‐1/N

#PROB X<2 escluso lo 0

P1<‐ 1/N

pmin2<‐p

pmin3<.p1+p

#PROB X>

P9<‐1/N

P10<‐1/N

pmag7<‐p8+p9+p

#PROB 4<X<

P5<‐1/N

P6<‐1/N

P7<‐1/N

pcomp<‐p5+p6+p

  1. Data la distribuzione di probabilità Uniforme discreta con N=11 quali script si implementano per calcolare: a) valore atteso; b) varianza; c) deviazione standard e coefficiente di variazione

N<-11; val_att<-(N+1)/2;val_att;var<-(N^2-1)/12; var; dev_std<-sqrt(var);dev_std;

  1. Data la distribuzione di probabilità Bernoulliana con quali script di R si calcola: a) il quantile; b) la probabilità; c)la probabilità cumulata

x <- 0:

n <- 1

p <- 0.

qbinom(p=0.5,size=1,prob=0.25) ## a ##

dbinom(x=0,size=1,prob=0.25) ## b ##

pbinom(q=1,size=1,prob=0.25) ## c ##

  1. Dato n=11 e p=0,20 calcolare: a) il valore atteso; b) la varianza; c) la deviazione standard, l'indice di asimmetria e di curtosi

= 0 , 452 𝐼𝑘𝑢𝑟𝑡 = [

] + 3 = 3 , 023

  1. Dato n=11 e p=0,20 con quali script di R si calcolano: a) il valore atteso; b) la varianza; c) la deviazione standard, l'indice di asimmetria e di curtosi

n <- 11

p <- 0.

val_at<-p; val_at

var<- p*(1-p);var

dev_std<-sqrt(p*(1-p));dev_std

i_as<- 1 - 2*p/dev_std; i_as

i_cur1<- 1 - 6p-6p^2;i_cur

i_cur2<-p*(1-p);i_cur

i_cur<-i_cur1/i_cur2;i_cur

  1. Data la v.c Poissoniana X con λ =3,2 calcolare: a) la probabilità che x=10; b) la probabilità che x< 13; c) la probabilità che x>22 e che x sia ricompreso fra 30 e 40

10

−𝜆

10

− 3 , 2

0

− 3 , 2

1

− 3 , 2

13

− 3 , 3

) = 1 − 0 , 04 + 1 , 28 + ⋯ ≅ 0 , 98

13

𝑥= 0

22

𝑥= 0

𝑥

− 3 , 2

𝑛= 40

𝑥= 30

Data la v.c. Poissoniana X con λ =3,2 con quali script di R si calcola: a) la probabilità che x=10; b) la probabilità che x< 13; c) la probabilità che x>22 e che x sia ricompreso fra 30 e 40

La<-3.

x<- 10

dpo<-dpois(x,La);dpo

ppo<-ppois(12,La);ppo

x<- 22

ppo<- 1 - ppois(x,La);ppo

ppo<-ppois(30,La)-ppois(40,La);ppo

  1. Data una v.c. Poissoniana X con λ =3,3 calcolare; a) il valore atteso; b) la varianza; c) la deviazione standard, l’indice di asimmetria e di curtosi?
  1. Data una v.c. Poissoniana X con λ =3,3 con quali script di R si calcolano; a) il valore atteso; b) la varianza; c) la deviazione standard, l’indice di asimmetria e di curtosi?

lambda <- 3.

val_at<-lambda; val_at ## a ##

var<- lambda;var ## b ##

dev_std<-sqrt(lambda);dev_std ## c ##

i_as<-1/sqrt(lambda); i_as ## c ##

i_cur<-1/lambda;i_cur ## c ##

  1. Data la v.c. continuaà Normale standardizzata Z con media=0 e dev.std=1 con quali script di R si calcola: a) la probabilità che x=2,8; b) la probabilità che x<3,2; c)la probabilità che x> 3,7 e che x sia ricompreso fra 3,1 e 4,

mean<- 0

std<- 1

dnorm(2.8,mean,std) ## a ##

pnorm(3. 2 ,mean,std) ## b ##

1 - pnorm(3.7,mean,std) ##c##

pnorm(3.1,mean,std) - pnorm(4.4,mean,std)

  1. Data la v.c. continua Normale standardizzata X con media=0 e dev.std=1 impostare le formule per il calcolo: a) della probabilità che x< 3,2; b) della probabilità che x> 3,7; c) della probabilità che x sia ricompreso fra 3,1 e 4,

1

2

𝑧

2

  1. Data la v.c. continua t di Student X con n=23 con quali script si calcola: a) la varianza; b) la deviazione standard; c)l’indice di asimmetria e di curtosi

df<- 23

var<-df/(df-2);var

dev_std<-sqrt(var);dev_std

i_as<-0;i_as

i_cur<-6/(df-4);i_cur

  1. Data la v.c. t di Student continua X con n=23 impostare la formula per calcolare: la probabilità che x=2 a) la probabilità che x< 12; b) la probabilità che x> 17; c) la probabilità che x sia ricompreso fra 11 e 14

df<- 23

dt(2,df)

pt(12,df)

1 - pt(17,df)

pt(11,df)-pt(14,df)

  1. Data la v.c. continua Chi-quadrato X con n=23 descrivere con quali script si calcola: a) la probabilità che x=8; b) la probabilità che x< 3; c)la probabilità che x> 17 e che x sia ricompreso fra 13 e 20

g<- 23

dchisq(8,g)

pchisq(3,g)

1 - pchisq(17,g)

pchisq(13,df)-pchisq(20,g)

  1. Data la v.c. continua Chi-quadrato X con n=23 descrivere con quali script si calcola: a) la varianza; b) la deviazione standard; c)l’indice di asimmetria e di curtosi

g<- 23

var<-2*g;var

dev_std<-sqrt(var);dev_std

i_as<-sqrt(g/8);i_as

i_cur<-12/g; i_cur

  1. Data una v.c. continua X~ Chisq con n=13 calcolare: a) il valore atteso; b) la varianza e la deviazione standard; c) l’indice di asimmetria e di curtosi?

𝑎𝑠

𝑐𝑢𝑟𝑡

  1. Data la v.c. continua F i di Fisher X~ F (11,24) come si calcola a) il valore atteso; b) la varianza; c) la deviazione standard?

𝑎𝑡𝑡

2

2

2

2

1

2

2

2

𝑔 1

2

  1. Data la v.c. continua F di FisherX con g1=16 e g2=24 con quali script si calcola: a) la probabilità che x=18; b) la probabilità che x< 22; c)la probabilità che x> 17 e che x sia ricompreso fra 14 e 19

df1<- 16

df2<- 24

df(18, df1, df2)

pf(22, df1, df2)

1 - pf(17, df1, df2)

pf(14,df1,df2)-pf(19,df1,df2)

  1. La v.c. X è la sommatoria di 80 v.c. bernoulliane e quindi è una v.c. binomiale con parametri p=0,23 e n=80 Bin~(80;0,23). Calcolare: a) il valore atteso;b) la varianza e la deviazione standard; c) la probabilità che p(X<3) e che P(X>2)

P(X < 2 )

0

𝑛− 0

3

( 1 − 0 , 23

𝑛− 3

1

𝑛− 1

P

X > 2

0

𝑛− 0

2

( 1 − 0 , 23

𝑛− 2

1

𝑛− 1

  1. Data la v.c. binomiale X con parametri p=0,23 e n=80 Bin~(80;0,23) con quali linee di codice di R si calcola: a) la probabilità che p(X<18); la probabilità che P(X>19); la probabilità che X sia ricompreso fra 17,8 e 19,

n<- 80

p<-0.

pbinom(18,n,p)

1 - pbinom(19,n,p)

pbinom(17.8,n,p)-pbinom(19.2,n,p)

  1. Si devono individuare 2 unità da scegliere tra 6 impiegati (quadri) sulla base degli anni di esperienza che risultano essere: 4 8 12 12 14 16 con quali script di R si calcolano: a)il numero campioni ordinati di numerosità 2 (con

ripetizione); b) l numero campioni ordinati di numerosità 2 (senza ripetizione); c) numero campioni non ordinati di numerosità 2 (con ripetizione e senza ripetizione);

x<-c(4,8,12,12,14,16)

n<- 2

N<- 6

number<-N^n;number

sample(x,number,replace=TRUE) ## a ##

number1<-factorial(N)/factorial(N-n); number

sample(number1)## b ##

number2<-factorial(N+n-1)/(factorial(n)*factorial(N-1)); number

sample(number2)## c ##

number3<-factorial(N)/(factorial(n)*factorial(N-n)); number

sample(number2)

  1. In una distribuzione della media campionaria per popolazioni finite o senza ripetizione quale notazione si utilizza per calcolare: a) la media campionaria; b)la varianza campionaria corretta; c) la deviazione standard e il coefficiente di variazione

2

  1. Si estrae un campione casuale di 300 prodotti da cui si rileva una difettosità media del 2% e si vuole calcolare: a) la probabilità che 10 prodotti siano difettosi; b) la probabilità di riscontrare un numero di prodotti difettosi minore

di 8 e ricompreso fra 5 e 9;c) il valore atteso

𝑎𝑡𝑡

  1. Data la varianza del peso del tondino pari a 36 gr ed estratto un campione di 397 tondini con un peso medio pari a 987 grammi e un livello di significatività dell’1% con quali script di R si calcola: a) il limite superiore dell’intervallo

di confidenza per la media con varianza nota; b) il limite inferiore dell’intervallo di confidenza per la media con varianza nota; c) la numerosità campionaria e l’ampiezza dell’intervallo

mx_camp <- 987

n <- 397

var_stim<- 36

l.inf <- mx_camp - qt(0.01,n) * sqrt(var_stim/n);l.inf

l.sup <- mx_camp + qt(0.01,n) * sqrt(var_stim/n);l.sup

amp_inter<-2*qt(0.01,n) * sqrt(var_stim/n);amp_inter

num_camp <- round((qt(0.01,n)^2*6^2)/(1.5^2));num_camp

  1. Data un v.c. Normale con n=29, mu=987 e varianza stimata 1,285714 quali linee di codice di R si implementano per calcolare a) lo stimatore intervallare per il peso medio μ incognito ad un livello di significatività del 5%; b) la sua

ampiezza; c) la numerosità campionaria per un valore massimo del termine di errore pari a 1,

n <- 29

var_stim<-1.

l.inf <- mx_camp - qt(0.995,29) * sqrt(var_stim/n);l.inf

l.sup <- mx_camp + qt(0.995,29) * sqrt(var_stim/n);l.sup

amp_inter<-2*qt(0.995,29) * sqrt(var_stim/n);amp_inter

num_camp <- round((qt(0.995,29)^2*6^2)/(1.5^2));num_camp

  1. Definire sinteticamente: a) il livello di confidenza; b) il livello di significatività; c) dati i valori di sigma=12; n=28; un livello di confidenza pari al 5% per cui la zeta critica è pari a 1,96 e una media campionaria =21 calcolare lo

stimatore intervallare per la media con varianza nota.

L’intervallo di confidenza o intervallo fiduciale è l’intervallo di valori entro i quali si stima che cada, con un livello di probabilità prescelto, il valore vero di una variabile analizzata relativa all’intera popolazione.

Con la notazione seguente: 𝑃 (𝑋

𝑎

2

𝜎

√𝑛

𝑎

2

𝜎

√𝑛

) = 1 − 𝛼 si esprime la probabilità che, ad un livello di fiducia o di confidenza 1-α ovvero nel 100(1-α)% dei campioni, la media μ della popolazione è ricompresa negli estremi seguenti:

𝑎

2

𝜎

√𝑛

𝑎

2

𝜎

√𝑛

. Essa può essere denotata in modo equivalente come: 𝑃

1

2

= 1 − 𝛼 dove 1-α è appunto il livello di confidenza e α è il livello di significatività, ovvero la probabilità di compiere un errore qualora si affermi

che il valore dle parametro della popolazione di interessa sia compreso nei limiti(𝜇 1

2

). Il livello di confidenza 1-α è quell’intervallo di valori campionario che dovrebbe contenere il valore del parametro della popolazione di interesse ad un

prefissato livello di significatività α. Tale intervallo detto anche stimatore intervallare rappresenta lo strumento attraverso il quale è possibile dare un giudizio di affidabilità sulla stima dei parametri della popolazione.

  1. Dati due campioni con n1=40 e n2=60 e mu1=6 e mu2=8,5 var1=2 e var2=3 calcolare: a) lo stimatore intervallare con α =0,01 (z=2,56); b) lo stimatore intervallare con α =0,05 (z=1,96); c) lo stimatore intervallare con α =0,1 (z=1,64)

Individuazione del livello di significatività 𝛼 = 0 , 01

α

2

il quantile 1 − α = 1 − 0 , 005 = 0 , 995 (probabilità)

2

1

2

𝑎

2

1

2

n 1

2

2

n 2

1

2

𝑎

2

1

2

n 1

2

2

n 2

[( 8 , 5 − 6 ) − 2 , 56 √

] = 0 , 995

𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à

[

] = 0 , 975

1 − 0 , 05 = 0 , 95 (𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡à)

[

] = 0 , 95

  1. Dati due campioni con n1=35 e n2=45 e mu1=7,2 e mu2=7,9 varianza stimata1=2 e varianza stimata2=3 calcolare lo stimatore intervallare : a) con α =0,01 (tcritica=2,375); b) con α =0,05(tcritica=1,665); c) con α =0,

(tcritica=1,2925)

1

2

2

,𝑛 1

+𝑛 2

− 2

n

1

n

2

1

2

2

,𝑛 1

+𝑛 2

− 2

n

1

n

2

2

[(𝑛

1

1

2

  • (𝑛

2

2

2

]

1

2

[( 35 − 1 ) 2 + ( 45 − 1 ) 3 ]

  1. Data la distribuzione di probabilità Binomiale con p=0,49 ed n=50 e stabilito un livello di significatività dell’5% con quali script si calcolano: a) il limite superiore dello stimatore intervallare per la proporzione; b) il limite inferiore

dello stimatore intervallare per la proporzione; c) la numerosità campionaria e l’ampiezza dell’intervallo.

p <-0.

n <- 50

l.inf<-p-qnorm(0.05)sqrt(p(1-p)/n);l.inf

l.sup<-p+qnorm(0.05)sqrt(p(1-p)/n);l.sup

amp_inter<-2qnorm(0.05) * sqrt(p(1-p)/n);amp_inter

num_camp <-((qnorm(0.05)(p(1-p))/1,5))^2;num_camp

  1. Si vuole calcolare: a) lo stimatore intervallare con α =0,05 (zempirica=1,96) per la proporzione campionaria pari a 0,47 su un campione di 98 elettori; b) lo stimatore intervallare con α =0,01 (zempirica=2,67) per la proporzione

campionaria pari a 0,47 su un campione di 320 elettori; c) lo stimatore intervallare con α =0,05 (zempirica=1,96) per la proporzione campionaria pari a 0,47 su un campione di 1550 elettori.

2

2

  1. Data un v.c. binomiale con n=120 e p=0,49 che, secondo il teorema del limite centrale converge e si approssima ad una Normale, quali linee di codice di R si implementano per calcolare: a) lo stimatore intervallare con α =0,05; b)

la sua ampiezza; c) la numerosità campionaria per un valore massimo del termine di errore pari a 0,

p<-0.

n <- 120

l.inf<-p-qnorm(0.9 75 )sqrt(p(1-p)/n);l.inf

l.sup<-p+qnorm(0.975)sqrt(p(1-p)/n);l.sup

amp_inter<-2qnorm(0.975) * sqrt(p(1-p)/n);amp_inter

num_camp <-((qnorm(0.975)(p(1-p))/0.047))^2;num_camp

  1. Data una Normale con μ =987 e σ 2=36 con quali linee di codice di R si calcolano: a) lo stimatore intervallare per la media al livello di significatività α =0,01; b) la sua ampiezza; c) la numerosità campionaria per un valore massimo

del termine di errore pari a 1,

mx_camp <- 987

n <- 397

var_stim<- 36

l.inf <- mx_camp - qt(0.01,n) * sqrt(var_stim/n);l.inf

l.sup <- mx_camp + qt(0.01,n) * sqrt(var_stim/n);l.sup

amp_inter<-2*qt(0.01,n) * sqrt(var_stim/n);amp_inter

num_camp <- round((qt(0.01,n)^2*6^2)/(1.5^2));num_camp

  1. Commentare brevemente: a) il significato di ipotesi nulla e alternativa; b) il significato di verifica di ipotesi con test unilatero dx; c) il significato di verifica di ipotesi con test unilatero sx e bilatero

Il concetto di test parametrico presuppone di affrontare la verifica di ipotesi sui parametri di una popolazione normale da cui sono estratti i campioni. L’approccio di Neyman e Pearson, noto come test di ipotesi, prende in considerazione

esplicitamente l’ipotesi alternativa rispetto a quella di interesse o nulla. Per ipotesi si intende stabilire un valore a priori riguardante un parametro della popolazione di interesse. Le due ipotesi in opposizione sono: quella nulla o di interesse,

definita H0 e quella alternativa, definita H1. L’ipotesi H0 è quella considerata vera fino a prova contraria. L’ipotesi H1 è quella in contrapposizione. Le procedure che permettono di decidere se accettare o rifiutare una data ipotesi o di

stabilire se un dato campione osservato differisce dai risultati attesi sono definite test statistici o test d’ipotesi o test di significatività dette anche regole di decisione. Se l’ipotesi nulla H0 è un’affermazione sul valore assunto da un parametro

incognito di una popolazione, l’ipotesi alternativa H1 risponde ad una delle seguenti affermazioni: il parametro è maggiore o uguale del valore ipotizzato (test unilatero con coda a destra); il parametro è minore o uguale del valore

ipotizzato (test unilatero con coda a sinistra); il parametro è diverso del valore ipotizzato (test bilatero o a due code).

  1. Data una Normale con μ =987 e σ 2 =36 con quali linee di codice di R: a) si effettua il confronto fra il quantile critico al livello di significatività α =0,01 e quello empirico ai fini della verifica di ipotesi per un test bilatero; b) si calcola il

p-value; c) si effettua il confronto fra il livello di significatività α e il p-value ai fini della verifica di ipotesi per un test bilatero

mu<- 987

var<- 36

z<qnorm(0,01) o qnorm(0,01) ACCETTO al contrario RIFIUTO

pnorm(z)

pnorm(z)=p-value>alfa o alfa/2 ACCETTO al contrario RIFIUTO

  1. Per α =0,05: a) quali sono gli intervalli delle regioni di accettazione e di rifiuto per un test bilatero; b) quali sono gli intervalli delle regioni di accettazione e di rifiuto per un test unilatero destro; c) quali sono gli intervalli delle

regioni di accettazione e di rifiuto per un test unilatero sinistro

con α/2 uguale a 0,025 la relativa z critica è pari a 1,96 la cui probabilità è rappresentata dall’area a sinistra e a destra rispettivamente dei valori - 1,96 e +1,96 se la struttura di ipotesi è bilaterale. Successivamente viene calcolata la z empirica

applicando la notazione della relativa statistica test e poi si pongono a confronto i due valori. A questo punto si possono avere due possibilità:

  • se p-value (probabilità della z empirica)< α o α/2 allora si rifiuta (o non si accetta) H 0 sotto H 1
  • se p-value (probabilità della z empirica) > α o α /2 allora non si rifiuta (o non si accetta) H 0 sotto H 1
  1. Sulla verifica di ipotesi stabilire: a) quando si decide di accettare l’ipotesi nulla H0 sotto quella alternativa H1 quando questa è vera come è la scelta e quale probabilità assume; b) quando si decide di rifiutare l’ipotesi nulla H

sotto quella alternativa H1 quando questa è falsa come è la scelta e quale probabilità assume; c) quando si decide di accettare l’ipotesi nulla H0 sotto quella alternativa H1 quando questa è falsa come è la scelta e quale probabilità assume?

Scelta Ipotesi nulla o di interesse H 0 (Vera) Ipotesi nulla o di interesse H 0 (Falsa)

H 0 (si rifiuta o non si accetta) Si commette errore I tipo con probabilità alfa Scelta corretta con probabilità 1 - beta

H 0 (accetta o non si rifiuta) Scelta corretta con probabilità 1 - alfa Si commette errore II tipo con probabilità beta

  1. Commentare brevemente: a) il significato di errore di I tipo; b) il significato di errore di II tipo; c) il significato di potenza del test e la interrelazione fra teoria della stima e verifica di ipotesi

Se si rifiuta l’ipotesi di interesse H 0 sotto quella alternativa H 1 quando si sarebbe dovuta accettare, si commette un errore del I tipo.

Se si accetta l’ipotesi di interesse H 0 sotto quella alternativa H 1 quando si sarebbe dovuta rifiutare, si commette un errore del II tipo.

In entrambi i casi si assume una decisione errata o si commette un errore di valutazione. In linea generale è più grave commettere un errore del I tipo che uno del II. Potenza del test Si consideri un’ipotesi alternativa H1:μ=μ0. La potenza

del test è il complemento a 1 dell’errore di II tipo (1-β). Si può affermare che la potenza del test corrisponde alla probabilità di rifiutare H0 quando questa è falsa. Quindi si cerca di avere un valore molto alto di questa probabilità, come si

ribadisce che α deve avere un valore molto basso al fine di garantire una bassa probabilità di commettere l’errore di I tipo. Interrelazioni fra teoria della stima e verifica di ipotesi Dalle considerazioni svolte finora si può notare che esiste una

interrelazione tra la teoria della stima che coinvolge gli intervalli fiduciari e la teoria dei test di ipotesi. Se si prende a riferimento la verifica delle ipotesi per test bidirezionali su una media campionaria nel caso di grandi campioni (n>30)

distribuiti normalmente, il sistema di ipotesi relativo sarà: H0:μ=μ0 vs H1:μ≠μ0.

  1. Quali sono le notazioni attraverso le quali si individuano: a) la regione di accettazione se Z ≥ z α ; b) la regione di accettazione se Z ≥- z α ; c) la regione di accettazione se Z ≥ - z α /
  2. Quali sono le notazioni attraverso le quali si individuano: a) l’ipotesi alternativa H1 se Z ≥ z α ; b) l’ipotesi alternativa H1 se Z ≥- z α ; c) l’ipotesi alternativa H1 se Z ≥ - z α /
  3. Dato un mu =200, un campione n=92 e una media campionaria=198 con quali script di R si calcolano: a) la zeta empirica; b) il p-value con α =0,01; c) il p-value con α =0,05; c) il p-value con α =0,

mu<- 200

n<- 92

media_camp<- 198

pnorm(z)

  1. Dato un campione n=24 con μ =22, media campionaria=21 e varianza nota pari a 15 si scelga la regola di decisione in questi casi: a) per un test unilatero dx (Z critica=2,576); b) per un test unilatero sx (Z critica=-2,576 ; c) per un

test bilatero (Z critica=1,96)

  1. Quali sono le notazioni attraverso le quali si individuano: a) la regione di accettazione se Z ≥ z α secondo la tecnica del p-value; b) la regione di accettazione se Z ≥- z α secondo la tecnica del p-value; c) la regione di accettazione

se Z ≥ - z α /2 secondo la tecnica del p-value.