











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
formulario completo con formule e note teoriche per esami di statistica
Tipologia: Formulari
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












Frequenza Relativa f requenza classi n
Frequenza Percentuale
F requenza Relativa · 100 (2)
Ampiezza Classi valore max − valore min numero classi
Media Campionaria
x =
xi n
Media della Popolazione μ =
xi N
Scarto Interquartile IQR = Q 3 − Q 1 (6) Varianza della Popolazione
σ^2 =
(xi − μ)^2 N
Varianza Campionaria
s^2 =
(xi − x)^2 n − 1
Deviazione Standard
Deviazione Standard Campionaria : s =
s^2 (9)
Deviazione Standard P opolazione : σ =
σ^2 (10) Coefficiente di Variazione
Deviazione standard M edia
Z-score zi = xi − x s
Covarianza Campionaria
sxy =
(xi − x)(yi − y) n − 1
Covarianza della Popolazione
σxy =
(xi − μx)(yi − μy ) N
Coefficiente di correlazione lineare (Pearson) Compreso tra -1 e 1. Se vicino a -1 o 1 allora la correlazione e fortemente lineare. See vicino a 0 non c’`e nessuna correlazione
ρxy =
σxy σxσy
Percentili Q1: 25-esimo percentile Q2: 50-esimo percentile (mediana) Q3: 75-esimo percentile i = (
)n (16)
Note Circa il 68% delle osservazioni si trova in un intervallo pari a +- una Dev.Std. dalla media [x − s, x + s] Circa il 95% delle osservazioni si trova in un intervallo pari a +- due Dev.Std. dalla media [x − 2 s, x + 2s] Circa il 68% delle osservazioni si trova in un intervallo pari a +- tre Dev.Std. dalla media [x − 3 s, x + 3s]
V arianza V ar(x) = σ^2 =
(x − μ)^2 f (x) (29)
Distribuzione binomiale
F unzione di probabilit`a f (x) =
n
px(1 − p)(n−x)^ (30)
con (^) N n
n! x!(n − x)!
V alore atteso E(x) = μ = np (32) V arianza V ar(x) = σ^2 = np(1 − p) (33)
Distribuzione di Bernoulli (`e una distribuzione binomiale che considera solo una prova)
F unzione di probabilit`a f (x) = px(1 − p)^1 −x^ con x = 0, 1 (34)
V alore atteso E(x) = p (35) V arianza V ar(x) = p(1 − p) (36)
Distribuzione di Poisson
F unzione di probabilit`a f (x) =
μxe−μ x!
V alore atteso = V arianza = E(x) = V ar(x) = μ (38)
Proprieta: 1.Una funzione di densita non puo mai assumere valori negativi (f(x) ≥ 0) 2.Una funzione di densita non e una funzione di probabilita (f(x) ̸= p(X = x)) 3.L’area totale sottesa alla funzione e 1. p(-∞ ≤ x ≤ +∞) = 1 4.La probabilita che una v.c. assuma un particolare valore dell’intervallo `e 0
Distribuzione uniforme
F unzione di densit`a f (x) =
b−a per a^ ≤^ x^ ≤^ b 0 altrimenti
V alore atteso E(x) =
a + b 2
V arianza V ar(x) =
(b − a)^2 12
Distribuzione normale
F unzione di densit`a f (x) =
σ
2 π
e−(x−μ)
(^2) / 2 σ 2 (42)
Osservazioni: 1.L’intera famiglia delle distribuzioni normali e differenziata da: media (μ) e dev.std. (σ). 2.Il punto piu alto della curva e in corrispondenza della media, chee anche mediana. 3.La distribuzione normale e simmetrica. Le code tendono a ∞. 4.La dev. std. determina quanto la curva normalee piatta e larga. Ne consegue che a seconda, i dati saranno piu o meno variabili. 5.Le probabilita sono date dalle aree sotto la curva normale. L’area totale e 1. 6.Le percentuali di valori che si trovano entro alcuni intervalli sono: a) il 68,3% dei valori si trova entro piu o meno una dev. std. dalla media. b) il 95,4% dei valori si trova entro piu o meno due dev. std. dalla media. c) il 99,7% dei valori si trova entro piu o meno tre dev. std. dalla media.
Distribuzione normale standard `e una distribuzione normale con media μ = 0 e varianza σ = 1
F unzione di densit`a f (z) =
2 π
e−z
(^2) / 2 (43)
Da qualunque v.c. possiamo ottenere la v.c. normale standard attraverso la formula di standardizzazione:
F ormula di standardizzazione z = x − μ σ
Per fare una stima puntuale
Valore atteso di x E(x) = μ (45) μ = media della popolazione x = media del campione
Stima intervallare della media di una popolazione σ noto
x ± zα/ 2
σ √ n
dove (1-α) e il livello di confidenza e zα/ 2e il valore di z che identifica un’area pari a α/2 nella coda superiore della distribuzione normale standard.
Stima intervallare della media di una popolazione σ non noto
x ± tα/ 2 s √ n
dove s e la deviazione standard campionaria, (1 − α)e il livello di confidenza e tα/ 2 e il valore t che definisce un’area pari a α/2 nella coda superiore della distribuzione t con n-1 gradi di liberta.
Deviazione standard campionaria
s =
r P (xi − x)^2 n − 1
Dimensione del campione per la stima intervallare della media di una popolazione
n =
(zα/ 2 )^2 σ^2 E^2
se σ non `e noto possiamo prendere il range (valore massimo - valore minimo) e dividerlo per 4.
Stima intervallare della proporzione di una popolazione
p ± zα/ 2
r p(1 − p) n
in cui 1 − α e il livello di confidenza e zα/ 2e il valore di z che individua un’area pari a α/2 nella coda superiore della distribuzione normale standard.
Dimensione del campione per la stima intervallare della proporzione di una popolazione
n =
(zα/ 2 )^2 p ∗ (1 − p∗) E^2
se non si hanno valori di p, si pu`o mettere p=0.50.
H 0 : μ ≥ μ 0 H 0 : μ ≤ μ 0 H 0 : μ = μ 0 Ha : μ < μ 0 Ha : μ > μ 0 Ha : μ ̸= μ 0
. H 0 vera Ha vera si accetta H 0 conclusione corretta errore di II tipo si rifiuta H 0 errore di I tipo conclusione corretta
Livello di significativita α Il livello di significativita e la probabilita di commettere un errore di I tipo quando l’ipotesi nulla `e vera in termini di uguaglianza.
a) Test a una coda
Test sulla coda inferiore Test sulla coda superiore H 0 : μ ≥ μ 0 H 0 : μ ≤ μ 0 Ha : μ < μ 0 Ha : μ > μ 0
Statistica test per i test d’ipotesi sulla media di una popolazione: σ noto
z = x − μ 0 σ/
n
p-value
Probabilita che fornisce una misura dell’evidenza contro l’ipotesi nulla data dal campione. p-value piu picccoli indicano maggiore evidenza contro H 0. Viene usato per determinare se H 0 dovrebbe essere rifiutata.
Regola per il rifiuto utilizzando il p-value
Rif iuta H 0 se p − value ≤ α (59)
Regola per il rifiuto utilizzando il valore critico: Coda inferiore
Rif iuta H 0 se z ≤ −zα (60)
dove −zα `e il valore critico; ossia il valore z che fornisce un’area pari ad α nella coda inferiore della distribuzione normale standard.
Regola per il rifiuto utilizzando il valore critico: Coda superiore
Rif iuta H 0 se z ≥ zα (61)
Statistica test per i test d’ipotesi sulla media di una popolazione: σ non noto
t =
x − μ 0 s/
n
Regola per il rifiuto utilizzando il p-value
Rif iuta H 0 se p − value ≤ α (66)
Regola per il rifiuto utilizzando il valore critico: Coda inferiore
Rif iuta H 0 se t ≤ −tα (67)
dove −tα `e l’intervallo di valori data la tabella t. Valori da confrontare poi con α dato.
Regola per il rifiuto utilizzando il valore critico: Coda superiore
Rif iuta H 0 se t ≥ tα (68)
b) Test a due code
H 0 : μ = μ 0 Ha : μ ̸= μ 0
Regola per il rifiuto utilizzando il p-value
Rif iuta H 0 se p − value ≤ α (69)
Regola per il rifiuto utilizzando il valore critico: Due code
Rif iuta H 0 se t ≤ −tα/ 2 (70)
Rif iuta H 0 se t ≥ tα/ 2 (71)
H 0 : p ≥ p 0 H 0 : p ≤ p 0 H 0 : p = p 0 Ha : p < p 0 Ha : p > p 0 Ha : p ̸= p 0
a) Test a una coda
Statistica test per i test d’ipotesi sulla proporzione di una popolazione
z =
p − p 0 q p 0 (1−p 0 ) n
Regola per il rifiuto utilizzando il p-value
Rif iuta H 0 se p − value ≤ α (73)
Regola per il rifiuto utilizzando il valore critico: Coda inferiore
Rif iuta H 0 se z ≤ −zα (74)
Regola per il rifiuto utilizzando il valore critico: Coda superiore
Rif iuta H 0 se z ≥ zα (75)
b) Test a due code
Regola per il rifiuto utilizzando il p-value
Rif iuta H 0 se p − value ≤ α (76)
Regola per il rifiuto utilizzando il valore critico: Due code
Rif iuta H 0 se z ≤ −zα/ 2 (77)
Rif iuta H 0 se z ≥ zα/ 2 (78)
Stimatore puntuale della differenza tra le medie di due popolazioni
x 1 − x 2 (79)
Deviazione standard
σ (^) Pˆ 1 − Pˆ 2 =
s p 1 (1 − p 1 ) n 1
p 2 (1 − p 2 ) n 2
Stimatore congiunto di p
p =
n 1 Pˆ 1 + n 2 Pˆ 2 n 1 + n 2
Statistica test Z =
q P (1 − P )( (^) n^11 + (^) n^12 )
H 0 : μ 1 − μ 2 = 0 Ha : μ 1 − μ 2 ̸= 0
Media d =
di n
Deviazione standard
sd =
s P (di − d)^2 n − 1
Statistica test per i test d’ipotesi per campioni appaiati
t =
d − μd sd/
n
H 0 : indipendenza Ha : dipendenza
Frequenze attese per le tabelle di contingenza sotto l’assunto di in- dipendenza
eij =
(T otale della riga i)(T otale della colonna j) Dimensione del campione
Statistica test per l’indipendenza
i
j
(fij − eij )^2 eij
dove: fij : frequenza osservata per la categoria in corrispondenza della riga i e della colonna j della tabella di contingenza eij : frequenza attesa per la categoria in corrispondenza della riga i e della colonna j della tabella di contingenza Nota: con n righe e m colonne nella tabella di contingenza, se le frequenze attese sono almeno pari a cinque per tutte le categorie, la statistica test ha una distribuzione chi-quadro con (n − 1)(m − 1) gradi di libert`a
Test di indipendenza: riassunto
e indipendente dalla variabile di riga Ha: la variabile di colonna none indipendente dalla variabile di rigae il livello di significativita, con n righe e m colonne che danno (n − 1)(m − 1) gradi di libert`a.L’equazione che descrive in che modo y `e in relazione con x e con un termine di errore
Modello di regressione lineare semplice
y = β 0 + β 1 x + ϵ (93)
ˆyi = valore stimato della variabile dipendente per l’i-esima osservazione
Pendenza e intercetta per l’equazione di regressione stimata
b 1 =
(xi − x)(yi − y) P (xi − x)^2
b 0 = y − b 1 x (98) dove xi = valore della variabile indipendente per l’i-esima osservazione yi = valore della variabile dipendente per l’i-esima osservazione x = valore medio della variabile indipendente y = valore medio della variabile dipendente n = numero totali di osservazioni
fornisce una misura della bont`a di adattamento dell’equazione di regressione stimata. Per l’i-esima osservazione, la differenza tra il valore osservato yi e il valore stimato ˆyi della variabile dipendente, viene definita come l’i-esimo residuo.
Somma dei quadrati dovuta all’errore
SSE =
(yi − yˆi)^2 (99)
Il valore di SSE `e una misura dell’errore che si commette nell’utilizzare l’equazione di regressione stimata per stimare i valori della variabile dipendente del campi- one.
Somma totale dei quadrati
SST =
(yi − y)^2 (100)
Il valore di SST e una misura di quanto bene le osservazioni si concentrano sulla retta y; mentre SSEe una misura di quanto bene le osservazioni si concentrano sulla retta ˆy.
Somma dei quadrati dovuta alla regressione
SSR =
(ˆyi − y)^2 (101)
Il valore di SSR viene usato per misurare quanto i valori ˆy sulla retta di regres- sione stimata deviano da y.
Relazione tra SST, SSR e SSE
SST = SSR + SSE (102)
Coefficiente di determinazione
r^2 =
Il rapporto SSR/SST assume valori compresi tra zero e uno. Viene utilizzato per valutare la bonta di adattamento dell’equazione di regressione stimata. Puo essere interpretato come la percentuale della somma totale dei quadrati che pu`o essere spiegata utilizzando l’equazionne di regressione stimata.
Coefficiente di correlazione campionario
r^2 = (segno di b 1 )
p Coef f iciente di determinazione = (segno di b 1 )
r^2 (104) dove b 1 = pendenza dell’equazione di regressione stimata ˆy = b 0 + b 1 x
Assunti sul termine di errore ϵ del modello di regressione y = β 0 + β 1 x + ϵ
e una variabile casuale con una media, o un valore atteso, pari a zero; ossia, E(ϵ) = 0. implicazione: β 0 e β 1 x sono costanti; percio E(β 0 ) = β 1. Quindi, per un dato valore di x, il valore atteso di y `e: E(y) = β 0 + β 1 xe la medesima per tutti i valori di x. implicazione: la varianza di y sulla retta di regressionee uguale a σ^2 ed `e la medesima per tutti i valori di x.e in relazione con il valore di ϵ per un qualunque altro valore di x; quindi il valore di y per un particolare valore di x none in relazione con il valore di y per un qualunque altro valore di x.e una variabile casuale che si distribuisce seguendo una normale. implicazione: poiche y e una funzione lineare di ϵ, anche ye una variabile casuale che si distribuisce seguendo una normale.Test t sulla significativit`a nella refressione lineare semplice: riassunto H 0 : β 1 = 0 Ha : β 1 ̸= 0
Statistica test t t = b 1 sb 1
Regola per il rifiuto Approccio p value: Rifiuta H 0 se p-value ≤ α Approcccio del valore critico: Rifiuta H 0 se t ≤ −tα/ 2 o se t ≥ tα/ 2 dove tα/ 2 si basa su una distribuzione t con n - 2 gradi di libert`a.
Note: Rifiutare l’ipotesi nulla H 0 : β 1 = 0 e concludere che la relazione tra x e y e significativa non ci consente di concludere che sia presente una relazione causa-effetto tra x e y. Oltre a cio, solo perche siamo in grado di rifiutare H 0 : β 1 = 0 e dimostrare la significativita statistica non possiamo cconcludere che la relazione tra x e ye lineare. Possiamo solo stabilire che x e y sono in relazione tra di loro e che una relazione lineare spiega una parte significativa della variabilit`a di y nell’intervallo dei valori osservati di x del caampione.