Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Probabilità e Distribuzioni di Probabilità: Esercizi e Formule, Formulari di Statistica

formulario completo con formule e note teoriche per esami di statistica

Tipologia: Formulari

2021/2022

In vendita dal 03/06/2022

leonardo-nadalon
leonardo-nadalon 🇮🇹

1 documento

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Formulario statistica
1
2 Capitolo 2 - tabelle e grafici
Frequenza Relativa frequenza classi
n(1)
Frequenza Percentuale
F requenz a Relativa ·100 (2)
Ampiezza Classi valore max valore min
numero classi (3)
3 Capitolo 3 - misure numeriche
Media Campionaria
x=Pxi
n(4)
Media della Popolazione
µ=Pxi
N(5)
Scarto Interquartile
IQR =Q3Q1(6)
Varianza della Popolazione
σ2=P(xiµ)2
N(7)
Varianza Campionaria
s2=P(xix)2
n1(8)
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica Introduzione alla Probabilità e Distribuzioni di Probabilità: Esercizi e Formule e più Formulari in PDF di Statistica solo su Docsity!

Formulario statistica

2 Capitolo 2 - tabelle e grafici

Frequenza Relativa f requenza classi n

Frequenza Percentuale

F requenza Relativa · 100 (2)

Ampiezza Classi valore max − valore min numero classi

3 Capitolo 3 - misure numeriche

Media Campionaria

x =

P

xi n

Media della Popolazione μ =

P

xi N

Scarto Interquartile IQR = Q 3 − Q 1 (6) Varianza della Popolazione

σ^2 =

P

(xi − μ)^2 N

Varianza Campionaria

s^2 =

P

(xi − x)^2 n − 1

Deviazione Standard

Deviazione Standard Campionaria : s =

s^2 (9)

Deviazione Standard P opolazione : σ =

σ^2 (10) Coefficiente di Variazione

Deviazione standard M edia

Z-score zi = xi − x s

Covarianza Campionaria

sxy =

P

(xi − x)(yi − y) n − 1

Covarianza della Popolazione

σxy =

P

(xi − μx)(yi − μy ) N

Coefficiente di correlazione lineare (Pearson) Compreso tra -1 e 1. Se vicino a -1 o 1 allora la correlazione e fortemente lineare. See vicino a 0 non c’`e nessuna correlazione

ρxy =

σxy σxσy

Percentili Q1: 25-esimo percentile Q2: 50-esimo percentile (mediana) Q3: 75-esimo percentile i = (

P

)n (16)

Note Circa il 68% delle osservazioni si trova in un intervallo pari a +- una Dev.Std. dalla media [x − s, x + s] Circa il 95% delle osservazioni si trova in un intervallo pari a +- due Dev.Std. dalla media [x − 2 s, x + 2s] Circa il 68% delle osservazioni si trova in un intervallo pari a +- tre Dev.Std. dalla media [x − 3 s, x + 3s]

V arianza V ar(x) = σ^2 =

X

(x − μ)^2 f (x) (29)

Distribuzione binomiale

F unzione di probabilit`a f (x) =

N

n

px(1 − p)(n−x)^ (30)

con (^)  N n

n! x!(n − x)!

V alore atteso E(x) = μ = np (32) V arianza V ar(x) = σ^2 = np(1 − p) (33)

Distribuzione di Bernoulli (`e una distribuzione binomiale che considera solo una prova)

F unzione di probabilit`a f (x) = px(1 − p)^1 −x^ con x = 0, 1 (34)

V alore atteso E(x) = p (35) V arianza V ar(x) = p(1 − p) (36)

Distribuzione di Poisson

F unzione di probabilit`a f (x) =

μxe−μ x!

V alore atteso = V arianza = E(x) = V ar(x) = μ (38)

6 Capitolo 6 - distribuzioni di probabilit`a

continue

Proprieta: 1.Una funzione di densita non puo mai assumere valori negativi (f(x) ≥ 0) 2.Una funzione di densita non e una funzione di probabilita (f(x) ̸= p(X = x)) 3.L’area totale sottesa alla funzione e 1. p(-∞ ≤ x ≤ +∞) = 1 4.La probabilita che una v.c. assuma un particolare valore dell’intervallo `e 0

Distribuzione uniforme

F unzione di densit`a f (x) =

b−a per a^ ≤^ x^ ≤^ b 0 altrimenti

V alore atteso E(x) =

a + b 2

V arianza V ar(x) =

(b − a)^2 12

Distribuzione normale

F unzione di densit`a f (x) =

σ

2 π

e−(x−μ)

(^2) / 2 σ 2 (42)

Osservazioni: 1.L’intera famiglia delle distribuzioni normali e differenziata da: media (μ) e dev.std. (σ). 2.Il punto piu alto della curva e in corrispondenza della media, chee anche mediana. 3.La distribuzione normale e simmetrica. Le code tendono a ∞. 4.La dev. std. determina quanto la curva normalee piatta e larga. Ne consegue che a seconda, i dati saranno piu o meno variabili. 5.Le probabilita sono date dalle aree sotto la curva normale. L’area totale e 1. 6.Le percentuali di valori che si trovano entro alcuni intervalli sono: a) il 68,3% dei valori si trova entro piu o meno una dev. std. dalla media. b) il 95,4% dei valori si trova entro piu o meno due dev. std. dalla media. c) il 99,7% dei valori si trova entro piu o meno tre dev. std. dalla media.

Distribuzione normale standard `e una distribuzione normale con media μ = 0 e varianza σ = 1

F unzione di densit`a f (z) =

2 π

e−z

(^2) / 2 (43)

Da qualunque v.c. possiamo ottenere la v.c. normale standard attraverso la formula di standardizzazione:

F ormula di standardizzazione z = x − μ σ

7 Capitolo 7 - campionamento e distribuzioni

campionarie

Per fare una stima puntuale

Valore atteso di x E(x) = μ (45) μ = media della popolazione x = media del campione

Stima intervallare della media di una popolazione σ noto

x ± zα/ 2

σ √ n

dove (1-α) e il livello di confidenza e zα/ 2e il valore di z che identifica un’area pari a α/2 nella coda superiore della distribuzione normale standard.

Stima intervallare della media di una popolazione σ non noto

x ± tα/ 2 s √ n

dove s e la deviazione standard campionaria, (1 − α)e il livello di confidenza e tα/ 2 e il valore t che definisce un’area pari a α/2 nella coda superiore della distribuzione t con n-1 gradi di liberta.

Deviazione standard campionaria

s =

r P (xi − x)^2 n − 1

Dimensione del campione per la stima intervallare della media di una popolazione

n =

(zα/ 2 )^2 σ^2 E^2

se σ non `e noto possiamo prendere il range (valore massimo - valore minimo) e dividerlo per 4.

Stima intervallare della proporzione di una popolazione

p ± zα/ 2

r p(1 − p) n

in cui 1 − α e il livello di confidenza e zα/ 2e il valore di z che individua un’area pari a α/2 nella coda superiore della distribuzione normale standard.

Dimensione del campione per la stima intervallare della proporzione di una popolazione

n =

(zα/ 2 )^2 p ∗ (1 − p∗) E^2

se non si hanno valori di p, si pu`o mettere p=0.50.

9 Capitolo 9 - i test d’ipotesi

H 0 : μ ≥ μ 0 H 0 : μ ≤ μ 0 H 0 : μ = μ 0 Ha : μ < μ 0 Ha : μ > μ 0 Ha : μ ̸= μ 0

. H 0 vera Ha vera si accetta H 0 conclusione corretta errore di II tipo si rifiuta H 0 errore di I tipo conclusione corretta

Livello di significativita α Il livello di significativita e la probabilita di commettere un errore di I tipo quando l’ipotesi nulla `e vera in termini di uguaglianza.

9.1 La media della popolazione σ noto:

a) Test a una coda

Test sulla coda inferiore Test sulla coda superiore H 0 : μ ≥ μ 0 H 0 : μ ≤ μ 0 Ha : μ < μ 0 Ha : μ > μ 0

Statistica test per i test d’ipotesi sulla media di una popolazione: σ noto

z = x − μ 0 σ/

n

p-value

Probabilita che fornisce una misura dell’evidenza contro l’ipotesi nulla data dal campione. p-value piu picccoli indicano maggiore evidenza contro H 0. Viene usato per determinare se H 0 dovrebbe essere rifiutata.

Regola per il rifiuto utilizzando il p-value

Rif iuta H 0 se p − value ≤ α (59)

Regola per il rifiuto utilizzando il valore critico: Coda inferiore

Rif iuta H 0 se z ≤ −zα (60)

dove −zα `e il valore critico; ossia il valore z che fornisce un’area pari ad α nella coda inferiore della distribuzione normale standard.

Regola per il rifiuto utilizzando il valore critico: Coda superiore

Rif iuta H 0 se z ≥ zα (61)

Statistica test per i test d’ipotesi sulla media di una popolazione: σ non noto

t =

x − μ 0 s/

n

Regola per il rifiuto utilizzando il p-value

Rif iuta H 0 se p − value ≤ α (66)

Regola per il rifiuto utilizzando il valore critico: Coda inferiore

Rif iuta H 0 se t ≤ −tα (67)

dove −tα `e l’intervallo di valori data la tabella t. Valori da confrontare poi con α dato.

Regola per il rifiuto utilizzando il valore critico: Coda superiore

Rif iuta H 0 se t ≥ tα (68)

b) Test a due code

H 0 : μ = μ 0 Ha : μ ̸= μ 0

Regola per il rifiuto utilizzando il p-value

Rif iuta H 0 se p − value ≤ α (69)

Regola per il rifiuto utilizzando il valore critico: Due code

Rif iuta H 0 se t ≤ −tα/ 2 (70)

Rif iuta H 0 se t ≥ tα/ 2 (71)

9.3 La proporzione della popolazione:

H 0 : p ≥ p 0 H 0 : p ≤ p 0 H 0 : p = p 0 Ha : p < p 0 Ha : p > p 0 Ha : p ̸= p 0

a) Test a una coda

Statistica test per i test d’ipotesi sulla proporzione di una popolazione

z =

p − p 0 q p 0 (1−p 0 ) n

Regola per il rifiuto utilizzando il p-value

Rif iuta H 0 se p − value ≤ α (73)

Regola per il rifiuto utilizzando il valore critico: Coda inferiore

Rif iuta H 0 se z ≤ −zα (74)

Regola per il rifiuto utilizzando il valore critico: Coda superiore

Rif iuta H 0 se z ≥ zα (75)

b) Test a due code

Regola per il rifiuto utilizzando il p-value

Rif iuta H 0 se p − value ≤ α (76)

Regola per il rifiuto utilizzando il valore critico: Due code

Rif iuta H 0 se z ≤ −zα/ 2 (77)

Rif iuta H 0 se z ≥ zα/ 2 (78)

10 Capitolo 10 - il confronto tra le medie

10.1 La stima intervallare di μ 1 - μ 2

Stimatore puntuale della differenza tra le medie di due popolazioni

x 1 − x 2 (79)

Deviazione standard

σ (^) Pˆ 1 − Pˆ 2 =

s p 1 (1 − p 1 ) n 1

p 2 (1 − p 2 ) n 2

Stimatore congiunto di p

p =

n 1 Pˆ 1 + n 2 Pˆ 2 n 1 + n 2

Statistica test Z =

Pˆ 1 − Pˆ 2

q P (1 − P )( (^) n^11 + (^) n^12 )

10.3 Campioni appaiati

H 0 : μ 1 − μ 2 = 0 Ha : μ 1 − μ 2 ̸= 0

Media d =

P

di n

Deviazione standard

sd =

s P (di − d)^2 n − 1

Statistica test per i test d’ipotesi per campioni appaiati

t =

d − μd sd/

n

11 Capitolo 11 - Test di indipendenza

H 0 : indipendenza Ha : dipendenza

Frequenze attese per le tabelle di contingenza sotto l’assunto di in- dipendenza

eij =

(T otale della riga i)(T otale della colonna j) Dimensione del campione

Statistica test per l’indipendenza

X^2 =

X

i

X

j

(fij − eij )^2 eij

dove: fij : frequenza osservata per la categoria in corrispondenza della riga i e della colonna j della tabella di contingenza eij : frequenza attesa per la categoria in corrispondenza della riga i e della colonna j della tabella di contingenza Nota: con n righe e m colonne nella tabella di contingenza, se le frequenze attese sono almeno pari a cinque per tutte le categorie, la statistica test ha una distribuzione chi-quadro con (n − 1)(m − 1) gradi di libert`a

Test di indipendenza: riassunto

  1. Stabilire l’ipotesi nulla e l’ipotesi alternativa. H 0 : la variabile di colonna e indipendente dalla variabile di riga Ha: la variabile di colonna none indipendente dalla variabile di riga
  2. Selezionare un campione casuale e rilevare le frequenze osservate per ciascuna cella della tabella di contingenza.
  3. Utilizzare l’equazione eij per calcolare la frequenza attesa per ciascuna cella.
  4. Utilizzare l’equazione X^2 per calcolare il valore della statistica test.
  5. Regola per il rifiuto: Approccio p-value: Rifiutare H 0 se p-value ≤ α Approccio del valore critico: Rifiutare H 0 se X^2 ≥ X α^2 dove α e il livello di significativita, con n righe e m colonne che danno (n − 1)(m − 1) gradi di libert`a.

12 Capitolo 12 - La regressione lineare semplice

L’equazione che descrive in che modo y `e in relazione con x e con un termine di errore

Modello di regressione lineare semplice

y = β 0 + β 1 x + ϵ (93)

ˆyi = valore stimato della variabile dipendente per l’i-esima osservazione

Pendenza e intercetta per l’equazione di regressione stimata

b 1 =

P

(xi − x)(yi − y) P (xi − x)^2

b 0 = y − b 1 x (98) dove xi = valore della variabile indipendente per l’i-esima osservazione yi = valore della variabile dipendente per l’i-esima osservazione x = valore medio della variabile indipendente y = valore medio della variabile dipendente n = numero totali di osservazioni

12.2 Il coefficiente di determinazione

fornisce una misura della bont`a di adattamento dell’equazione di regressione stimata. Per l’i-esima osservazione, la differenza tra il valore osservato yi e il valore stimato ˆyi della variabile dipendente, viene definita come l’i-esimo residuo.

Somma dei quadrati dovuta all’errore

SSE =

X

(yi − yˆi)^2 (99)

Il valore di SSE `e una misura dell’errore che si commette nell’utilizzare l’equazione di regressione stimata per stimare i valori della variabile dipendente del campi- one.

Somma totale dei quadrati

SST =

X

(yi − y)^2 (100)

Il valore di SST e una misura di quanto bene le osservazioni si concentrano sulla retta y; mentre SSEe una misura di quanto bene le osservazioni si concentrano sulla retta ˆy.

Somma dei quadrati dovuta alla regressione

SSR =

X

(ˆyi − y)^2 (101)

Il valore di SSR viene usato per misurare quanto i valori ˆy sulla retta di regres- sione stimata deviano da y.

Relazione tra SST, SSR e SSE

SST = SSR + SSE (102)

Coefficiente di determinazione

r^2 =

SSR

SST

Il rapporto SSR/SST assume valori compresi tra zero e uno. Viene utilizzato per valutare la bonta di adattamento dell’equazione di regressione stimata. Puo essere interpretato come la percentuale della somma totale dei quadrati che pu`o essere spiegata utilizzando l’equazionne di regressione stimata.

Coefficiente di correlazione campionario

r^2 = (segno di b 1 )

p Coef f iciente di determinazione = (segno di b 1 )

r^2 (104) dove b 1 = pendenza dell’equazione di regressione stimata ˆy = b 0 + b 1 x

12.3 Gli assunti del modello

Assunti sul termine di errore ϵ del modello di regressione y = β 0 + β 1 x + ϵ

  1. il termine di errore ϵ e una variabile casuale con una media, o un valore atteso, pari a zero; ossia, E(ϵ) = 0. implicazione: β 0 e β 1 x sono costanti; percio E(β 0 ) = β 1. Quindi, per un dato valore di x, il valore atteso di y `e: E(y) = β 0 + β 1 x
  2. La varianza di ϵ, indicata con σ^2 , e la medesima per tutti i valori di x. implicazione: la varianza di y sulla retta di regressionee uguale a σ^2 ed `e la medesima per tutti i valori di x.
  3. i valori di ϵ sono indipendenti. implicazione: il valore di ϵ per un particolare valore di x non e in relazione con il valore di ϵ per un qualunque altro valore di x; quindi il valore di y per un particolare valore di x none in relazione con il valore di y per un qualunque altro valore di x.
  4. il termine errore ϵ e una variabile casuale che si distribuisce seguendo una normale. implicazione: poiche y e una funzione lineare di ϵ, anche ye una variabile casuale che si distribuisce seguendo una normale.

Test t sulla significativit`a nella refressione lineare semplice: riassunto H 0 : β 1 = 0 Ha : β 1 ̸= 0

Statistica test t t = b 1 sb 1

Regola per il rifiuto Approccio p value: Rifiuta H 0 se p-value ≤ α Approcccio del valore critico: Rifiuta H 0 se t ≤ −tα/ 2 o se t ≥ tα/ 2 dove tα/ 2 si basa su una distribuzione t con n - 2 gradi di libert`a.

Note: Rifiutare l’ipotesi nulla H 0 : β 1 = 0 e concludere che la relazione tra x e y e significativa non ci consente di concludere che sia presente una relazione causa-effetto tra x e y. Oltre a cio, solo perche siamo in grado di rifiutare H 0 : β 1 = 0 e dimostrare la significativita statistica non possiamo cconcludere che la relazione tra x e ye lineare. Possiamo solo stabilire che x e y sono in relazione tra di loro e che una relazione lineare spiega una parte significativa della variabilit`a di y nell’intervallo dei valori osservati di x del caampione.