Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica, appunti del corso, Appunti di Statistica

Appunti, integrati con le dispense, del corso di statistica

Tipologia: Appunti

2023/2024

In vendita dal 23/12/2024

lisa-amichetti
lisa-amichetti 🇮🇹

8 documenti

1 / 18

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
La statistica analizza in termini quantitativi i fenomeni collettivi, ovvero quei fenomeni composti da una
pluralità di manifestazioni individuali (soggetti, oggetti, concetti, …).
STATISTICA DESCRITTIVA: si pone di descrivere le principali caratteristiche di fenomeni collettivi
per i quali conosco tutte le unità della popolazione
1- unità statistica: unità oggetto di indagine
2- popolazione: insieme di tutte le unità statistiche unità statistica=singola unità
3- variabile: caratteristica osservabile dell’unità statistica (es: altezza)
una variabile che ha 1 sola modalità è una COSTANTE le variabili sono infinite
4- modalità: possibili realizzazioni della variabile (da 2 a infinito); devono essere:
-esaustive: devono rappresentare tutti i possibili modi di manifestarsi del carattere
-non sovrapposte: ad ogni unità statistica si può associare una sola modalità
5- frequenza: numero di volte che una modalità si presenta
6- campione: sottoinsieme della popolazione
VARIABILI
QUALITATIVE: le sue modalità non sono numeriche
1) sconnesse: variabili le cui modalità non hanno un ordinamento naturale
es. genere, colore di capelli
2) ordinabili: pur non avendo modalità numeriche, posseggono un ordinamento naturale
es. titolo di studio
QUANTITATIVE: le sue modalità sono numeriche
3) discrete: ha un numero di modalità finito o numerabile (es. voto di un esame, numero di figli)
4) continue: ha un numero di modalità infinito o non numerabile (variabili infinite), es. altezza
l’uomo tende a discretizzarle
es: lunghezza, tempo, peso, temperatura (grandezze fisiche)
Quando si osserva la modalità assunta da un certo carattere in corrispondenza di un’unità statistica, si ha
un dato statistico. L’insieme di dati (o dataset) è una raccolta di dati statistici relativi a una popolazione. Il
numero di unità statistiche in un dataset si dice numerosità (N).
Come scrivere i dati statistici?
- Successione 8, 5, 5, 4, 7, 7, 8, 6, 6, 5
- Tabella
xi
ni n=somma delle frequenze
i=indice che va da 1 a …
4
1
5
3
6
2
7
2
8
2
= 10 (N)
X1 X2 XN → N=frequenza
X=modalità
X=voto liceo
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12

Anteprima parziale del testo

Scarica Statistica, appunti del corso e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

La statistica analizza in termini quantitativi i fenomeni collettivi, ovvero quei fenomeni composti da una

pluralità di manifestazioni individuali (soggetti, oggetti, concetti, …).

STATISTICA DESCRITTIVA : si pone di descrivere le principali caratteristiche di fenomeni collettivi

per i quali conosco tutte le unità della popolazione

1 - unità statistica : unità oggetto di indagine

2 - popolazione : insieme di tutte le unità statistiche → unità statistica=singola unità

3 - variabile : caratteristica osservabile dell’unità statistica (es: altezza)

una variabile che ha 1 sola modalità è una COSTANTE → le variabili sono infinite

4 - modalità : possibili realizzazioni della variabile (da 2 a infinito); devono essere:

  • esaustive: devono rappresentare tutti i possibili modi di manifestarsi del carattere
  • non sovrapposte: ad ogni unità statistica si può associare una sola modalità

5 - frequenza : numero di volte che una modalità si presenta

6 - campione : sottoinsieme della popolazione

VARIABILI

QUALITATIVE : le sue modalità non sono numeriche

  1. sconnesse: variabili le cui modalità non hanno un ordinamento naturale

→ es. genere, colore di capelli

  1. ordinabili: pur non avendo modalità numeriche, posseggono un ordinamento naturale

→ es. titolo di studio

QUANTITATIVE : le sue modalità sono numeriche

  1. discrete: ha un numero di modalità finito o numerabile (es. voto di un esame, numero di figli)

  2. continue: ha un numero di modalità infinito o non numerabile (variabili infinite), es. altezza

→ l’uomo tende a discretizzarle

→ es: lunghezza, tempo, peso, temperatura (grandezze fisiche)

Quando si osserva la modalità assunta da un certo carattere in corrispondenza di un’unità statistica, si ha

un dato statistico. L’ insieme di dati (o dataset) è una raccolta di dati statistici relativi a una popolazione. Il

numero di unità statistiche in un dataset si dice numerosità (N).

Come scrivere i dati statistici?

  • Successione 8, 5, 5, 4, 7, 7, 8, 6, 6, 5
  • Tabella

xi ni → n=somma delle frequenze

→ i=indice che va da 1 a …

= 10 (N)

X1 X2 XN → N=frequenza

X=modalità

X=voto liceo

xi ni fi Ci Fi

N= 10

indici sintetici → riassunto di più numeri in uno solo

approccio grafico → consente una visualizzazione immediata della struttura della distribuzione di un

carattere; consente un immediato confronto tra più distribuzioni; consentono di evidenziare dati “anomali”

(outliers), ovvero sostanzialmente diverse da tutte le altre; si presta bene a scopo divulgativo rispetto alla

forma tabellare

INDICI SINTETICI

→ ogni procedura di sintesi perde precisione/informazione (con la media aritmetica si perde eterogeneità)

1 - INDICI di POSIZIONE / TENDENZA CENTRALE

MEDIA ARITMETICA = valore che lascia invariata la somma di tutte le unità → ha 5 proprietà

Successione → 𝜇 =

Σ 𝑥𝑖

𝑁

Tabella → 𝜇 =

Σ 𝑥𝑖 ∙𝑛𝑖

𝑁

𝑛𝑖

𝑁

La media aritmetica si applica solo alle variabili quantitative (discrete e continue)

Proprietà :

  • Internalità : la media aritmetica è sempre compresa tra le modalità con il minimo e il massimo valore
  • Linearità : la media aritmetica della combinazione lineare di un carattere è uguale alla combinazione

lineare della media aritmetica del carattere (se trasformo la variabile di partenza anche la media si

trasforma)

  • Baricentricità : la somma degli scarti della media aritmetica è pari a zero
  • Minima somma degli scarti al quadrato : la somma degli scarti al quadrato da una costante è minima

quando è uguale alla media aritmetica

  • Associatività : per ogni partizione delle modalità osservate in L gruppi disgiunti

MODA = modalità con frequenza più elevata → si può calcolare su tutte le variabili

Se la frequenza maggiore è posseduta da due o più modalità del carattere, allora la moda non esiste

X=voto

Successione: 24, 26, 24, 26, 25, 30, 24, 27

ni = FREQUENZA ASSOLUTA = numero di volte che una certa

modalità di un carattere viene osservata nella pop.

fi = ni/N = FREQUENZA RELATIVA = rappresenta la frazione di

unità statistiche che presentano una certa modalità di un

carattere → percentuale

Ci = CUMULO DELLE FREQUENZE ASSOLUTE = somma delle

frequenze assolute

Fi = Ci/N o somma delle relative = FREQUENZA CUMULATA

RELATIVA

  • l’ultima cumulata è sempre uguale alla numerosità
  • le cumulate non si sommano

N = NUMEROSITÀ DELLA POPOLAZIONE

la somma delle frequenze

relative è sempre 1

2 - INDICI DI VARIABILITÀ

Stanno tra 0 e ∞, hanno un minimo (0) → 0 ≤ 𝜎

2

La variabilità di un carattere è la sua attitudine ad assumere diverse modalità

VARIANZA = media aritmetica degli scarti dalla media aritmetica al quadrato

Si applica alle variabili quantitative

Successione 𝜎

2

Σ (𝑥𝑖− 𝜇)

2

𝑁

Tabella 𝜎

2

Σ ( 𝑥𝑖− 𝜇)

2

∙ 𝑛𝑖

𝑁

L’unità di misura della varianza è quella della variabile al quadrato

Proprietà:

2

  • Se un carattere X ha un’unica modalità osservata, allora 𝜎

𝑥

2

  • Se 𝑌 = 𝑎 + 𝑏 ∙ 𝑋 con a, b ∈ R: 𝜎

𝑌

2

2

𝑋

2

DEVIAZIONE STANDARD = è la radice quadrata della varianza → √𝜎

2

L’unità di misura è la stessa della variabile

RANGE ( o CAMPO DI VARIAZIONE) = differenza tra il massimo ed il minimo → MAX. – MIN.

  • è un indice sensibile → indice robusto
  • non considera tutte le modalità osservate

SCARTO INTERQUARTILE = differenza tra il terzo e il primo quartile → 𝑊 = 𝑄

  1. 75
  1. 25
  • è più robusto del range, ma a volte può valere 0 anche se la variabile non è costante
  • rappresenta l’intervallo che comprende la metà delle unità statistiche più vicine alla mediana

COEFFICIENTE DI VARIAZIONE = serve per confrontare l’eterogeneità di 2 variabili con unità di misura

diverse; consente il corretto confronto della variabilità tra caratteri; ci dice quanto la deviazione standard è

grande rispetto alla media aritmetica

𝜎

𝜇

  • si applica alle variabili quantitative
  • il CV non ha unità di misura → è un numero puro

Es : - peso bambini (B) 3kg 4kg 5 kg → il range è 2kg

  • peso madri (m) 60 kg 62 kg 64 kg → il range è 4kg

2

( 3 − 4 )

2

  • ( 4 − 4 )

2

  • ( 5 − 4 )

2

3

2

3

→ σB = 0 , 816

𝑚

𝑚

2

( 60 − 62 )

2

  • ( 62 − 62 )

2

  • ( 64 − 62 )

2

3

8

3

→ σm = 1 , 632

prendo tutte le modalità, ad ognuna sottraggo la media e

metto al quadrato, infine divido per il numero di modalità

la varianza è anche la media dei quadrati (xi

2

) meno il quadrato

della media (μ

2

) → con questo metodo non bisogna

approssimare molto

𝐵

0 , 816

4

= 0 , 204 → è più eterogeneo

𝑚

1 , 632

62

INDICI DI POSIZIONE/TENDENZA CENTRALE

INDICE CHI FORMULA U.M. PREGI DIFETTI SIMBOLO

Media

Variabili

3/

Successione

Tabella

stessa - internalità

  • baricentricità
  • minima somma

degli scarti al

quadrato

  • linearità
  • associatività

indice sensibile μ

Moda

tutte le

variabili

frequenza più

elevata

stessa tutte le variabili - non è unica

  • poco informativa

MO

Mediana

2/3/4 Successione

1 - ordino

2 - trovo la pm

3 - trovo la

mediana

Tabella

Fi ≥ 0,

robusta poco sensibile ME/Q

Quartili

Quantili

2/3/4 Fi - robusti

  • utili per misure

biometriche

poco sensibile Q1/Q

Media

Geometrica

3/

𝐺 = √Π 𝑥𝑖

𝑛

“pura” se

variazioni

percentuali

unica per

variazioni

percentuali

se c’è uno 0 la

media geometrica

va a 0

(solo xi > 0)

G

INDICI DI VARIABILITÀ

INDICE CHI FORMULA U.M. PREGI DIFETTI SIMBOLO NOTE

Varianza

3/4 Successione

2

2

Tabella

2

2

unità

2

  • unità di

misura

  • non è

interpretabile

  • non robusta

2

formula

alternativa

2

2

2

Deviazione

Standard

3/

2

unità - non robusta 𝜎

Range

3/4 MAX. – MIN. stessa rapido - non robusto

Scarto

Interquartile

3/4 Q3 – Q1 stessa robusto vale 0 anche

se X non è

costante

Coefficiente

di

Variazione

(CV)

3/

puro indispensabile

nei confronti

si applica solo

a variabili con

uno 0 non

arbitrario

Tabella a doppia entrata

Y

X

M 20 8 6 10 44

F 9 4 7 3 23

29 12 13 13 67 =N

tabella univariata

xi ni

M 44

F 23

N=

yi ni

N=

DIPENDENZA PERFETTA: la dipendenza perfetta è una situazione estrema di associazione, dove data

un’unità statistica, la conoscenza della modalità di un carattere informa completamente sulla modalità

dell’altro

1) INDIPENDENZA STATISTICA

Due variabili sono statisticamente INDIPENDENTI se e solo se le distribuzioni condizionate relative sono

uguali fra loro (uguali o fra riga o fra colonna)

Y

X

C L

M 2

F 6

→ c’è INDIPENDENZA tra le variabili perché i maschi hanno le stesse percentuali delle femmine, infatti le

condizionate relative sulle due righe sono uguali, quindi c’è indipendenza a sinistra

Come sapere il GRADO di dipendenza statistica tra due variabili?CHI QUADRO (x

2

2

2

𝑁∙(𝑎𝑑−𝑏𝑐)

2

Π 𝑚𝑎𝑟𝑔

FREQUENZA CONGIUNTA (𝑥 ∩ 𝑦) = le celle della tabella (gli 8

numeri), c’è solo 1 frequenza congiunta → frequenza bivariata

FREQUENZA MARGINALE = somma per colonna o per riga delle

frequenze, rappresenta la frequenza assoluta della variabile x e ce ne

sono 2 (marginale di riga/di colonna) → è una frequenza univariata

  • Marginale di riga = x
  • Marginale di colonna = y

FREQUENZE CONDIZIONATE = sono la somma del numero di righe e

del numero di colonne → sono frequenze univariate

  1. y I x=M
  2. y I x=F
  3. x I y=
  4. x I y=
  5. x I y=
  6. x I y=

quindi :

  • 1 variabile sola → frequenza marginale
  • 2 variabili → una variabile è fissa → frequenze condizionate

→ non è fissa → frequenza congiunta

0,2 e 0,8 sono FREQUENZE CONDIZIONATE RELATIVE

L’indice del chi-quadro è un indice di associazione assoluti, in quanto il suo valore dipende dalla numerosità

del collettivo analizzato e dal numero di modalità dei due caratteri considerati. Quindi è difficile intuire, per

valori maggiori di 0, in che posizione ci troviamo tra l’indipendenza statistica e la dipendenza perfetta.

Necessità di un indice che permetta di capire la quanto sia alto il grado della dipendenza → V di Cramer

V di Cramer (indice parassita) =

𝑥

2

𝑁

oppure

Ι(𝑎𝑑−𝑏𝑐)Ι

√Π𝑚𝑎𝑟𝑔

→ − 1 ≤ 𝑉 ≤ 1 (indice relativo)

se V=1, allora c’è massima dipendenza

un altro metodo per capire se c’è dipendenza o meno richiede di fare il prodotto dei marginali (di riga o di

colonna) di una cella e dividerlo per N

𝑛𝑖∙𝑛𝑗

𝑁

Questo è anche un metodo molto utile per costruire una tabella con variabili indipendenti: basta partire dai

marginali e calcolare tutte le celle tramite la formula riportata sopra. La distribuzione congiunta che ne

risulta avrà tutte le condizionate relative di riga o di colonna uguali tra loro. Le frequenze congiunte calcolate

in questo modo si chiamato frequenze ATTESE o TEORICHE, e sono fondamentali per calcolare il chi quadro.

Gli indici chi-quadro e V di Cramer si basano sulle frequenze e non sulle modalità, quindi possono essere

calcolate per qualunque coppia di variabili, anche quelle qualitative.

2) INDIPENDENZA LINEARE (primo grado)

  • l’indipendenza lineare contiene l’indipendenza statistica
  • si calcola solo per variabili quantitative (analisi di correlazione) → ma, se le variabili sono binarie si può

calcolare

  • 3 situazioni:

COVARIANZA (𝜎

𝑥𝑦

; 𝐶𝑂𝑉) = indice per misurare il grado di correlazione (diretta o inversa) tra due caratteri

quantitativi (indice di associazione assoluto)

Successione

𝑥𝑦

Σ (𝑥𝑖−𝜇𝑥)∙(𝑦𝑖−𝜇𝑦)

𝑁

oppure

𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑖 𝑝𝑟𝑜𝑑𝑜𝑡𝑡𝑖−𝑝𝑟𝑜𝑑𝑜𝑡𝑡𝑜 𝑑𝑒𝑙𝑙𝑎 𝑚𝑒𝑑𝑖𝑎

𝑁

0 1 2 3

0

1

2

3

4

Valori Y

  • relazione diretta
  • relazione inversa → indice per capire la relazione = COVARIANZA
  • assenza di relazione

più i punti sono ravvicinati/allineati, più il

coefficiente di correlazione è vicino a 1

PROBABILITÀ

Concetti chiave:

  • PROVA : esperimento dall’esito incerto (es. lancio di un dado)
  • EVENTO ELEMENTARE (A, B) : risultato dell’esperimento (es. 5 nel lancio di un dado)
  • SPAZIO CAMPIONARIO (Ω) : insieme di tutti gli eventi elementari (es. 1,2,3,4,5,6 in un dado), per

cui è un evento composto e si verifica sempre ; un evento è detto impossibile se non contiene nessun

evento elementare ⊘

o Finito : contiene un numero finito di eventi

o Infinito numerabile : contiene un numero di eventi che può essere messo in corrispondenza

biunivoca con i numeri naturali

o Continuo : contiene un’infinità non numerabile di eventi

il numero di elementi di un insieme si chiama cardinalità (cardinalità infinita, finita numerica, finita

non numerica)

  • EVENTO COMPOSTO : unione di eventi elementari (es. esce pari nel lancio di un dado)
  • PROBABILITÀ : numero compreso tra 0 e 1 (estremi inclusi) che si associa ad un evento composto

(es. esce pari in un dado =

3

6

Tipi di probabilità:

  1. Probabilità CLASSICA = rapporto tra il numero di eventi favorevoli e il numero totale di esiti possibili

#𝐹𝐴𝑉

#𝑃𝑂𝑆𝑆

𝑛.𝑒𝑣𝑒𝑛𝑡𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖

𝑛.𝑒𝑣𝑒𝑛𝑡𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖

→ non si applica agli eventi improbabili

  1. Probabilità FREQUENTISTA = limite della frequenza relativa di un evento quando un esperimento

viene ripetuto un numero molto grande di volte

  1. Probabilità SOGGETTIVA = è la somma che si è disposti a pagare se l’evento si verifica

  2. Probabilità ASSIOMATICA = si basa su degli assiomi, tali che: ogni evento elementare ha probabilità

non-negativa, la somma delle probabilità di tutti gli aventi elementari è 1, la probabilità di un evento

è pari alla somma delle probabilità di tutti gli eventi elementari che esso contiene; quindi:

  • l’evento certo ha probabilità 1, P(Ω)=1;
  • la probabilità di qualunque evento elementare è compresa tra 0 e 1;
  • la probabilità della negazione di un evento è pari a 1 meno la probabilità di un evento;
  • l’evento impossibile ha probabilità 0, P(⊘)=0;
  • la probabilità di qualunque evento è compresa tra 0 e 1

L’Algebra degli Eventi

L’algebra degli eventi consente di ottenere eventi composti dagli eventi elementari e da altri eventi composti

utilizzando operazioni logiche:

  • Implicazione : l’evento più restrittivo implica l’altro → se A implica B (A → B), allora P(A) ≤ P(B)
  • Identità: se A implica B e B implica A gli eventi sono uguali poiché sono composti dagli stessi eventi

elementari

  • Negazione : l’evento che si verifica se non si verifica A → Ā negato → il negato dell’intero spazio

campionario è insieme vuoto (⊘), non ha elementi → P(Ā) = 1-P(A)

  • Intersezione : evento composto dagli elementi in comune fra A e B → l’intersezione può creare un

insieme vuoto, in questo caso gli eventi sono INCOMPATIBILI in quanto non possono verificarsi con-

temporaneamente

  • Unione : evento composto da elementi che sono tutti quelli di A e tutti quelli di B → l’unione non può

creare insiemi vuoti; se due eventi sono tali per cui la loro unione è uguale allo spazio campionario, i

due eventi sono NECESSARI , cioè almeno uno avviene di sicuro

Si utilizza il diagramma di Venn come illustrazione grafica dell’algebra degli eventi.

Formula delle probabilità totali : 𝑃

La regola della probabilità totale può essere estesa a 3 eventi, applicando la regola ad A e B U C:

Probabilità Condizionata

Dati due eventi, le probabilità marginali sono le probabilità associate a un singolo evento in un insieme di

eventi. Si ottengono attraverso la relazione della probabilità classica. Esse forniscono informazioni sulle

singole variabili indipendentemente dalle altre.

Un aggiornamento delle informazioni cambia lo spazio campionario, quindi cambia la probabilità (cambia il

denominatore).

La probabilità di un evento 𝐴 ⊆ Ω condizionata all’evento 𝐵 ⊆ Ω tale che P(B)>0 si definisce come:

𝑃(𝐴∩𝐵)

𝑃(𝐵)

formula delle probabilità condizionata

Quando l’aggiornamento non influisce sugli eventi, gli eventi sono INDIPENDENTI

→ due eventi A e B sono indipendenti se P(A I B) = P(A), con P(B)>

Rielaborando la definizione di probabilità condizionata si ottiene la regola della probabilità composta (o

formula dell’intersezione ):

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴Ι𝐵) ∙ 𝑃(𝐵) = 𝑃(𝐵Ι𝐴) ∙ 𝑃(𝐴) formula dell’intersezione

La regola della probabilità composta può essere estesa a 3 eventi A, B e C applicando la regola a 𝐴 ∩ 𝐵 𝑒 𝐶:

Un’altra formula essenziale è quella di Bayes , utilizzata per calcolare la probabilità di un evento quando si

ha una nuova informazione:

𝑃(𝐵Ι𝐴) ∙𝑃(𝐴)

𝑃(𝐵)

formula di Bayes

Altra formula importante è quella della probabilità assoluta , la quale si può applicare solo nel caso si abbia

una partizione dello spazio campionario:

𝑃(𝐴) = 𝑃(𝐴Ι𝐶) ∙ 𝑃(𝐶) + 𝑃(𝐴Ι𝐵) ∙ 𝑃(𝐵) formula della probabilità assoluta

Partizione dello spazio campionario: divisione dello spazio campionario in eventi incompatibili e necessari

  • In una partizione si può applicare la formula della probabilità assoluta
  • In una partizione la somma di tutte le probabilità è 1

Variabili Casuali

Dato uno spazio campionario, una variabile casuale è una funzione che associa ad ogni evento elementare

un numero reale. In pratica, una variabile casuale partiziona lo spazio campionario originale creando un

nuovo spazio campionario S formato da numeri reali, che vengono detti determinazioni o realizzazioni della

variabile casuale.

Le variabili casuali sono solo variabili quantitative. Se lo spazio campionario ha cardinalità finita o numera-

bile, allora la variabile casuale è discreta. Se la cardinalità è infinita non numerabile è continua.

Variabili Casuali Discrete

Nelle variabili discrete generiche vi è una serie di modalità (finita o non numerabile) ad ognuna delle quali

è associata una certa probabilità.

il denominatore è sempre un marginale e si

calcola con la formula della probabilità

assoluta

Valore atteso 𝐸(𝑥) = 𝜆

Varianza 𝜎

2

Deviazione standard 𝜎 = √

Variabili Casuali Continue

Una variabile casuale continua ha un supporto infinito non numerabile. Le variabili casuali continue si basano

su una funzione, chiamata DENSITÀ DI PROBABILITÀ.

La densità ha due caratteristiche:

  • deve essere sempre ≥ 0 (non negativa) → f(x)≥
  • l’area sotto la curva deve essere uguale a 1

Quindi, l’area sotto la curva è sempre compresa tra 0 e 1, come la probabilità. Più l’intervallo tra due numeri

è stretto, più l’area si avvicina allo zero; per cui, la densità di un segmento/punto è zero. Attenzione però, la

densità di probabilità non è una probabilità. Il concetto di densità di probabilità è l’analogo del concetto di

densità di frequenza per i caratteri quantitativi suddivisi in classi.

VARIABILE CASUALE NORMALE (o GAUSSIANA)

Una variabile casuale normale è definita da due parametri, la media e la deviazione standard, che determi-

nano la posizione e la dispersione della distribuzione. Difatti, si scrive 𝑋~𝑁(𝜇, 𝜎)

  • l’area sotto la curva vale 1 (funzione positiva)
  • le normali descrivono quasi tutti gli eventi
  • hanno una forma a campana
  • media, moda e mediana coincidono
  • è simmetrica rispetto all’asse centrale
  • le code della distribuzione si avvicinano asintoticamente all’asse delle x, senza però toccarlo mai

(il range è ∞)

  • diminuendo/aumentando la media, la funzione di densità di probabilità viene traslata a sinistra/de-

stra (mantenendo però intatta la forma)

  • diminuendo/aumentando la deviazione standard, la funzione di densità di probabilità viene com-

pressa/espansa (mantenendo però intatta la posizione)

Tuttavia, pur conoscendo la sua funzione di densità, non esiste un modo diretto per trovare l’area corrispon-

dente a un dato intervallo (non è integrabile). Quindi, per trovare l’area sotto la curva si utilizzano le TAVOLE

DELLA NORMALE STANDARD.

Normale Standard (Z)

  • la media è uguale a zero, 𝜇 = 0
  • la varianza è uguale a 1, 𝜎

2

  • media, moda e mediana coincidono
  • è simmetrica rispetto all’origine: i valori di un numero e del suo oppo-

sto lasciano a sinistra aree complementari

  • non tocca mai l’asse delle x → sta tra - 4 e 4

Per trovare l’area sotto la curva si utilizzano le TAVOLE DELLA NORMALE

  • se ho un punto e devo trovare un’area, in quel caso devo partire dai bordi (dove stanno i punti) e

dirigermi verso il centro (dove troverò l’area che cerco)

  • se ho un’area e devo trovare un punto, in questo caso devo partire dal centro (dove stanno le aree)

e dirigermi verso i bordi (dove troverò il punto desiderato) → esercizio inverso

Intervallo aperto a sinistra

Es. area a sinistra di 1,28 → P(Z < 1,28) = 0,

Intervallo aperto a destra

Es. area a destra di 1 → P(Z > 1) = 1 – P(Z > 1) = 1- 0,8413 = 0,

Intervallo chiuso

P(A<Z<B) = P(Z<B) – P(Z<A) → area di un intervallo

Esercizio inverso

Es. qual è il punto che lascia l’86% alla sua sinistra? → trovo il punto più vicino

a 0,86, cioè 1,

Dopodiché trovo z di 1,08 → z=0,

Importante: il punto che trovo non è una probabilità

L’area al di fuori degli estremi è 0 se dalla parte negativa e 1 se dalla parte positiva.

Al mondo non esistono fenomeni descritti da una normale standard, ma essa viene utilizzata per trovare

normali generiche X.

Da Poisson alla Normale

Gli esercizi sulla Poisson sono tendenzialmente molto simili. Si ricava il parametro λ e poi si calcola la

probabilità di un punto P(X = x) o di un insieme di punti P(X < x).

Nel secondo caso può capitare, però, che i punti da calcolare siano troppi: in questo caso, si può approssi-

mare la Poisson con una variabile Normale, facendo affidamento su un teorema che ci consente di passare

da una variabile all’altra.

Metodo da seguire :

  1. trovare il parametro λ con la proporzione

  2. so che essendo una Poisson, la media e la varianza sono uguali a λ (𝜇, 𝜎

2

= λ )

  1. scrivere i dati in questo modo: 𝑋~𝑁(𝜇, 𝜎)

  2. sostituire la X (variabile normale) con Z (normale standard) e il tot con

𝑡𝑜𝑡 − 𝜇

𝜎

quindi 𝑃(𝑋 ⋚ 𝑡𝑜𝑡) = 𝑃(𝑍 ⋚

𝑡𝑜𝑡−𝜇

𝜎

  • intervallo aperto a sinistra (<)
  • intervallo aperto a destra (>) → 1 − 𝑃(𝑍 <

𝑡𝑜𝑡−𝜇

𝜎

  • intervallo chiuso (< tot <)
  1. per gli esercizi inversi utilizzare la formula: 𝑥

𝛼

𝛼

es. trovare il 3° quartile → 𝑥

0 , 75

0 , 75

Teorema del limite centrale : se N (somma di più esperimenti) cresce, la variabile data dalla somma dei vari

esperimenti è una VARIABILE NORMALE

La NORMALE è un’approssimazione della POISSON

C’è anche un’altra formula : 𝑀𝑆𝐸 =

Σ (𝑥𝑖−Θ)

2

𝑁

Quindi, sia la varianza che il bias si preferiscono piccoli.

Se due stimatori sono corretti il loro bias è 0, dunque MSE = V(T)

INTERVALLO DI CONFIDENZA

L’ intervallo di confidenza si utilizza per trovare la stima della media della popolazione μ (parametro).

Dato 𝑋~𝑁 (𝜇,

𝜎

2

𝑛

), se aumenta n , la varianza diminuisce e la normale si stringe.

Per cui, è meglio avere un campione più grande in un’indagine poiché più il

campione è grande, più la variabile diventa continua ed è quindi una normale.

Ma la variabile continua ha probabilità zero in un punto, quindi per trovare la

probabilità devo prendere un INTERVALLO (intervallo di confidenza).

La confidenza di un intervallo è la probabilità di azzeccare un risultato che sia

uguale al parametro. Intervalli molto ampi avranno solitamente una fiducia

maggiore rispetto a quelli più stretti, ma saranno meno informativi. Al contra-

rio, se l’intervallo è piccolo la fiducia sarà minore, ma risulterà comunque più

informativo. Quindi, gli intervalli larghi sono meno informativi, ma hanno più probabilità di azzeccare il valore

del parametro, mentre intervalli stretti sono più precisi, ma sbaglieranno più facilmente.

Le confidenze standard sono: 90%, 95%, 99%

I dati essenziali per risolvere questo tipo di problemi sono 4:

  • X-barrato = la media del campione della popolazione
  • 𝜎 = la deviazione standard della popolazione (o la varianza con 𝜎

2

  • n = numerosità della popolazione
  • 𝛼 = probabilità di errore → si calcola con il complementare della confidenza

Es. confidenza al 95% → 𝛼 = 1 − 0 , 95 = 0 , 05

1° TIPO INTERVALLI DI CONFIDENZA

Intervalli di confidenza con varianza della popolazione nota

1 −𝛼/ 2

𝜎

2

𝑛

2° TIPO INTERVALLI DI CONFIDENZA

Intervalli di confidenza con varianza della popolazione incognita

→ sono intervalli di confidenza con la VARIANZA DEL CAMPIONE (S

2

) , si può chiamare anche varianza

corretta poiché S

2

è uno stimatore

La varianza del campione è uno stimatore della varianza e sostituisce 𝜎

2

𝛼/ 2

(𝑛− 1 )

𝑆

2

𝑛

Si nota che la z non c’è più, ma viene sostituita dalla t di STUDENT. La t di Student

è una variabile come la normale standard, ma con le code più pesanti , quindi l’in-

tervallo si allarga (senza però aumentare il livello di confidenza). In pratica, si ha un

peggioramento dell’intervallo dovuto al fatto di usare una quantità (la varianza

campionaria) che incorpora un po’ di incertezza.

Al crescere di n, la variabile tende ad assomigliare alla normale (teoria del limite

generale).

questo tipo di intervalli nella

realtà non esistono

n- 1 = gradi di libertà → è l’unico parametro della t di Student

il risultato si trova con le tavole della t di Student : bisogna cercare il

numero tra il risultato di (n-1) e il risultato di

Quando i gradi di libertà tendono ad infinito, la distribuzione T tende a coincidere con una normale standard.

Pochi gradi di libertà generano una distribuzione T piatta con un’alta varianza e code pesanti, mentre al

crescere dei gradi di libertà la varianza della distribuzione tende a 1, come la normale standard.

3° TIPO INTERVALLI DI CONFIDENZA

Intervalli di confidenza senza la varianza della popolazione

→ si utilizzano le percentuali , ovvero la proporzione del campione

Anche la proporzione del campione è uno stimatore (come X-barrato e S

2

), ed è corretto e molto efficiente.

Dunque, in questo tipo di intervalli i dati saranno 3:

  • p^ = proporzione del campione
  • n = numerosità della popolazione
  • 𝛼 = probabilità di errore

𝐼𝐶 𝑡𝑖𝑝𝑜 3 = 𝑝^ ± 𝑧

1 −𝛼/ 2

𝑝^( 1 −𝑝

^

)

𝑛

ESERCIZIO INVERSO degli INTERVALLI DI CONFIDENZA

In questo tipo di esercizi, conoscendo l’ampiezza dell’intervallo di confidenza, si vuole conoscere la nume-

rosità della popolazione n , la quale si calcola attraverso la formula:

𝑧∙ 0 , 5

𝑚.𝑒.

2

1 −𝛼/ 2

m.e. = margine di errore → è il raggio dell’intervallo → l’ampiezza dell’intervallo è il doppio del raggio

VERIFICA DI IPOTESI → metodo base

Osserviamo una certa situazione che ci sembra sospetta, però non siamo sicuri se:

  • Sia una coincidenza casuale
  • Ci sia del marcio sotto

La verifica di ipotesi è lo scegliere fra queste due situazioni. Vogliamo verificare se una certa ipotesi (formu-

lata a livello di popolazione) sia vera. La guida in questo caso è la probabilità se fosse stato casuale di

osservare ciò che si è osservato. Questa probabilità è chiamata P-VALUE.

Esattamente come negli intervalli di confidenza, introdurremmo test sulla proporzione p e sulla media μ,

con quest’ultima distinta in due casi, a seconda che la varianza della popolazione sia nota o incognita. Lo

stimatore della media della popolazione μ sarà come sempre la media campionaria X, mentre lo stimatore

della proporzione della popolazione sarà come sempre la proporzione campionaria P^. Lo stimatore media

campionaria X si distribuisce come una Normale con valore atteso pari a μ e varianza

2

, mentre lo stima-

tore proporzione campionaria P^ si distribuisce come una Normale con valore atteso pari a p e varianza

𝑝( 1 −𝑝)

𝑛

. È importante notare come da queste due distribuzioni si vede bene che i due stimatori sono corretti

e piuttosto efficienti perché al crescere di n le loro varianze tendono a 0.

TEST UNIDIREZIONALI (a una coda)

Test Tipo 1 (varianza nota)

  1. Si scrivono i dati: la media campionaria X, la varianza 𝜎

2

, la numerosità della popolazione n, la media

μ e il livello di significatività 𝛼

  1. Si scrivono poi le ipotesi:

- H

0

(ipotesi nulla): μ = valore della media

- H

1

: μ </> valore della media

  1. Si calcola il valore della statistica test → 𝑆. 𝑇. =

𝑋−𝜇

𝜎

2

𝑛

  1. Si trova il p-value → 1 − 𝑃(𝑍 < Ι 𝑆. 𝑇. Ι)

  2. Se il valore del p-value è inferiore rispetto al livello di significatività RIFIUTO l’ipotesi H 0

p-value piccolo → rifiuto H 0