Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Formulario statistica, Schemi e mappe concettuali di Statistica

Formulario statistica per esame

Tipologia: Schemi e mappe concettuali

2025/2026

Caricato il 22/03/2026

giorgia-zauli-1
giorgia-zauli-1 🇮🇹

3 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
PROBABILITÀ
1)
𝑃(𝐴) 0
2)
'𝑃
(
Ω
)
= 1
3)
'𝑃
(
𝐴⋃𝐵
)
= 𝑃
(
𝐴
)
+ 𝑃
(
𝐵
)
'𝑠𝑠𝑒'𝐴⋂𝐵 =
4)
'𝑃
(
𝐵|𝐴
)
=!(#⋂%)
!(#)
Regola della somma
compatibili
𝑃
(
𝐴⋃𝐵
)
=𝑃
(
𝐴
)
+𝑃
(
𝐵
)
𝑃(𝐴⋂𝐵)
incompatibili
𝑃
(
𝐴⋃𝐵
)
=𝑃
(
𝐴
)
+𝑃
(
𝐵
)
se due eventi sono incompatibili, la P(A|B)=0, sono fortemente dipendenti
Regola del prodotto
dipendenti
𝑃
(
𝐴⋂𝐵
)
=𝑃
(
𝐵|𝐴
)
+𝑃
(
𝐴
)
indipendenti
𝑃
(
𝐴⋂𝐵
)
=𝑃
(
𝐴
)
𝑃
(
𝐵
)
Teorema di Bayes
𝑃
(
𝐵|𝐴
)
=𝑃(𝐴⋂𝐵)
𝑃(𝐴) =𝑃(𝐵)𝑃(𝐴|𝐵)
𝑃(𝐴)
Test diagnostici
T-
ok
𝑃
(
𝑇|𝐷′
) specificità
D’
T+
f+
𝑃
(
𝑇+|𝐷′
)
T-
1→
f-
𝑃
(
𝑇|𝐷
)
D
T+
1→
ok
1𝑃
(
𝑇+|𝐷
) sensibilità
1𝑃
(
𝐷|𝑇+
)
=𝑃
(
𝐷
)
×𝑃(𝑇+|𝐷)
𝑃(𝑇+)
(p. di essere malati dato che il test è uscito +)
𝑃
(
𝑇+
)
=𝑃
(
𝑇+ |𝐷
)
𝑃
(
𝐷
)
+𝑃(𝑇 +|𝐷!) 𝑃(𝐷!)
(per malattie rare, in cui il T è molto specifico, evito screening di massa, troppi f+)
Variabili casuali
DISCRETE
i valori/elementi sono finiti o comunque infiniti m a numerabili,
funzione di massa di
probabilità f(Y): la v.c. assume valori specifici, mi permette di calcolare la P(Y=y) ovvero
la probabilità che Y assuma determinati valori, ciascuno degli elementi del supporto.
Bernoulli
𝑌~𝐵𝑒(𝑝)
supporto: 0
𝑃
(
1 𝑝
) insuccesso
1
𝑃
(
𝑌 = 1
) successo
𝑓
(
𝑦
)
=𝑝"(1𝑝)#$"1
in cui:
se
1𝑦 = 0
𝑓
(
0
)
=1 𝑝11
se
1𝑦 = 1 𝑓
(
1
)
=𝑝
CONTINUA
i valori/elementi non sono numerabili
funzione di densità di probabilità f(Y): con la v.c.
fa un’approssimazione del valore, mi dà la probabilità che Y sia in un intorno molto piccolo
di probabilità di valore P(y-k < Y < y+k) (non posso dire P(Y=y) come nella funzione di
massa poiché la variabile è continua e y non può corrispondere ad uno specifico valore).
Normale
1𝑌~𝑁(𝜇
,
𝜎%)
supporto: y
(-,+), y
R
(curva a campana, continua, asintotica, simmetrica rispetto alla media,
𝜇
, che coincide
con M, Mod, Me)
punti di flesso:
𝜇± 𝜎%
+ grande
𝜎"
+ dispersione, + flessi lontani (curva “piatta”)
+ piccolo
𝜎"
- dispersione, + flessi vicini (curva “stretta”)
(il 99,7% sta nell’intervallo
𝜇 ± 3𝜎!
, oltre questo intervallo sono eventi
estremamente rari)
Standardizzazione
𝑍"=1𝑦 1𝜇
𝜎
INFERENZA (ccs con reimmissione)
Stimatori statistiche campionarie (T)
Media campionaria
𝑦
A
=
&"
'
Varianza campionaria
𝑆%=
(&"$&
)
)#
'$#
Proporzione campionaria
𝑝
D
=
&"$%&''
'
- valore medio dello stimatore
𝐸
(
𝑌
A)
=1𝜇
e
𝐸
(
𝑝
D)
=1𝑝
- varianza dello stimatore
𝑉𝑎𝑟
(
𝑌
A)
=+#
'
e
𝑉𝑎𝑟
(
𝑝
D)
=1,(#$,)
'
^errore standard
𝐷𝑒𝑣𝑆𝑡
(
𝑌
A)
=-
'=($)
#
/*
#,,$-
^errore standard
𝐷𝑒𝑣𝑆𝑡
(
𝑝
D)
=
K
,
0
(#$,
0
)
'
(errore di stima:
𝑇 𝜃 0
)
Scelta di stimatore puntuale
(non dà una misura dell’errore -> stima a intervalli)
1º criterio
-
𝐸
(
𝑇
)
𝜇=0
corretto/non distorto
-
)𝐸
(
𝑇
)
𝜇>0
sovrastima
-
𝐸
(
𝑇
)
𝜇<0
sottostima
2º criterio
𝑉𝑎𝑟
(
𝑇#
)
<𝑉𝑎𝑟
(
𝑇%
)
1𝑇#
più preciso
Teoremi
1º se
𝑌~𝑁(𝜇&
,
𝜎%&)
allora
𝑊 = 𝑎 +𝑏𝑌~𝑁(𝑎+ 𝑏𝜇&
,
𝑏%𝜎%&)
𝑊 =
𝑌1~𝑁(
𝜇&
,
𝜎%&)
Consegue
1111𝑍&
)
=1&
)
$23
.
,111111~𝑁(0,1)
se non conosco
𝜎 #𝑇 = # #
$
%&'
3
511111~𝑡𝑛−1
(curva a campana, continua, centrata sempre sullo 0,
𝜇
e
𝜎!
legati ai gdl, n>30 approssimo
a N, in caso contrario non si può approssimare, perché la t da più peso agli eventi estremi,
le code del grafico, con N si potrebbero sottostimare questi eventi estremi)
Stima per intervallo
intervallo di confidenza
𝑃
(
𝑙 < 𝜃 < 𝐿
)
1111=11111𝛼
livello di confidenza
(se aumenta
intervallo + ampio e +, - precisione)
Metodo del pivot (Q) (
1 𝛼
fissato)
1. Q deve dipendere dagli elementi del campione
2. Q deve dipendere da
𝜃
3. Q non deve dipendere parametri incogniti di disturbo
4. Q deve avere distribuzione nota
se sono soddisfatti:
intervallo per
𝜇
e
𝜎%1
𝑃
T
𝑦
A
111−𝑧7
%𝜎
𝑛1µ1𝑦
A
11+𝑧7
%𝜎
𝑛
Z
=1 𝛼
intervallo per
𝜇
e NON
𝜎%
(ma solo se n<30)
𝑃
[
𝑦
A
111−𝑡*
#,'$# -
'1µ1𝑦
A
11+𝑡*
#,'$# -
'
\
=1 𝛼
1111111
𝑆 =
0∙23
4!
",$%&
"
intervallo per la proporzione p
𝑃
-
)𝑝
/
))−𝑧7
8
2
𝑝
/
(1𝑝
/
)
𝑛)𝑝))𝑝
/
))+𝑧7
8
2
𝑝
/
(1𝑝
/
)
𝑛
7
=1𝛼
#
(per teorema del limite centrale, se
𝑛 100
)
*Ampiezza
𝐴 = 𝐿 𝑙 = 2𝑀𝐸
𝐿 = 𝑝
D
+𝑀𝐸111111𝑙 = 𝑝
D
𝑀𝐸
"𝑀𝐸 =567
!=8
!
*Mergine d’errore
11𝑀𝐸(𝑦) = 1𝑧*
#+
'
𝑀𝐸(𝑦)𝑡*
#,'$# -
'
e
𝑀𝐸
(
𝑝
)
=𝑧"
#
:
9
:
(;<9
:
)
=
*Ampiezza campionari
𝑛
(
𝑦
)
=192∙2;*9∙
#
#2+#
<#=𝑧*
#
%
_
+
=>
`
%
e
𝑛
(
𝑝
)
=1𝑧*
#
%𝑝
0
(1−𝑝
0
)
𝑀𝐸2
(se non ho
𝑝
B, lo sostituisco con 0.05, situa di max incertezza, approssimazione buona, simmetrico)
pf3

Anteprima parziale del testo

Scarica Formulario statistica e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

PROBABILITÀ

  1. 𝑃(𝐴) ≥ 0

  2. 𝑃(Ω) = 1

  3. 𝑃

( 𝐴⋃𝐵

) = 𝑃

( 𝐴

)

  • 𝑃

( 𝐵

) 𝑠𝑠𝑒 𝐴⋂𝐵 = ∅

  1. 𝑃

( 𝐵|𝐴

)

!(#⋂%)

!(#)

Regola della somma

compatibili 𝑃

incompatibili 𝑃(𝐴⋃𝐵) = 𝑃(𝐴) + 𝑃(𝐵)

se due eventi sono incompatibili, la P(A|B)=0, sono fortemente dipendenti

Regola del prodotto

dipendenti 𝑃

indipendenti 𝑃(𝐴⋂𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵)

Teorema di Bayes

Test diagnostici

T- → ok 𝑃(𝑇 − |𝐷′) specificità

D’

T+ → f+ 𝑃

T- → f- 𝑃

D

T+ → ok 𝑃(𝑇 + |𝐷) sensibilità

× 𝑃(𝑇 + |𝐷)

(p. di essere malati dato che il test è uscito +)

!

!

(per malattie rare, in cui il T è molto specifico, evito screening di massa, troppi f+)

Variabili casuali

DISCRETE

i valori/elementi sono finiti o comunque infiniti ma numerabili, → funzione di massa di

probabilità f(Y) : la v.c. assume valori specifici, mi permette di calcolare la P(Y=y) ovvero

la probabilità che Y assuma determinati valori, ciascuno degli elementi del supporto.

Bernoulli 𝑌~𝐵𝑒(𝑝)

supporto: 0 → 𝑃

insuccesso

1 → 𝑃(𝑌 = 1 ) successo

"

#$"

in cui:

se 𝑦 = 0 → 𝑓( 0 ) = 1 − 𝑝

se 𝑦 = 1 → 𝑓

CONTINUA

i valori/elementi non sono numerabili → funzione di densità di probabilità f(Y) : con la v.c.

fa un’ approssimazione del valore, mi dà la probabilità che Y sia in un intorno molto piccolo

di probabilità di valore P(y-k < Y < y+k) (non posso dire P(Y=y) come nella funzione di

massa poiché la variabile è continua e y non può corrispondere ad uno specifico valore).

Normale 𝑌~𝑁(𝜇,𝜎

%

supporto: y ∈ (- ,+ ), y ∈ R

(curva a campana, continua, asintotica, simmetrica rispetto alla media, 𝜇, che coincide

con M, Mod, Me )

punti di flesso: 𝜇 ± 𝜎

%

  • grande 𝜎 → + dispersione, + flessi lontani (curva “piatta”)

  • piccolo 𝜎 → - dispersione, + flessi vicini (curva “stretta”)

(il 99,7% sta nell’intervallo 𝜇 ± 3 𝜎

!

, oltre questo intervallo sono eventi

estremamente rari)

Standardizzazione

"

INFERENZA (ccs con reimmissione)

Stimatori – statistiche campionarie (T)

Media campionaria 𝑦A = ∑

&

"

'

Varianza campionaria 𝑆

%

(&

"

$&

) )

'$#

Proporzione campionaria 𝑝̂ =

&

"$%&''

'

  • valore medio dello stimatore 𝐸(𝑌

A

) = 𝜇 e 𝐸(𝑝̂ ) = 𝑝

  • varianza dello stimatore 𝑉𝑎𝑟(𝑌

A

'

e 𝑉𝑎𝑟(𝑝̂) =

,(#$,)

'

^errore standard 𝐷𝑒𝑣𝑆𝑡(𝑌

A

√'

($)

/*

,,$-

^errore standard 𝐷𝑒𝑣𝑆𝑡

= K

, 0 (#$, 0 )

'

(errore di stima: 𝑇 − 𝜃 → 0 )

Scelta di stimatore puntuale

(non dà una misura dell’errore - > stima a intervalli)

1º criterio

  • 𝐸

( 𝑇

) − 𝜇 = 0 corretto/non distorto

  • 𝐸(𝑇) − 𝜇 > 0 sovrastima
  • 𝐸

( 𝑇

) − 𝜇 < 0 sottostima

2º criterio

%

più preciso

Teoremi

1º se 𝑌~𝑁(𝜇

&

%

&

) allora 𝑊 = 𝑎 + 𝑏𝑌~𝑁(𝑎 + 𝑏𝜇

&

%

%

&

1

&

%

&

Consegue → 𝑍

&

)

&

) $ 3

.

√,

se non conosco 𝜎 → 𝑇 =

$ % '

3

√ 5

𝑛− 1

(curva a campana, continua, centrata sempre sullo 0, 𝜇 e 𝜎

!

legati ai gdl, n> 30 approssimo

a N, in caso contrario non si può approssimare, perché la t da più peso agli eventi estremi,

le code del grafico, con N si potrebbero sottostimare questi eventi estremi)

Stima per intervallo

intervallo di confidenza 𝑃

= 1 − 𝛼 livello di confidenza

(se aumenta → intervallo + ampio e +, - precisione)

Metodo del pivot (Q) ( 1 − 𝛼 fissato)

  1. Q deve dipendere dagli elementi del campione
  2. Q deve dipendere da 𝜃
  3. Q non deve dipendere parametri incogniti di disturbo
  4. Q deve avere distribuzione nota

se sono soddisfatti:

intervallo per 𝜇 e 𝜎

%

𝑃 T𝑦A −𝑧 7

%

≤ μ ≤ 𝑦A + 𝑧 7

%

Z = 1 − 𝛼

intervallo per 𝜇 e NON 𝜎

%

(ma solo se n<30)

𝑃 [𝑦A −𝑡

,'$#

√'

≤ μ ≤ 𝑦A + 𝑡

,'$#

√'

\ = 1 − 𝛼 𝑆 =

0 ∙ 23

4!

"

,$%&

intervallo per la proporzione p

𝑃 - 𝑝̂ −𝑧 7

8

2

𝑝̂ ( 1 − 𝑝̂ )

𝑛

≤ 𝑝 ≤ 𝑝̂ + 𝑧 7

8

2

𝑝̂ ( 1 − 𝑝̂ )

𝑛

7 = 1 − 𝛼

(per teorema del limite centrale, se 𝑛 ≥ 100 )

*Ampiezza 𝐴 = 𝐿 − 𝑙 = 2 𝑀𝐸 𝐿 = 𝑝̂ + 𝑀𝐸 𝑙 = 𝑝̂ − 𝑀𝐸

𝑀𝐸 =

567

!

=

8

!

*Mergine d’errore

'

,'$#

'

e 𝑀𝐸(𝑝) = 𝑧"

∙ :

9 :(;< 9 :)

=

*Ampiezza campionari

9 ∙ ;

<

%

∙ _

=>

`

%

e 𝑛(𝑝) = 𝑧*

%

𝑝 0 ( 1 −𝑝 0 )

𝑀𝐸

2

(se non ho 𝑝̂ , lo sostituisco con 0.05, situa di max incertezza, approssimazione buona, simmetrico)

CAMPIONAMENTO

PROBABILISTICO

  • ogni u ha p. nota di essere estratta dalla popolazione
  • conosco la popolazione in modo completo
  • segue regole della teoria della probabilità
  • estrazione casuale
  • permette di calcolare la variabilità campionaria

• SEMPLICE

  • ogni u e sottoinsieme hanno la stessa p. di estrazione
  • estrazione casuale
  • lista completa di u
  • PRO: + efficiente perché evito le ripetizioni
  • con reimmissione

stima della media 𝑌

A

= 𝜇 Var. della media 𝑉𝑎𝑟

A

'

  • senza reimmissione

stima della media 𝑌

A

= 𝜇 Var. della media 𝑉𝑎𝑟(𝑌

A

'

?$'

?$#

𝑉𝑎𝑟

( 𝑌

1

:3;<

) < 𝑉𝑎𝑟

( 𝑌

1

=>;

)

  • con e senza coincidono con n=1, o N → inf.;
  • N piccola → conviene senza
  • N grande → rapporto vicino a 1, si assottiglia la diff. tra con e senza, la fraz. di camp. è

piccola

  • si modifica la p. complessiva del campione, ma sono tutti equiprobabili

%&'

%&(

fattore di correzione per popolazioni finite, + n è grande, + tende a 1

• SISTEMATICO

passo di campionamento 𝑘 =

;

0

=

?

@

= 𝑖 2 − 𝑖 1 𝑐𝑜𝑛𝑡𝑖𝑔𝑢𝑖

  • utilizzato per realizzare ccs
  • n-uple non hanno stessa p. di estrazione, alcune possono non esserle; ho solo k possibili

n-uple

USO

  • u disordinate → lo uso per realizzare ccs
  • seguo un criterio per ordinare le u in funzione di una variabile → + rappresentativo, +

precisione, scorro tutta la lista di u, copro tutti i livelli della mia Y

• STRATIFICATO

  • popolazione divisa in h strati in funzione di 1 o più caratteri
  • si estrae un ccs di u da ogni strato
  • migliore rappresentazione + stime + precise
  • se campiono bene 𝑉𝑎𝑟

( 𝑌

$

)+,

) < 𝑉𝑎𝑟

( 𝑌

$

--)

)

*unità di selezione: individui, ccs di individui da ogni stato

bassa omogeneità tra strati - elevata omogeneità entro strati

h-singolo strato

𝑛 = 𝑛 .(

  • ⋯ + 𝑛 .'

- dimensione del campione che estraggo dalla popolazion N

𝑁 C

=

=

/

0

1

- dimensione dello strato h-esimo rispetto alla popolazione

𝑛

.

= 𝑊

.

∙ 𝑛 - dimensione del campione dello strato h-esimo

W

h

?

A

?

- proporzione di popolazione tot. che si trova nello strato h-esimo,

“peso”, + è grande + è il peso dello strato h-esimo sulla popolazione

  • stima della media 𝑌

A

@

A

@

  • Var. della media 𝑉𝑎𝑟

A

%

@

A

@

^proporzionale

'

?

pro : semplice realizzazione di stimatori.

contro : se ho domini piccoli, rischio che ho poche u da selezionare dallo specifico strato,

n h

troppo piccolo → + variabilità, - precisione.

^non proporzionale (per popolazioni piccole, sovracampiono dagli strati più

piccoli)

Frazione di campionamento:

  • costo: + è il costo, - è la frazione, se sono costanti mi guida la Var.
  • variabilità: + c’è, + campiono, + è grande la frazione.

• A GRAPPOLI

  • popolazione divisa in grappoli caratterizzati da contiguità
  • si estrae un css di grappoli, selezioni tutte le u dei grappoli estratti
  • il grappolo esiste già nella popolazione
    • conveniente in costi e tempi

--sottopopolazioni preesistenti usate come:

strato (creo un ccs estraendo un ccs da ogni grappolo/strato)

unità di selezione (prendo un ccs di grappoli, prendendo tutte le u dei grappoli stessi)

  • unità di selezione: grappoli, ccs di grappoli (tutte le unità entro i grappoli vengono

selezionate)

  • elevata omogeneità tra grappoli - bassa omogeneità entro grappoli

NON PROBABILISTICO

  • non rappresentativo della popolazione
  • non segue le regole della teoria della probabilità

• PER QUOTE

  • conosco le % di rappresentazione di un aspetto
  • si crea un campione di un aspetto
  • u scelte dal rilevatore
  • non c’è la lista di u

• A SCELTA RAGIONATA/TESTIMONI

  • u scelte con criteri logici vari

• A VALANGA

  • pochi partecipanti → per caratteristiche rare

• DI VOLONTARI

  • solo partecipazione volontari

stima del totale (𝑡

A

n-esimo percentile :

n=P - > la cerco nelle tavole e prendo lo z corrispondente - > con la

formula inversa della standardizzazione trovo il percentile (y)

𝑦 = f𝑧

"

∙ 𝜎g + 𝜇

per ridurre a metà l’ampiezza di un intervallo (A) si deve

quadruplicare la dimensione del campione (n)