Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Definizioni e formule di statistica, Schemi e mappe concettuali di Statistica

In questo documento ci sono delle definizioni e formule utili per il superamento dell'esame finale

Tipologia: Schemi e mappe concettuali

2021/2022

In vendita dal 30/09/2023

natalia-soledad-larroza
natalia-soledad-larroza 🇮🇹

4.6

(27)

33 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA – TEORIA
Concetti:
Popolazione: (o universo) è un qualsiasi insieme di elementi che forma l’oggetto di studio di un’analisi
statistica.
Campione: è un sotto-insieme ottenuto da una particolare popolazione e finalizzato ad un’analisi
statistica.
Unità statistica: rappresenta l’elemento base della popolazione, la quale può quindi essere intesa come
l’insieme delle unità statistiche ad essa relative. Un’unità statistica può consistere in un individuo, un
oggetto, un animale, ecc.
Carattere: è il fenomeno oggetto di studio, rilevato sulle unità statistiche della popolazione di riferimento e
codificato secondo le esigenze dell’analisi statistica.
Modalità: è l’espressione concreta con la quale la variabile si manifesta nelle unità statistiche. La
modalità può consistere in un numero (l’età di un particolare individuo) così come in una qualità (il genere
di un individuo). Le modalità del carattere sono esaustive e mutuamente esclusive (corrisponde solo una).
Parametro: è una caratteristica numerica della popolazione (generalmente ignota)
Statistica: è una funzione numerica del campione che NON contiene parametri ignoti
Stimatore: è una statistica usata per stimare un parametro (ad esempio: media campionaria, proporzione
campionaria). È una variabile casuale funzione del campione
(X1, X2,... , X n)
la cui realizzazione è
finalizzata al parametro
θ
.
-Stima puntuale: stima di un parametro sconosciuto della popolazione attraverso una statistica
calcolata dall’osservazione campionaria
-Intervallo di confidenza: calcolo di un intervallo di valori a partire dalle osservazioni campionarie
che includa il parametro incognito della popolazione con un grado di fiducia attribuito
Stimatore consistente: Uno stimatore
Tn=t(X1, X2,... , X n)
definito su un campione casuale di ampiezza
n è uno stimatore consistente del parametro
θ
se per
lim
n→
EQMTn(θ)=0θΘ
Stima: valore numerico che lo stimatore assume in corrispondenza di un campione osservato.
Caratteri/variabili qualitative: Le variabili statistiche possono essere qualitative, se esprimono una
qualità dell’individuo (ad esempio colore degli occhi o dei capelli). Una variabile qualitativa non viene
misurata, ma classificata in categorie sulla base delle modalità con cui essa si presenta (neri, castani,
rossi, biondi). Le modalità utilizzate per descrivere il fenomeno analizzato prendono la forma di aggettivi o
di altre espressioni verbali. I dati qualitativi possono essere:
-Nominali: se non esiste nessun ordinamento naturale tra le modalità; esempi di dati sconnessi sono:
il sesso (F-M), il tipo di servizio offerto da un albergo (mezza pensione/pensione completa, ecc),
professione, settore di attività economica.
-Ordinali: nel caso in cui un ordinamento naturale esiste; esempi di dati qualitativi ordinali sono: il titolo
di studio, il grado di soddisfazione/gradimento.
-Dicotomici/binari: quando le modalità sono solamente due. Esempi: maschio/femmina, vivo/morto).
Caratteri/variabili quantitative: Le variabili quantitativi sono quelle che possono essere misurate su una
scala discreta (numero di carte di credito possedute, numero di dipendenti di un’azienda) o su una scala
continua (reddito). Le modalità sono espresse da numeri. I dati quantitativi si suddividono in:
-Discreti: (how many?) quando le modalità sono esprimibili da numeri interi; provengono da un
conteggio. Esempi: il numero di clienti, il numero di pezzi prodotti, messaggi di WhatsApp.
-Continui o reali: (how much?) quando le modalità sono esprimibili da numeri reali; provengono da
una misurazione. Esempi: il tempo d’attesa ad uno sportello, il peso di un manufatto, il tempo, il
reddito/soldi.
Distribuzione di frequenza: è una rappresentazione tabella che riporta le modalità del carattere ed il
numero (assoluto, relativo, percentuale) delle unità che presentano il carattere con quelle modalità.
Contiamo le unità che presentano la stessa modalità. Questo ha significato per i caratteri qualitativi e
quantitativi discreti. Nel caso dei caratteri quantitativi occorre suddividere i valori che le variabile può
assumere in intervalli o classi.
1
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Definizioni e formule di statistica e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA – TEORIA

Concetti:

  • Popolazione : (o universo) è un qualsiasi insieme di elementi che forma l’oggetto di studio di un’analisi

statistica.

  • Campione : è un sotto-insieme ottenuto da una particolare popolazione e finalizzato ad un’analisi

statistica.

  • Unità statistica : rappresenta l’elemento base della popolazione, la quale può quindi essere intesa come

l’insieme delle unità statistiche ad essa relative. Un’unità statistica può consistere in un individuo, un

oggetto, un animale, ecc.

  • Carattere : è il fenomeno oggetto di studio, rilevato sulle unità statistiche della popolazione di riferimento e

codificato secondo le esigenze dell’analisi statistica.

  • Modalità : è l’espressione concreta con la quale la variabile si manifesta nelle unità statistiche. La

modalità può consistere in un numero (l’età di un particolare individuo) così come in una qualità (il genere

di un individuo). Le modalità del carattere sono esaustive e mutuamente esclusive (corrisponde solo una).

  • Parametro : è una caratteristica numerica della popolazione (generalmente ignota)
  • Statistica : è una funzione numerica del campione che NON contiene parametri ignoti
  • Stimatore : è una statistica usata per stimare un parametro (ad esempio: media campionaria, proporzione

campionaria). È una variabile casuale funzione del campione

(X

1

, X

2

,... , X

n

la cui realizzazione è

finalizzata al parametro θ.

  • Stima puntuale : stima di un parametro sconosciuto della popolazione attraverso una statistica

calcolata dall’osservazione campionaria

  • Intervallo di confidenza : calcolo di un intervallo di valori a partire dalle osservazioni campionarie

che includa il parametro incognito della popolazione con un grado di fiducia attribuito

  • Stimatore consistente : Uno stimatore T n

=t ( X

1

, X

2

,... , X

n

) definito su un campione casuale di ampiezza

n è uno stimatore consistente del parametro θ se per

lim

n → ∞

EQM

T

n

(θ)= 0 θ Θ

  • Stima : valore numerico che lo stimatore assume in corrispondenza di un campione osservato.
  • Caratteri/variabili qualitative : Le variabili statistiche possono essere qualitative, se esprimono una

qualità dell’individuo (ad esempio colore degli occhi o dei capelli). Una variabile qualitativa non viene

misurata, ma classificata in categorie sulla base delle modalità con cui essa si presenta (neri, castani,

rossi, biondi). Le modalità utilizzate per descrivere il fenomeno analizzato prendono la forma di aggettivi o

di altre espressioni verbali. I dati qualitativi possono essere:

  • Nominali : se non esiste nessun ordinamento naturale tra le modalità; esempi di dati sconnessi sono:

il sesso (F-M), il tipo di servizio offerto da un albergo (mezza pensione/pensione completa, ecc),

professione, settore di attività economica.

  • Ordinali : nel caso in cui un ordinamento naturale esiste; esempi di dati qualitativi ordinali sono: il titolo

di studio, il grado di soddisfazione/gradimento.

  • Dicotomici/binari : quando le modalità sono solamente due. Esempi: maschio/femmina, vivo/morto).
  • Caratteri/variabili quantitative : Le variabili quantitativi sono quelle che possono essere misurate su una

scala discreta (numero di carte di credito possedute, numero di dipendenti di un’azienda) o su una scala

continua (reddito). Le modalità sono espresse da numeri. I dati quantitativi si suddividono in:

  • Discreti : (how many?) quando le modalità sono esprimibili da numeri interi; provengono da un

conteggio. Esempi: il numero di clienti, il numero di pezzi prodotti, messaggi di WhatsApp.

  • Continui o reali : (how much?) quando le modalità sono esprimibili da numeri reali; provengono da

una misurazione. Esempi: il tempo d’attesa ad uno sportello, il peso di un manufatto, il tempo, il

reddito/soldi.

  • Distribuzione di frequenza : è una rappresentazione tabella che riporta le modalità del carattere ed il

numero (assoluto, relativo, percentuale) delle unità che presentano il carattere con quelle modalità.

Contiamo le unità che presentano la stessa modalità. Questo ha significato per i caratteri qualitativi e

quantitativi discreti. Nel caso dei caratteri quantitativi occorre suddividere i valori che le variabile può

assumere in intervalli o classi.

  • Distribuzione di frequenza assoluta : la frequenza assoluta di una modalità rappresenta il numero di

volte che questa si presenta nel collettivo. Scarsa efficacia di sintesi in presenza di un numero elevato di

modalità.

  • Frequenze cumulate : la frequenza cumulata associata ad una modalità del carattere misura il numero

dei casi che presentano un valore non superiore a quella modalità. Ha significato solo se il carattere è

misurato su scala almeno ordinale.

  • Media : è una sintesi di un carattere quantitativo (è una misura). Le proprietà sono cinque:
    1. Internalità: (mediana)

x

( min

)

≤ x ≤ x

( max

)

  1. La media aritmetica equi ripartisce il totale di un carattere tra le unità: esempio del portafoglio,

redistribuire soldi. (no mediana)

n x=

i= 1

n

x

i

  1. La somma degli scarti dalla media aritmetica è nulla: esempio: quando nella distribuzione dei soldi

qualcuno è contento e altri non lo sono. (mediana)

i= 1

n

x

i

−x

  1. La media aritmetica rende minima la somma dei quadrati degli scarti da una costante:

x=argmin

c

i= 1

n

x

i

−c

2

  1. Linearità

x

1

, x

2

, ... , x

n

e

y

1

, y

2

, ..., y

n

tale che

y

i

=a+b x

1

allora: (mediana solo se b è positivo)

y=a+b x

  1. Proprietà associativa:

 La media di un collettivo è la media aritmetica delle medie dei sottogruppi in cui può essere

ripartito il medesimo, ponderata per la numerosità relative dei sottogruppi.

 Se

x

1

e

x

2

sono le medie di due campioni di ampiezza rispettivamente

n

1

e

n

2

, la media può

essere calcolata come:

x=

n

1

x

1

+n

2

x

2

n

1

+n

2

Inoltre, i punti deboli della media aritmetica sono:

  • Robustezza: sensibilità ai valori estremi.
  • Rappresentatività: nei confronti di distribuzioni asimmetriche. La media aritmetica è un valore di

sintesi rappresentativo nei confronti di distribuzioni simmetriche.

  • Mediana : è il valore centrale, è una sequenza ordinata (presuppone solo l’ordinamento).
    • La mediana è la modalità pertinente all’unità statistica che occupa la posizione centrale nella

distribuzione ordinata delle osservazioni;

  • Divide la distribuzione ordinata in due parti ciascuna contenente la meta delle osservazioni (non

interessa quanto);

  • Può essere calcolata per i caratteri misurati su scala ordinale e per quelli quantitativi;
  • Ha un utilizzo più basso.

Caratteristiche :

  1. Ordinare le osservazioni in ordine crescente. (n è il numero di osservazioni);
  2. Se n è dispari, la mediana è l’osservazione che occupa la posizione (n+1)/2;
  3. Se n è pari, la mediana è la media delle due osservazioni centrai n/2 e (n/2+1);
  4. La mediana di dati raggruppati è il primo valore la cui frequenza cumulata supera (o è uguale) a 0.

per la prima volta;

  1. Per i caratteri quantitativi suddivisi in classi, occorre fare riferimento alla distribuzione unitaria di

partenza. Altrimenti, non è possibile calcolare la mediana se non in modo approssimativo, sotto

l’ipotesi di equidistribuzione del carattere all’interno di ciascuna classe. Ai fini dell’individuazione

della classe entro cui cade la mediana si procede come sopra, facendo riferimento alle frequenze

cumulate.

Var (

^

β

0

)

2

(

n

σ

2

i= 1

n

X

i

− X

2

)

T è uno stimatore corretto di θ se E(T )=θ si dice distorto altrimenti.

  1. La distorsione (bias) è definita come

B (T )= E (T )−θ .

T

1

è più efficiente di

T

2

se e solo se

EQM (T

1

) ≤ EQM (T

2

) θ Θ

  1. Poiché la media campionaria è uno stimatore corretto per la media della popolazione, la seguente

condizione verifica che la media campionaria è uno stimatore consistente per la media della

popolazione:

E( X)=μ Var ( X )=σ

2

Var

X

σ

2

n

  1. La proporzione campionaria è stimatore consistente della proporzione della popolazione p:

X Bernoulli ( p) E ( X )= p Var ( X )= p ( 1 − p) Var ( ^p )=

p ( 1 − p )

n

  1. Stimatore per p => proporzione campionaria.
^

p=

i= 1

n

X

i

n

  1. Stimatore per μ=> media campionaria.
X =

i= 1

n

X

i

n

. è uno stimatore corretto, efficiente e consistente

per μ.

  • Errore Quadratico Medio : di uno stimatore è definito come EQ M

T

(θ)=E(T −θ)

2

θ Θ

  • Proprietà dell’intervalo di confidenza (CI)
    • La statistica campionaria (in questo caso la media) è il punto centrale dell’intervallo.
    • Maggiore è il livello di confidenza, più largo è l’intervallo associato
    • All’aumentare dell’ampiezza campionaria diminuisce l’ampiezza dell’intervallo
    • La lunghezza dell’intervallo di confidenza dipende dalla dispersione dei dati (misurada da σ ),

dall’ampiezza campionaria (

σ

x

=σ /√ n ) e dal livello di confidenza ( 1 −α).

  • Intervallo di confidenza normale: L’intervallo di confienza a livello ( 1 −α ) per la media

della popolazione, nel caso di popolazione normale con varianza nota

(

x

n

−Z

1 −α/ 2

σ

n

; x

n

+Z

1 −α/ 2

σ

n

)

  • X N ( μ , σ

2

) μ , σ

2

non nota: per stimare la varianza della popolazione σ

2

, serve lo stimatore S

2

c

perché è

corretto, invece lo stimatore S

2

è distorto.

S

2

c

n− 1

i= 1

n

X

i

−X

2

S

2

n

i= 1

n

X

i

− X

2

L’intervallo di confidenza che si usa ha una distribuzione t-students con (n-1) gradi di libertà.

X −t

α / 2 ,n− 1

×
S

c

n

< μ< X +t

α / 2 ,n− 1

×
S

c

n

All’aumentare di n, la distribuzione è sempre più vicina alla distribuzione Gaussiana.

  • Intervallo di confidenza per una proporzione : (bernoulli)

[

x−z

α / 2

x

1 − x

n

, x +z

α / 2

x

1 −x

n

]

X N ¿
  • Intervallo di confidenza per la media della popolazione μ

     X N (μ , σ 

2

2

valore noto

(

x

n

−z

1 −α / 2

σ

n

; x

n

+z

1 −α / 2

σ

n

)

  • X N (μ , σ

2

2

valore NON noto

(

x

n

−t

1 −α / 2 , n− 1

S

c

√n

; x

n

  • t

1 −α / 2 , n− 1

S

c

√n

)

S

c

2

i= 1

n

X

i

− X

n− 1

  • X distribuzione arbitraria E( X)=μ

Var ( X)=σ

2

valore noto – n grande

(

x

n

−z

1 −α / 2

σ

n

; x

n

+z

1 −α / 2

σ

n

)

σ

2

valore NON noto – N grande

(

x

n

−z

1 −α / 2

S

c

√n

; x

n

+z

1 −α / 2

S

c

√n

)

S

c

2

i = 1

n

X

i

− X

2

n− 1

  • Intervallo di confidenza per p proporzione della popolazione:
    • X Bernoulli E( X)=p Var ( X)=p ( 1 − p)n grande

(

^

p−z

1 −α / 2

^p ( 1 − ^p )

n

^

p+ z

1 −α / 2

^p ( 1 − ^p )

n

)

  • Verifica di ipotesi

X N (μ , σ

2

varianza nota

H

0

: μ=μ

0

H

1

: μ> μ

0

R=

[

x ≥ μ

0

  • z

1 −α

σ

√n

]

R=

[

x−μ

0

σ

√n

≥ z

1 −α

]

p−value=P (X ≥ x|μ=μ

0

  • Verifica di ipotesi

X N (μ , σ

2

varianza nota

H

0

: μ=μ

0

H

1

: μ< μ

0

R=

[

x ≤ μ

0

−z

1 −α

σ

n

]

R=

[

x−μ

0

σ / √

n

≤−z

1 −α

]

p−value=P (X ≤ x|μ=μ

0

  • Verifica di ipotesi

X N (μ , σ

2

varianza nota

H

0

: μ=μ

0

H

1

: μ ≠ μ

0

R=

[

x ≤ μ

0

−z

1 −α / 2

σ

√n

x ≥ μ

0

  • z

1 −α/ 2

σ

√ n

]

R=

[

^p− p

0

p

0

1 − p

0

n

≤−z

1 −α/ 2

]

p−value= 2 × P (

^

P ≤ ^p| p=p

0

)

oppure ...

  • Regione di rifiuto (z) :
  • Regione di rifiuto (t) :

VERO O FALSO

  • La varianza di uno stimatore diminuisce sempre al crescere di n.
  • Se due variabili casuali X e Y sono statisticamente indipendenti, allora COV(X,Y)=0.
  • Nel caso di popolazione Bernoulliana con parametro p, l’errore quadratico medio della proporzione

campionaria è p(1-p)/n.

  • La somma delle frequenze relative è sempre pari al numero di modalità osservate.
  • La mediana coincide sempre con la moda.
  • Lo stimatore è una variabile aleatoria.

Si indichi se le seguenti affermazioni riguardo una variabile casuale discreta X sono Vere o False:

  • X assume sempre un numero finito di valori
  • Ha varianza calcolabile sulla base di E(X) e E(X

2

)

  • Non può avere valore atteso negativo
  • Può avere varianza nulla
  • La mediana per un carattere quantitativo discreto è sempre un numero intero.
  • Il teorema del limite centrale afferma che la distribuzione di qualsiasi variabile aleatoria si può

sempre approssimare come una Gaussiana al crescere di n.

  • La media e la mediana coincidono sempre se il carattere è quantitativo discreto.
  • All’aumentare di α, probabilità di commettere un errore di primo tipo, aumenta β, probabilità di

commettere errore secondo tipo.

Dati due eventi A e B con 0<P(A)<P(B): Si indichi se le seguenti affermazioni sono Vere o False:

  • P(A|B) è sempre maggiore di P(A).
  • Se A è un sottoinsieme (strettamente) di B, P(A|B) è maggiore di P(A).
  • P(A∩B) è sempre maggiore di 0.
  • P(A) è sempre maggiore di P(B).
  • Due eventi indipendenti con probabilità positiva non possono essere incompatibili,
  • La covarianza tra due variabili aleatorie è sempre minore di 1
  • La mediana non è calcolabile per caratteri quantitativi discreti.
  • Al crescere di n, la distribuzione Binomiale si può approssimare con una distribuzione Gaussiana.
  • Due eventi incompatibili con probabilità positiva non possono essere indipendenti,
  • La medi degli scarti dalla media ha un valore nullo.
  • La covarianza tra due variabili aleatorie è sempre maggiore di -1.
  • Due eventi indipendenti con probabilità positiva non possono essere incompatibili.
  • Due eventi indipendenti con probabilità positiva non possono essere incompatibili.
  • La covarianza tra due variabili aleatorie è sempre minore di 1.
  • Se due variabili casuali X e Y hanno coefficiente di correlazione uguale a 0.5, il coefficiente di

correlazione di W=2X-4 e Z=2-Y è anch’esso uguale a 0.5.

  • Siano A e B due eventi incompatibili, allora l'evento A ՍB = Ω.