Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Probabilità statistica, Schemi e mappe concettuali di Fisica

Sintesi probabilità statistica

Tipologia: Schemi e mappe concettuali

2023/2024

Caricato il 07/07/2024

recomuna
recomuna 🇮🇹

1 documento

1 / 112

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Università degli Studi di Roma
Tor Vergata
Appunti del corso di
PROBABILITÀ e STATISTICA
Barbara Pacchiarotti
ultimo aggiornamento marzo 2020
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Probabilità statistica e più Schemi e mappe concettuali in PDF di Fisica solo su Docsity!

Università degli Studi di Roma

Tor Vergata

Appunti del corso di

PROBABILITÀ e STATISTICA

Barbara Pacchiarotti

ultimo aggiornamento marzo 2020

Indice

  • 1 Distribuzioni di frequenze
    • 1.1 Variabili e dati
    • 1.2 Distribuzioni di frequenze. Classi
    • 1.3 Rappresentazione graca
      • 1.3.1 Istogrammi
      • 1.3.2 Diagrammi a barre
    • 1.4 Frequenze cumulate e loro rappresentazione
  • 2 Indici di posizione e di dispersione
    • 2.1 Indici di posizione
      • 2.1.1 Media
      • 2.1.2 Mediana, quartili, percentili
    • 2.2 Indici di dispersione
      • 2.2.1 Varianza e scarto quadratico medio
  • 3 Correlazione tra variabili e regressione lineare
    • 3.1 Correlazione tra variabili. Scatterplot
    • 3.2 Metodo dei Minimi Quadrati. Regressione Lineare
  • 4 Introduzione alla probabilità
    • 4.1 Spazi di probabilità
    • 4.2 Spazi di probabilità niti
    • 4.3 Spazi di probabilità inniti
  • 5 Probabilità condizionata, indipendenza
    • 5.1 Probabilità condizionata
      • 5.1.1 Intersezione di eventi. Regola del prodotto
    • 5.2 Formula di Bayes
    • 5.3 Indipendenza
  • 6 Variabili aleatorie
    • 6.1 Generalità
    • 6.2 Variabili aleatorie nite
      • 6.2.1 Distribuzione
      • 6.2.2 Media e varianza
    • 6.3 Variabili aleatorie numerabili
      • 6.3.1 Distribuzione
      • 6.3.2 Media e Varianza
    • 6.4 Variabili aleatorie continue
      • 6.4.1 Distribuzione
      • 6.4.2 Media e varianza
    • 6.5 Variabili aleatorie indipendenti [cenni]
    • 6.6 Proprietà della media e della varianza
  • 7 Alcune distribuzioni famose
    • 7.1 Distribuzione di Bernoulli
    • 7.2 Distribuzione Binomiale
    • 7.3 Distribuzione Ipergeometrica
    • 7.4 Distribuzione Geometrica
    • 7.5 Distribuzione di Poisson
    • 7.6 Distribuzione uniforme (continua)
    • 7.7 Distribuzione esponenziale
  • 8 Il modello Normale
    • 8.1 Distribuzione Normale o Gaussiana
    • 8.2 Il Teorema Limite Centrale
    • 8.3 Applicazioni del TLC
      • 8.3.1 Approssimazione della binomiale
      • 8.3.2 Approssimazione della media campionaria
    • 8.4 Alcune distribuzioni legate alla normale
      • 8.4.1 La distribuzione ^2 (chi quadro)
      • 8.4.2 La distribuzione di Student
  • 9 Stima dei parametri
    • 9.1 Modelli statistici
    • 9.2 Stima puntuale
      • 9.2.1 Stimatori e stima puntuale della media
      • 9.2.2 Stima puntuale della varianza
    • 9.3 Stima per intervalli. Intervalli di condenza per la media
      • 9.3.1 Stima della media di una popolazione normale con varianza nota
      • 9.3.2 Stima della media di una popolazione normale con varianza incognita
      • 9.3.3 Stima della media di una popolazione qualsiasi per grandi campioni
      • 9.3.4 Stima di una proporzione per grandi campioni
      • popolazioni normali 9.4 Stima per intervalli. Intervalli di condenza per la dierenza di due medie di
      • 9.4.1 Varianze note
      • 9.4.2 Varianze incognite, ma uguali
  • 10 Test d'ipotesi
    • 10.1 Generalità
    • 10.2 Test sulla media per una popolazione normale
      • 10.2.1 Varianza nota
    • 10.2.2 Varianza incognita
  • 10.3 Test sulla media di una popolazione qualsiasi per grandi campioni
  • 10.4 Test su una frequenza per grandi campioni
  • 10.5 Test sulla dierenza di due medie di popolazioni normali
    • 10.5.1 Varianze note
    • 10.5.2 Varianza incognite ma uguali
  • 10.6 Il test chi quadro (^2 )
    • 10.6.1 Il test chi quadro di adattamento
    • 10.6.2 Il test chi quadro di indipendenza

Introduzione

In questo corso tratteremo argomenti che appartengono a tre discipline distinte.

1. STATISTICA DESCRITTIVA

2. CALCOLO DELLE PROBABILITÀ

3. STATISTICA INFERENZIALE

Scopo di questa introduzione è dare una prima idea di cosa siano e che relazioni abbiano tra

loro.

Tutti abbiamo un'idea di cosa sia un'indagine statistica:

 censimento decennale della popolazione da parte dell'ISTAT;

 sondaggio d'opinione;

 previsioni e proiezioni di risultati elettorali;

 ispezione di un campione di pezzi da un lotto numeroso per avere un controllo della

qualità media di un prodotto;

 sperimentazione di un nuovo prodotto su un campione di casi (nuovo farmaco su

pazienti, nuovo carburante su automobili, etc...).

In breve, in Statistica, vengono rilevate grandezze o caratteri relative ad una popolazione

intesa in senso lato come collezioni di individui o oggetti, meglio ancora di misure.

Veniamo ora alle dierenze tra Statistica Descrittiva e Inferenziale.

Ad esempio volendo vedere come i cittadini di un paese ripartiscono i voti tra i vari partiti

vi sono due modi:

1. si chiede a ciascun individuo di esprimere il suo voto, quindi si elaborano i dati

(percentuali varie). Ci si troverà di fronte ad una mole ingenti di dati da elaborare che

daranno esattamente la ripartizione cercata.

2. si interroga un numero limitato di cittadini (sondaggio). Una volta, però, che si hanno

i dati (molti meno che nel caso precedente) occorrerà domandarsi quanto i dati relativi al

sondaggio siano signicativi e che cosa a partire da essi si possa dire (inferire) sul voto

dell'intera popolazione.

Il primo è una caso di Statistica Descrittiva, che quindi si occupa di elaborare, ordi-

nare e sistemare un insieme di dati. L'altro un caso di Statistica Inferenziale e pone una

Capitolo 1

Distribuzioni di frequenze

1.1 Variabili e dati

La Statistica riguarda i metodi scientici per raccogliere, ordinare, riassumere e presentare i

dati, per trarre valide conclusioni ed eventualmente prendere ragionevoli decisioni sulla base

di tale analisi.

Denizione 1.1.1. Le variabili oggetto di osservazione statistica si classicano in tre tipi,

a seconda del tipo di valori che esse assumono.

variabili

numeriche

discrete

continue

categoriche

Una variabile si dice numerica se i valori che essa assume sono numeri, categorica altrimenti.

Una variabile numerica si dice discreta se l'insieme dei valori che essa a priori può assumere è

nito o numerabile, continua se l'insieme dei valori che essa a priori può assumere è l'insieme

dei numeri reali R o un intervallo I  R.

Esempio 1.1.2. [Variabile discreta] N; numero di nati in una famiglia. N = 0; 1 ; : : :

Esempio 1.1.3. [Variabile continua] H; altezza in centimetri di un individuo. H 2 R.

Esempio 1.1.4. [Variabile categorica] C; Colore degli occhi di un individuo. C=marrone,

blu, verde,...

Ci occuperemo per il momento di dati rappresentati da variabili numeriche. Si dicono

grezzi i dati che non sono stati ordinati numericamente. Una serie è un ordinamento di dati

grezzi in ordine crescente o decrescente. La dierenza tra il più grande e il più piccolo si

dice campo di variazione. Per esempio se il peso maggiore tra 100 studenti è 74kg e il peso

minore 60kg allora il campo di variazione è 14kg.

1.2 Distribuzioni di frequenze. Classi

Per studiare i dati a disposizione occorre costruire una distribuzione di frequenze: ovvero

una tabella dove in una colonna si mettono i valori assunti dalla variabile e in un'altra

il numero delle volte che tali valori vengono assunti (frequenze). Ancora più interessanti

sono le frequenze relative ovvero il numero delle volte in cui un certo valore compare diviso il

totale dei dati a disposizione oppure le frequenze percentuali ottenute dalle frequenze relative

moltiplicando per 100. Pertanto la somma delle frequenze dà il totale delle osservazioni,

la somma delle frequenze relative dà come somma 1 e la somma delle frequenze relative

percentuali dà come somma 100. Vediamo quest'esempio relativo al peso in chilogrammi di

10 studenti.

Quando si hanno a disposizione un gran numero di dati si può costruire una distribuzione

di frequenze in classi e determinare il numero di individui appartenenti a ciascuna classe,

tale numero è detto frequenza della classe. Consideriamo la variabile P peso di un gruppo

di 100 studenti.

P Peso in kg Numero di studenti

64 < P  66 5

66 < P  68 18

68 < P  70 42

70 < P  72 27

72 < P  74 8

In questo caso si parla di dati raggruppati. Se avessimo considerato tutti e cento i pesi

avremmo avuto maggiori informazioni, ma avremmo avuto più dicoltà a maneggiare la

tabella. Benché il procedimento distrugga molte delle informazioni contenute nei dati origi-

nari, tuttavia si trae un importante vantaggio dalla visione più sintetica che si ottiene. Si

chiama ampiezza della classe la dierenza tra il valore massimo e il valore minimo. Si chiama

valore centrale della classe la semisomma degli estremi. Si noti, che le classi sono state prese

aperte a sinistra e chiuse a destra. Questo non è un caso, ma un modo abbastanza standard

di procedere ed il motivo esula dallo scopo di queste note. Per scopi di ulteriore analisi

matematica tutte le osservazioni di una classe verranno fatte coincidere con il valore centrale

della classe. Per esempio tutti i dati della classe 64-66 saranno considerati pari a 65kg.

Riassumendo, date un certo numero di osservazioni grezze per formare una distribuzione

di frequenze occorre:

 determinare il campo di variazione, dopo aver ordinati tutti i dati;

 dividere il campo di variazione in classi, eventualmente di ampiezza nulla, il che equivale

a considerare tutti i valori senza raggrupparli.

Data l'importanza che, vedremo, rivestono i valori centrali fare in modo che questi coincidano

quanto più possibile con valori assunti realmente.

1.3 Rappresentazione graca

Come rappresentare una distribuzione di frequenze? I modi standard sono gli istogrammi

per le variabili numeriche, i diagrammi a barre per le variabili categoriche.

Esempio 1.3.2. La tabella mostra la distribuzione di frequenze per il dato X =numero dei

gli in 200 famiglie.

X frequenze

Tot. 200

Riferendosi alla tabella in questione vogliamo determinare le frequenze relative percen-

tuali e costruire il relativo istogramma.

Dapprima completiamo la tabella con le frequenze richieste.

X frequenze freq. percentuali

Tot. 200 100%

Quindi riportiamo sull'asse x i valori. Qui abbiamo dati interi (non si possono avere 2.

gli!) non raggruppati in classi. Come abbiamo detto in precedenza, scegliamo classi di

ampiezza 1. Così le altezze coincidono con le frequenze. Si ottiene,

1.3.2 Diagrammi a barre

I diagrammi a barre somigliano agli istogrammi, ma sono diversi, data la natura diversa

dei dati che rappresentano. Sono sempre dei rettangoli, non adiacenti, in cui l'altezza rap-

presenta la frequenza relativa o percentuale di quella classe. Sull'asse x si riportano i tipi,

in un ordine deciso dall'osservatore stesso.

Esempio 1.3.3. Sia C la variabile colore degli occhi di 300 persone.

C frequenze freq. percentuali

Marrone 150 50%

Blu 90 30%

Verde 30 10%

Altro 30 10%

Tot. 300 100%

Un relativo diagramma a barre è il seguente.

Marrone Blu Verde Altro

1.4 Frequenze cumulate e loro rappresentazione

Per variabili numeriche (non ha senso per variabili categoriche), si chiamano frequenze cumu-

late (relative o percentuali), la somma di tutte le frequenze (relative o percentuali) inferiori o

uguali al conne di una ssata classe. Questo è il motivo per cui le classi, come abbiamo visto

in precedenza, vengono prese aperte a sinistra e chiuse a destra. Il graco delle frequenze

cumulate è detto ogiva. Per meglio chiarire calcoliamo le frequenze cumulate degli esempi

visti in precedenza. Ci limiteremo al caso dei dati continui suddivisi in classi.

Esempio 1.4.1. Si consideri la seguente distribuzione di frequenze:

D Frequenze

110 < D  130 20

130 < D  150 40

150 < D  170 60

170 < D  210 80

Tot. 200

Riferendosi alla tabella in questione vogliamo determinare le frequenze percentuali cu-

mulate e costruire il relativo graco.

Dapprima completiamo la tabella con le frequenze richieste. Non ha senso sommare la

colonna delle frequenze cumulate, mentre deve essere sempre l'ultimo valore uguale al totale,

1 se sono frequenze relative, 100 se sono percentuali. Per il 100% della popolazione si ha

D  210.

Capitolo 2

Indici di posizione e di dispersione

Per variabili numeriche ha senso calcolare alcuni indici, quali la media, la mediana, la

varianza, ecc... Vediamo in dettaglio cosa rappresentano.

2.1 Indici di posizione

Si chiamano indici di posizione quegli indici che aiutano a capire dove è posizionata, ovvero

quali sono i valori che assume una certa distribuzione.

2.1.1 Media

La media è un indice di posizione. Come si calcola la media di una distribuzione?

Cominciamo dal caso di dati non raggruppati e supponiamo di avere la seguente distri-

buzione. N rappresenta la numerosità della popolazione, n il numero di classi. N = n se e

soltanto se c'è un solo individuo in ogni classe ovvero fi = 1 per ogni i = 1; 2 ; : : : ; n..

X frequenze freq. rel

x 1 f 1 p 1

x 2 f 2 p 2

xn fn pn

Tot. N 1

Denizione 2.1.1. Si chiama media di X e si indica con X, la quantità:

X =

N

∑^ n

i=

xifi =

∑^ n

i=

xipi: (2.1)

Per chi non ha simpatia per il simbolo di sommatoria possiamo riscrivere, per esteso

X =

N

(x 1 f 1 + x 2 f 2 + : : : + xn fn) = (x 1 p 1 + x 2 p 2 + : : : + xn pn):

Chiariamo con un esempio.

Esempio 2.1.2. Riprendiamo la distribuzione del peso di alcuni studenti già vista in pre-

cedenza. Quanto vale la media di P?

P Peso in kg Frequenze Frequenze relative

Totali 10 1.

Applicando la (2.1), si ha

P =

Cosa succede se si dispone di dati raggruppati? Semplicemente che tutti i valori di

una classe vengono identicati con il valore centrale di quella classe, che è quindi il valore

utilizzato per il calcolo della media. Anche qui chiariamo con un esempio.

Esempio 2.1.3. Si consideri la seguente distribuzione di frequenze:

D Frequenze

110 < D  130 20

130 < D  150 40

150 < D  170 60

170 < D  210 80

Tot. 200

Quanto vale la media di D? Si ha,

D =

Attenzione! La media, o valore medio, può anche essere una valore diverso da quelli

assunti... Anzi in generale lo è.

2.1.2 Mediana, quartili, percentili

La mediana è un altro indice di posizione. La mediana è un valore che provoca la ripartizione

della popolazione in esame in due parti ugualmente numerose: per il 50% della popolazione

il dato è minore della mediana, per il restante 50% il dato è maggiore della mediana. Per

chiarire, se diciamo che il reddito mediano dei lavoratori di una certa città è 1500 euro, stiamo

dicendo che la metà dei lavoratori percepisce meno di 1500 euro e la restante metà più di

1500 euro. Come si calcola la mediana? Anche qui ci limiteremo al caso di dati continui.

Se abbiamo i dati non raggruppati, possiamo pensarli sotto forma di la ordinata; allora la

mediana è il valore centrale, se sono in numero dispari, la semisomma dei valori centrali se

sono in numero pari. Vediamo un esempio.

D Frequenze Freq. rel % Freq. rel cum. %

110 < D  130 20 10% 10%

130 < D  150 40 20% 30%

150 < D  170 60 30% 60%

170 < D  210 80 40% 100%

Tot. 200 100%

Il graco delle frequenze percentuali cumulate che si ottiene è il seguente.

110 130 150 Med(D) 170 210

Ricordiamo che tre punti di coordinate P 1 (x 1 ; y 1 ), P 2 (x 2 ; y 2 ) e P 3 (x 3 ; y 3 ), sono allineati

se e solo se le coordinate soddisfano la seguente condizione:

(y 3 y 1 )(x 2 x 1 ) = (y 2 y 1 )(x 3 x 1 ):

Nel nostro caso i punti che devono essere allineati sono (150; 30), (Med(D); 50) e (170; 60).

La condizione di allineamento diventa:

(60 30)(Med(D) 150) = (50 30)(170 150);

da cui

30(Med(D) 150) = 400; 3Med(D) = 490; Med(D) = 163: 3 :

Ovvero lo stesso risultato raggiunto con il metodo dell'istogramma.

In modo analogo alla mediana si possono denire i quartili e i percentili. I quartili sono

quei valori che ripartiscono la popolazione, pensata sempre come una la ordinata, in quattro

parti ugualmente numerose (pari ciascuna al 25% del totale). Il primo quartile q 1 , lascia alla

sua sinistra il 25% della popolazione (a destra quindi il 75%), il secondo quartile q 2 lascia a

sinistra il 50% (a destra quindi il 50%). Esso chiaramente coincide con la mediana. Il terzo

quartile lascia a sinistra il 75% della popolazione (a destra quindi il 25%).

Come si calcolano i quartili?

Se abbiamo i dati sotto forma di la ordinata, (x 1 ; x 2 ; : : : ; xN ), allora si procede in modo

analogo a quanto fatto per la mediana. Più precisamente se vogliamo calcolare q 1 si moltiplica

p = 0: 25 (la percentuale che lascia a sinistra) per la numerosità del campione N. Ci sono

due possibilità pN è un intero, diciamolo k. In tal caso q 1 = 12 (xk + xk+1). pN non è un

intero. Sia allora k = [pN ]. In tal caso q 1 = xk+1. Dovendo calcolare gli altri quartili basta

mettere al posto di p il valore giusto. Riprendiamo l'Esempio 2.1.4.

Esempio 2.1.7. Supponiamo che per il dato X si siano osservati i valori 67, 72, 78, 78, 84,

85, 87, 91. Si tratta di un campione di numerosità 8, quanto valgono i quartili? Qui N = 8.

Per il primo quartile dobbiamo considerare la quantità 0 : 25  8 = 2, intero. Quindi

q 1 = 12 (x 2 + x 3 ) = 12 (72 + 78) = 75. q 2 = Med(X) (vista nell'Esempio precedente). Per il

terzo quartile dobbiamo considerare la quantità 0 : 75 8 = 6, intero. Quindi q 3 = 12 (x 6 +x 7 ) =

Supponiamo invece che per il dato X si siano osservati i valori 65, 67, 72, 78, 78, 84, 85,

87, 91. Si tratta di un campione di numerosità 9, quanto valgono i quartili? Qui N = 9.

Per il primo quartile dobbiamo considerare la quantità 0 : 25  9 = 2: 25 , non intero. Quindi

q 1 = x 3 = 72. q 2 = Med(X) (vista nell'Esempio precedente). Per il terzo quartile dobbiamo

considerare la quantità 0 : 75  9 = 6: 75 , non intero. Quindi q 3 = x 7 = 85.

Come si procede nel caso in cui si hanno dati sotto forma di distribuzione di frequenze?

Come visto per la mediana si può utilizzare l'istogramma o il graco delle frequenze cumulate.

Supponiamo di voler calcolare il primo quartile (gli altri casi si trattano in modo analogo).

Partiamo dal caso in cui si voglia utilizzare l'istogramma. Occorre trovare quel valore sull'asse

x tale che divida l'area delimitata dall'istogramma in due parti, quella a sinistra pari al 25%

la restante pari al 75%. Si ricorda che per come viene costruito l'istogramma l'area totale

sottesa ha un valore ssato: vale 1 se si stanno utilizzando le frequenze relative. 100 se si

stanno utilizzando le frequenze percentuali. Chiariamo anche qui con un esempio.

Esempio 2.1.8. Riprendiamo una distribuzione già vista.

D Frequenze Freq. rel %

110 < D  130 20 10%

130 < D  150 40 20%

150 < D  170 60 30%

170 < D  210 80 40%

Tot. 200 100%

Il relativo istogramma è:

110 130 q 1 150 170 210

.. x !

Dato che è costruito con le frequenze percentuali l'area racchiusa dall'istogramma è 100.

Il primo quartile è quel valore che ripartisce l'area in due parti: 25% (ombreggiata), 75%

(vedi la Figura). Indicando con x la quantità q 1 130 , deve essere:

20  0 :5 + x  1 = 25; x = 15;

2.2 Indici di dispersione

2.2.1 Varianza e scarto quadratico medio

Media e mediana, abbiamo visto essere degli indici di posizione (perché dicono accanto a

quale valore il campione di dati è posizionato) e sono tanto più signicative quanto più i

dati sono concentrati vicino ad esse. È interessante misurare quindi il grado di dispersione

dei dati rispetto, ad esempio, alla media. Si osservi che la somma di tutte le deviazioni dalla

media è sempre zero, ovvero

∑n

i=

(xi X)fi = 0;

perciò, per misurare in modo signicativo la dispersione dei dati rispetto alla media, si può

considerare, ad esempio, la somma dei moduli delle deviazioni, oppure la somma dei quadrati

delle deviazioni. Ci occuperemo di quest'ultimo indice, che, per motivi qui non facilmente

spiegabili, occupa un posto decisamente più importante nell'ambito di tutta la Statistica.

Cominciamo dal caso di dati non raggruppati e supponiamo di avere la seguente distri-

buzione. N rappresenta la numerosità della popolazione.

X frequenze freq. rel

x 1 f 1 p 1

x 2 f 2 p 2

xn fn pn

Tot. N 1

Denizione 2.2.1. Si chiama varianza di X e si indica con s^2 X , la media degli scarti al

quadrato, ovvero la quantità

s^2 X =

N

∑^ n

i=

(xi X)^2 fi =

∑^ n

i=

(xi X)^2 pi: (2.2)

Denizione 2.2.2. Si chiama scarto quadratico medio o anche deviazione standard

di X e si indica con sX , la radice della varianza, ovvero

sX =

vu

u

t 1

N

∑^ n

i=

(xi X)^2 fi =

vu

u

t

∑n

i=

(xi X)^2 pi: (2.3)

Per visualizzare meglio si può aggiungere una colonna alla distribuzione, quella degli

scarti al quadrato, e quindi fare la media di quella colonna, ovvero si costruisce la tabelle

seguente.

X (X X)^2 frequenze freq. rel

x 1 (x 1 X)^2 f 1 p 1

x 2 (x 2 X)^2 f 2 p 2

xn (xn X)^2 fn pn

Tot. N 1

Si osservi che se i dati xi rappresentano, ad esempio, lunghezze misurate in metri, la

media, tutti gli altri indici di posizione e la deviazione standard sono misurate in metri,

mentre la varianza è misurata in metri quadri. La varianza e la deviazione standard sono

grandezza non negative, che si annullano solo quando gli xi sono tutti uguali tra loro e quindi

uguali alla loro media. È utile per il calcolo esplicito della varianza (la cui dimostrazione è

lasciata per esercizio agli studenti più interessati e volenterosi!) la seguente formula

s^2 X =

N

∑^ n

i=

x^2 i fi X

∑^ n

i=

x^2 i pi X

= X^2 X

Ovvero la varianza di una distribuzione è pari alla media del quadrato della variabile

meno la media della variabile al quadrato.

Per visualizzare meglio si può aggiungere una colonna alla distribuzione, quella della

variabile al quadrato, e quindi fare la media di quella colonna, ovvero si costruisce la tabelle

seguente.

X X^2 frequenze freq. rel

x 1 x^21 f 1 p 1

x 2 x^22 f 2 p 2

xn x^2 n fn pn

Tot. N 1

Cosa succede se si dispone di dati raggruppati? Semplicemente che tutti i valori di una

classe vengono identicati con il valore centrale di quella classe che è quindi il valore utilizzato

per il calcolo della varianza. Anche qui chiariamo con un esempio.

Esempio 2.2.3. Si consideri la seguente distribuzione di frequenze:

D Frequenze

110 < D  130 20

130 < D  150 40

150 < D  170 60

170 < D  210 80

Tot. 200

Abbiamo già trovato la media di D. La ricordiamo per completezza.

D =