Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi Esplorative: Indici Statistici e Rappresentazioni, Sintesi del corso di Statistica

Statistica per le decisioni - lezione 6

Tipologia: Sintesi del corso

2021/2022

Caricato il 26/12/2022

raimondo-del-tufo
raimondo-del-tufo 🇮🇹

4

(23)

43 documenti

1 / 76

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lezione 4
Analisi esplorative
Stefania Capecchi
Universit `
a degli Studi di Napoli Federico II
S. Capecchi (Napoli Federico II) 4. Analisi esplorative 1 / 76
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c

Anteprima parziale del testo

Scarica Analisi Esplorative: Indici Statistici e Rappresentazioni e più Sintesi del corso in PDF di Statistica solo su Docsity!

Lezione 4

Analisi esplorative

Stefania Capecchi

Universit `a degli Studi di Napoli Federico II

[email protected]

Sintesi della lezione

(^1) Indicatori di una distribuzione di frequenza

(^2) Indici statistici di posizione

(^3) Indici statistici di variabilit `a

(^4) Indici statistici di forma

(^5) Rappresentazioni stilizzate

Indici statistici

➤ Gli aspetti rilevanti di una distribuzione di frequenza sono:

La posizione , cio e la misura della sua centralita complessiva.

La _variabilit a_ , cioe la mutevolezza dei dati, ovvero l’attitudine della variabile ad assumere diverse modalit `a.

La forma , cio `e l’aspetto complessivo della distribuzione di frequenza rispetto a configurazioni standard.

Principali indici di posizione

➤ I principali indici di posizione sono: media , moda e mediana. ➤ Va segnalato che tutti e tre sono misure di un concetto che e _la media intesa come misura intermedia_ delle modalita di una variabile statistica. ➤ In quanto concetto primitivo, la media e immanente al comportamento quotidiano_ e molti comportamenti umani sono determinati da esso. Invece, la sua misura deriva dalla individuazione di qualche criterio specifico, di volta in volta stabilito, seppure in modo inconscio. ➤ E’ evidente, allora, che _la sola media aritmetica non puo esaurire la sintesi di un fenomeno reale.

La media aritmetica per seriazioni

➤ Se si dispone di una distribuzione di frequenza nella quale la modalit a _x_ 1 si ripete _n_ 1 volte, la modalita x 2 si ripete n 2 volte,... , la modalit a _xk_ si ripete _nk_ volte, allora, la somma di tutte le modalita (cio e il numeratore della media aritmetica) puo essere scritto in modo pi u compatto come: _x_ 1 _n_ 1 + _x_ 2 _n_ 2 +... + _xk nk_. ➤ Pertanto, la media aritmetica per variabili discrete –la cui rilevazionee disponibile mediante una distribuzione di frequenza– diventa:

μ =

n

n

i = 1

xi ni =

k

i = 1

xi ni

k

i = 1

ni

x 1 n 1 + x 2 n 2 +... + xk nk n 1 + n 2 +... + nk

Schema di calcolo della media aritmetica

Modalit a della Frequenze Modalita × frequenze variabile X assolute relative assolute relative x 1 n 1 f 1 x 1 n 1 x 1 f 1 x 2 n 2 f 2 x 2 n 2 x 2 f 2

............... xi ni fi xi ni xi fi ............... xk nk fk xk nk xk fk Totali (^) ∑ ki = 1 ni = n (^) ∑ ki = 1 fi = (^1) ∑ ki = 1 xi niki = 1 xi fi = μ

➤ Si osservi che le tre espressioni precedenti non sono formule differenti ma solo tre modi aritmeticamente equivalenti di calcolare la media aritmetica in funzione della disponibilit `a dei dati.

Calcolo della media aritmetica per una seriazione

➤ I dati precedenti possono essere organizzati in una distribuzione di frequenza, esplicitando per ciascuna modalit `a (che varia da 38 a 46, in questo esempio) le frequenze assolute o le frequenze relative, ed operando gli opportuni calcoli come indicati nella tabella seguente:

Modalit a della Frequenze Modalita × frequenze variabile X assolute relative assolute relative 38 1 0. 05 38 1. 90 39 1 0. 05 39 1. 95 40 3 0. 15 120 6. 00 41 4 0. 20 164 8. 20 42 8 0. 40 336 16. 80 43 1 0. 05 43 2. 15 45 1 0. 05 45 2. 25 46 1 0. 05 46 2. 03 Totali 20 1. 00 831 41. 55

➤ Come si vede, la media aritmetica pu o essere ottenuta sia utilizzando le frequenze assolute ( _μ_ = 83120 = 41 .55) che le frequenze relative (la mediae semplicemente la somma dei prodotti delle modalit `a moltiplicate per le frequenze relative).

Calcolo della media per una variabile continua...

➤ Si desidera calcolare la media della variabile X = “Durata in secondi” di 1192 brani musicali. ➤ Le singole modalit `a sono state raccolte mediante la seguente tabella:

Classi di Frequenze Valori centrali Prodotti dei valori centrali modalit `a assolute della classe per le frequenze assolute 0 ⊢ − ⊣ 60 5 30 150 60 − ⊣ 120 27 90 2430 120 − ⊣ 180 255 150 38250 180 − ⊣ 300 571 240 137040 300 − ⊣ 600 312 450 140400 600 − ⊣ 1022 22 811 17842 Totali 1192 === 336112

Propriet `a della media aritmetica

➤ Le pi u importanti ed utili proprieta della media sono:

la media aritmetica e sempre compresa tra il minimo ed il massimo dei valori; la somma degli _scarti dalla media_ ( _xi_ − _μ_ ) e sempre pari a zero, per cui la media e il _baricentro_ della distribuzione di _X_ ; se _μ_ e la media di X , la media di ( a X + b ) e uguale a( _a μ_ + _b_ ); la media _μ_ e l’unico valore c che rende minima la somma degli scarti al quadrato (^) ∑ i ( xic )^2 ;

..................................................................

Cattiva interpretazione della media (!!!)

➤ Calcolando la media aritmetica per la variabile Peso (in Kg) e per la variabile Altezza (in cm), sia per la popolazione dei fumatori che per quella dei non fumatori, sul dataset STUDENTI si ha:

Popolazione Numerosit `a Altezza media Peso medio Fumatori 703 170. 274 65. 248 Non Fumatori 2056 168. 580 62. 742

➤ Una interpretazione affrettata fa ritenere che il fumare fa bene alla salute perch ´e i fumatori sono tendenzialmente pi u alti di quasi 2 cm e piu robusti di quasi 2.5 Kg rispetto ai non fumatori. ➤ Questa erronea conclusione `e comune quando esiste una terza variabile che nasconde l’effetto di una differente posizione nella popolazione.

Rischi nell’uso della media aritmetica

Il rischio derivante dalla presenza di dati anomali o errati si `e accresciuto nei tempi recenti per l’uso massiccio ed automatico di masse di dati che pochi controllano accuratamente prima di effettuare elaborazioni statistiche.

➤ Tale rischio per le interpretazioni derivate da elaborazioni automatiche e accentuato in taluni casi dalla difficolta di distinguere nei dati la presenza di:

Valori anomali ;

Valori errati.

➤ In effetti, il comportamento e la interpretazione sono differenti nei due casi. Per cui anche il trattamento dei valori anomali deve essere differente rispetto a quello dei valori errati.

Rimedi alla scarsa robustezza della media

  • Una media troncata al 2. 5 % e una media aritmetica di tutte lemodalita ordinate dopo aver eliminato dalla popolazione il 2. 5 % dei valori pi u bassi e il 2. 5 % dei valori piu alti. ➤ Quindi, tale media `e ottenuta calcolando la media aritmetica del 95% della popolazione di posto centrale nella serie ordinata delle osservazioni.
  • Una media secondo Winsor e ottenuta sostituendo una quota` di dati estremi, come nell’esempio seguente.

Esempio di media troncata e secondo Winsor...

➤ Per i dati precedenti, le tre medie (aritmetica, troncata, secondo Winsor) forniscno i seguenti valori:

μ = 0 + 1 + 8 + 9 + 14 +... + 72 + 74 + 120 + 200 40 =^

1911 40 =^47.^775

μT = 8 + 9 + 14 +... + 72 + 74 36 =^

1590 36 =^44.^167

μW = 8 + 8 + 8 + 9 + 14 +... + 72 + 74 + 74 + 74 40 = 1754 40 = 43. 850

Moda di una distribuzione

 La moda Mo di una distribuzione di frequenza e la modalita cui corrisponde la massima frequenza, assoluta o relativa. ➤ Sintetizzare una variabile X tramite la sua moda significa assumere come valore “pi u rappresentativo” della distribuzione quello che sie verificato pi u spesso di tutti gli altri. ➤ Il che implica che se si sceglie tra piu preferenze il valore modale si crea il “minor numero di scontenti”, perch ´e la moda e la modalita della variabile espressa dal gruppo di maggioranza relativa. ➤ La moda –a differenza della media aritmetica– si pu `o determinare anche per variabili qualitative.