




































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Statistica per le decisioni - lezione 6
Tipologia: Sintesi del corso
1 / 76
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





































































Stefania Capecchi
Universit `a degli Studi di Napoli Federico II
(^1) Indicatori di una distribuzione di frequenza
(^2) Indici statistici di posizione
(^3) Indici statistici di variabilit `a
(^4) Indici statistici di forma
(^5) Rappresentazioni stilizzate
➤ Gli aspetti rilevanti di una distribuzione di frequenza sono:
La posizione , cio e la misura della sua centralita complessiva.
La _variabilit a_ , cioe la mutevolezza dei dati, ovvero l’attitudine della variabile ad assumere diverse modalit `a.
La forma , cio `e l’aspetto complessivo della distribuzione di frequenza rispetto a configurazioni standard.
➤ I principali indici di posizione sono: media , moda e mediana. ➤ Va segnalato che tutti e tre sono misure di un concetto che e _la media intesa come misura intermedia_ delle modalita di una variabile statistica. ➤ In quanto concetto primitivo, la media e immanente al comportamento quotidiano_ e molti comportamenti umani sono determinati da esso. Invece, la sua misura deriva dalla individuazione di qualche criterio specifico, di volta in volta stabilito, seppure in modo inconscio. ➤ E’ evidente, allora, che _la sola media aritmetica non puo esaurire la sintesi di un fenomeno reale.
➤ Se si dispone di una distribuzione di frequenza nella quale la modalit a _x_ 1 si ripete _n_ 1 volte, la modalita x 2 si ripete n 2 volte,... , la modalit a _xk_ si ripete _nk_ volte, allora, la somma di tutte le modalita (cio e il numeratore della media aritmetica) puo essere scritto in modo pi u compatto come: _x_ 1 _n_ 1 + _x_ 2 _n_ 2 +... + _xk nk_. ➤ Pertanto, la media aritmetica per variabili discrete –la cui rilevazionee disponibile mediante una distribuzione di frequenza– diventa:
μ =
n
n
i = 1
xi ni =
k
i = 1
xi ni
k
i = 1
ni
x 1 n 1 + x 2 n 2 +... + xk nk n 1 + n 2 +... + nk
Modalit a della Frequenze Modalita × frequenze variabile X assolute relative assolute relative x 1 n 1 f 1 x 1 n 1 x 1 f 1 x 2 n 2 f 2 x 2 n 2 x 2 f 2
............... xi ni fi xi ni xi fi ............... xk nk fk xk nk xk fk Totali (^) ∑ ki = 1 ni = n (^) ∑ ki = 1 fi = (^1) ∑ ki = 1 xi ni ∑ ki = 1 xi fi = μ
➤ Si osservi che le tre espressioni precedenti non sono formule differenti ma solo tre modi aritmeticamente equivalenti di calcolare la media aritmetica in funzione della disponibilit `a dei dati.
Calcolo della media aritmetica per una seriazione
➤ I dati precedenti possono essere organizzati in una distribuzione di frequenza, esplicitando per ciascuna modalit `a (che varia da 38 a 46, in questo esempio) le frequenze assolute o le frequenze relative, ed operando gli opportuni calcoli come indicati nella tabella seguente:
Modalit a della Frequenze Modalita × frequenze variabile X assolute relative assolute relative 38 1 0. 05 38 1. 90 39 1 0. 05 39 1. 95 40 3 0. 15 120 6. 00 41 4 0. 20 164 8. 20 42 8 0. 40 336 16. 80 43 1 0. 05 43 2. 15 45 1 0. 05 45 2. 25 46 1 0. 05 46 2. 03 Totali 20 1. 00 831 41. 55
➤ Come si vede, la media aritmetica pu o essere ottenuta sia utilizzando le frequenze assolute ( _μ_ = 83120 = 41 .55) che le frequenze relative (la mediae semplicemente la somma dei prodotti delle modalit `a moltiplicate per le frequenze relative).
Calcolo della media per una variabile continua...
➤ Si desidera calcolare la media della variabile X = “Durata in secondi” di 1192 brani musicali. ➤ Le singole modalit `a sono state raccolte mediante la seguente tabella:
Classi di Frequenze Valori centrali Prodotti dei valori centrali modalit `a assolute della classe per le frequenze assolute 0 ⊢ − ⊣ 60 5 30 150 60 − ⊣ 120 27 90 2430 120 − ⊣ 180 255 150 38250 180 − ⊣ 300 571 240 137040 300 − ⊣ 600 312 450 140400 600 − ⊣ 1022 22 811 17842 Totali 1192 === 336112
➤ Le pi u importanti ed utili proprieta della media sono:
la media aritmetica e sempre compresa tra il minimo ed il massimo dei valori; la somma degli _scarti dalla media_ ( _xi_ − _μ_ ) e sempre pari a zero, per cui la media e il _baricentro_ della distribuzione di _X_ ; se _μ_ e la media di X , la media di ( a X + b ) e uguale a( _a μ_ + _b_ ); la media _μ_ e l’unico valore c che rende minima la somma degli scarti al quadrato (^) ∑ i ( xi − c )^2 ;
..................................................................
➤ Calcolando la media aritmetica per la variabile Peso (in Kg) e per la variabile Altezza (in cm), sia per la popolazione dei fumatori che per quella dei non fumatori, sul dataset STUDENTI si ha:
Popolazione Numerosit `a Altezza media Peso medio Fumatori 703 170. 274 65. 248 Non Fumatori 2056 168. 580 62. 742
➤ Una interpretazione affrettata fa ritenere che il fumare fa bene alla salute perch ´e i fumatori sono tendenzialmente pi u alti di quasi 2 cm e piu robusti di quasi 2.5 Kg rispetto ai non fumatori. ➤ Questa erronea conclusione `e comune quando esiste una terza variabile che nasconde l’effetto di una differente posizione nella popolazione.
➤ Il rischio derivante dalla presenza di dati anomali o errati si `e accresciuto nei tempi recenti per l’uso massiccio ed automatico di masse di dati che pochi controllano accuratamente prima di effettuare elaborazioni statistiche.
➤ Tale rischio per le interpretazioni derivate da elaborazioni automatiche e accentuato in taluni casi dalla difficolta di distinguere nei dati la presenza di:
Valori anomali ;
Valori errati.
➤ In effetti, il comportamento e la interpretazione sono differenti nei due casi. Per cui anche il trattamento dei valori anomali deve essere differente rispetto a quello dei valori errati.
modalita ordinate dopo aver eliminato dalla popolazione il 2. 5 % dei valori pi u bassi e il 2. 5 % dei valori piu alti. ➤ Quindi, tale media `e ottenuta calcolando la media aritmetica del 95% della popolazione di posto centrale nella serie ordinata delle osservazioni.Esempio di media troncata e secondo Winsor...
➤ Per i dati precedenti, le tre medie (aritmetica, troncata, secondo Winsor) forniscno i seguenti valori:
μ = 0 + 1 + 8 + 9 + 14 +... + 72 + 74 + 120 + 200 40 =^
1911 40 =^47.^775
μT = 8 + 9 + 14 +... + 72 + 74 36 =^
1590 36 =^44.^167
μW = 8 + 8 + 8 + 9 + 14 +... + 72 + 74 + 74 + 74 40 = 1754 40 = 43. 850
La moda Mo di una distribuzione di frequenza e la modalita cui corrisponde la massima frequenza, assoluta o relativa. ➤ Sintetizzare una variabile X tramite la sua moda significa assumere come valore “pi u rappresentativo” della distribuzione quello che sie verificato pi u spesso di tutti gli altri. ➤ Il che implica che se si sceglie tra piu preferenze il valore modale si crea il “minor numero di scontenti”, perch ´e la moda e la modalita della variabile espressa dal gruppo di maggioranza relativa. ➤ La moda –a differenza della media aritmetica– si pu `o determinare anche per variabili qualitative.