Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Variabili, Distribuzioni e Misure di Sintesi - Prof. Rivelli, Dispense di Statistica

Dispensa di statistica, primo anno (1 semestre) Anno accademico 2021/22

Tipologia: Dispense

2020/2021

Caricato il 27/11/2022

sara-brandolini
sara-brandolini 🇮🇹

4

(7)

13 documenti

1 / 84

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ELEMENTI DI STATISTICA DESCRITTIVA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Variabili, Distribuzioni e Misure di Sintesi - Prof. Rivelli e più Dispense in PDF di Statistica solo su Docsity!

ELEMENTI DI STATISTICA DESCRITTIVA

RICHIAMI DI MATEMATICA

Operatore sommatoria

 = Simbolo di sommatoria: identifica l’operazione di somma di più addendi Il simbolo si legge «sommatoria per i che va da 1 a n» (o da 1 a k). Esempio: siano dati 5 studenti per ognuno dei quali si conosce il numero di esami fatti. Quanti esami hanno fatto complessivamente? Osservazioni su operatore sommatoria

  • L’indice i può essere sostituito nella sua funzione con qualsiasi altra lettera
  • L’interesse e l’opportunità offerti da questo simbolo si colgono maggiormente quando ci si trova di fronte alla somma di n quantità, poiché la notazione si semplifica di molto: N.B.: i puntini di sospensione ricordano che ci sono altri addendi che non si scrivono, ma che fanno comunque parte della sommatoria.

Tipologie numeri

Numeri naturali: 0, 1, 2, 3, 4, 5, 6, 7,….(interi positivi) Insieme dei numeri naturali: N I numeri naturali hanno un ordine: si possono rappresentare su una semiretta orientata. Fra B e C vi sono infiniti punti che non rappresentano (o non appartengono all’insieme de) i numeri naturali. I numeri naturali non sono adatti a risolvere tutti i problemi (ad esempio la temperatura si indica anche con il segno «-» davanti). Numeri interi relativi, o più semplicemente, interi. - 4, - 3, -2, -1, 0, +1, + 2, +3, +4… Insieme dei numeri interi: Z Il quoziente di due numeri interi relativi non sempre è un intero relativo.

x la variabile indipendente m la pendenza (o coefficiente angolare) q l’intercetta (punto di intersezione sull’asse delle ordinate). Rappresentazione grafica retta Rappresentazione grafica di una retta y = -2x + 4 Si individuano 2 punti Se x = 4, y = -24+4 =-4 Se x = 0, y = -20 + 4 = 4 A = (4;-4) B = (0; 4) Ogni punto che giace sulla retta soddisfa l’equazione Y = -2x + 4.

Simbologia intervalli

Simbologia degli intervalli comprende i numeri naturali 4 e 5 3 6 (3;6): comprende i numeri naturali 4 e 5 comprende i numeri naturali 3, 4 e 5 3 6 [3;6): comprende i numeri naturali 3, 4 e 5 comprende i numeri naturali 3, 4, 5 e 6 3 6 [3;6]: comprende i numeri naturali 3, 4, 5 e 6 comprende i numeri naturali 4, 5 e 6 (3;6]: comprende i numeri naturali 4, 5 e 6

Il concetto di limite

Data una funzione f(x) supponiamo che x0 ed l rappresentino due numeri reali, oppure +∞ e -∞. Diremo che il limite della funzione f(x) per x che tende a x0 è l e si scriverà che: se la funzione f(x) assume valori vicini quanto si vuole a l, ogni qualvolta i valori di x sono sufficientemente vicini a x0 (con eventuale esclusione del punto x = x0, dove la funzione può non essere definite).

Il concetto di asintoto

L’asintoto («senza – congiunzione») è una retta che si avvicina alla funzione senza mai toccarla. Si dice anche che l’asintoto è la tangente all’infinito della funzione.

L’integrale definito

a = primo estremo di integrazione b = secondo estremo di integrazione f(x) = funzione integranda x = variabile di integrazione Il risultato del calcolo di un integrale definito è un numero reale. Geometricamente è considerato come l’area sottesa alla funzione f(x) entro l’intervallo b – a

DEFINIZIONE E BRANCHE DELLA STATISTICA

Definizione «omnicomprensiva»

La statistica è un insieme di strumenti logici e matematico-probabilistici per il trattamento (reperimento, analisi e interpretazione) di una grande quantità di dati. Grande quanto? Tanto quanto le operazioni di conteggio, e/o raggruppamento risultano difficili da realizzare «a mano».

Prima branca

Statistica descrittiva: effettuare una sintesi delle informazioni raccolte in un file, relative ad un particolare aggregato di dati, attraverso tabelle, grafici e indicatori. File usuale (da cui partire): Excel(.xls) Esercizi mentali: enucleare ed associare Enucleare  Far emergere in modo sintetico la componente ‘strutturale’ (‘scheletrica’) di un fenomeno collettivo. Componente strutturale o ‘intrinseca’, depurata dalla componente accidentale (o residuale). Struttura = insieme degli elementi che costituiscono lo “scheletro” di qualcosa Associare  Spiegare la variabilità di un fenomeno collettivo individuando un’associazione con altri fenomeni collettivi. Formalizzando: individuare una relazione funzionale tra una variabile da spiegare (dipendente, explanandum, Y) e una ‘esplicativa’ (indipendente, explanans, X) Y = Variabile dipendente X = Variabile indipendente Esempi enucleare e associare Enucleare: qual è il tempo medio di completamento del Giro di Italia 2019? (Attenzione a trasformare tutto in un’unica unità di misura) Quanto «pesa» la componente extra-europea dei ciclisti? Associare: la buona performance dei corridori dipende dal team di appartenenza?

Seconda branca

Probabilità : fornisce gli strumenti per analizzare e trattare i fenomeni di tipo aleatorio, cioè quei fenomeni il cui risultato non è certo. La teoria del calcolo delle probabilità fornisce un contributo fondamentale in condizioni di incertezza. Una possibile condizione di incertezza Esempio  nella XXXII edizione delle Olimpiadi estive (Tokyo2020) l’Italia ha chiuso con 40 medaglie. Con quante medaglie chiuderà la XXXIII edizione di Paris2024? Sono aperte le scommesse…

nella stessa trattoria a dieci anni dalla maturità. Ogni compagno di scuola si confronta con la trama di eventi biografici che hanno punteggiato e contraddistinto le vite di ciascuno. Ma gli altri clienti della trattoria vorrebbero identificare in modo distinto il ‘frame’ delle due classi (Da dove venite? Eravate bravi? E ora che fate? E in amore?), e raccolgono quattro informazioni per ogni individuo delle due classi, facendo girare e compilare foglietti fatti come questa scheda: Il primo passo è la costruzione del protocollo di rilevazione.

Sintetizzare le informazioni

Se le due classi A e B sono composte rispettivamente di 10 (classe A) e 15 (classe B) persone alla fine mi trovo in mano 25 schede di rilevazione. Sui singoli so tutto, ma non so cogliere la struttura del collettivo, perché le informazioni sono troppo disperse. Il primo esercizio mentale della statistica richiede operazioni preliminari di sintesi. Per fare ciò per prima cosa bisogna costruire la matrice dati.

STATISTICA UNIVARIATA

La riclassificazione dei dati

Ora facciamo un passo avanti e concentriamoci su un solo carattere. Per esempio il titolo di studio. Oscuriamo tutte le altre colonne e concentriamo l’analisi su una sola dimensione. In questo primo modulo esamineremo gli strumenti di analisi statistica monovariata o univariata.

Dalla matrice dati alla serie ordinata

Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione, si dice serie ordinata : X = {x 1 , x 2 , x 3 , .., xN-2, xN-1, xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione dell’ordine della serie. E in certi casi (per es. le ‘serie storiche’) l’ordine (l’unità di tempo di rilevazione) è fondamentale.

L’espressione “Somma delle numerosità specifiche ni per i che va da i a k” (k=numero delle modalità) si può scrivere in modo più compatto come: (Si legge: “somma delle n con i, per i che va da 1 a k, è pari a N”)

LE VARIABILI STATISTICHE PER CLASSI

Classificazione per intervalli

Si riprenda l'esempio dei compagni di classe che si ritrovano in trattoria. Riportiamo la serie ordinata (trascritta per comodità in ordine crescente) delle modalità assunte dal carattere E (entrate mensili in migliaia di euro) per i 10 ex-compagni: S = {1,5; 2,2; 3,7; 4,2; 4,5; 4,7; 5,0; 5,2; 6,8; 7,2} Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola volta, per il dettaglio della misura e le poche osservazioni. Per potere sintetizzare le nostre informazioni, e renderle più leggibili, occorre individuare non le singole modalità, ma degli intervalli (classi) di modalità possibili, e catalogare le osservazioni entro di essi. Parleremo di intervalli chiusi a destra o a sinistra, ricordando la simbologia ripresa con i richiami di matematica. N.B: nella serie questa volta abbiamo usato il ; al posto della virgola, per evitare ridondanze con la virgola del numero decimale.

Conteggio stem & leaf

Ricostruiamo la variabile statistica (per classi) dei redditi dei 25 compagni di classe. Come? conteggiamo tutte le 25 osservazioni ordinandole secondo l’unità più grande. Riportiamo ogni osservazione come una foglia (leaf) al posto giusto lungo lo stelo (stem) sul quale sono segnate le unità: Attenzione alle classi! La scelta degli estremi degli intervalli è, entro certi limiti, demandata all’arbitrio del ricercatore. Certo, si possono costruire intervalli equivalenti ( uguale ampiezza ), ma anche intervalli di ampiezza crescente col crescere delle modalità, o in altri modi ancora, a fantasia.

Oppure anche classi equifrequenti ( con la stessa numerosità al loro interno ). N.B.: Con riferimento ai 10 compagni della classe A Classi equivalenti (esempio) Dalla serie dei 25 redditi eliminiamo ora il più alto (7,6) e proviamo a vedere cosa succede se classifichiamo i dati in due modi differenti:(A e B) A) Costruendo 4 classi equivalenti (uguale ampiezza) 1,2 = Valore minimo 7,4 = Valore massimo 7,4 – 1,2 = 6,2  6,2/4 = 1,55 1, (ampiezza della classe) Classi equifrequenti (esempio) B) Costruendo 4 classi equifrequenti (uguale numerosità). La numerosità specifica è data da N/numero delle classi: 24/4 = 6

La discretizzazione delle variabili per

classi

In presenza di variabili statistiche per classi, è necessario identificare i valori centrali (v.c.) delle classi, attraverso l'operazione: Semi-somma dell'estremo inferiore (INF) e superiore (SUP) della classe Esempio di variabile statistica per classi (1) N = 156 corridori che hanno concluso il giro di Italia, edizione 2016 X = tempo di completamento del Giro (in ore)

Carattere ordinato (o misurabile con una scala ordinale)  se, date due modalità è possibile anche dare un ordine, specificando che una precede l’altra. Esempi : sono quelli che esprimono un grado di soddisfazione (poco, abbastanza, molto), la posizione in una graduatoria, il titolo di studio.

I caratteri quantitativi: quali distinzioni

I caratteri quantitativi vengono anche distinti in continui e discreti. In un carattere quantitativo discreto l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri naturali. Modalità = Frutto di un’operazione di conteggio. Le modalità assumibili da un carattere discreto sono in numero finito o al più un’infinità numerabile. Esempi : numero di figli, numero di pezzi prodotti, voto a un esame. In un carattere quantitativo continuo l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali. Modalità = Frutto di un’operazione di misurazione. Esempi : peso, altezza. Tutti i valori compresi tra un valore identificato come massimo ed uno come minimo sono, almeno teoricamente, assumibili.

Scale di misurazione

Carattere quantitativo misurabile con «scala ad intervalli» : non esiste uno zero assoluto, naturale, reale e non arbitrario, il quale deve invece esistere per un carattere quantitativo misurabile con «scala per rapporti». Per un carattere misurabile con scala ad intervalli ha senso considerare esclusivamente la differenza tra le modalità del carattere, ma non il rapporto tra tali modalità. Esempi di caratteri con scala a intervalli: la temperatura misurata in gradi centigradi. Infatti lo zero utilizzato è uno zero convenzionale/arbitrario. I caratteri quantitativi più comuni sono comunque misurati su scala di rapporti: peso, reddito, età, lunghezza di un oggetto.

Tipologie di variabili statistiche

Riagganciandoci alla definizione di variabile statistica e alle tipologie di caratteri o Se le modalità sono espresse da numeri, si ha una variabile statistica quantitativa ( o cardinale ) o Se le modalità non sono espresse da numeri, si ha una variabile qualitativa o :  Mutabile ordinale (se c’è ordinamento tra le modalità)  Mutabile sconnessa (se non c’è ordinamento tra le modalità)

Una rappresentazione sintetica delle tipologie di scale di misurazione Ad ogni livello di misurazione corrisponde un tipo di ‘variabile statistica’. Il termine misura è impiegato in un’accezione ampia e deve intendersi come quell’operazione consistente nell’assegnare numeri o attributi alle proprietà dell’unità statistica. Attenzione però! In presenza di caratteri ordinati, come i punteggi espressi su scale convenzionali:  Molto d’accordo (1)  Indifferente (3)  Decisamente contrario (5) Non ha senso confrontare le distanze tra le modalità, anche se codificate con valori numerici. Sui caratteri quantitativi ha senso calcolare le distanze (differenze) tra le modalità. Se il carattere è quantitativo si definisce suddivisione in classi del carattere l’operazione consistente nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti (si vedano le variabili statistiche per classi).

Variabili dicotomiche

Difficile pensare “Maschio / Femmina” come modalità quantitative. Nemmeno le si può ritenere ordinabili (in che senso M è più di F?). Eppure questa variabile come tutte quelle dicotomiche (composte di due sole modalità disgiunte ed esaustive) resta a cavallo tra qualitativo e quantitativo. Basta leggerla così:

  • Incentrando la variabile su una delle due modalità (per es. F) ed esprimendo le due modalità in questa forma: “è F?” o “non è F?”
  • Agganciando alle due modalità i numeri 1 (è F) e 0 (non è F). Il numero ora identifica un dato oggettivo: l’accadimento o successo (senza valutazione!!) (1) o il non accadimento (0) dell’evento ‘F’ Le variabili dicotomiche (provate voi a pensarne alcune, sono infinite) sono un tassello fondamentale della Statistica, proprio perché tengono i piedi in due staffe. I caratteri trasferibili Tra i caratteri quantitativi è possibile fare un’ulteriore distinzione, tra caratteri trasferibili e non trasferibili. Un carattere è trasferibile se su di esso è possibile definire un’intensità totale e se si può trasferire (anche solo idealmente) in parte o anche totalmente da un’unità statistica ad un’altra. Esempi : reddito; numero di case possedute; numero di auto possedute.

LE FREQUENZE, LE FREQUENZE PERCENTUALI E LE FREQUENZE CUMULATE

E se avessimo bisogno di fare dei confronti?

L’operazione di cumulazione richiede che le modalità siano ordinabili. Ha quindi senso per le v.s. quantitative e qualitative ordinali.

LE RAPPRESENTAZIONI GRAFICHE DELLE VARIABILI STATISTICHE

La variabile statistica attraverso i grafici

In questa lezione ci si concentrerà sul modo grafico di rappresentare una variabile statistica, con le sue frequenze (o numerosità), semplici o cumulate. Più specificatamente si vedrà come ad ogni distribuzione di frequenze/numerosità corrisponda una particolare rappresentazione grafica. Prima di fare ciò dobbiamo ricordare come si passa dalla variabile statistica presentata in forma di seriazione alla forma tabellare. Successivamente puntualizzeremo le rappresentazioni di una distribuzione di frequenza nella forma grafica più adatta alla tipologia di carattere.

La rappresentazione tabellare della variabile statistica

Abbiamo già visto che la forma ‘in punta di forchetta’ di una v.s. è quella (orizzontale) di una successione ordinata di coppie di valori {xi , ni } univocamente associati.

D’ora in poi useremo spesso questa rappresentazione tabellare ‘in verticale’. Essa consente di affiancare alle colonne di modalità e numerosità altre colonne con elaborazioni successive dei dati (per esempio le frequenze relative), e quindi ci permette di seguire passo a passo i calcoli per ogni misura di sintesi delle variabili che andremo a costruire via via.

Ad ogni carattere la sua rappresentazione grafica

Diagrammi a barre

  • Per mutabili (variabili statistiche) sconnesse Unica regola per la sua costruzione: la lunghezza delle barre deve essere proporzionale a ni oppure a fi.
  • Per mutabili (variabili statistiche) ordinali Due regole: lunghezza delle barre proporzionale a ni oppure a fi + Ordine tra le modalità obbligato (non la distanza)

Densità relativa:

Come per i diagrammi ad aste l’ordinata può essere indifferentemente proporzionale a ni o a fi , anche l’istogramma può avere come ordinate le densità relative i =fi /i invece che le densità assolute hi =ni /i. Le proporzioni del grafico non mutano. La condizione d’area diventa:

RAPPRESENTAZIONI GRAFICHE DELLE FREQUENZE CUMULATE

La rappresentazione grafica delle frequenze/numerosità cumulate

Ovvero la rappresentazione grafica delle funzioni N(xi) e F(xi) per variabili statistiche quantitative discrete e per classi. N.B. Vale anche per variabile statistica qualitative ordinali.

Il grafico delle numerosità cumulate

Consideriamo un gruppo di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario (X). Per rappresentare graficamente la cumulata di una variabile discreta seguiamo queste regole di costruzione: La funzione esiste da - , ma fino al primo valore osservato (x 1 = 10) ha valore 0: N(X<10)= Quindi la curva viaggia terra terra come un bruco fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a frequenza 35. Infatti N(X10)= n(10)=35.

Variabili discrete, diagrammi a scalini

Continuiamo a seguire il nostro bruco, che striscia lungo il grafico della funzione cumulata. Tra X=10 e X=50 di nuovo la curva prosegue lungo una retta parallela all’ ascissa: nessuna modalità è osservata dopo X=10 e prima di X=50. Di nuovo a X=50 esatto (punto di discontinuità della funzione) la curva si impenna in verticale e raggiunge N(X50)= n(10)+n(50)= 44. E così via… Risultato di questo percorso è una funzione spezzata con la caratteristica forma di una scala. Per costruire il grafico è sufficiente individuare i tre punti incorniciati, a partire dalle loro coordinate (xi , Ni ), e poi congiungere i diversi tratti della spezzata.

Ancora sui diagrammi a scalini

La lunghezza delle tratte verticali è proporzionale ancora a ni o a fi , dato che è pari alla differenza tra due cumulate successive: ni = Ni – Ni-1 oppure fi =Fi -Fi- La funzione assume valore anche per modalità non osservate.