
















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una introduzione alla modalità del carattere, la misurazione dei caratteri qualitativi, discreti e continui, e le distribuzioni statistiche disaggregate e di frequenze. Viene inoltre discusso il ragruppamento in classi, la media aritmetica, la media quadratica, la mediana, i quartili, lo scostamento medio e lo scostamento quadratico medio, e la variabilità per distribuzioni secondarie trasferibili.
Tipologia: Dispense
1 / 24
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

















Cap.1---NOZIONI INTRODUTTIVE Con dati statistici si intendono le informazioni espresse numericamente -percentuali, medie, frequenze di accadimento di eventi in un intervallo di tempo- riferite a un insieme di entità omogenee da qualche punto di vista ( persone, oggetti, aziende, situazioni) che per ora viene indicato come “insieme di riferimento”
La STATISTICA é la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dei dati, alla rappresentazione sintetica e alla interpretazione dei dati stessi, e laddove ve ne siano le condizioni, alla generalizzazione delle evidenze osservate. In Italia, alla produzione e diffusione delle statistiche relative a tutti gli aspetti della vita del paese è preposto l'Istat, Istituto Nazionale di Statistica. si tratta di un ente di diritto pubblico con ordinamento autonomo, sottoposto alla vigilanza della Presidenza del Consiglio dei Ministri.
I dati assumono la veste di statistiche se sono il risultato dell’osservazione Intenzionale di una molteplicità di casi individuali, finalizzati alla conoscenza e alla comprensione del fenomeno oggetto di studio. La molteplicità dei casi individuali, l'insieme di riferimento, va sotto il nome di collettivo statistico o popolazione.
UNITA’ STATISTICA Si chiama unità statistica il caso individuale componente del collettivo statistico. CARATTERE Si chiama carattere ogni aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo. MODALITA’ DEL CARATTERE Si chiama modalità del carattere i diversi modi con cui questo si presenta nelle unità statistiche del collettivo.
i caratteri sono di due tipi: qualitativi e quantitativi. CARATTERI QUALITATIVI: Espressi in forma verbale (sesso, nazionalità). possono essere o
non essere ordinabili. Sulla base di questa distinzione, si parla di caratteri rettilinei, con riferimento a quelli le cui modalità sono ordinabili, e di caratteri sconnessi negli altri casi. Per esempio è un carattere rettilineo il grado degli ufficiali dell'esercito italiano; è sconnesso il carattere professionale dei lavoratori. CARATTERI QUANTITATIVI (variabili) espressi da numeri come altezza, peso, voto. I caratteri quantitativi si dicono discreti se le loro modalità sono quantità distinte, si dicono continui quando essi possono assumere tutti i valori di un certo intervallo di numeri reali. I caratteri quantitativi si distinguono, in trasferibili e non trasferibili, a seconda che abbia senso ipotizzare il trasferimento di parte del carattere da un’unità a un'altra. Sono esempi di caratteri trasferibili il reddito e il patrimonio delle persone.
Con l'osservazione del carattere nella singola unità del collettivo, si effettua una misurazione: per i caratteri qualitativi la misurazione è in realtà la descrizione verbale del carattere nell'unità osservata; per i caratteri discreti è, in generale, un conteggio; per i caratteri continui si tratta, di una misurazione in senso proprio che presuppone una scala numerica.
-------GENESI DEI DATI STATISTICI Le fonti di dati si distinguono in primarie e secondarie a seconda che l'utilizzatore coincide o meno con chi ha raccolto i dati. Per esempio, i dati sulla natalità o mortalità delle imprese costituiscono una fonte primaria per le Camere di Commercio e una fonte secondaria per gli studiosi di economia.
all'unità identificata dal numero 2 e così via.
Ai fini della presentazione dei dati, le unità o le osservazioni della distribuzione disaggregata vengono classificate e aggregate in gruppi omogenei sulla base di uno o più caratteri. Ciò richiede che si individuino preliminarmente le modalità rispetto a cui effettuare il raggruppamento. L'aggregazione comporta sempre una perdita di informazioni, per questo le modalità devono essere disgiunte ed esaustive. L’operazione di raggruppamento delle unità statistiche viene realizzata mediante la classificazione o lo spoglio dei dati. Con riferimento a un carattere X, qualitativo quantitativo, le modalità saranno indicate con x 1 ,x 2 ,...x k dove k è il numero delle modalità. Se il carattere quantitativo o qualitativo rettilineo, le modalità si intendono ordinate, cioè tali che x 1 <x2 <...<x k , Se prendiamo il carattere “Sesso”, Le modalità sono “maschio” e “femmina”, cosicchè x 1 =M, x 2 =F
Lo spoglio dei dati non è altro che il conteggio di quante volte si presenta ciascuna delle modalità x 1 ,x 2 ,...x k.
---Lo Schema con cui si associa a ciascuna modalità del carattere X la rispettiva frequenza è detto DISTRIBUZIONE DI FREQUENZA. Attraverso questa i dati passano dallo stato grezzo a una forma di presentazione organizzata e sintetica, indispensabile per la comunicazione dell'informazione e per la comprensione del fenomeno a cui dati si riferiscono.
Modalità Frequenza x 1 n 1 x 2 n 2 | | x k n k Totale N ©FLS Per frequenza si intende il numero di volte che una data modalità si presenta nel collettivo
statistico. Spesso accanto alle frequenze (assolute), vengono presentate le frequenze relative, che Si ottengono rapportando le prime al totale delle unità, N.
f i= frequenza della modalità x i = n i i=1,2,...k numero totale unità N
Le Frequenze percentuali si ottengono moltiplicando per 100 le frequenze relative.
Si chiamano FREQUENZE CUMULATE le quantità: Ni= n1 +n2 +...ni Per ogni dato i, Ni rappresenta il numero delle unità del collettivo nelle quali il carattere X assume un valore non superiore a x i. Si chiamano frequenze relative cumulate i rapporti:
Fi = frequenza cumulata fino a x i= Ni con i =1,2,..,k numero tot di unità N
Quando il carattere quantitativo è il numero di osservazioni è elevato, la presentazione dei dati richiede che le modalità contigue siano aggregate tramite la formazione di classi, cioè di intervalli numerici comprendenti più modalità. Per ciascuna unità si procede alla lettura del valore assoluto del carattere X e all'assegnazione, tramite una linea verticale, dell'unità a una delle classi. Al termine delle operazioni di spoglio, vengono conteggiati i casi appartenenti a ciascuna classe e viene costruita la distribuzione di frequenze associando alla singola classe la frequenza pertinente. Alle classi reali si perviene sottraendo all'estremo sinistro e aggiungendo all'estremo destro di ciascun intervallo una stessa quantità: pari a 0,5, se le osservazioni sono espresse da numeri interi; pari a 0,05 Se le osservazioni sono date da numeri con una cifra decimale.
classe chiusa a sinistra [. ) classe chiusa a destra (.] classe chiusa a destra e a sinistra [.]
Con la distribuzione doppia si associa alla singola coppia di modalità ( dei caratteri Xe Y) la frequenza, ossia il numero di volte che la coppia di modalità è presente nel collettivo. per quanto riguarda l'operazione di spoglio: sia s Il numero delle modalità del carattere X e t, del carattere Y, Il numero delle possibili associazioni tra le modalità e allora st. con l'operazione di spoglio le unità del collettivo vengono raggruppate in st gruppi omogenei, e terminata l'operazione di spoglio, i dati vengono disposti in una tabella a doppia entrata definitiva, dove in ciascuna casella viene posta la frequenza assoluta, cioè il numero dei casi che presentano la coppia di modalità a cui la casella si riferisce. Si perviene in questo modo a una distribuzione doppia di frequenza. ©FLS CAP. 3 --- RAPPRESENTAZIONI GRAFICHE
Le rappresentazioni grafiche hanno lo scopo di illustrare le distribuzioni di frequenza o di quantità. Rispetto alle tabelle, e grafici presentano diversi vantaggi:
-- consentono di visualizzare immediatamente le caratteristiche delle distribuzioni; -- rendono possibile il confronto tra più distribuzione in spazi ristretti; -- agevolano l'investigazione di fenomeni, mettendo in rilievo dati anomali, andamenti, relazioni; -- sono un efficace strumento per la divulgazione dei dati.
ripartizione F(x) , il rapporto tra la numerosità di Cx , e il totale delle unità N: si tratta della frequenza relativa delle unità del collettivo nelle quali il carattere assume un valore non superiore alla quantità x.
F(x) ha 4 proprietà:
L'istogramma è la rappresentazione grafica di una distribuzione di caratteri continui divisi in intervalli. Si pongono sull'asse delle ascisse gli estremi di classe C 0 ,C ,...C k e disegnando per ogni classe (C i-1, Ci) , i=1,2,...k, Un rettangolo avente per base il segmento dell'asse delle ascisse di estremi ci-1 e ci e per altezza la densità di frequenza n i/di L’area del singolo rettangolo è pari alla frequenza assoluta della classe. Anche in questo caso la funzione di ripartizione è la frequenza relativa delle unità del collettivo in cui il carattere X non supera un fissato livello x. Ciò vale a dire che su un segmento di base pari all’ampiezza della classe si costruisce un rettangolo di altezza pari al rapporto fra la frequenza totale di quella classe e l’ampiezza della classe stessa, ovvero la densità di frequenza. Solo nel caso in cui le classi abbiano la stessa ampiezza basterà riportare altezze ©FLS proporzionali alle frequenze. Con gli istogrammi la somma delle aree di tutti i rettangoli è proporzionale alla somma delle frequenze.
geometrica e armonica). Nel linguaggio ordinario, con il termine media si intende comunemente la media aritmetica.
--MEDIA ARITMETICA La media aritmetica di una distribuzione statistica disaggregata e la somma dei termini x 1 ,x 2 ...x N divisa per N
Questa Media oltre ad essere una costante di sintesi dei dati di una distribuzione, entra in gioco nella definizione di altre grandezze, come gli indici di variabilità, e nel calcolo delle probabilità, sotto la veste di valore atteso. Per ogni valore xi della variabile x è possibile definire lo scostamento o lo scarto della media che è la differenza tra il singolo termine della distribuzione e la media aritmetica scarto della media aritmetica= x i-μ
La media aritmetica presenta sei proprietà
La media quadratica di una distribuzione statistica disaggregata x 1 ,x 2 ,...x N è la radice quadrata della media aritmetica dei quadrati dei termini della distribuzione
. ...MEDIE ANALITICHE PER LE DISTRIBUZIONI DI FREQUENZE I casi finora visti si riferivano a distribuzioni disaggregate, per quanto riguarda invece le distribuzioni di frequenze, ovvero quando la quantità x 1 è ripetuta n 1 volte, la quantità x 2 è ripetuta n 2 e così via:
Media Aritmetica uguale: Fai che la somma dei primi n 1 termini tutti uguali a x 1 , è data da x 1 *n 1 , somma dei successivi n 2 termini tutti uguali a x 2 , è data da x 2 *n 2 ecc.., La formula diviene
μ=
m=
La mediana viene calcolata secondo tre passaggi:
Quando, in particolare, h=4 allora i quantili prendono il nome di QUARTILI, dividono la serie o distribuzione in 4 parti e sono 3; li chiameremo Q1 , Q2 e Q3 e diremo che:
I quartili non possono essere calcolati per variabili qualitative sconnesse per lo stesso motivo per cui non può essere calcolata la mediana e cioè perché le modalità non sono suscettibili di alcun ordinamento. I quartili e i quantili in generale si calcolano con una metodologia del tutto analoga a quella con la quale si calcola la mediana (poiché hanno un significato molto simile)
---Valori estremi Questi indici posizionali, insieme al valore centrale e al campo di variazione, possono essere calcolati solo nel caso di variabili quantitative, sia continue che discrete. Precisamente:
----Valore centrale Anche questo indice è calcolabile soltanto per variabili quantitative sia continue, che
della distribuzione, gli indici di variabilità dovrebbero godere di due proprietà:
Data la distribuzione statistica disaggregata x 1 ,x 2 ,...x N , Si chiama scostamento medio la media aritmetica degli scarti della media presi in valore assoluto:
Sμ=
Una seconda misura di variabilità di gran lunga più utilizzata rispetto alla precedente è lo scostamento quadratico medio o deviazione standard. ©FLS
Data la distribuzione statistica si chiama scostamento quadratico medio o deviazione standard e la media quadratica degli scarti
Indici di variabilità illustrati hanno le seguenti proprietà:
termini della distribuzione sono uguali
La prima proprietà è evidente il quadrato della deviazione standard:
ossia la media aritmetica dei quadrati degli scarti, è chiamato varianza. Non è una vera e propria misura di variabilità
un'altra quantità che vale la pena di menzionare, è la devianza: ©FLS ---IL CASO DELLE DISTRIBUZIONI DI FREQUENZE Per una distribuzione di frequenza le formule dello scostamento medio e dello scostamento quadratico medio (deviazione standard) vanno opportunamente adattate. ---IL CASO DELLE DISTRIBUZIONI DI FREQUENZE CON MODALITA’ RAGGRUPPATE IN CLASSI ©FLS ---CAMPO DI VARIAZIONE E DIFFERENZA INTERQUARTILE Come indicatori della variabilità di una distribuzione possono essere assunti anche gli indici noti come intervalli di variazione: Campo di variazione: sia x 1 ,x 2 ,...x N una distribuzione statistica disaggregata. Sia y 1 ,y 2 ,...y N la stessa distribuzione con i termini disposti in ordine non crescente. Si chiama campo di variazione la differenza tra il valore più grande e quello più piccolo della distribuzione: Δc=yN-y Si tratta dell' ampiezza dell'intervallo entro cui sono contenuti tutti i termini della distribuzione. l'indice dipende unicamente dai valori estremi, dunque assume lo stesso valore per tutte le distribuzioni che hanno gli stessi estremi. Il campo di variazione gode delle stesse proprietà della deviazione standard della differenza media
Supponiamo per esempio di rilevare il reddito delle famiglie italiane. Ci interessa sapere se il reddito complessivo è equidistribuito tra le famiglie oppure se una grossa parte dell’ammontare complessivo del reddito è posseduto da un numero esiguo di famiglie. → Nel caso in cui tutte le famiglie detengano lo stesso ammontare di reddito, si parla di equidistribuzione; → nel caso in cui tutto il reddito sia posseduto da una sola famiglia mentre tutte le altre hanno zero reddito, si parla di massima concentrazione.
Nella realtà ci troviamo sempre in situazioni intermedie e vogliamo misurare il grado di concentrazione del carattere nella nostra popolazione.
La concentrazione si rappresenta attraverso
---MISURA DELLA CONCENTRAZIONE NEL CASO DELLE DISTRIBUZIONI DISAGGREGATE Data una distribuzione statistica disaggregata in termini ordinati y 1 ,y 2 ,...y N, Consideriamo la somma Ai= y1 +y2 +...+y N quantità che rappresenta l'ammontare del carattere posseduto dalle i unità “meno dotate”, cioè, dalle unità aventi modalità non superiore a y i. ovviamente AN= N*μChiameremo i-esima frazione di carattere la quantità
Qi=Ai con i =1,2,...N AN Naturalmente QN=
Nel caso di equidistribuzione la formula diviene: Qi = Ai = iμ = i = Pi detta i-esima frazione di unità AN Nμ N©FLS La concentrazione è tanto maggiore quanto più le Qi differiscono dalle Pi. E nel caso di equiditribuzione si ha Q i= Pi
Indice di concentrazione di Gini
In statistica, l'indice di concentrazione di Gini è un indicatore che offre una misura della concentrazione di variabili quantitative trasferibili. Il rapporto di concentrazione di Gini è l'indice universale utilizzato per la misura della disuguaglianza nella distribuzione dei redditi. Sia X un carattere trasferibile, e sia x 1 ,x 2 ,...x N una distribuzione statistica disaggregata secondo il carattere X. Una misura della concentrazione di tale distribuzione e data dal rapporto di concentrazione di Gini:
Osserviamo che vale la disuguaglianza:
Dove l'espressione a sinistra del segno di disuguaglianza è una misura di concentrazione, che è nulla nel caso di equidistribuzione ed è massima, nel caso di massima concentrazione. Ne segue che il rapporto è un indice di concentrazione che varia tra 0 e 1, essendo uguale a zero nel caso di equidistribuzione e uguale a 1 nel caso di massima concentrazione. l'indice di Gini, diversamente dagli indici di variabilità assoluti, come la deviazione standard, è idoneo per il confronto della concentrazione di due o più distribuzioni.
L'indice di Gini gode di 4 proprietà:
La formula dell'indice di concentrazione di Gini si presta a una interpretazione