Scarica Dispensa di Statistica e più Dispense in PDF di Statistica solo su Docsity!
STATISTICA
ANALISI ESPLORATIVA DELLE INFORMAZIONI
1. Introduzione
STATISTICA: rappresenta un elemento essenziale per la scoperta di leggi e relazioni tra fenomeni; nei casi in cui occorre prendere decisioni in condizioni di incertezza, la Statistica fornisce strumenti formali e rigorosi che utilizzano in modo coerente ed efficiente le informazioni disponibili la statistica deriva da due anime ⤵
- prima anima → connaturata nell’essere umano che prende coscienza nel mondo e dei suoi simili e che utilizza le conoscenze acquisite per elaborare comportamenti ottimali che gli consentono di vivere
- seconda anima → nasce da una constatazione differente: di fronte alla realtà che muta vi sono i risultati che meritano più fiducia di altri perché si ripetono con maggiore regolarità Al giorno d’oggi si utilizza la Statistica a sostegno di tesi predefinite, come strumento di convincimento La Statistica utilizza alcuni criteri logico-contrattuali di riferimento (PARADIGMI):
- sintesi delle informazioni → si cerca un indicatore riassuntivo utile per uno scopo predefinito, a questa misura di sintesi si attribuisce il significato di rappresentanza del fenomeno.
- scoperta del nuovo → messa in evidenza dei fatti che non erano noti in precedenza o che andavano verificate. In tale contesto la Statistica propone soluzione e valuta ipotesi che possono essere associate ad una valutazione probabilistica di falsità e non di certezza matematica
- contenimento dell’errore → presuppone la presenza di una scatola in cui è contenuto il vero legame tra i fatti ma che lo statistico non conosce, tale relazione viene approssimata. Il legame tra le relazioni di input e output è modificato da una componente erratica di natura casuale e imprevedibile, la ricerca scientifica tenderà alla riduzione di tale componente Analizzare i dati con metodi statistici richiede modalità iterative (replicando le analisi dopo aver cambiato taluni aspetti) ed interattive (perchè lo studioso apprende dai risultati e rimette in discussione i suoi convincimenti ad ogni tappa) Problemi reali e problemi statistici l’obiettivo specifica sia la natura delle informazioni da raccogliere che gli strumenti mediante i quali esaminare tali informazioni | questa prospettiva viene a volte definita PROBLEM SOLVING ogni analisi empirica viene articolata secondo lo schema seguente: obiettivi → informazioni → metodi statistici → risultati ↪la metodologia statistica opera mediante stadi successivi che implicano atteggiamento teso al miglioramento progressivo della conoscenza, la fase più complicata consiste nel passaggio tra problema reale a problema statistico FASI di un’analisi statistica:
- Definizione degli obiettivi di ricerca → gli obiettivi devono essere chiari per individuare le informazioni da recuperare evitando dubbi nelle definizioni. Fornendo informazioni alternative in caso di mancate o errate risposte. Ci possono essere degli studi preliminari per circoscrivere l’ambito di indagine e le possibili modalità di risposta ( indagini pilota )
- Rilevazione dei dati → può essere completa (esamino tutti gli elementi) o parziale (studio un sottoinsieme detto campione). Occorre definire:
- la NUMEROSITÀ degli elementi da studiare,
- lista delle informazioni statistiche (DATI) da raccogliere
- tipologia delle risposte o delle misurazioni accessibili
- strumenti di rilevazione → essenziale il modo in cui rilevo i dati, quindi tramite dichiarazioni (questionari..) o misurazioni (strumenti semplici o complessi)
- persone a cui demandare tale compito e costi di rilevazione
- Elaborazione metodologica → si applicano schemi formali , di natura matematica di tipo logico deduttivo e inferenziale induttivo (gioca un ruolo importante la distinzione tra variabile quantitativa e qualitativa ma non posso definire tutte le metodologie idonee per un’indagine perchè sono troppe) 4 Presentazione e interpretazione dei risultati → sotto forma di tabelle e grafici, diagrammi o rapporti sintetici
- Utilizzazione dei risultati della ricerca → contribuisce a una corretta utilizzazione dei risultati di un’indagine scientifica circoscrivendo l’ambito interpretativo e richiamandosi ai vincoli entro cui essa ha validità. L’uso che può essere fatto dei risultati di una ricerca deriva anche dalle sue modalità di esecuzione e dai dettagli mediante i quali è stata condotta la misurazione o l’intervista La Statistica si occupa della descrizione delle qualità che caratterizzano e degli elementi che compongono lo Stato | Gerolamo Ghislini 1589 e utilizza ↴
- dati
- rilevazione (come rilevo i dati) → indagine campionaria (studio un determinato dato da un campione della popolazione preso a riferimento) esperimento controllato rilevazione periodica
- origine dati → primaria secondaria
- riproducibilità → devo essere in grado di permettere alle persone di ricreare l’analisi statistica che ho fatto quindi la riproducibilità può essere ad accesso universale (tutti) o ad accesso ristretto
- modelli
- teorie esempio → GLOBAL MEAN SURFACE TEMPERATURE
- temperatura media globale della superficie : la temperatura media globale stimata dell'aria vicino alla (di solito non si sposta da dei valori) superficie terrestre e le temperature del ghiaccio marino e della superficie del mare nelle regioni oceaniche prive di ghiaccio, con variazioni normalmente espresse come deviazioni da un valore su un dato periodo di riferimento; nel valutare i cambiamenti nella GMST, la temperatura dell'aria vicino alla superficie sia su terra che sugli oceani è ugualmente usata
- temperatura dell'aria della superficie terrestre : la temperatura dell'aria in prossimità della superficie terrestre, generalmente misurata a 1,25-2 m dal suolo utilizzando apparecchiature meteorologiche standard
- anomalia : la deviazione di una variabile dal suo valore medio su un periodo di riferimento (una variabile si è discostata dal suo valore medio)
m-ple ordinate → (x1,y2, … w1), (x2, y2…w2) Variabile (riassunto) → qualitative : nominali o ordinali quantitative : discrete o continue notazione : variabile statistica X individui (popolazione/ campione) indicizzati da i ∈ [1… n] osservazioni Xi = (Xi) = (x1, x2, ….xn) osservazioni ordinate x(i) = (x(i)) = (x(1), x(2)... x(n) ) ↴ con x(1) ≤ x(2) ≤ ….≤ x(n) MODALITÀ = è l’espressione concreta mediante la quale la variabile si manifesta nell’unità statistica considerata è il numero o l’attributo che l’unità statistica manifesta nella rilevazione ↳ l’elenco delle modalità si dice esaustivo se è completo; le modalità si dicono esclusive (o disgiunte) se un’unità statistica può manifestare la variabile in una ed una sola modalità tra quelle indicate SERIE = è l’ insieme delle modalità rilevate sulla popolazione di riferimento ed organizzate in modo che ciascuna unità della popolazione corrisponda una ben definita modalità. Tale sequenza può essere organizzata secondo vari criteri ad esempio geografico.. FREQUENZA = numero di volte in cui una determinata modalità si verifica nel collettivo di riferimento SERIAZIONE = insieme delle modalità di una popolazione di riferimento organizzate in modo che ciascuna modalità corrisponda la rispettiva frequenza. L’insieme dei dati disponibili mediante una seriazione definisce una distribuzione di frequenza MATRICE = è una rappresentazione tabellare mediante la quale si organizzano le informazioni raccolte (misure, registrazioni..) su ciascuna unità statistica rispetto ad una molteplicità di variabili. contiene le informazioni raccolte durante un’indagine | Matrice delle osservazioni ↴
- individui → righe
- osservazioni → colonne
- matrice → dove indica la trasposizione del vettore colonna Operazioni statistiche elementari
- DIFFERENZA ASSOLUTA → tra due modalità x1 e x2 di una variabile quantitativa X rilevate in occasioni differenti, è definita da: 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 = 𝑥2 − 𝑥 è utile per il confronto tra i fenomeni simili in circostanze differenti ed è espressa nella stessa unità di misura dei fenomeni che si contano
- DIFFERENZA RELATIVA→ è pari alla differenza assoluta rapportata ad una delle due modalità (generalmente la prima) : 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 = (𝑥 2
1
1 è necessaria per confrontare le variazioni di fenomeni espressi in un unità di misura differenti (infatti non dipende dall’unità di misura)
- DIFFERENZA PERCENTUALE → è una differenza relativa per quale si prende 100 come punto di riferimento (si moltiplica per 100) 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑧𝑎 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑢𝑎𝑙𝑒 = (𝑥2 − 𝑥1)/𝑥1 * 100
- TASSO DI VARIAZIONE → quando si osserva una variabile X rispetto al tempo, la differenza relativa tra le modalità (xt2) registrata al tempo t2 rispetto alla modalità (xt1) registrata al tempo t con t1 < t2 viene definita tasso di variazione 𝑡𝑎𝑠𝑠𝑜 𝑑𝑖 𝑣𝑎𝑟𝑖𝑎𝑧𝑖𝑜𝑛𝑒 = (𝑥 (differenza relativa legata al tempo) 𝑡
𝑡
𝑡
- approssimazione logaritmica : (𝑥 è accettabile quando la variazione relativa è 2
1
1
2
1
piccola Rapporti statistici : Alcuni indici elementari, molto semplici e di uso frequente, sono definiti rapporti statistici , secondo il settore in cui sono utilizzati assumono diverse denominazioni:
- RAPPORTO DI COMPOSIZIONE = si ottiene dividendo il valore rilevato in una certa circostanza per l'analogo del valore rilevato per la stessa popolazione. Esprima la frazione relativa (o percentuale ) posseduta o registrata nell’unità statistica rispetto al totale. esempio → percentuale degli occupati di sesso femminile rispetto agli occupati totali Totale = occupati totali certa circostanza = genere, età…
- RAPPORTO DI DERIVAZIONE = si ottiene dividendo la modalità di una variabile per quella corrispondente di un’altra che, sul piano logico e/o temporale, ne costituisce causa o ne è antecedente necessario. Per tali indici è importante stabilire il collettivo di riferimento più idoneo, ponendo al denominatore la “effettiva” popolazione che può aver generato il dato collocato al numeratore, e non un collettivo di riferimento generico. Per questo si distingue tra rapporti specifici e rapporti generici di derivazione. Quando il collettivo è così ristretto che esso, e solo esso, può generare il collettivo al numeratore si parla di rapporto di casualità esempio → indice di natalità, mortalità o tasso di mortalità infantile (nati/popolazione)
- RAPPORTO DI DENSITÀ = è definito mediante il confronto tra la dimensione globale di un fenomeno (al numeratore) e la dimensione spaziale, temporale o caratterizzante a cui esso fa riferimento (al denominatore). L’inverso di tale rapporto è detto rapporto di estensione esempio → densità di popolazione residente nella Regione (popolazione/superficie)
- RAPPORTO DI COESISTENZA = riguarda il rapporto tra la frequenza (o quantità) di una modalità rispetto alla frequenza (o quantità) corrispondente di un’altra modalità esempio → rapporto mascolinità, rapporta la frequenza di uomo e di donna in un certo momento
- INDICE DI ECCEDENZA = di una variabile che assume due sole modalità di misura di quanto la frequenza di una modalità supera l’altra in rapporto all’ammontare totale del fenomeno Se quindi alle due modalità x1 e x2 della variabile X, corrispondono le frequenze n1 e n2, allora l’indice di eccedenza della prima modalità sulla seconda è: 𝑖𝑛𝑑𝑖𝑐𝑒 𝑑𝑖 𝑒𝑐𝑐𝑒𝑑𝑒𝑛𝑧𝑎 = 𝑛1−𝑛 𝑛1+𝑛 coesistenza: n2/ n1 → indice di eccedenza = (vale anche viceversa) 1− 𝑟𝑎𝑝𝑝𝑜𝑟𝑡𝑜 𝑑𝑖 𝑐𝑜𝑒𝑠𝑖𝑠𝑡𝑒𝑛𝑧𝑎 1+𝑟𝑎𝑝𝑝𝑜𝑟𝑡𝑜 𝑑𝑖 𝑐𝑜𝑒𝑠𝑖𝑠𝑡𝑒𝑛𝑧𝑎 (n1 - n2)/ (n1 + n2) = (1 -n2/n1) / (1 + n2/n1) Presentazione delle rilevazioni statistiche I dati statistici, rispetto che alla mera elencazione dei risultati, si possono presentare in forma: a) enumerativa → quando le informazioni sono disponibili secondo una sequenza (SERIE) ↴
- serie temporali = rappresentano la dinamica rispetto a un tempo di un fenomeno (registrato istantaneamente o nel tempo)
- serie territoriali = esprimono la distribuzione di una variabile in rapporto ad unità statistiche caratterizzate da una dimensione territoriale b) tabellare → quando le informazioni sono rappresentate secondo raggruppamenti di modalità evidenziato in tabelle semplici o complesse ( seriazioni) ↳ la più importante è la distribuzione di frequenza la quale indica come le modalità si distribuiscono rispetto alle modalità della variabile in esame c) grafica → quando le informazioni sono presentate mediante disegni , schemi e rappresentazioni grafiche di natura diversa
le quantità ni si definiscono frequenze assolute , sono caratterizzati dalle seguenti proprietà: 𝑛1 + 𝑛2 +... 𝑛𝑘 = 𝑖= 𝑘 ∑ 𝑛𝑖 = 𝑛 0 ≤ 𝑛𝑖 ≤ 𝑛 𝑖 = 1, 2,... 𝑘 Distribuzioni per variabili continue VARIABILE CONTINUA: non è possibile far corrispondere ai valori che essa assume le rispettive frequenze, perchè tra due modalità ce ne possono essere infinite, perchè tra due modalità ve ne possono essere infinite altre bisogna dividere l’intervallo dei valori che X può assumere (tra il minimo e il massimo) in classi di modalità riferendo la distribuzione delle frequenze agli elementi che gli appartengono a ciascuna classe considerata. Si registra la frequenza delle unità appartenenti ad una classe di modalità e non la frequenza delle singole modalità (trovo dei sottointervalli e conto le unità incluse in essi)
- definizione degli intervalli: (xj -1, xj], j = 1,.. .k
- densità di frequenza della classe: hj = nj / (xj - xj -1)
- rappresentazioni → istogramma modalità = è il carattere che sto studiando ad esempio quanti maschi ci sono nella popolazione (maschi è la modalità) ISTOGRAMMA PEREQUATO = un modo per rappresentare tali distribuzioni e questo istogramma, che si costruisce sostituendo ad ogni osservazione di xi, di una variabile quantitativa di X una funzione simmetrica centrata sul valore xi. Poi si considera la rappresentazione finale l’area complessiva ottenuta sommando l’area sottostante in mini funzioni ↳ è una rappresentazione continua della distribuzione di frequenza della variabile X e fornisce informazioni più nette e regolari particolarmente utili per effettuare confronti tra distribuzioni Funzioni di ripartizione empirica (Fdr) FUNZIONE DI RIPARTIZIONE EMPIRICA= calcolata nel valore x0 è la funzione che associa ad ogni valore reale di x0 la frazione delle unità che sono minori o uguali (cioè non superiori) a x0; associa ad ogni modalità una ripartizione, restituendo le frequenze cumulate ↳ se la frequenza assoluta è 1, la sua frequenza relativa è 1/n, si può affermare che la frazione 1/n di unità statistiche presenta valori di X che sono inferiori o uguali a x1| osservazioni ordinate: ( 𝑥(𝑖)), i = 1, … n frequenza relativa delle unità per cui X ≤x la funzione di ripartizione empirica è definita da: 𝐹(𝑥0) = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑒𝑙𝑙𝑒 𝑢𝑛𝑖𝑡à 𝑡𝑎𝑙𝑖 𝑐ℎ𝑒 (𝑋 ≤ 𝑥) = = 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑎𝑠𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒𝑙𝑙𝑒 𝑢𝑛𝑖𝑡à 𝑡𝑎𝑙𝑖 𝑐ℎ𝑒 (𝑋≤𝑥) 𝑛
Dopo aver ordinato le modalità di X dal valore minimo al valore massimo, la funzione di ripartizione è ottenuta “ cumulando ” progressivamente, al crescere di x, la frequenza relativa. Per questo i valori di questa funzione sono detti frequenze relative cumulate | sommo man mano che vado avanti distribuzione di frequenze cumulate → F (x) PROPRIETÀ FDR → - ∀x : F(x) ∈ [0, 1] - non decrescente
- F (-∞) = 0 - continua da destra
- F (∞) = 1 non ha senso per le variabili qualitative normali → richiedono il solo ordinamento delle modalità di X per cui può essere calcolata per tutte le tipologie di variabili tranne queste Indicatori sintetici FUOCO → posizione, variabilità e forma (piazzamento orizzontale e centro della frequenza ↴ è opportuno confrontare i fenomeni in varie condizioni, utilizzando degli indici sintetici: ogni sintesi costituisce una perdita di informazioni , rispetto ai dati originali. Per questo bisogna minimizzare tale perdita. Le condizioni differenti sono:
- posizione → la misura della sua centralità complessiva in rapporto alle modalità e alle rispettive frequenze. La sintesi deve essere un valore rappresentativo della variabile nella sua globalità
- variabilità → mutevolezza dei dati nella popolazione (attitudine della variabile ad assumere diverse modalità ) la sintesi dovrà essere in grado di graduare più fenomeni in termini di dispersione, variabilità, cambiamenti, accentramenti rispetto alle osservazioni, stabilità, affidabilità, precisione etc.
- forma → aspetto complessivo della distribuzione di frequenza rispetto alla configurazione standard, la sintesi dovrà misurare la simmetria della distribuzione, accentramento, appiattimento Gli indici statistici possono essere di tre tipologie:
- INDICI ASSOLUTI: misure che possono variare liberamente da un minimo ad un massimo, anche infiniti, ed i cui valori dipendono strettamente dalla natura della variabile che si sta esaminando. Gli indici assoluti sono espressi tramite l’unità di misura della variabile in oggetto
- INDICI RELATIVI: sono misure svincolate dall’unità di misura perché costituiscono rapporti tra indici assoluti, oppure rapporti tra indici assoluti e loro valori estremi. Sono numeri “puri” e sono utili per confrontare fenomeni logicamente comparabili
4. Indici statistici di posizione
bisogna controllare se ed in quale misura gli interventi programmati abbiano prodotto i risultati sperati, ciò significa valutare gli effetti complessivi indotti da una causa nota ⤵ serve un indice che sintetizzi l’intera distribuzione di frequenza e che consenta il passaggio da più informazioni a un solo numero (la sola media aritmetica non basta) Il concetto di media ci sono diversi criteri per il calcolo della media:
- INTERNALITÀ ( Cauchy ) → una variabile X è qualunque valore reale M intermedio tra il min (x) e il max (x) di una distribuzione di frequenza, tale che: 𝑚𝑖𝑛(𝑥) ≤ 𝑀 ≤ 𝑚𝑎𝑥(𝑥) tale requisito è detto criterio dell’internalità ma rappresenta più un controllo delle definizioni successive che una soluzione operativa
- RAPPRESENTANZA ( Chisini ) → di una variabile X è quel valore M intermedio tra il min (x) e il max (x) il quale, rispetto ad una funzione sintetica delle osservazioni ne lascia inalterato il valore: 𝑓(𝑥1, 𝑥2....., 𝑥𝑛) = 𝑓(𝑀; 𝑀;.... 𝑀) il criterio di rappresentanza deve avere anche il criterio di Cauchy se si verifica trovare un unico valore M che quando sostituisco alle modalità xi di ogni unità statistica, non cambia la predetta funzione La media può essere fatta solo con caratteri quantitativi MEDIA ARITMETICA = viene indicata con il simbolo μ, è ottenuta con il criterio della rappresentatività di Chisini definendo la funzione 𝑓(𝑥1, 𝑥2,... 𝑥𝑛)come somma delle modalità (x1,x2..xn) 𝑠𝑒 𝑓(𝑥1, 𝑥2... 𝑥𝑛) = 𝑥1 + 𝑥2 +..... 𝑥𝑛 = tale criterio implica che: (sono n x) 𝑖= 𝑛 ∑ 𝑥𝑖, 𝑓(𝑥1, 𝑥2,.... 𝑥𝑛) = 𝑓(μ, μ,....., μ) → → (moltiplico la media per n volte) 𝑖= 𝑛 ∑ 𝑥𝑖 = μ + μ +.... + μ 𝑖= 𝑛 ∑ 𝑥𝑖 = 𝑛 * μ si può trarre quindi che → (sommo tutto e divido per il numero di variabili, calcolo media) in termini di frequenza relativa 𝑓𝑗 = 𝑛𝑗/𝑛: μ = 𝑗
Proprietà e difetti della media aritmetica Le proprietà della media sono:
- la media aritmetica è sempre compresa tra il minimo e il massimo delle modalità
- SCARTI DELLA MEDIA = le quantità (𝑥𝑖 − μ)(sottraggo la media a ogni variabile x1,x2…) [la somma della media è nulla] quindi | minimizzazione degli scarti ↴ essendo che (vedi sopra) ne segue che: 𝑖= 𝑛 ∑ 𝑥𝑖 = 𝑛μ 𝑖= 𝑛 ∑ (𝑥𝑖 − μ) = 𝑖= 𝑛 ∑ 𝑥𝑖 − 𝑖= 𝑛 ∑ μ = 𝑖= 𝑛 ∑ 𝑥𝑖 − 𝑛μ = 𝑛μ − 𝑛μ = 0 questa cosa è rilevante perché mostra che la media aritmetica costituisce il baricentro della distribuzione di frequenza (alcuni scarti saranno positivi, altri nulli, altri negativi); μcostituisce il punto di equilibrio tra scarti negativi e positivi μ = 1 𝑛 𝑖= 𝑛 ∑ 𝑥𝑖 = 𝑖= 𝑛 ∑ 𝑥𝑖 𝑛 =^ 𝑥1+𝑥2+...+𝑥𝑛 𝑛
- LINEARITÀ: se X ha media matematica μ, allora la variabile trasformata in α + β𝑋 ha media aritmeticaα + βμ [le variabili saranno ( α + β𝑥1, α + β𝑥2......, α + β𝑥𝑛)] ↴ 1 𝑛 𝑖= 𝑛 ∑ (α + β𝑥𝑖) = β( 1 𝑛 𝑖= 𝑛 ∑ 𝑥𝑖) + 1 𝑛 𝑖= 𝑛 ∑ α = βμ + 1 𝑛 * 𝑛𝑎 = α + βμ o (1/𝑛)Σ𝑖(α + β𝑥𝑖) = α + β(1/𝑛)Σ𝑖𝑥𝑖 tale proprietà implica che → a) se si aggiunge o si sottrae alla variabile X la rispettiva media sarà modificata dallo stesso ammontare b) se la variabile X è moltiplicata per un coefficiente costante, anche la media risulta moltiplicata per lo stesso ammontare
- ADDITIVITÀ : se X e Y (due caratteri della stessa popolazione) hanno media μ𝑥 e μ𝑦, allora α𝑋 + β𝑌ha media αμ𝑥 + βμ𝑦 , (1/𝑛)Σ𝑖(𝑥𝑖 + 𝑦𝑖) = (1/𝑛)Σ𝑖𝑥𝑖 + (1/𝑛)Σ𝑖𝑦𝑖
- minimizzazione della somma degli scarti quadratici : Σ𝑖(𝑥𝑖 − μ) 2 = 𝑚𝑖𝑛𝑐Σ𝑖(𝑥𝑖 − 𝑐) 2 Σ 𝑖
2 = 𝑛μ𝑥 2 − 2𝑛𝑐μ𝑥 + 𝑛𝑐 2 = 𝑛(μ𝑥 2 − 2𝑐μ𝑥 + 𝑐 2 − μ 2 𝑥 + μ 2 𝑥) = 𝑛((𝑐 − μ𝑥) 2
- (μ𝑥 2 − μ 2 𝑥)) Media aritmetica ponderata nella media aritmetica ciascuna modalità conta alla pari delle altre (conta 1/n), non c’è una modalità che ha più peso; ma esistono situazioni in cui questa cosa non è vera. MEDIA ARITMETICA PONDERATA = somma dei prodotti tra le modalità xi ed un peso costante (cioè 1) e dividendo poi per la somma di tali pesi (cioè n) | si può definire come la somma dei prodotti delle modalità xi per pesi variabili wi e dividendo poi tale somma per la somma dei pesi di wi Attribuendo un peso non negativo wi , a ciascuna modalità x, la media aritmetica ponderata μ𝑤è definita da: μ𝑤 = 𝑥1𝑤1+𝑥2𝑤2+......𝑥𝑘𝑤𝑘 𝑤1+𝑤2+.....+𝑤𝑘 =^ 𝑖= 𝑘 ∑ 𝑥𝑖𝑤𝑖 𝑖= 𝑘 ∑ 𝑤𝑖 un’applicazione della media ponderata si ha nei NUMERI INDICE ↴ sono il rapporto tra due valori differenti di uno stesso fenomeno in circostanze differenti. Essi sono utili per confrontare l’ammontare di un fenomeno in tempi e/o luoghi differenti mediante una quantità sempre positiva (riguardano ad esempio le variazioni di prezzo ) Servono per il confronto di diversi valori di un fenomeno nel tempo. Una loro applicazione è il livello medio dei prezzi rapportato alle abitudini di acquisto che variano nel corso degli anni:
- indice di Laspeyres → calcolato in un tempo t rispetto al tempo-base 0, è ottenuto rapportando il valore monetario dei beni e servizi di ciascun tempo t con il valore monetario del tempo 0 𝐼0,𝑡 𝐿 = 𝑖= 𝑚 ∑ 𝑝𝑖𝑡𝑞𝑖 𝑖= 𝑚 ∑ 𝑝𝑖0𝑞𝑖
𝑖= 𝑚 ∑ 𝑝𝑖𝑡𝑞𝑖 𝑖= 𝑚 ∑ 𝑞𝑖 𝑖= 𝑚 ∑ 𝑝𝑖0𝑞𝑖 𝑖= 𝑚 ∑ 𝑞𝑖 è il rapporto tra la media ponderata dei prezzi al tempo t e la media ponderata dei prezzi al tempo 0, ove per entrambi i casi i pesi wi e le quantità qi0 sono note al tempo 0
- indice di Paasche → calcolato in un tempo t rispetto al tempo base 0 è ottenuto rapportando il valore monetario dei beni e servizi di ciascun tempo t con il valore monetario al tempo 0 essendo tali valori calcolati con quantità variabili del tempo t
Moda MO MODA = modalità a cui corrisponde la massima frequenza assoluta o relativa per caratteri quantitativi continui rappresentati in classi di frequenza: valore centrale dell’intervallo che presenta densità di frequenza più elevata La moda (a differenza della media) può essere determinata anche per variabili qualitative ed è un indice di posizione che non richiede calcoli per la sua determinazione ma è espresso mediante valori osservati dalla variabile. [è una modalità non una frequenza] Mediana Me MEDIANA = modalità dell’unità statistica che occupa il posto centrale nella distribuzione delle osservazioni ordinate, può essere individuata se i caratteri sono ordinabili ed è quel carattere che lascia il 50% delle osservazioni a destra e il 50% delle osservazioni a sinistra ↳ valore che bipartisce la distribuzione delle modalità ordinate 𝑥1 ≤ 𝑥2 ≤..... ≤ 𝑥𝑛; viene determinata in modo che metà delle osservazioni siano inferiori alla mediana e metà superiori 𝐹(𝑀𝑒) = 1/ Per variabili X discrete vengono definite così ↴ 𝑀𝑒 = {𝑥 (^) 𝑛+1 se n è dispari 2 , { se n è pari 𝑥 𝑛 2
- 𝑥 𝑛 2 + 2 bisogna individuare la variabile che occupa il posto centrale minimizza la somma degli scarti assoluti : Σ (è un indice resistente) 𝑖 𝑛 |𝑥𝑖 − 𝑐 | Quartili (generalizzati della mediana) QUARTILE = quel valore per cui trovo ¼ delle osservazioni a sinistra e il ¾ a destra (divido per 4) se si suddivide la numerosità della popolazione in quattro parti si individueranno 3 valori detti quartili:
- Q1, primo quartile → ¼ delle unità statistiche (25%), al di sotto di tale numero
- Q2, secondo quartile → 2/4 delle unità statistiche (50%), sono inferiori a Q2 |coincide con la Mediana
- Q3, terzo quartile → ¾ delle unità statistiche sono inferiori a Q3 (75%) Calcolo dei quantile : (il quartile è un caso speciale del quantile variabili qualitative ordinali → n dispari: 𝑀𝑒 = 𝑥(𝑛+1)/ n pari: indeterminata variabile quantitative discrete → n dispari: 𝑀𝑒 = 𝑥(𝑛+1)/ n pari: 𝑀𝑒 = (𝑥𝑛/2 + 𝑥(𝑛+1)/2)/ variabile quantitative continue espresse in classi: sia 𝐹𝑖−1 < 𝑝 ≤ 𝐹𝑖 allora 𝑥𝑝 = ℎ𝑖 + (𝑎𝑖/𝑓𝑖)(𝑝 − 𝐹𝑖−1)↴
- hi estremo inferiore della classe i
- ai ampiezza della classe i
- fi frequenza relativo della classe i
- 𝑙𝑖 = 𝑓𝑖/𝑎𝑖densità della classe i preso xp qualsiasi l’area dell’istogramma alla sinistra di xp è 𝐹𝑖−1 + (𝑥𝑝 − ℎ𝑖)𝑙𝑖 = 𝑝↴ 𝑥𝑝 = ℎ𝑖 + (1/𝑙𝑖)(𝑝 − 𝐹𝑖−1)
5. indici statistici di variabilità
servono per studiare la diversità dei fenomeni reali, si introducono alcune misure delle variabilità delle distribuzioni di frequenza. Il concetto di disuguaglianza va così differenziato:
- eterogeneità → quando si studia se le modalità sono uguali o differenti
- dispersione → quando si suppone che le modalità siano almeno ordinate
- variabilità → quando è possibile operare algebricamente con le modalità VARIABILITÀ = attitudine di un fenomeno a assumere diverse modalità. Le differenti misure di tale attitudine devono rispettare alcuni principi generali richiesti dal concetto di variabilità tra i quali quelli fondamentali e più intuitivi sono i seguenti:
- ogni indice di variabilità è sempre maggiore o uguale a 0
- ogni indice di variabilità calcolato per una distribuzione costante è 0
- aggiungendo una costante ad una variabile, l’indice di variabilità non deve cambiare Dall’altro canto la variabilità di X può assumere diversi punti di vista:
- variabilità delle singole modalità rispetto ad un valore di posizione (sintesi degli scarti tra le singole modalità)
- variabilità reciproca (sintesi delle diversità esistenti tra tutte le coppie di modalità)
- variabilità delle modalità ordinate (indici derivanti dalla funzione di ripartizione empirica)
- variabilità rispetto alle sole frequenze (sintesi della mutevolezza delle frequenze) Gli indici di variabilità sono: positivi nulli per una costante invariati rispetto a spostamenti dall’origine Variabilità rispetto ad un centro un fenomeno può variare nel tempo, sul territorio e tra i soggetti, un indice di variabilità deve misurare questi aspetti. Si può misurare la variabilità controllando se le singole unità statistiche presentano modalità più o meno stabili rispetto a un indice di posizione (rappresentativo della frequenza) esempio → prendo la media o scarti della media: 𝑥1 − μ; 𝑥2 − μ,...... 𝑥𝑛 − μ VARIANZA = indice più importante per misurare la variabilità , rappresentato con il simbolo σ 2 media aritmetica degli scarti quadratici (Xi - Media) media dei quadrati - quadrato della media σ 2 = (𝑥1−μ)^2 𝑛1+(𝑥2−μ)^2 𝑛2+........(𝑥𝑘−μ)^2 𝑛𝑘 𝑛1+𝑛2+.......+𝑛𝑘 =^ 1 𝑛 𝑖= 𝑘 ∑ (𝑥𝑖 − μ) 2 𝑛𝑖 ϵ[0, ∞) σ media dei quadrati - quadrato della media 2 = ( 1 𝑛 )^ 𝑖= 𝑛 ∑ 𝑥𝑖 2 − (( 1 𝑛 )^ 𝑖= 𝑛 ∑ 𝑥𝑖) 2 la varianza è una misura sempre non-negativa (media di quadrati); varia da un minimo che è 0 a un massimo che cresce indistintamente. Conoscendo gli estremi della variabile X la varianza non può superare varmax definita da: 𝑣𝑎𝑟 in generale 𝑚𝑎𝑥
𝑚𝑎𝑥(𝑥𝑖)−𝑚𝑖𝑛(𝑥𝑖) 2 ) 2 𝑣𝑎𝑟𝑚𝑎𝑥 = ( se la distribuzione è unimodale 𝑚𝑎𝑥(𝑥𝑖)−𝑚𝑖𝑛(𝑥𝑖) 3 ) 2 𝑉𝑎𝑟(α + β𝑋) = β 2 𝑉𝑎𝑟(𝑥) principali proprietà della varianza sono:
- è sempre un numero non negativo (maggiore o uguale a 0)
- è 0 se e solo se la variabile X è una costante , cioè assume in tutte le unità statistiche il medesimo valore
- se alla variabile X si aggiunge una costante finita c, la sua varianza non cambia
- se la variabile X si moltiplica per una costante finita b, la sua varianza viene moltiplicata per 𝑏 2
ma in modo che l’indice sia uguale) ↳il suo min è 0 il suo max è 2μ si scrive anche (formula prof) ∆ = ( 1 𝑛 (𝑛 − 1))^ 𝑖= 𝑛 ∑ 𝑗≠𝑖
Misura della concentrazione la concentrazione di una variabile X deriva dalla possibilità di trasferire l’ammontare del fenomeno da un’unità statistica all’altra avvicinandosi o allontanandosi dalla situazione di equidistribuzione dell’ammontare complessivo della variabile ⤵ la misura della concentrazione deve essere più sensibile ai trasferimenti della variabile X tra le unità statistiche nel senso che ceteris paribus se la modalità xi cresce di una quantità δ > 0e contemporaneamente un’altra modalità xj diminuisce dello stesso ammontare δallora la concentrazione deve aumentare Con la mutua variabilità, la concentrazione varia tra due estremi:
- CONCENTRAZIONE MINIMA → l’ammontare complessivo della variabile è ripartito in misura uguale tra tutte le unità che, quindi, presentano modalità pari alla media
- CONCENTRAZIONE MASSIMA → quando l’ammontare complessivo è posseduto da una sola unità statistica Nella realtà esistono casi in cui delle unità statistiche possiedono la variabile in misura superiore alla media ed altre in misura inferiore. [ci si pone l’obiettivo di valutare situazioni reali in rapporto a questi due casi limite] Dopo aver ordinato le modalità della variabile trasferibile X in senso non-decrescente: 𝑥1 ≤ 𝑥2 ≤..... ≤ 𝑥𝑛si indichi con: 𝑝𝑖 = , la frazione cumulata dei primi i redditieri, i = 1,2,....,n 𝑖 𝑛 𝑞𝑖 = 𝑗=1 la frazione cumulata del reddito posseduto dai primi i redditieri, i = 1,2,....,n 𝑖 ∑ 𝑥𝑗 𝑗= 𝑛 ∑ 𝑥𝑗
1 𝑛μ 𝑗= 𝑖 ∑ 𝑥𝑗 Una rappresentazione grafica (della concentrazione) si ottiene ponendo in ascissa i valori pi e in ordinata i valori qi per i = 0,1,2,......n convenendo che p0 = q0 = 0. Unendo tali punti si ottiene la spezzata di concentrazione che nel continuo è nota come CURVA DI LORENZ il punto p1,q1 indica l’individuo più povero le differenze (𝑝𝑖 − 𝑞𝑖) ≥ 0, 𝑖 = 0, 1, 2...., 𝑛sono misure della concentrazione perché la concentrazione aumenta in modo diretto con il valore di tali differenze Corrado Gini propose come misura delle disuguaglianze dei redditi la media aritmetica di tali differenze normalizzate, cioè delle quantità: ponderate con 𝑝𝑖−𝑞𝑖 𝑝𝑖 , 𝑖 = 1, 2,...., 𝑛 − 1 pesi pi mediante l’espressione ↴ 𝑖=1 semplificando viene così: 𝑛− ∑ ( 𝑝𝑖−𝑞𝑖𝑝𝑖 )𝑝𝑖 𝑖= 𝑛− ∑ 𝑝𝑖 INDICE DI GINI: definito anche così (libro)
si calcola o facendo la differenza semplice media/ 2μ oppure come la somma delle differenze pi-qi diviso la somma delle quote di popolazione 𝑅 = (prof) ∆ 2μ ∈ [0, 1] R coincide con il rapporto tra l’area di concentrazione (l’area fra la curva di Lorenz e la retta di equidistribuzione) e l’area di massima concentrazione (1/2) Il rapporto di concentrazione Gini coincide con la differenza semplice media normalizzata rispetto al suo massimo DEVIAZIONE STANDARD → σ𝑥 ≤ ↴ (𝑚𝑎𝑥 𝑋−𝑚𝑖𝑛𝑋) 2 =^ 𝑅𝑎𝑛𝑔𝑜 2 𝑌 = 𝑋 − 𝑅𝑎𝑛𝑔𝑜 2 ∀𝑖: 𝑦𝑖 ≤ 𝑅𝑎𝑛𝑔𝑜 2 4 è sempre minore o uguale della metà del rango e sempre maggiore o uguale di |μ − 𝑀𝑒| Dispersione delle variabili qualitative Lo studio della disuguaglianza tra variabili qualitative non è semplice in quanto la costruzione di qualsiasi misura deve stabilire quanto vale la diversità fra modalità che non sono numeriche, due proposte:
- variabili ordinarie → ipotizza che la distanza numerica fra modalità differenti sia pari (o proporzionale) alla distanza delle posizioni che occupano tali modalità nella graduatoria
- qualsiasi tipo di variabile → la distanza vale 1 o 0 a seconda delle modalità una misura di diversità per una variabile ordinale X che assume k modalità distinte può essere definita tramite la differenza semplice media tra le posizioni che le modalità assumono, moltiplicate per le frequenze assolute cioè: 𝐷 *= → dove Fi =f1+f2+....fi è la funzione di ripartizione empirica di X 𝑖≠𝑗= 𝑘 ∑ |𝑖−𝑗|𝑛𝑖𝑛𝑗 𝑛(𝑛−1) 𝐷 *= 2^ 𝑖= 𝑘− ∑ 𝐹𝑖(1 − 𝐹𝑖) Tale misura è minima se tutta la popolazione è concentrata in una sola modalità e massima se si bipartisce tra due modalità. Il corrispondente INDICE NORMALIZZATO DI LETI è: 𝐷 = 4 𝑘− 𝑖= 𝑘− ∑ 𝐹𝑖(1 − 𝐹𝑖) se la numerosità della popolazione è dispari tali indice andrebbe diviso per (1 − 1/𝑛 2 ) Indici di eterogeneità Per rispondere al problema della misura delle variabilità per variabili qualitative, Gini nel 1912 ha definito mutabilità come l’attitudine di un carattere ad assumere differenti modalità qualitative. ⤵ così la mutabilità è la possibilità di variare per una variabile qualitativa tra una perfetta omogeneità e qualche eterogeneità ETEROGENEITÀ: misura la variabilità delle frequenze relative 𝑓𝑖, 𝑖 = 1, 2,.... 𝑘senza coinvolgere le modalità o gli attributi della variabile X, quantitativa o qualitativa Una distribuzione di frequenza di una variabile X , qualitativa oppure quantitativa, presenta k attributi o modalità distinte:
- minima eterogeneità → si verifica quando allorquando tutte le frequenze relative sono accentrate in una sola modalità, l’indice di eterogeneità è pari a zero
- massima eterogeneità → si verifica quando le frequenze relative si distribuiscono in parti esattamente eguali tra le k modalità (frequenza relativa sempre uguale a ), in tal caso l’indice di 1 𝑘
VARIABILE STANDARDIZZATA = per ogni variabile X non costante (non degenere) la variabile standardizzata Z = Z(X) è definita dalla seguente trasformazione lineare (cioè di primo grado in X): 𝑍 = → la serie diventa 𝑋−μ σ (𝑥1, 𝑥2,.... 𝑥𝑛)^ (^ 𝑥1−μ σ ,.....^ 𝑥𝑛−μ σ ) media e varianza di Z sono derivabili: μ 𝑧
1 𝑛 𝑖= 𝑛 ∑ 𝑧𝑖 = 1 𝑛 𝑖= 𝑛 ∑ ( 𝑥𝑖−μ σ ) =^ 1 σ [^ 1 𝑛 𝑖= 𝑛 ∑ (𝑥𝑖 − μ)] = 1 σ * 0 = 0 σ 𝑧
1 𝑛 𝑖= 𝑛 ∑ (𝑧𝑖 − μ𝑧) 2 = 1 𝑛 𝑖= 𝑛 ∑ (𝑧𝑖 − 0) 2 = 1 𝑛 𝑖= 𝑛 ∑ ( 𝑥𝑖−μ σ − 0) 2 = 1 σ^2
[
1 𝑛 𝑖= 𝑛 ∑ (𝑥𝑖 − μ) 2 ] = 1 σ^2 σ 2 = 1 INDICE DI ASIMMETRIA DI FISHER= è definito come la media aritmetica delle terze potenze della variabile standardizzata: 𝑌 = se Y è positivo → asimmetrica positiva 1 𝑛 𝑖= 𝑛 ∑ (𝑧𝑖) 3 = 1 𝑛 𝑖= 𝑛 ∑ ( 𝑥𝑖−μ σ ) 3 = 1 𝑛 𝑖= 𝑘 ∑ ( 𝑥𝑖−μ σ ) 3 𝑛𝑖 se Y è negativo → asimmetrica negativa se Y è nullo → perfettamente simmetrica Curtosi Un altro aspetto importante della distribuzione è il PEAKEDNESS ovvero un maggiore o minore accentramento su di una modalità e conseguentemente il peso più o meno accentuato delle code rispetto alla parte centrale della distribuzione. ⤵ si tratta di verificare se la distribuzione di frequenza sia più o meno “appuntita” per qualche modalità oppure all’opposto tenda ad essere piuttosto piatta INDICE CURTOSI DI PEARSON = è definito come la media aritmetica delle potenze della variabile standardizzata: β = 1 𝑛 𝑖= 𝑛 ∑ (𝑧𝑖) 4 = 1 𝑛 𝑖= 𝑛 ∑ ( 𝑥𝑖−μ σ ) 4 𝑛𝑖 Per tale indice sono valide alcune proprietà:
- per una particolare distribuzione teorica ( Gaussiana ) β = 3
- per le distribuzioni di frequenza più appuntite ( leptocurtica ) l’indice è > 3
- per distribuzioni più piatte l’indice è < 3 ( platicurtica )
- per qualsiasi variabile X β ≥ 1
- l’indice β della variabile X coincide con l’indice βdella variabile X + b per qualsiasi costanti a e b Metodi esplorativi a partire dagli anni 60’ sono stati introdotti diverse tecniche statistiche di tipo descrittivo, viene introdotto un grafico a scatola detto BOX PLOT il box plot si costruisce nel seguente modo:
- in un asse prefissato si individuano delle barre in corrispondenza della mediana dal 1° e del 3° quartile che poi si chiudono fino a formare una scatola. [le linee esterne che si dipartono dalla scatola si chiamano “baffi”
( whisker s) per cui la rappresentazione spesso viene chiamata grafico a baffi]
- poi determina le linee che escono dalla scatola nelle due direzioni opposte fino agli estremi (oppure fino a distanza 1.5IQR rispettivamente dal primo al terzo quartile costituendo quelle che si definiscono “cerniere” o “cardini”
- per confrontare box-plot della medesima variabile di gruppi differenti si può dimensionare la “scatola” in modo che la sua area si proporzionale al numero dei dati a confronto il box plot è utile perché evidenzia tutti gli aspetti di una distribuzione di frequenza (in termini di posizione, variabilità e forma): - indica la posizione tramite la mediana
- indica la variabile tramite l’ ampiezza della scatola
- indica la asimmetria tramite il posizionamento della mediana all’interno della predetta scatola Trasformazione delle variabili è importante (soprattutto per lo studio dell’Inferenza statistica) lavorare con variabili che siano simmetriche ed unimodali e per ottenere almeno la simmetria della distribuzione, può essere opportuno trasformare i dati originari. [proposta G.Box e D.Cox include anche radice quadratica, cubica, logaritmica etc.] ↴ TRASFORMAZIONE DI BOX-COX: è definita in funzione di un parametro reale 𝑥𝑖(λ) = { 𝑥𝑖λ− λ ,^ 𝑝𝑒𝑟 λ ≠ 0^ 𝑖 = 1, 2,....., 𝑛 { 𝑙𝑜𝑔(𝑥𝑖), 𝑝𝑒𝑟 λ = 0 in sostanza si tratta di considerare la potenza λ-esima (se λè differente da 0) oppure il logaritmo neperiano (logaritmo naturale) dei dati (se λ = 0). La determinazione di λpuò essere ottenuta con metodi esplorativi o inferenziali ma, in questa sede, si suggerisce una rappresentazione grafica. Se alcune variabili X sono negative bisogna aggiungere una costante xi ai dati in modo che tutte le osservazioni diventino positive. Poiché spesso la migliore trasformazione λper la variabile X è collocata tra -1 e +1 si trasformano i dati per un certo numero di valori di λ.
7. distribuzioni statistiche multiple
Lo studio di possibili relazioni tra variabili è un obiettivo fondamentale di qualsiasi ricerca empirica allo scopo di interpretare, prevedere, simulare e controllare i fenomeni reali. Bisogna analizzare anche il contemporaneo presentarsi delle modalità di più variabili. [determino un rapporto di causa effetto] DISTRIBUZIONE MULTIPLA: quando su ogni unità statistica appartenente ad una determinata popolazione si rilevano più variabili si parla di distribuzione multipla (doppia, tripla..) ↳si deve poi studiare l’ associazione tra variabili basato sulle frequenze, e alla fine all’ analisi della correlazione che è possibile solo per variabili quantitative Distribuzioni doppie di frequenza quando le variabili oggetto di studio sono due si indicano con X e Y [studio due variabili]:
- variabile doppia qualitativa → sono entrambe qualitative (es: Genere, Colore di capelli)
- variabile doppia quantitativa → se entrambe sono quantitative (es: Peso, Altezza)
- variabile doppia mista → se sono una quantitativa e una qualitativa (es: Peso, Colore degli occhi) la collezione sarà: (𝑥1; 𝑦1), (𝑥2; 𝑦2), (𝑥3; 𝑦3)...(𝑥𝑛; 𝑦𝑛) SERIAZIONE = si ha se di ciascuna coppia di modalità sono disponibili le frequenze