Analisi Statistica: Indici, Misure di Variabilità e Correlazione | Appunti di Probabilità e Statistica

SINTESI STATISTICA

fi: frequenza con modalità i-esima

rfi: frequenza relativa di una modalità, è la frequenza di questa modalità rapportata al tot. delle frequenze

Nr Indici a base fissa: 1It = Xt/X1 i termini delle serie vengono rapportati alla stessa base (spesso il primo

della serie. Il simbolo a sx indica il periodo base, quello a dx il periodo di rif. del calcolo. Per convenzione i

NI vengono interpretati su base 100

I NI con base fissa, ad es con base X1, possono essere trasformati in NI con diversa base fissa, ad es base

X2, dividendoli per 1I2….1It/1I2=2It cioè dividiamo ogni indice con il nuovo indice base.

NI a base mobile: t-1It=Xt/Xt-1…indice al tempo t con base t-1 è = al rapporto fra il valore al tempo t e il

valore al tempo t-1

Sottraendo 100 da un NI a base mobile si ottiene la variaz.% del fenomeno risp. al tempo preced.

NI a base mobile da il rapporto risp all’anno precedente; NI a base fissa risp all’anno base. (come fare per

capire questa variaz.? Verifico di quanto questo indice è sopra o sotto a 100 e da questo si riesce a capire

quant’è la variazione).

Da base fissa a base mobile: 1It/1It-1=t-1It…per passare da una serie di indici a base fissa alla

corrispondente serie di indici a fase mobile è suff dividere ciascun indice a b.f. per l’I precedente.

Da base mobile a base fissa: 1It=1I2*2I3*…t-1I1 prima devo trasformare i NI su scala unità, poi occorre

moltiplicare fra loro gli I a b.m. dal tempo 2 fino al tempo considerato.

N.B.: sugli Indici sono vietate le addizioni e sottrazioni, si fanno solo moltiplicaz. e divisioni.

NI composti: sintetizzano mediante una unica serie di NI le variaioni relative di diverse serie storiche. E’

opportuno assegnare un peso (g) a ciascuna serie, calcolando quindi una media ponderata, es: inflazione.

Metodo Laspeyres: il sistema di pesi (paniere) viene mantenuto fisso (solitamente al tempo base) per tutti i

periodi della serie storica, se stiamo calcolando l’I composto dei prezzi del 2012 con base 1995 utilizziamo

il paniere del 1995. 1It composto= E[(1It)*g1]/E g1 I con base 1 al tempo t dato dalla media ponderata di

tutti gli I con base t al tempo 1 ponderato con un sistema di pesi fermo al tempo 1.

Metodo Paasche: il paniere è variabile di anno in anno, es: se stiamo calcolando l’I composto dei prezzi del

2012 con base 1995 utilizziamo il paniere del 2012. . 1It composto= E[(1It)*gt]/E gt cambia l’anno di

riferimento del peso cioè del paniere.

Deflazionamento: dividere i prezzi del prodotto o fatturato considerato per gli indici dell’inflazione.

Medie: Analitiche (su fenomeni quantitativi: aritmetica, geometrica, quadratica, ecc.) – di Posizione dei

Valori (fanno rif. ad una successione di valori ordinati: Mediana (su fenomeni quantitativi e qualitativi

ordinali come percentili, terzili, quartili) e Moda

Media aritmetica semplice: EXi/n somma dei valori divisa per il nr. dei valori.

Media aritmetica Ponderata: obblig. quando i dati sono presentati in una distribuzione di frequenze dove a

ogni modalità corrisponde una certa numerosità di unità statistiche (pesi) – opportuna quando si ritiene utile

ponderare i valori con un opportuno sistema di pesi. X1*p1+X2*p2+…Xn*Pn = E(Xi*pi)/Epi. Se il

fenomeno è in classi ed è continuo, non si hanno valori precisi degli Xi, si considerano come Xi i valori

centrali delle classi. Per classi aperte si fissano in modo ragionevole gli estremi.

Media quadratica(rms): utile quando ci sono valori positivi e negativi. rms= radq[E(Xi)^2/n] 1) si alzano al

qu. tutti i valori 2) si calcola la media dei quadrati, cioè la somma dei valori al qu. diviso n numero di (non

dei) valori 3) si estrae la radice q. di questa media.

Media geometrica(Mg): si calcola per ottenere una tasso medio di interesse o del tasso medio di incremento

o decremento. Mg= rad n (X1*X2*…Xn) ovvero la potenza della rad è = al nr. dei valori, calcolo la radice

n-esima del prodotto dei singoli valori, dentro la radice devo prima inserire il fattore montante (+1), non

dimenticarsi di portare il fattore percentuale al fattore unità, al termine del prodotto riportarlo al fattore %

(-1) * 100 e diviso la potenza della radice. Il risultato finale va scritto con la %.

Anteprima parziale del testo

Scarica Analisi Statistica: Indici, Misure di Variabilità e Correlazione e più Appunti in PDF di Probabilità e Statistica solo su Docsity!

SINTESI STATISTICA

fi: frequenza con modalità i-esima rfi: frequenza relativa di una modalità, è la frequenza di questa modalità rapportata al tot. delle frequenze

Nr Indici a base fissa: 1It = Xt/X1 i termini delle serie vengono rapportati alla stessa base (spesso il primo della serie. Il simbolo a sx indica il periodo base, quello a dx il periodo di rif. del calcolo. Per convenzione i NI vengono interpretati su base 100 I NI con base fissa, ad es con base X1, possono essere trasformati in NI con diversa base fissa, ad es base X2, dividendoli per 1I2…. 1It/1I2=2It cioè dividiamo ogni indice con il nuovo indice base. NI a base mobile: t-1It=Xt/Xt-1 …indice al tempo t con base t-1 è = al rapporto fra il valore al tempo t e il valore al tempo t- Sottraendo 100 da un NI a base mobile si ottiene la variaz.% del fenomeno risp. al tempo preced. NI a base mobile da il rapporto risp all’anno precedente; NI a base fissa risp all’anno base. (come fare per capire questa variaz.? Verifico di quanto questo indice è sopra o sotto a 100 e da questo si riesce a capire quant’è la variazione). Da base fissa a base mobile: 1It/1It-1=t-1It …per passare da una serie di indici a base fissa alla corrispondente serie di indici a fase mobile è suff dividere ciascun indice a b.f. per l’I precedente. Da base mobile a base fissa: 1It=1I22I3…t-1I1** prima devo trasformare i NI su scala unità, poi occorre moltiplicare fra loro gli I a b.m. dal tempo 2 fino al tempo considerato. N.B.: sugli Indici sono vietate le addizioni e sottrazioni, si fanno solo moltiplicaz. e divisioni.

NI composti: sintetizzano mediante una unica serie di NI le variaioni relative di diverse serie storiche. E’ opportuno assegnare un peso (g) a ciascuna serie, calcolando quindi una media ponderata, es: inflazione. Metodo Laspeyres: il sistema di pesi (paniere) viene mantenuto fisso (solitamente al tempo base) per tutti i periodi della serie storica, se stiamo calcolando l’I composto dei prezzi del 2012 con base 1995 utilizziamo il paniere del 1995. 1It composto= E[(1It)g1]/E g1* I con base 1 al tempo t dato dalla media ponderata di tutti gli I con base t al tempo 1 ponderato con un sistema di pesi fermo al tempo 1. Metodo Paasche: il paniere è variabile di anno in anno, es: se stiamo calcolando l’I composto dei prezzi del 2012 con base 1995 utilizziamo il paniere del 2012.. 1It composto= E[(1It)gt]/E gt* cambia l’anno di riferimento del peso cioè del paniere. Deflazionamento: dividere i prezzi del prodotto o fatturato considerato per gli indici dell’inflazione.

Medie: Analitiche (su fenomeni quantitativi: aritmetica, geometrica, quadratica, ecc.) – di Posizione dei Valori (fanno rif. ad una successione di valori ordinati: Mediana (su fenomeni quantitativi e qualitativi ordinali come percentili, terzili, quartili) e Moda Media aritmetica semplice: EXi/n somma dei valori divisa per il nr. dei valori. Media aritmetica Ponderata: obblig. quando i dati sono presentati in una distribuzione di frequenze dove a ogni modalità corrisponde una certa numerosità di unità statistiche (pesi) – opportuna quando si ritiene utile ponderare i valori con un opportuno sistema di pesi. X1p1+X2p2+…XnPn = E(Xipi)/Epi. Se il fenomeno è in classi ed è continuo, non si hanno valori precisi degli Xi, si considerano come Xi i valori centrali delle classi. Per classi aperte si fissano in modo ragionevole gli estremi. Media quadratica(rms): utile quando ci sono valori positivi e negativi. rms= radq[E(Xi)^2/n] 1) si alzano al qu. tutti i valori 2) si calcola la media dei quadrati, cioè la somma dei valori al qu. diviso n numero di (non dei) valori 3) si estrae la radice q. di questa media. Media geometrica(Mg): si calcola per ottenere una tasso medio di interesse o del tasso medio di incremento o decremento. Mg= rad n (X1X2…Xn)** ovvero la potenza della rad è = al nr. dei valori, calcolo la radice n-esima del prodotto dei singoli valori, dentro la radice devo prima inserire il fattore montante (+1), non dimenticarsi di portare il fattore percentuale al fattore unità, al termine del prodotto riportarlo al fattore % (-1) * 100 e diviso la potenza della radice. Il risultato finale va scritto con la %.

Mediana(Me): valore che si trova direttamente in mezzo alla successione dei valori (quantitativi e qualitativi) dopo aver ordinato i valori in senso cresc. o decres. E’ preceduta dal 50% dei valori è seguita dal 50% dei valori, spartiacque. La media risente dei valori alti/bassi, spostandosi in una distribuzione di valori lungo la coda, la mediana no. Con n dispari una sola mediana (n+1)/2 ; con n pari valori corrisp alle 2 unità n/2 e (n/2)+ Moda(Mo): la modalità più frequente, n corrisponde alla massima frequenza. Con + dati di max frequenza si parla di Distribuzioni Bimodali. Percentile: il percentile di ordine p (100p) è il valore Xp che divide in 2 parti non uguali fra loro la distribuzione ordinata in modo che il p% dei valori sia prima di Xp. Il 50mo percentile corrisponde alla mediana. Il 25mo percentile al 1mo quartile (Q1). Il 75mo percentile al terzo quartile (Q3).

MISURE DI VARIABILITÀ : una media sintetizza un gruppo di dati in unico valore, questa operazione comporta perdita di informazioni. Due campioni possono fare riscontrare la stessa media, pur a fronte di situazioni molto diverse. Le misure di variabilità sono indicatori in grado di valutare in modo sintetico le differenze tra i valori di un gruppo di dati. Non assumono mai valori negativi, sono pari a 0 se il fenomeno non presenta variabilità. Presentano valori crescenti all’aumentare della variabilità. Range: Xmax-Xmin è la differenza fa il valore max ed il valore min tra quelli osservati. Deviazione Standard o Scarto Quadratico Medio (SD o sigma): si basa sugli scarti tra i singoli valori e la loro media aritmetica Xi-M Non sarebbe possibile utilizzare la media aritmetica degli scarti poiché la loro somma algebrica è sempre nulla. Si può invece impiegare la media dei quadrati degli scarti (rms). Deviazione standard della popolazione: media quadratica degli scarti di ogni valore della popolazione dalla media aritmetica della popolazione SD=radq[E(Xi-u)^2/n]. La SD è espressa nella stessa unità di misura dei valori del fenomeno. Calcolo: individuando ogni scarto dalla media quindi X-la media, poi questi scarti vanno elevati al quadrato, si fa la somma di tutti questi quadrati e la si divide per n, cioè il nr. dei valori considerati. Dopodichè si mette tutto il risultato sotto radice quadrata. Deviazione standard del campione: media quadratica degli scarti di ogni valore dal campione dalla media aritmetica campionaria SD=radq[E(Xi-X)^2/(n-1)]. Unica eccezione si ha quando ho valori o costanti con segni negativi: moltiplico per un valore negativo. La media ovviamente cambia di segno, la SD non risulta moltiplicata per -1 per quella regola che stabilisce che tutti gli indicatori di variabilità partono da 0 e assumono solo valori positivi. Varianza: è il quadrato della SD, non è espressa nella stessa unità di misura del fenomeno considerato, ma nel quadrato di questa unità di misura. Differenza Interquartile: è la differenza tra il 75mo e il 25mo percentile. Utile quando la distribuzione ei valori non è approssimabile con la distribuzione normale. Coefficiente di Variazione (CV): rapporto tra la SD e la media aritmetica CV= SD/M solitamente CV viene moltiplicato per 100 per agevolarne la lettura, si interpreta quindi come la % della SD sulla media. Utile nel confronto tra variabilità calcolate su fenomeni con unità di misura differenti o con ordine di grandezza diversi (es. spesa alimentari vs spesa farmaceutici). Perde di significato se il fenomeno può presentare valori negativi e positivi, in questo caso la media può risultare molto prossima allo 0. Indici di variabilità rapportati al loro massimo: idonei a risp alla damanda: la variabilità espressa da una SD, o da una varianza, è forte o debole? 1) Si identifica la situazione di max variabilità (presente quando il fenomeno assume soltanto i 2 valori più distanti fra loro). 2) Si calcola il campo di variazione teorico (differenza tra il valore max possibile e il valore min possibile) e si divide per 2. 3) Si rapporta la SD effettivamente ottenuta al valore max che esso può assumere.

CONCENTRAZIONE: è un caso particolare di variabilità in cui il fenomeno: - è perfettamente trasferibile

assume soltanto valori non negativi. L’indice più utilizzato è il rapporto di concentrazione o indice di Gini. Rapporto di concentrazione: ordinare i valori dei dati in senso crescente; calcolare le frequenze relative (fi) ossia il rapporto tra ni e il numero di (non dei) valori considerati (la fi di 5 valori sarà 0,2). Si calcolano poi le quantità relative (qi) ossia Xi/EXi (le frequenze rapportate al tot. frequenze es 30 singola frequenza/

Relazioni di interdipendenza: i fenomeni si collocano sullo stesso piano non esistendo fra loro un fenomeno antecedente e uno conseguente (es: vendita cellulari vs automobili).

Rappresentazione grafica dei dati con un diagramma di dispersione.
Calcolo degli scostamenti di ogni valore dalla media: - se a scostamenti positivi di un fenomeno corrispondono scostamenti positivi dell’altro , allora esiste una relazione diretta; - altrimenti la relazione è inversa (a scostamenti positivi dell’uno corrispondono scostamenti negativi dell’altro). Covarianza (meno importante): COV (X;Y) = E(X’iY’i)/n* è la media dei prodotti dei rispettivi scostamenti dalla media (X’i;Y’i). quando la COV assume valori + si è in presenza di una relazione diretta, valori – segnalano una relazione inversa, valori pari a 0 corrispondono all’assenza di una relazione lineare tra i 2 fenomeni. Il problema della COV è che è espresso in termini di prodotto delle unità di misura e risente dell’ordine di grandezza dei 2 fenomeni.

Il coefficiente di Correlazione Lineare (r) : è la covarianza calcolata sugli scostamenti standardizzati ovvero gli scostamenti dalla media rapportati alla deviazione standard r=E [z(Xi)z(Yi)]/n* dove z(Xi)z(Yi) prodotto per ogni coppia di valore, poi la somma di tutti questi prodotti diviso n (numero di unità statistiche considerate). Es per X : z(Xi)=Xi-M(X)/SD(x) z(X) e z(Y) sono gli scostamenti standardizzati cioè gli scostamenti dalla media di ogni valore rapportati alla SD. Standardizzazione: per un valore X, ottengo la standardizzazione facendo X-M (media) /SD che indichiamo con z. Interpretazione di r: esprime l’addensamento dei punti attorno alla retta; misura l’intensità del legame delle 2 variabili, è sempre compreso tra -1 e +1 (è pari a 1 quando si è in una situazione di perfetta correlazione positiva e vi è un forte addensamento, all’aumentare dell’1 aumenta anche l’altro con sempre la stessa entità d’aumento; è pari a - 1 quando si è in una situazione di perfetta correlazione negativa, ossia con una relazione inversa, all’aumentare di 1 diminuisce l’altro; tende ad avvicinarsi a 0 quando la relazione è piuttosto debole, non vi è vi è relazione lineare, e debole addensamento) r non cambia se si aggiunge lo stesso nr. a tutti i valori di una variabile o se si moltiplicano tutti i valori di una variabile per lo stesso nr. positivo. Le rette potranno alzarsi o le sagome allargarsi ma il rapporto tra i singoli punti in termini di associazione fra x e y rimane inalterato. L’esistenza di un elevato valore di r può attribuirsi: a una relazione di interdipendenza, a una relazione di dipendenza, alla dipendenza di entrambi i fenomeni da un terzo fenomeno (correlazione spuria). Regressione Lineare: Conoscendo il valore di X per una unità statistica si può predire il valore di Y? Quando abbiamo un r buono (sia + che -). Si considerano: una variabile dipendente (Y) chiamata Regredendo; una variabile indipendente (X) variabile esplicativa o Regressore. Regredendo e regressore sono modi alternativi per chiamare le variabili dipendenti e interdipendenti. Scopi dell’analisi di regressione: studiare come un fenomeno dipende dall’altro; comprendere se si può predire la variabile dipendente (Y) partendo dalla variabile esplicativa (X) cioè come si muove un fenomeno rispetto a movimenti dell’altro fenomeno ovvero quanto aumenta o diminuisce la variabile dipendente in corrispondenza di un aumento unitario della variabile indipendente. Dev’esserci dipendenza, non interdipendenza. Occorre una funzione interpolante, una funzione analitica che sia il più vicino possibile ai punti (Xi;Yi); interpolazione lineare ha come obiettivo l’individuazione di una retta che passi il più possibile attraverso la nuvola di punti, che sia più vicina possibile ai punti formati dalle coppie dei 2 valori, e che abbia una forma lineare, non si prendono in considerazione forme di altro tipo. Y=a+bX Parametri della funzione interpolante: l’ Intercetta a (Beta0) è il valore teorico della variabile dipendente in corrispondenza di un valore nullo della variabile esplicativa o indipendente (è il valore di Y quando X=0), ha la stessa unità di misura di Y. La Pendenza b (Beta1) (o coefficiente angolare) è l’entità della variazione teorica della variabile dipendente in corrispondenza di un incremento di una unità della variabile indipendente. E’ quindi espressa in termini di unità Y su unità di X. Infatti è la variazione verticale/ variazione orizzontale.

L’utilizzo della funzione per predire valori di Y nell’intervallo osservato dei valori di X è chiamato interpolazione , l’utilizzo della funzione per predire valori di Y all’esterno dell’intervallo osservato dei valori di X è chiamato estrapolazione. b= rSD(Y)/SD(X) pendenza; a=My-(bMx) intercetta** Per determinare i parametri della funzione interpolante, si ricorre alla condizione dei minimi quadrati. La funzione interpolante è infatti quella che rende minima la somma dei quadrati delle distanze tra i valori effettivamente rilevati di Y e i valori di Y che possono essere dedotti dalla funzione. Es: riferito alla % di frequentatori di mercati che ricordano la marca di un prodotto e all’estensione del lineare occupato da questo prodotto sugli scaffali (metri) y= 17,5 (intercetta)+ 5,3x r=+0,874 17,5(%) è la quota di frequentatori che ricordano cmq la marca di quel prodotto nell’ipotesi di assenza di questo prodotto dagli scaffali; 5,3(%) è l’aumento della quota di frequentatori che ricordano la marca di quel prodotto in corrispondenza di un incremento del lineare di 1 metro. Coefficiente di determinazione (r^2) : indica la validità della funzione adottata, è il quadrato del coefficiente di correlazione, r^2 esprime la quota di variabilità del fenomeno Y che è spiegata dalla retta di regressione, indica quanto la retta riassume l’effettivo legame tra i 2 fenomeni, assume valori compresi tra 0 e 1, più si avvicina all’unità migliore è l’adattamento della retta ai valori osservati.

RMSE(root mean square error): è la media quadratica dei residui RMSE= SD(Y)radq(1-r^2)* si tratta di una misura di quanto i valori osservati variano intorno alla retta di regressione, è un concetto di deviazione di scarto rispetto ad un media ovvero rappresenta l’errore che si commette nel predire Y con l’aiuto di X (retta di regressione), è espresso nella stessa unità di misura di Y. Il massimo valore dell’RMSE è dato dalla SD di Y.

Analisi Statistica: Indici, Misure di Variabilità e Correlazione, Appunti di Probabilità e Statistica

Documenti correlati

Anteprima parziale del testo

Scarica Analisi Statistica: Indici, Misure di Variabilità e Correlazione e più Appunti in PDF di Probabilità e Statistica solo su Docsity!