Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Statistica: Variabili Casuali, Campionamento e Inferenza, Appunti di Statistica

Appunti riguardanti la statistica descrittiva e inferenziale

Tipologia: Appunti

2022/2023

Caricato il 21/06/2023

auri.g
auri.g 🇮🇹

6 documenti

1 / 40

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Corso di statistica
La statistica si occupa dei fenomeni collettivi, un fenomeno si dice collettivo quando riguarda un insieme di
individui o entità omogenee la cui conoscenza non può essere acquisita attraverso l’analisi di singoli casi
individuali, ma richiede l’osservazione di un numero più o meno grande di essi. I fenomeni collettivi sono
caratterizzati dalla variabilità, che è una caratteristica della realtà, conseguenza della sua complessità. La
conoscenza dei fenomeni collettivi richiede l’osservazione di un numero più o meno grande di casi individuali
e la sintesi delle informazioni raccolte. La statistica si occupa allora di tutti quei fenomeni che sono
caratterizzati dalla presenza della variabilità e ha come scopo la formulazione dei metodi da seguire per
l’elaborazione di conoscenze scientifiche, cioè oggettivamente valide, concernenti i fenomeni collettivi. La
Statistica è la disciplina che si occupa dei principi scientifici a cui attenersi nella raccolta, elaborazione ed
utilizzazione di informazioni concernenti i fenomeni collettivi, allo scopo di descriverli, spiegarli e prevederne
l’andamento futuro. Essa detta i principi da applicare per l’osservazione dei fenomeni, la traduzione in numeri
di quanto osservato e la produzione dei dati statistici. Elabora inoltre i principi ed i metodi utilizzabili per
l’individuazione delle regolarità nascoste dalla variabilità ai fini dell’analisi del fenomeno.
Finalità dell’analisi possono essere descrittive, oppure esplicative, quando si vuole spiegare le relazioni
esistenti fra grandezze diverse nell’ambito di uno stesso fenomeno. Altre volte l’analisi è volta alla verifica
sperimentale di una teoria o ipotesi scientifica.
o La statistica metodologica elabora i principi ed i metodi.
o Le statistiche applicate coniugano la metodologia statistica con gli aspetti specifici dei diversi campi
di applicazione.
Si chiama collettivo statistico o popolazione l’insieme delle entità in cui uno stesso fenomeno collettivo si
manifesta. Ogni elemento dell’insieme che costituisce la popolazione o il collettivo statistico viene chiamato
unità statistica ed è il più piccolo ente in cui il fenomeno collettivo si manifesta come caso individuale.
Esempio :
FENOMENO COLLETTIVO
UNITA’ STATISTICA
POPOLAZIONE
Reddito delle famiglie umbre nel
corso del 2007
Ogni singola famiglia residente in
Umbria nel corso del 2007
miglie residenti in
Umbria nel corso del 2007
Dimensione di una popolazione :
Popolazioni finite : sono popolazioni reali, di cui si possa costruire una lista delle unità che ne fanno
parte. N indicherà il numero delle unità che ne fanno parte.
Popolazioni infinite : popolazioni astratte, costituite dalle infinite ripetizioni nelle stesse condizioni
di uno stesso esperimento che può dare luogo a risultati diversi (variabilità).
Si chiama carattere ogni aspetto elementare osservabile nelle unità statistiche di un collettivo o popolazione.
Carattere è ciò che si osserva, si registra e si misura in ciascuna unità statistica nel quadro delle finalità
dell’indagine. I caratteri possono essere osservati ad esempio su : singole persone, singole famiglie o singole
imprese.
Si chiamano modalità i diversi modi di presentarsi di un carattere nelle unità di un collettivo statistico.
Principio di esaustività : tutti possono riconoscersi in quella modalità / categoria.
Principio di unicità : solo una modalità deve essere esaustiva; quindi, le modalità non devono essere
ambigue.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28

Anteprima parziale del testo

Scarica Introduzione alla Statistica: Variabili Casuali, Campionamento e Inferenza e più Appunti in PDF di Statistica solo su Docsity!

Corso di statistica La statistica si occupa dei fenomeni collettivi, un fenomeno si dice collettivo quando riguarda un insieme di individui o entità omogenee la cui conoscenza non può essere acquisita attraverso l’analisi di singoli casi individuali, ma richiede l’osservazione di un numero più o meno grande di essi. I fenomeni collettivi sono caratterizzati dalla variabilità, che è una caratteristica della realtà, conseguenza della sua complessità. La conoscenza dei fenomeni collettivi richiede l’osservazione di un numero più o meno grande di casi individuali e la sintesi delle informazioni raccolte. La statistica si occupa allora di tutti quei fenomeni che sono caratterizzati dalla presenza della variabilità e ha come scopo la formulazione dei metodi da seguire per l’elaborazione di conoscenze scientifiche, cioè oggettivamente valide, concernenti i fenomeni collettivi. La Statistica è la disciplina che si occupa dei principi scientifici a cui attenersi nella raccolta, elaborazione ed utilizzazione di informazioni concernenti i fenomeni collettivi, allo scopo di descriverli, spiegarli e prevederne l’andamento futuro. Essa detta i principi da applicare per l’osservazione dei fenomeni, la traduzione in numeri di quanto osservato e la produzione dei dati statistici. Elabora inoltre i principi ed i metodi utilizzabili per l’individuazione delle regolarità nascoste dalla variabilità ai fini dell’analisi del fenomeno. Finalità dell’analisi possono essere descrittive, oppure esplicative, quando si vuole spiegare le relazioni esistenti fra grandezze diverse nell’ambito di uno stesso fenomeno. Altre volte l’analisi è volta alla verifica sperimentale di una teoria o ipotesi scientifica. o La statistica metodologica elabora i principi ed i metodi. o Le statistiche applicate coniugano la metodologia statistica con gli aspetti specifici dei diversi campi di applicazione. Si chiama collettivo statistico o popolazione l’insieme delle entità in cui uno stesso fenomeno collettivo si manifesta. Ogni elemento dell’insieme che costituisce la popolazione o il collettivo statistico viene chiamato unità statistica ed è il più piccolo ente in cui il fenomeno collettivo si manifesta come caso individuale. Esempio : FENOMENO COLLETTIVO UNITA’ STATISTICA POPOLAZIONE Reddito delle famiglie umbre nel corso del 2007 Ogni singola famiglia residente in Umbria nel corso del 2007 Insieme delle famiglie residenti in Umbria nel corso del 2007 Dimensione di una popolazione :  Popolazioni finite : sono popolazioni reali, di cui si possa costruire una lista delle unità che ne fanno parte. N indicherà il numero delle unità che ne fanno parte.  Popolazioni infinite : popolazioni astratte, costituite dalle infinite ripetizioni nelle stesse condizioni di uno stesso esperimento che può dare luogo a risultati diversi (variabilità). Si chiama carattere ogni aspetto elementare osservabile nelle unità statistiche di un collettivo o popolazione. Carattere è ciò che si osserva, si registra e si misura in ciascuna unità statistica nel quadro delle finalità dell’indagine. I caratteri possono essere osservati ad esempio su : singole persone, singole famiglie o singole imprese. Si chiamano modalità i diversi modi di presentarsi di un carattere nelle unità di un collettivo statistico.  Principio di esaustività : tutti possono riconoscersi in quella modalità / categoria.  Principio di unicità : solo una modalità deve essere esaustiva; quindi, le modalità non devono essere ambigue.

I caratteri si classificano data la modalità : o Qualitativi : espressi a parole (es. colore dei capelli)  Sconnessi : non c’è ordine (es. motivazione scelta di laurea)  Rettilinei : ordinati (es. titolo di studio) o Quantitativi : espressi a numeri (es. età)  Discreti : numeri interi, naturali (es. componenti di una famiglia)  Continui : numeri reali (es. statura)  Caratteri trasferibili : è un caso particolare, si ha quando si può trasferire un ammontare di un carattere da un’unità all’altra (es. reddito). Con il termine carattere ciclico si intendono i casi in cui possono essere ordinate le modalità e l’ordinamento di queste non è definito in modo assoluto ma è convenzionale (es. giorni della settimana), e quindi lo traviamo quando l’ultima modalità precede la prima (es. ora). Quando i caratteri vengono osservati si generano le variabili statistiche : Carattere quantitativo ↔ Variabile quantitativa Carattere qualitativo ↔ Variabile categorica Carattere rettilineo ↔ Variabile ordinale I valori assunti da una variabile quantitativa sono numeri I valori assunti da una variabile categorica sono attributi Alcuni caratteri possono essere rilevati con variabili di natura diversa : variabili latenti come la soddisfazione, il benessere, le fasce d’età o l’appartenenza religiosa. Ad esempio, l’età viene rilevata come carattere quantitativo discreto, ed è rilevata in anni compiuti. Si chiama frequenza di una data modalità di un carattere il numero delle unità della popolazione che presentano quella modalità (relativo alla modalità di un carattere). Le distribuzioni statistiche sono il prodotto della rilevazione di uno o più caratteri nelle unità di una popolazione o collettivo statistico (modo in cui il carattere si distribuisce sulla popolazione). DISTRIBUZIONI STATISTICHE SEMPLICI O UNIVARIATE Si segue un solo carattere (univariata), può essere una distribuzione unitaria o in forma disaggregata, ovvero un elenco unità per unità di tutte le modalità; l’elenco è lungo quanto la dimensione del mio collettivo (N). Es. x1 x2 x3 ... xi ... xN Si chiama graduatoria dei termini di una distribuzione statistica l’elenco dei termini disposti in ordine non decrescente (elenco ordinato). DISTRIBUZIONE STATISTICA SEMPLICE DI FREQUENZA Rappresenta un elenco delle modalità e per ciascuna abbiamo il conteggio per quante unità della popolazione è presentata quella determinata modalità. Es. MODALITA’ FREQUENZA M 6 F 4 10

DISTRIBUZIONE TRIPLA DI FREQUENZA

Abbiamo tante distribuzioni doppie quante sono le modalità del terzo carattere; le distribuzioni doppie in questo caso sono distribuzioni doppie condizionate perché mi focalizzo su una sola modalità. DISTRIBUZIONI STATISTICHE MULTIPLE / MULTIVARIATE IN FORMA UNITARIA E’ chiamata anche matrice dei dati , nelle righe troviamo l’unità del collettivo mentre nelle colonne abbiamo il carattere rilevato. Altre distribuzioni statistiche  DISTRIBUZIONI DI QUANTITA’ Riporta l’ammontare di un carattere. Può essere di due tipi : secondo un carattere diverso da quello della tabella (ha un’unità di misura); oppure secondo lo stesso carattere della tabella.  SERIE TERRITORIALI Stesso fenomeno rilevato in aree geografiche diverse  SERIE STORICHE Stesso fenomeno in tempi diversi.  Fenomeni di stato : hanno bisogno di un istante di tempo definito (es. ammontare della popolazione di un paese)  Fenomeni di movimento : sono costituiti da eventi che accadono del tempo, ho quindi bisogno di un intervallo di tempo per analizzarli.

RILEVAZIONE DEI DATI

La rilevazione dei dati è l'insieme delle operazioni con cui si perviene alla conoscenza delle modalità dei caratteri da osservare nelle diverse unità di un collettivo. La matrice dei dati è rilevata attraverso due tipi di studio :

  1. Studio osservazionale : definisco il mio collettivo e procedo alla somministrazione di un questionario e poi si osservano i dati; abbiamo quindi un piano della rilevazione e poi facciamo un’indagine statistica
  2. Studio sperimentale : si attua in ambito clinico e si valuta l’effetto di un trattamento, stabilisco infatti se assegnare o meno il trattamento, vado infatti a manipolare un certo carattere. Abbiamo diverse finalità dello studio : Esplorativo, studio descrittivo, esplicativo , trasversale , longitudinale; lo studio sperimentale ha quasi sempre una finalità esplicativa mentre lo studio osservazionale ha una finalità esplorativa o descrittiva. La rilevazione può essere di tre tipi :  totale o censuaria (es. tutto il collettivo)  parziale o campionaria (meccanismo casuale che mi porta a trovare un sottoinsieme)  unica, saltuaria periodica Dobbiamo notare il dettaglio dei caratteri e specificare la loro diversa natura che impatta anche sulle rispettive modalità del carattere. Lo strumento di misura dell’indagine è il questionario , che è detto anche Modello standard di rilevazione. Con il termine indagine pilota si intende un’indagine precedente a quella effettiva che ci permette di estrarre informazioni più velocemente, andiamo anche a definire quella che è la popolazione obiettivo ovvero la popolazione su cui io baso la mia indagine. Andiamo poi a definire quelli che sono i micro dati e i macro dati; i primi sono ogni singola unità statistica mentre i secondi sono le unità statistiche già aggregate. Le statistiche ufficiali sono stilate dall’ISTAT e dal SISTAN. Indici statistici per la sintesi e la presentazione dei dati la frequenza la quale è definita come il numero delle unità statistiche che presentano una data modalità, questa frequenza è detta assoluta grazia alla quale introduciamo un altro strumento di analisi: la frequenza relativa, la quale è il rapporto tra la frequenza assoluta e la numerosità del collettivo di riferimento. Essendo ni la frequenza della modalità xi del carattere X e N la dimensione del collettivo osservato, la frequenza relativa di xi, che chiameremo fi è data da : fi = ni / N Le frequenze relative sono quindi proporzionali alle dimensioni del collettivo in quanto si ottengono moltiplicando le frequenze assolute per la costante 1/N e si possono interpretare come le frequenze delle diverse modalità in collettivi di ampiezza unitaria; possiamo poi ottenere le frequenze assolute da quelle relative moltiplicandole per N; infine, la somma delle frequenze assolute è pari alla dimensione del collettivo quindi sommando tutte le frequenze relative avremo come risultato 1. Le frequenze più utilizzate sono però quelle percentuali le quali sono ottenute da quelle relative moltiplicandole per 100, queste frequenze possono essere interpretate come le frequenze proporzionali a quelle assolute delle diverse modalità in un collettivo di ampiezza 100, matematicamente : pi= fi*

La densità di frequenza Esprima la quantità di frequenza che compete ad un intervallo di ampiezza unitaria contenuto entro la classe. Si utilizza nelle distribuzioni per classi.  ampiezza della classe: di = xi -xi-1  In una distribuzione per classi secondo un carattere quantitativo continuo si dice ampiezza della classe la differenza fra l’estremo superiore e quello inferiore della classe  densità di frequenza relativa: hi= fi / di  il rapporto tra la frequenza relativa di una classe e la sua ampiezza viene denominato densità di frequenza relativa (ma anche assoluta o percentuale) ed esprime la quantità di frequenza che compete ad un intervallo di ampiezza unitaria contenuto entro la classe Da questa la densità di frequenza assoluta si ottiene moltiplicando hi per la dimensione del collettivo mentre la densità di frequenza percentuale si ottiene moltiplicando la hi per 100; grazie ad essa è possibile conoscere i valori del carattere più ricorrenti nel collettivo, infatti, basterà guardare la classe che ha la densità di frequenza più elevata in quanto le densità si possono confrontare fra loro dato che sono tutte riferite a classi della stessa ampiezza. Ipotesi di uniforme distribuzione: la frequenza dei casi che ricadono in un intervallo interno alla classe è direttamente proporzionale all’ampiezza dell’intervallo stesso. freq{ a < X < b } = hi ( b-a ) per ogni a -- b inclusi in xi-1 -- xi. Se l’intervallo si riduce ad un punto la frequenza relativa è nulla in quanto b-a = 0. Per i caratteri continui, si può parlare di frequenza relativa solo in presenza di un intervallo di valori, piccolo quanto si vuole ma mai ridotto ad un punto.  CASO DEI CARATTERI DISCRETI Nel caso in cui il carattere suddiviso in classi è discreto e ha modalità costituite da numeri intero, chiudere le classi è molto importante, applicativamente risulta più utile utilizzare la procedura e le formule del caso continuo, ciò è possibile rendendo il carattere continuo ovvero eseguendo la trasformazione di un carattere discreto in continuo (trasformazione con continuità), ciò si realizza facendo corrispondere ai valori interi X l’intervallo unitario di valori reali di estremi x-0,5 e x+0,5, ovvero si correggono le classi, in questo modo con la differenza trovo l’ampiezza della classe. La funzione di ripartizione È detta funzione di ripartizione del carattere quantitativo X la funzione che associa ad un qualsiasi numero reale x la frequenza relativa delle unità della popolazione che presentano un valore del carattere non superiore a x. La funzione di ripartizione verrà denotata con il simbolo F(x) e per definizione abbiamo: F(x)= freq{X ≤x}. Per ogni x numero reale (è un numero che va sempre tra 0 e 1) PROPRIETA’ : o Valore minimo = 0 o Valore massimo = 1 o Funzione non decrescente in quanto i valori della funzione non possono mai diminuire

o daƟ due valori reali a e b, la frequenza relaƟva dei casi compresi nell’intervallo aperto a sinistra a | b è data dalla espressione : freq{a < X ≤ b }= F(b) - F(a) , e cioè dalla differenza tra il valore della funzione di ripartizione in b e quello in a. Dall’ultima proprietà discende ad esempio che il complemento ad 1 di F(x), e cioè la quantità 1- F(x), fornisce la frequenza dei casi che superano il valore x considerato. Ci sono due tipi di rappresentazione grafica per i caratteri quantitativi divisi in classi :

  1. Funzione di ripartizione (F)  legata alla frequenza cumulata
  2. Istogramma di frequenza (H)  legata alla densità di frequenza Questi sono molto utili quando le classi non sono della stessa ampiezza; in questi grafici vi è rappresentata sull’asse delle X le classi e sulle Y le densità di frequenza, da essi possiamo ricavare la frequenza relativa di ogni classe in quanto essa è data dall’area del rettangolo che rappresenta la classe, la somma di tutti loro da 1 ovvero la somma di tutte le frequenze relative Rapporti statistici Le frequenze relative e percentuali fanno parte della più ampia classe di strumenti d’analisi dei rapporti statistici; genericamente: Essi sono rapporti tra grandezze riguardanti fenomeni collettivi, i quali consentono la comparazione di situazioni diverse e rende più facilmente interpretabili le intensità dei fenomeni; le grandezze messe nei rapporti sono micro-dati, ovvero ricavati da conteggi o somme di dati elementari; infine, un rapporto a senso fintanto che vi sia un legame logico fra le intensità messe a rapporto. I rapporti statistici si dividono in più categorie ovvero vi sono i:
  • Rapporti di composizione,
  • Rapporti di coesistenza,
  • Rapporti di derivazione,
  • Rapporti medi. RAPPORTI DI COMPOSIZIONE Rapporti tra una parte e il tutto (es. quota dei maschi in un’aula). Valori sempre compresi tra 0 e 1 (in percentuale sono sempre compresi tra 0 e 100), i rapporti sono uguali a 0 quando la parte non c’è; i rapporti sono uguali a 1 quando la parte è uguale al tutto. RAPPORTI DI COESISTENZA Rapporti tra una parte e un’altra parte (es. numero di maschi in rapporto con il numero delle femmine), il valore di equilibrio è 1 o 100 se in percentuale:  Se A=B =  Se A>B = >  Se A<B = <
  1. PASSAGGIO DA BASE MOBILE A BASE FISSA : Il numero indice a base fissa del tempo t si ottiene moltiplicando quello del tempo t-1 per il numero indice del tempo t in base mobile (espresso in base = 1). Si noti che il numero dei numeri indice a base fissa che si ottengono è pari a quello dei numeri in base mobile più uno. bIt = Yt / Yb = (Yt / Yt-1) * (Yt-1 / Yb) = it * bIt- Prima di prendere it divido per cento, lo riporto in termini relativi.
  2. RICOSTRUZIONE INTENSITA’ ORIGINALI : utilizzo la proporzione, ponendo a rapporto le due intensità e i due numeri indice. Yt : Ys = (^) bIt : (^) bIs
  3. RICOSTRUZIONE SERIE PARZIALI : utilizzo sempre numeri indice a base fissa ed imposto sempre la proporzione. bIt :^ bIs =^ cIt :^ cIs (oppure con lo slittamento della base) Le rappresentazioni grafiche Queste servono per l’aiuto all’interpretazione dei fenomeni e sono diverse secondo la natura del carattere rappresentato. Il grafico deve essere esaustivo e per questo gli elementi costitutivi sono il titolo, la scale e la fonte. CARATTERE QUALITATIVO  Grafico a colonne (verticali) o a nastri (orizzontali) : le colonne o i nastri sono lunghe proporzionalmente alla frequenza, si usano anche per le serie territoriali.  Grafico a colonne contrapposte : si usano quando si vuole confrontare un fenomeno a distanza di anni , sono analoghi ai nastri contrapposti.

 Areogrammi : si svolgono in senso orario ed è per un numero di modalità limitate; sono analoghi ai grafici in pila.  Grafico standard : è simile alle colonne contrapposte ma le colonne sono a specchio, un esempio è la piramide dell’età.  Serie storiche : si usa il piano cartesiano ma si divide per il carattere di stato e quello di movimento.

valor medio robusto, e si può calcolare anche nei qualitativi rettilinei. La mediana non è influenzata dai valori estremi della distribuzione. Calcolo della mediana nelle distribuzioni per classi:

  1. Individuare la classe mediana
  2. Individuare la mediana all’interno della classe mediana ponendo 0,5 = Fi-1 + hi ( x - xi-1 ) si ricava x = xi-1 + ( 0,5 – F (^) i-1 ) / hi = Me. QUANTILI Si chiama q-esimo quantile di una distribuzione statistica semplice un valore del carattere che non è superato da una frazione q di collettivo. Regole di calcolo del quantile q-esimo con 0 < q < 1 : Per le distribuzioni unitarie si prende la modalità presentata dal termine che occupa la posizione data dalla quantità q x N arrotondata all’intero superiore. ( Caso particolare: se q x N è un numero intero si prende la semisomma del termine corrispondente e il successivo). Per le distribuzioni per classi ponendo la funzione di ripartizione a q si ottiene q = Fi-1 + hi ( x - xi-1 ) e risolvendo: x = xi-1 + ( q – Fi-1 ) / hi = xq Particolari tipologie di quantili : o Quartili : sono tre e dividono la graduatoria in quattro parti uguali. Sono : 0.25; 0.50; 0. o Decili : sono nove e dividono la graduatoria in dieci parti. Sono : 0.10; 0.20; 0.30; 0.40; 0.50; 0.60; 0.70; 0.80; 0. o Percentili : sono novantanove e dividono la graduatoria in cento parti. Sono i valori che vanno da 0.01 a 0. o Quintili : sono quattro e dividono la graduatoria in cinque parti. Sono : 0.20; 0.40; 0.60; 0. MEDIE ANALITICHE
  1. Valore medio : Si chiama valore medio rispetto alla funzione f (x1, x2, … , xn) quel valore x che sostituito a ciascun termine della distribuzione lascia inalterato il valore della funzione scelta, ovvero f ( x,x, ... , x) = f ( x1,x2, ... , xn).
  2. Media aritmetica : La media aritmetica di una distribuzione di termini è quel valore che sostituito a ciascun termine non fa cambiare il valore della funzione somma dei termini. Nelle distribuzioni unitarie si calcola mettendo a rapporto la somma di tutti i valori con la dimensione totale del collettivo.

Nelle distribuzioni di frequenza si calcola facendo la somma del prodotto tra le varie modalità e le rispettive frequenze fratto la dimensione totale del collettivo. In questo caso se non ho i valori assoluti posso moltiplicare le varie modalità (x) con la frequenza relativa (fi) sempre diviso il totale del collettivo. Nelle distribuzioni per classi bisogna trovare il valore centrale della classe e calcolo la media prendendo la formula della distribuzione di frequenza ma al posto della modalità metto il valore centrale della classe (questo e abbiamo un’ipotesi di uniforme distribuzione); con una distribuzione di quantità invece è possibile calcolare il valore esatto della media aritmetica dentro la classe ponendo a rapporto la distribuzione di quantità (Ai) con la frequenza (ni). Proprietà valori medi  Internalità : M è sempre inferiore a x1 e non superiore a xn ( x1 < M < xn)  Omogeneità : se si moltiplica ogni termine della distribuzione per una costante k, il valore medio della nuova distribuzione ottenuta è pari a quello della distribuzione originaria moltiplicato per k.  Traslativa : se ad ogni termine della distribuzione si aggiunge una stessa quantità k, si ottiene una nuova distribuzione avente media M+k. Godono di questa proprietà la moda, tutti i quantili e la media aritmetica. Proprietà tipiche della media aritmetica :

  1. Proprietà associativa : faccio la media pesata per la numerosità dei sottogruppi di ciascuna media fratto il totale.
  2. Proprietà degli scarti : la somma degli scarti (ovvero la differenza tra x1 e M1) se lo scarto è positivo vuol dire che x1 > M1; mentre se è negativo vuol dire che x1<M1. MEDIA ARITMETICA PONDERATA È la somma per i che va da 1 a k di xi * wi (è il peso). dove i pesi sono tali che wi ≥ 0 Quando si fa la media di rapporti statistici (in particolare di rapporti di composizione, quozienti di derivazione, rapporti medi, ecc.), di norma il peso da associare ad ogni rapporto è proporzionale alla quantità che figura nel denominatore. Un esempio di applicazione della media ponderata si ha con i numeri indice complessi. Con questi non si considera un solo fenomeno ma più fenomeni. Un esempio è il prezzo dei beni : il paniere dei beni rappresenta l’indice di beni. pit prezzo bene i-esimo qit quantità bene i-esimo pit * qit valore monetario bene i-esimo Numero indice del prezzo del singolo bene: pit / pib Prendendo la media aritmetica semplice dei numeri indici dei singoli beni si ottiene : Si sommano quindi tutti i numeri indice dei singoli beni e li divido per n, ottenendo così un numero indice complesso che sintetizza i numeri indice il quale però è insoddisfacente in quanto non tiene conto della diversa importanza dei beni o servizi nel mercato, va quindi utilizzata una media ponderata che tenga conto dell’importanza dei beni.

Se si conoscono gli incrementi annui bisogna utilizzare la formula dell’incremento medio annuo rispetto al periodo precedente, prendendo l’esempio applico a 100 i valori degli incrementi e arrivo a 143,7 (gli incrementi vengono applicati al periodo precedente). Gli indici di variabilità Misurano l variabilità di una distribuzione, con il termine variabilità si indica l’attitudine a mostrarsi con modalità diverse; so no quantità sempre positive (al minimo saranno 0 e ci saranno valori sempre più grandi man mano che cresce la variabilità). Per i caratteri qualitativi il collettivo si può definire omogeneo se tutte le unità presentano la stessa modalità, o eterogeneo se le unità presentano modalità diverse. Per quanto riguarda i caratteri quantitativi si parla degli intervalli di variazione o degli scostamenti medi. INTERVALLI DI VARIAZIONE

  1. Campo di variazione : C = xN - x1 ; è la differenza tra il valore massimo e il valore minimo. Rappresenta la massima differenza che osservo nella distribuzione ed è influenzato dai valori estremi.
  2. Differenza interquartilica : Q3 - Q1 (prendo solo il 50 % della distribuzione perché tolgo il 25 % iniziale e finale)
  3. Differenza interdecilica : D9 -D1 (prendo l’80% della distribuzione in quanto tolgo il 10% iniziale e finale) Negli ultimi due casi escludiamo dei valori per questo li possiamo considerare dei campi di variazione in un sottogruppo del collettivo, non del 100%. SCOSTAMENTI MEDI Rappresentano la dispersione dei dati del valore medio. La distribuzione degli scarti o degli scostamenti dalla media è data dalla differenza tra i valori della distribuzione (x1, x2, … , xn) e la media stessa.  Scostamento semplice medio : rappresenta la sommatoria degli scarti in valore assoluto (perché non può essere negativo) messa a rapporto con il totale del collettivo (N)  Scostamento o scarto quadratico medio (deviazione standard) : si utilizza quando si guardano gli scarti dalla media aritmetica; in questo caso non prendo in valori assoluti poiché, anche se negativi, diventano positivi quando sono elevati al quadrato. Nelle distribuzioni di frequenza : Nelle distribuzioni di frequenza secondo carattere quantitativo si ha una distribuzione di frequenza di scarti, nel calcolo degli scostamenti si deve quindi pesare ogni scarto con la frequenza, matematicamente:

Nelle distribuzioni per classi vado a sostituire i valori centrali o le medie di classe e si procede come nelle distribuzioni di frequenza. VARIANZA : è la media degli scostamenti dalla media al quadrato DEVIANZA : è la varianza moltiplicata per N, è la somma degli scostamenti al quadrato * ni Varianza e devianza sono sempre positive. Per calcolare la varianza si può utilizzare anche la formula : Proprietà degli indici di variabilità  Omogeneità : moltiplicando ogni termine della distribuzione per una costante k positiva, si ottiene una nuova distribuzione con indice di variabilità pari a k volte quello ottenuto con i termini della distribuzione di partenza.  Costanza : sommando una stessa costante k ad ogni termine della distribuzione si ottiene una nuova distribuzione con indice di variabilità (qui esaminati) uguale a quello ottenuto con i termini della distribuzione di partenza. Proprietà solo della varianza : o Scomposizione della varianza o della devianza : Si divida una popolazione in S sottopopolazioni ciascuna con la sua media aritmetica 𝑀𝑀 1 ℎ, varianza 𝑆𝑆 2 ℎ 2 e numerosità Nh. Allora la varianza di tutta la popolazione può essere ottenuta dalla formula nota con il nome di scomposizione della varianza: INDICE RELATIVO DI VARIABILITA’ Quando si vogliono confrontare le variabilità di due o più distribuzioni statistiche si ricorre agli indici relativi di variabilità quando non sussistono le condizioni per utilizzare quelli assoluti; quello più utilizzato è il coefficiente di variazione percentuale, il quale si costruisce mettendo a rapporto lo scarto quadratico medio della distribuzione con la media aritmetica, il tutto moltiplicato per 100; matematicamente con l’indice di relativo di variabilità indicato con Cv: Il numero che si ottiene da questo rapporto è un numero puro quindi indipendente dall’unità di misura del carattere, esso si interpreta come il valore dello scarto quadratico medio di una distribuzione avente media aritmetica 100; essendo adimensionale e indipendente dal valore della media può essere utilizzato per confrontare distribuzioni diverse in cui la variabilità è maggiore dove il coefficiente assume valori più elevati. Tale coefficiente ha però alcuni limiti, infatti è possibile interpretarlo correttamente solo per caratteri positivi con intensità non negative; si usa quindi per caratteri espressi in scala di rapporti.

Analisi della connessione tra due caratteri Si parte dalle distribuzione doppie di frequenza, calcolando poi anche i profili riga e i profili colonna avendo così le distribuzioni condizionate. Due caratteri si dicono statisticamente indipendenti se le distribuzioni di frequenza relativa o percentuale di uno di essi condizionate alle modalità dell’altro sono uguali alla rispettiva distribuzione marginale (in questo modo i profili riga o colonna non mutano). La dipendenza è un concetto simmetrico, non c’è alcuna gerarchia tra i due caratteri. Oggetti di partenza :  Tabella di contingenza con le frequenze assolute  Profili riga con S modalità (dove S è il numero delle modalità)  Profili colonna con T modalità (dove T è il numero delle modalità) La condizione d’indipendenza si ha quando : Il rapporto tra i profili riga è uguale al rapporto del totale marginale, mentre N sta a rappresentare la numerosità del collettivo. Trovando nij capisco la frequenza che avrei in caso d’indipendenza  è la frequenza teorica d’indipendenza (nij’ = stessa formula di nij). La tabella d’indipendenza è quella tabella che si va a creare con le frequenze d’indipendenza. Contingenze pesate: hanno un segno, possono essere sia negative che positive. Indice di contingenza quadratica media: è una media ponderata dei quadrati (è simile alla logica dello scostamento quadratico medio). Per fare i calcoli si può applicare una formula ridotta, trovando così phi^2  quindi per trovare phi bisogna fare la radice quadrata :

Un carattere Y si dice perfettamente dipendente da un altro carattere X se ad ogni modalità di X è associata un’unica modalità della Y. Indice di Cramer: si indica con la lettera V e i valori di V tra 0.15 e 0.40 indicano livelli di connessione notevoli. La dipendenza in media Avendo un carattere quantitativo posso calcolare le medie delle distribuzioni condizionate (M1i) e lo scostamento quadratico medio (S2i), ciò lo posso fare distintamente per ogni classe. Tanto più le medie parziali sono diverse tra loro, tanto più è forte la dipendenza in media di y da x. Un carattere Y quantitativo si dice indipendente in media da un altro carattere di qualsiasi natura se le medie condizionate assumono tutte lo stesso valore. L’indipendenza statistica implica l’indipendenza in media (il viceversa non è vero). Quando il carattere X è quantitativo si può costruire la linea delle media passante per i punti ( xi ; M1i). se ho indipendenza in media ho una linea piatta. Connessione spuria: Due variabili sono connesse in modo spurio quando l’unica ragione della loro connessione è che entrambe sono dipendenti da altre variabili. Analisi regressione lineare (interpolazione)  Grafico a dispersione : è un piano cartesiano con dei punti che indicano le unità statistica, tutti i punti sono uniti da una retta di regressione che è solo un’approssimazione. Equazione : y = a + bx+ c y* = a + bx (con y* troviamo il valore predetto o teorico nella retta) a: termine noto b: pendenza / inclinazione della retta/ coefficiente angolare c: termine di errore (è intrinseco, deriva dal fatto che abbiamo un’approssimazione) y : valore osservato o empirico y* : valore predetto o teorico Ciò è sempre vero per distribuzioni disaggregate e non di frequenza Come si determinano i parametri di A e B?  Metodo dei minimi quadrati Con questo metodo si va a stabilire la retta migliore , andando così a minimizzare lo scostamento che deve essere privato dal suo segno, quindi metto x^2. A e B influenzano la quantità : Si va a creare la coppia a -b che rende la somma minima Quindi :