
































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti riguardanti la statistica descrittiva e inferenziale
Tipologia: Appunti
1 / 40
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

































Corso di statistica La statistica si occupa dei fenomeni collettivi, un fenomeno si dice collettivo quando riguarda un insieme di individui o entità omogenee la cui conoscenza non può essere acquisita attraverso l’analisi di singoli casi individuali, ma richiede l’osservazione di un numero più o meno grande di essi. I fenomeni collettivi sono caratterizzati dalla variabilità, che è una caratteristica della realtà, conseguenza della sua complessità. La conoscenza dei fenomeni collettivi richiede l’osservazione di un numero più o meno grande di casi individuali e la sintesi delle informazioni raccolte. La statistica si occupa allora di tutti quei fenomeni che sono caratterizzati dalla presenza della variabilità e ha come scopo la formulazione dei metodi da seguire per l’elaborazione di conoscenze scientifiche, cioè oggettivamente valide, concernenti i fenomeni collettivi. La Statistica è la disciplina che si occupa dei principi scientifici a cui attenersi nella raccolta, elaborazione ed utilizzazione di informazioni concernenti i fenomeni collettivi, allo scopo di descriverli, spiegarli e prevederne l’andamento futuro. Essa detta i principi da applicare per l’osservazione dei fenomeni, la traduzione in numeri di quanto osservato e la produzione dei dati statistici. Elabora inoltre i principi ed i metodi utilizzabili per l’individuazione delle regolarità nascoste dalla variabilità ai fini dell’analisi del fenomeno. Finalità dell’analisi possono essere descrittive, oppure esplicative, quando si vuole spiegare le relazioni esistenti fra grandezze diverse nell’ambito di uno stesso fenomeno. Altre volte l’analisi è volta alla verifica sperimentale di una teoria o ipotesi scientifica. o La statistica metodologica elabora i principi ed i metodi. o Le statistiche applicate coniugano la metodologia statistica con gli aspetti specifici dei diversi campi di applicazione. Si chiama collettivo statistico o popolazione l’insieme delle entità in cui uno stesso fenomeno collettivo si manifesta. Ogni elemento dell’insieme che costituisce la popolazione o il collettivo statistico viene chiamato unità statistica ed è il più piccolo ente in cui il fenomeno collettivo si manifesta come caso individuale. Esempio : FENOMENO COLLETTIVO UNITA’ STATISTICA POPOLAZIONE Reddito delle famiglie umbre nel corso del 2007 Ogni singola famiglia residente in Umbria nel corso del 2007 Insieme delle famiglie residenti in Umbria nel corso del 2007 Dimensione di una popolazione : Popolazioni finite : sono popolazioni reali, di cui si possa costruire una lista delle unità che ne fanno parte. N indicherà il numero delle unità che ne fanno parte. Popolazioni infinite : popolazioni astratte, costituite dalle infinite ripetizioni nelle stesse condizioni di uno stesso esperimento che può dare luogo a risultati diversi (variabilità). Si chiama carattere ogni aspetto elementare osservabile nelle unità statistiche di un collettivo o popolazione. Carattere è ciò che si osserva, si registra e si misura in ciascuna unità statistica nel quadro delle finalità dell’indagine. I caratteri possono essere osservati ad esempio su : singole persone, singole famiglie o singole imprese. Si chiamano modalità i diversi modi di presentarsi di un carattere nelle unità di un collettivo statistico. Principio di esaustività : tutti possono riconoscersi in quella modalità / categoria. Principio di unicità : solo una modalità deve essere esaustiva; quindi, le modalità non devono essere ambigue.
I caratteri si classificano data la modalità : o Qualitativi : espressi a parole (es. colore dei capelli) Sconnessi : non c’è ordine (es. motivazione scelta di laurea) Rettilinei : ordinati (es. titolo di studio) o Quantitativi : espressi a numeri (es. età) Discreti : numeri interi, naturali (es. componenti di una famiglia) Continui : numeri reali (es. statura) Caratteri trasferibili : è un caso particolare, si ha quando si può trasferire un ammontare di un carattere da un’unità all’altra (es. reddito). Con il termine carattere ciclico si intendono i casi in cui possono essere ordinate le modalità e l’ordinamento di queste non è definito in modo assoluto ma è convenzionale (es. giorni della settimana), e quindi lo traviamo quando l’ultima modalità precede la prima (es. ora). Quando i caratteri vengono osservati si generano le variabili statistiche : Carattere quantitativo ↔ Variabile quantitativa Carattere qualitativo ↔ Variabile categorica Carattere rettilineo ↔ Variabile ordinale I valori assunti da una variabile quantitativa sono numeri I valori assunti da una variabile categorica sono attributi Alcuni caratteri possono essere rilevati con variabili di natura diversa : variabili latenti come la soddisfazione, il benessere, le fasce d’età o l’appartenenza religiosa. Ad esempio, l’età viene rilevata come carattere quantitativo discreto, ed è rilevata in anni compiuti. Si chiama frequenza di una data modalità di un carattere il numero delle unità della popolazione che presentano quella modalità (relativo alla modalità di un carattere). Le distribuzioni statistiche sono il prodotto della rilevazione di uno o più caratteri nelle unità di una popolazione o collettivo statistico (modo in cui il carattere si distribuisce sulla popolazione). DISTRIBUZIONI STATISTICHE SEMPLICI O UNIVARIATE Si segue un solo carattere (univariata), può essere una distribuzione unitaria o in forma disaggregata, ovvero un elenco unità per unità di tutte le modalità; l’elenco è lungo quanto la dimensione del mio collettivo (N). Es. x1 x2 x3 ... xi ... xN Si chiama graduatoria dei termini di una distribuzione statistica l’elenco dei termini disposti in ordine non decrescente (elenco ordinato). DISTRIBUZIONE STATISTICA SEMPLICE DI FREQUENZA Rappresenta un elenco delle modalità e per ciascuna abbiamo il conteggio per quante unità della popolazione è presentata quella determinata modalità. Es. MODALITA’ FREQUENZA M 6 F 4 10
Abbiamo tante distribuzioni doppie quante sono le modalità del terzo carattere; le distribuzioni doppie in questo caso sono distribuzioni doppie condizionate perché mi focalizzo su una sola modalità. DISTRIBUZIONI STATISTICHE MULTIPLE / MULTIVARIATE IN FORMA UNITARIA E’ chiamata anche matrice dei dati , nelle righe troviamo l’unità del collettivo mentre nelle colonne abbiamo il carattere rilevato. Altre distribuzioni statistiche DISTRIBUZIONI DI QUANTITA’ Riporta l’ammontare di un carattere. Può essere di due tipi : secondo un carattere diverso da quello della tabella (ha un’unità di misura); oppure secondo lo stesso carattere della tabella. SERIE TERRITORIALI Stesso fenomeno rilevato in aree geografiche diverse SERIE STORICHE Stesso fenomeno in tempi diversi. Fenomeni di stato : hanno bisogno di un istante di tempo definito (es. ammontare della popolazione di un paese) Fenomeni di movimento : sono costituiti da eventi che accadono del tempo, ho quindi bisogno di un intervallo di tempo per analizzarli.
La rilevazione dei dati è l'insieme delle operazioni con cui si perviene alla conoscenza delle modalità dei caratteri da osservare nelle diverse unità di un collettivo. La matrice dei dati è rilevata attraverso due tipi di studio :
La densità di frequenza Esprima la quantità di frequenza che compete ad un intervallo di ampiezza unitaria contenuto entro la classe. Si utilizza nelle distribuzioni per classi. ampiezza della classe: di = xi -xi-1 In una distribuzione per classi secondo un carattere quantitativo continuo si dice ampiezza della classe la differenza fra l’estremo superiore e quello inferiore della classe densità di frequenza relativa: hi= fi / di il rapporto tra la frequenza relativa di una classe e la sua ampiezza viene denominato densità di frequenza relativa (ma anche assoluta o percentuale) ed esprime la quantità di frequenza che compete ad un intervallo di ampiezza unitaria contenuto entro la classe Da questa la densità di frequenza assoluta si ottiene moltiplicando hi per la dimensione del collettivo mentre la densità di frequenza percentuale si ottiene moltiplicando la hi per 100; grazie ad essa è possibile conoscere i valori del carattere più ricorrenti nel collettivo, infatti, basterà guardare la classe che ha la densità di frequenza più elevata in quanto le densità si possono confrontare fra loro dato che sono tutte riferite a classi della stessa ampiezza. Ipotesi di uniforme distribuzione: la frequenza dei casi che ricadono in un intervallo interno alla classe è direttamente proporzionale all’ampiezza dell’intervallo stesso. freq{ a < X < b } = hi ( b-a ) per ogni a -- b inclusi in xi-1 -- xi. Se l’intervallo si riduce ad un punto la frequenza relativa è nulla in quanto b-a = 0. Per i caratteri continui, si può parlare di frequenza relativa solo in presenza di un intervallo di valori, piccolo quanto si vuole ma mai ridotto ad un punto. CASO DEI CARATTERI DISCRETI Nel caso in cui il carattere suddiviso in classi è discreto e ha modalità costituite da numeri intero, chiudere le classi è molto importante, applicativamente risulta più utile utilizzare la procedura e le formule del caso continuo, ciò è possibile rendendo il carattere continuo ovvero eseguendo la trasformazione di un carattere discreto in continuo (trasformazione con continuità), ciò si realizza facendo corrispondere ai valori interi X l’intervallo unitario di valori reali di estremi x-0,5 e x+0,5, ovvero si correggono le classi, in questo modo con la differenza trovo l’ampiezza della classe. La funzione di ripartizione È detta funzione di ripartizione del carattere quantitativo X la funzione che associa ad un qualsiasi numero reale x la frequenza relativa delle unità della popolazione che presentano un valore del carattere non superiore a x. La funzione di ripartizione verrà denotata con il simbolo F(x) e per definizione abbiamo: F(x)= freq{X ≤x}. Per ogni x numero reale (è un numero che va sempre tra 0 e 1) PROPRIETA’ : o Valore minimo = 0 o Valore massimo = 1 o Funzione non decrescente in quanto i valori della funzione non possono mai diminuire
o daƟ due valori reali a e b, la frequenza relaƟva dei casi compresi nell’intervallo aperto a sinistra a | b è data dalla espressione : freq{a < X ≤ b }= F(b) - F(a) , e cioè dalla differenza tra il valore della funzione di ripartizione in b e quello in a. Dall’ultima proprietà discende ad esempio che il complemento ad 1 di F(x), e cioè la quantità 1- F(x), fornisce la frequenza dei casi che superano il valore x considerato. Ci sono due tipi di rappresentazione grafica per i caratteri quantitativi divisi in classi :
Areogrammi : si svolgono in senso orario ed è per un numero di modalità limitate; sono analoghi ai grafici in pila. Grafico standard : è simile alle colonne contrapposte ma le colonne sono a specchio, un esempio è la piramide dell’età. Serie storiche : si usa il piano cartesiano ma si divide per il carattere di stato e quello di movimento.
valor medio robusto, e si può calcolare anche nei qualitativi rettilinei. La mediana non è influenzata dai valori estremi della distribuzione. Calcolo della mediana nelle distribuzioni per classi:
Nelle distribuzioni di frequenza si calcola facendo la somma del prodotto tra le varie modalità e le rispettive frequenze fratto la dimensione totale del collettivo. In questo caso se non ho i valori assoluti posso moltiplicare le varie modalità (x) con la frequenza relativa (fi) sempre diviso il totale del collettivo. Nelle distribuzioni per classi bisogna trovare il valore centrale della classe e calcolo la media prendendo la formula della distribuzione di frequenza ma al posto della modalità metto il valore centrale della classe (questo e abbiamo un’ipotesi di uniforme distribuzione); con una distribuzione di quantità invece è possibile calcolare il valore esatto della media aritmetica dentro la classe ponendo a rapporto la distribuzione di quantità (Ai) con la frequenza (ni). Proprietà valori medi Internalità : M è sempre inferiore a x1 e non superiore a xn ( x1 < M < xn) Omogeneità : se si moltiplica ogni termine della distribuzione per una costante k, il valore medio della nuova distribuzione ottenuta è pari a quello della distribuzione originaria moltiplicato per k. Traslativa : se ad ogni termine della distribuzione si aggiunge una stessa quantità k, si ottiene una nuova distribuzione avente media M+k. Godono di questa proprietà la moda, tutti i quantili e la media aritmetica. Proprietà tipiche della media aritmetica :
Se si conoscono gli incrementi annui bisogna utilizzare la formula dell’incremento medio annuo rispetto al periodo precedente, prendendo l’esempio applico a 100 i valori degli incrementi e arrivo a 143,7 (gli incrementi vengono applicati al periodo precedente). Gli indici di variabilità Misurano l variabilità di una distribuzione, con il termine variabilità si indica l’attitudine a mostrarsi con modalità diverse; so no quantità sempre positive (al minimo saranno 0 e ci saranno valori sempre più grandi man mano che cresce la variabilità). Per i caratteri qualitativi il collettivo si può definire omogeneo se tutte le unità presentano la stessa modalità, o eterogeneo se le unità presentano modalità diverse. Per quanto riguarda i caratteri quantitativi si parla degli intervalli di variazione o degli scostamenti medi. INTERVALLI DI VARIAZIONE
Nelle distribuzioni per classi vado a sostituire i valori centrali o le medie di classe e si procede come nelle distribuzioni di frequenza. VARIANZA : è la media degli scostamenti dalla media al quadrato DEVIANZA : è la varianza moltiplicata per N, è la somma degli scostamenti al quadrato * ni Varianza e devianza sono sempre positive. Per calcolare la varianza si può utilizzare anche la formula : Proprietà degli indici di variabilità Omogeneità : moltiplicando ogni termine della distribuzione per una costante k positiva, si ottiene una nuova distribuzione con indice di variabilità pari a k volte quello ottenuto con i termini della distribuzione di partenza. Costanza : sommando una stessa costante k ad ogni termine della distribuzione si ottiene una nuova distribuzione con indice di variabilità (qui esaminati) uguale a quello ottenuto con i termini della distribuzione di partenza. Proprietà solo della varianza : o Scomposizione della varianza o della devianza : Si divida una popolazione in S sottopopolazioni ciascuna con la sua media aritmetica 𝑀𝑀 1 ℎ, varianza 𝑆𝑆 2 ℎ 2 e numerosità Nh. Allora la varianza di tutta la popolazione può essere ottenuta dalla formula nota con il nome di scomposizione della varianza: INDICE RELATIVO DI VARIABILITA’ Quando si vogliono confrontare le variabilità di due o più distribuzioni statistiche si ricorre agli indici relativi di variabilità quando non sussistono le condizioni per utilizzare quelli assoluti; quello più utilizzato è il coefficiente di variazione percentuale, il quale si costruisce mettendo a rapporto lo scarto quadratico medio della distribuzione con la media aritmetica, il tutto moltiplicato per 100; matematicamente con l’indice di relativo di variabilità indicato con Cv: Il numero che si ottiene da questo rapporto è un numero puro quindi indipendente dall’unità di misura del carattere, esso si interpreta come il valore dello scarto quadratico medio di una distribuzione avente media aritmetica 100; essendo adimensionale e indipendente dal valore della media può essere utilizzato per confrontare distribuzioni diverse in cui la variabilità è maggiore dove il coefficiente assume valori più elevati. Tale coefficiente ha però alcuni limiti, infatti è possibile interpretarlo correttamente solo per caratteri positivi con intensità non negative; si usa quindi per caratteri espressi in scala di rapporti.
Analisi della connessione tra due caratteri Si parte dalle distribuzione doppie di frequenza, calcolando poi anche i profili riga e i profili colonna avendo così le distribuzioni condizionate. Due caratteri si dicono statisticamente indipendenti se le distribuzioni di frequenza relativa o percentuale di uno di essi condizionate alle modalità dell’altro sono uguali alla rispettiva distribuzione marginale (in questo modo i profili riga o colonna non mutano). La dipendenza è un concetto simmetrico, non c’è alcuna gerarchia tra i due caratteri. Oggetti di partenza : Tabella di contingenza con le frequenze assolute Profili riga con S modalità (dove S è il numero delle modalità) Profili colonna con T modalità (dove T è il numero delle modalità) La condizione d’indipendenza si ha quando : Il rapporto tra i profili riga è uguale al rapporto del totale marginale, mentre N sta a rappresentare la numerosità del collettivo. Trovando nij capisco la frequenza che avrei in caso d’indipendenza è la frequenza teorica d’indipendenza (nij’ = stessa formula di nij). La tabella d’indipendenza è quella tabella che si va a creare con le frequenze d’indipendenza. Contingenze pesate: hanno un segno, possono essere sia negative che positive. Indice di contingenza quadratica media: è una media ponderata dei quadrati (è simile alla logica dello scostamento quadratico medio). Per fare i calcoli si può applicare una formula ridotta, trovando così phi^2 quindi per trovare phi bisogna fare la radice quadrata :
Un carattere Y si dice perfettamente dipendente da un altro carattere X se ad ogni modalità di X è associata un’unica modalità della Y. Indice di Cramer: si indica con la lettera V e i valori di V tra 0.15 e 0.40 indicano livelli di connessione notevoli. La dipendenza in media Avendo un carattere quantitativo posso calcolare le medie delle distribuzioni condizionate (M1i) e lo scostamento quadratico medio (S2i), ciò lo posso fare distintamente per ogni classe. Tanto più le medie parziali sono diverse tra loro, tanto più è forte la dipendenza in media di y da x. Un carattere Y quantitativo si dice indipendente in media da un altro carattere di qualsiasi natura se le medie condizionate assumono tutte lo stesso valore. L’indipendenza statistica implica l’indipendenza in media (il viceversa non è vero). Quando il carattere X è quantitativo si può costruire la linea delle media passante per i punti ( xi ; M1i). se ho indipendenza in media ho una linea piatta. Connessione spuria: Due variabili sono connesse in modo spurio quando l’unica ragione della loro connessione è che entrambe sono dipendenti da altre variabili. Analisi regressione lineare (interpolazione) Grafico a dispersione : è un piano cartesiano con dei punti che indicano le unità statistica, tutti i punti sono uniti da una retta di regressione che è solo un’approssimazione. Equazione : y = a + bx+ c y* = a + bx (con y* troviamo il valore predetto o teorico nella retta) a: termine noto b: pendenza / inclinazione della retta/ coefficiente angolare c: termine di errore (è intrinseco, deriva dal fatto che abbiamo un’approssimazione) y : valore osservato o empirico y* : valore predetto o teorico Ciò è sempre vero per distribuzioni disaggregate e non di frequenza Come si determinano i parametri di A e B? Metodo dei minimi quadrati Con questo metodo si va a stabilire la retta migliore , andando così a minimizzare lo scostamento che deve essere privato dal suo segno, quindi metto x^2. A e B influenzano la quantità : Si va a creare la coppia a -b che rende la somma minima Quindi :