


















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Gli appunti del corso di Statistica dell'Università Tor Vergata per l'anno accademico 2022/2023. Vengono trattati argomenti come la suddivisione in classi e la distribuzione di frequenze, la media e le alternative ad essa, la varianza e la variabilità, la concentrazione, la standardizzazione, la dipendenza e concordanza tra caratteri, la probabilità, le variabili casuali, le osservazioni campionarie, gli stimatori, la funzione di verosimiglianza, l'intervallo e livello di confidenza, il test statistico.
Tipologia: Appunti
1 / 26
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



















Es. Collettivo = 10 persone di età compresa tra 10 e 20 anni Unità Età Persona 1 18 Persona 2 15 Persona 3 20 Persona 4 17 Persona 5 13 Persona 6 19 Persona 7 16 Persona 8 14 Persona 9 17 Persona 10 11 Tot. = 10 unità Per migliorare la lettura della tabella, si può suddividere in classi (gli estremi superiori non sono compresi, quindi ad esempio nel primo caso è da 10 anni a 12 anni meno un giorno, a parte nell’ultima classe): Classe di età Unità 10 - 12 1 12 - 14 0 14 - 16 2 16 - 18 3 18 - 20 3 Tot. = 10 unità L’unica differenza tra le due tabelle è che la prima ci fornisce più dettagli della seconda, ma entrambe sono utili a rappresentare in maniera efficacie lo studio preso in esempio. La distribuzione di frequenze , invece, permette di associare ad ogni carattere la corrispondente frequenza assoluta , la quale indica quante volte un carattere X si ripete con la stessa modalità Xi. Il numero di volte in cui ogni modalità si ripete è indicato con nj, la cui somma è indicata con n. n= Xi nj A 2 B 1 C 4
Dalla distribuzione di frequenze, si può calcolare la frequenza relativa per ogni modalità: Il totale delle fj deve essere sempre pari ad 1. Per migliorare la lettura, si può calcolare la frequenza percentuale : La frequenza relativa permette di eliminare l’influenza della grandezza del collettivo, potendo quindi confrontare due o più collettivi. Le frequenze relative di caratteri quantitativi o qualitativi ordinati possono essere utilizzate per calcolare le frequenze cumulate Fj, attraverso la somma consecutiva delle varie frequenze. Allo stesso modo, si possono calcolare la frequenza assoluta cumulata Nj e la frequenza percentuale cumulata Pj.
Qualora non si volesse ricorrere né alla suddivisione in classi né alla distribuzione di frequenze, si può fare riferimento alla media. La media aritmetica di un insieme di valori n, per x 1 … xn, di un carattere quantitativo x, è: Nel caso in cui i valori fossero accompagnati dalle frequenze, anche queste vengono incluse nel calcolo: Da cui si ricava: Se il carattere è suddiviso in classi non conosciamo con esattezza i valori osservati ma solo la classe di appartenenza. Considerando il valore centrale di ogni classe ( ) cj, possiamo arrivare ad un’approssimazione della media: In alcuni casi, si vuole dare diversa importanza alle diverse osservazioni del carattere, attribuendo un peso p ad ognuna di esse, che ne esalti o ne diminuisca l’importanza. Si ha quindi la media ponderata :
Indichiamo con:
La varianza è un indice utilizzato per misurare la variabilità del carattere, ovvero la tendenza delle unità statistiche ad assumere diverse modalità di quel carattere. All’aumentare della varianza, aumenta la variabilità. La varianza è data dalla somma degli scarti quadratici tra valore osservato e media: Il numeratore è detto devianza. In caso di distribuzione di frequenze, la varianza sarà: e quindi Essendo un indice quadratico, anche l’unità di misura lo sarà, dandone una diversa da quella di partenza. Per ovviare a ciò, si fa riferimento alla deviazione standard : Per comparare fenomeni diversi, per si utilizza il coefficiente di variazione : Altri tipi di indici di variabilità sono gli intervalli di variabilità , i quali si basano sul confronto tra due valori. Il più semplice è il campo di variazione. Dati n valori, si ordinano in senso crescente e il campo di variazione è dato dalla differenza tra ultimo e primo valore. Se è 0, non c’è variabilità. Un pericolo relativo a questo indice è la presenza di eventuali valori anomali.
Un altro è la differenza interquartilica , basato sullo stesso concetto dell’intervallo di variabilità ma tenendo conto dei quartili e non dei singoli valori, ed indica il campo di variazione per il 505 delle unità centrali, tenendo fuori eventuali valori anomali: La variabilità di una distribuzione può essere rappresentata graficamente attraverso il box-plot : Se il rettangolo è centrato, la distribuzione sarà simmetrica, altrimenti ci troveremo in una situazione con asimmetria positiva (coda lunga a destra, rettangolo spostato verso sinistra) o asimmetria negativa (coda lunga a sinistra, rettangolo spostato verso destra). Altri indici di variabilità sono:
La concentrazione indica come un carattere, osservato su un collettivo, sia ripartito fra le varie unità statistiche. Si misura su caratteri quantitativi trasferibili. In base a come è distribuito il carattere, può esserci massima concentrazione o equidistribuzione. Il carattere x è equidistribuito se ogni n possiede dell’ammontare complessivo del carattere. La situazione di massima concentrazione si ha quando l’ammontare è detenuto da una sola unità. Tanto più è concentrato un carattere, tanto più è elevata la sua variabilità. Quando c’è alta concentrazione, possiamo definire con Ai l’ammontare detenuto dalle i unità più povere e Qi la frazione di ammontare relativa ad ognuna di esse. Qi può essere messo in relazione con le frequenze relative cumulate Fi. Se Fi=Qi , c’è equidistribuzione. Per calcolare un indice che ci dia informazioni sulla concentrazione, possiamo usare il rapporto di concentrazione di Gini. All’aumentare di tale indice, aumenta la concentrazione. È compreso tra 0 e 1.
La media di un valore standardizzato è pari a 0 perché: La varianza di un valore standardizzato è pari a 1 perché: 𝜎𝑦^2 = 𝑏^2 𝜎𝑥^2 è una trasformazione lineare della varianza. b^2 è necessario (anziché b) in quanto la varianza è un indice quadratico, a non incide e quindi viene meno.
Quando due caratteri possono essere considerati congiuntamente, si può ricorrere alla distribuzione di frequenze a doppia entrata o tabella doppia di frequenze. Questa permette di osservare come i caratteri sono tra loro in relazione. È così formata: A B 0 n 11 n 12 n1. 1 n 21 n 22 n2. n.1 n.2 n
Le somme delle distribuzioni marginali di x e y devono dare rispettivamente n. la frequenza relativa sarà data da e quella percentuale da. Per ogni distribuzione condizionata (ovvero ogni riga e colonna) può essere calcolata la media condizionata : Abbiamo anche la varianza condizionata : Nel caso in cui i due caratteri fossero entrambi quantitativi, la distribuzione doppia può essere sintetizzata con il punto ( ; ), detto punto medio o baricentro.
Ci sono due tipi di dipendenza tra caratteri: dipendenza logica e dipendenza statistica. La dipendenza (o indipendenza) logica tra caratteri si ha quando sono note delle relazioni causa- effetto (o meno) tra essi. Per quanto riguarda la dipendenza statistica, invece, le cose sono più complesse. Tra due caratteri c’è indipendenza statistica quando la conoscenza delle modalità di uno dei due caratteri non migliora la conoscenza delle modalità dell’altro. Se X è indipendente da Y, anche Y è indipendente da X. Oltre a questo, si può fare riferimento anche alla tabella di frequenze. Infatti, tra due caratteri c’è indipendenza statistica se i profili riga o i profili colonna di un carattere rispetto all’altro sono tutti uguali. Se i profili riga sono tra loro uguali, anche quelli colonna lo sono e viceversa. Se non si osserva indipendenza, c’è dipendenza o interdipendenza. In caso di indipendenza, la frequenza assoluta congiunta sarà: Un carattere X dipende perfettamente da Y quando ad ogni modalità di X è associata una sola modalità di Y, quando per ogni i c’è solo una j per la quale. La relazione tra due caratteri è detta unidirezionale se dalla conoscenza di un carattere posso dedurre l’altro e non viceversa. È detta bidirezionale quando da un carattere posso risalire all’altro e viceversa. In questo secondo caso c’è interdipendenza perfetta , la quale può essere osservata nelle tabelle doppie quadrate. La dipendenza perfetta , invece, può essere osservata nelle tabelle rettangolari e sarà sempre il carattere con meno modalità a dipendere dall’altro. un induce per misurare il grado di associazione tra due caratteri è il Chi-quadrato :
si intende il valore relativo all’equazione della retta). Se il coefficiente rho è pari a 0, allora X e Y sono indipendenti.
La probabilità è un numero generico tra 0 e 1 che indica il grado di incertezza sul verificarsi di un evento. L’ evento è il risultato osservato di una prova (ad esempio la probabilità che lanciando un dato, prova, esca un numero pari, evento). Gli eventi possono essere semplici o composti. Questi ultimi sono ottenuti attraverso l’applicazione algebrica di unione (U) , intersezione (∩) e negazione (‾). Se c’è unione tra due eventi A e B (AUB), vuol dire che almeno uno dei due eventi si verifica. Se c’è intersezione (A∩B) vuol dire che i due eventi si verificano entrambi contemporaneamente. Se un evento A è negato ( ), esso non si verifica. La probabilità si basa su quattro postulati :
In caso di inclusione , ovvero di un evento B incluso in un evento A ( ) avremo che la probabilità di B sarà sempre minore o uguale alla probabilità di A. Se invece siamo a conoscenza di , avremo: Alcuni casi particolari: Il teorema Bayes permette di conoscere la probabilità che si manifesti una causa dato l’effetto finale (ad esempio la probabilità che mi sono bagnato perché ha piovuto). Ci troviamo quindi in una situazione in cui l’effetto si è verificato e vogliamo individuare la causa causante. Si identifica lo spazio campionario Ω, formato dall’insieme dei casi possibili in cui l’effetto si manifesta. Lo spazio campionario è suddiviso in sottoinsiemi che rappresentano le singole cause: Conosciamo la probabilità di ogni sottoinsieme Ai. L’effetto (B) ha un’intersezione con tutte le cause, quindi per ogni causa c’è un minimo di probabilità che ci sia l’effetto: La probabilità dell’effetto B, date le cause Ω, sarà data da: L’obiettivo del teorema di Bayes è quello di conoscere la probabilità di una causa dato l’effetto finale, ovvero : Ogni nuovo termine incontrato ha un proprio nome:
Tale funzione è una funzione per la quale l’area ad essa sottesa, corrispondente ad un certo intervallo, è uguale alla probabilità che X assuma un valore di quell’intervallo. In caso di variabile casuale continua X, la funzione che fa corrispondere ai valori x le probabilità cumulate viene detta funzione di ripartizione : L’area totale sottostante la funzione è pari a 1. La funzione non può assumere valori negativi. Il valore atteso o medio che una variabile casuale può assumere è dato da:
La variabile casuale Uniforme discreta si indica con e può assumere solo i valori interni di un certo intervallo. Sia s il numero di possibili valori e a il valore minimo assumibile: Valore medio e varianza sono:
La variabile casuale di Bernoulli si indica con ed è utilizzata per verificare se in una prova un certo evento si è verificato o meno. Può assumere due valori: allora l’evento non si è verifica; allora l’evento si verifica. La funzione di densità, valore medio e varianza sono: La variabile casuale Binomiale si indica con ed è utilizzata per misurare il numero di successi che si presentano in una sequenza di n sottoprove indipendenti con probabilità di successo costante π. La funzione di densità è: dove: Il valore medio e la varianza sono: Al crescere di n crescono varianza e valore atteso. Inoltre, in casi particolari, è possibile determinare a priori l’andamento della funzione: per π=0,5 la distribuzione sarà simmetrica rispetto a n/2; per n + la distribuzione sarà simmetrica rispetto a E(X); per π<0,5 la distribuzione presenterà un’asimmetria con coda a destra; per π>0,5 la distribuzione presenterà un’asimmetria con coda a sinistra. La variabile casuale di Poisson si indica con ed è utile a rappresentare il numero di eventi che si possono verificare in un determinato arco di tempo. Funzione di densità, valore medio e varianza sono:
La variabile casuale Chi-quadrato si indica con e rappresenta la somma quadratica di due variabili casuali Normali. È una distribuzione asimmetrica influenzata esclusivamente da g, ovvero i gradi di libertà. All’aumentare di g, una variabile Ch0-quadrato tende ad una condizione di normalità. La funzione di densità è: Valore medio e varianza sono: La variabile casuale t di Student si indica con e rappresenta il rapporto tra una variabile casuale Normale e una variabile casuale Chi-quadrato. È influenzata anch’essa da g e, al loro aumentare,. Valore medio e varianza sono: La variabile casuale di Fischer si indica con e rappresenta il rapporto tra due variabili casuali Chi-quadrato ed è influenzata da due parametri interi positivi, ognuno dei gradi di libertà delle rispettive variabili casuali Chi-quadrato coinvolte. Valore medio e varianza sono: La variabile casuale Beta si indica con ed è una distribuzione che può assumere valori nell’intervallo. Varia moltissimo al variare dei suoi parametri e per si riduce a una variabile casuale Uniforme (0;1), orizzontale e parallela all’ascisse. La variabile casuale Esponenziale si indica con e serve per rappresentare un fenomeno duraturo nel tempo ed è definibile come la somma di due variabili casuali Normali standardizzate. Il valore atteso e la varianza sono:
Ad ogni evento possono essere associati anche due valori. Avremo quindi le variabili casuali doppie, che associano ad ogni evento elementare una coppia di numeri (x,y). Ad ogni coppia è associata una probabilità, definita dalla distribuzione di probabilità. Il valore atteso è dato dalla somma dei valori attesi. La variabile casuale doppia discreta può assumere un insieme finito o numerabile di valori. Anche in questo caso deve rispettare due proprietà: La probabilità che (X,Y) sia di (x,y) è data dalla funzione di ripartizione congiunta: La variabile casuale doppia continua può assumere un insieme non numerabile di coppie di valori. La funzione di densità è: Due variabili possono essere tra loro dipendenti. Tale relazione è definita dalla distribuzione di probabilità condizionata di Y dato X=xi:
Se consideriamo due variabili casuali standardizzate, avremo il coefficiente di correlazione lineare: