Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti corso di statistica, Appunti di Statistica

Gli appunti del corso di Statistica dell'Università Tor Vergata per l'anno accademico 2022/2023. Vengono trattati argomenti come la suddivisione in classi e la distribuzione di frequenze, la media e le alternative ad essa, la varianza e la variabilità, la concentrazione, la standardizzazione, la dipendenza e concordanza tra caratteri, la probabilità, le variabili casuali, le osservazioni campionarie, gli stimatori, la funzione di verosimiglianza, l'intervallo e livello di confidenza, il test statistico.

Tipologia: Appunti

2021/2022

In vendita dal 05/10/2023

andrea-alario
andrea-alario 🇮🇹

5

(1)

3 documenti

1 / 26

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
Appunti corso di “statistica”
Tor Vergata a.a. 2022/2023
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a

Anteprima parziale del testo

Scarica Appunti corso di statistica e più Appunti in PDF di Statistica solo su Docsity!

Appunti corso di “statistica”

Tor Vergata a.a. 2022/

Indice dei paragrafi

    • Lo studio statistico…………………………………………………………pag.
    • La suddivisione in classi e la distribuzione di frequenze…pag.
    • La media e le alternative ad essa………………………………..…pag.
      • La varianza e la variabilità……………………………………………..pag.
      • La concentrazione………………………………………..……………….pag.
      • La standardizzazione…………………………………………………....pag.
      • Le frequenze doppie……………………………………………………pag.
    • Dipendenza e concordanza tra caratteri…………………..….pag.
        • La probabilità………………………………………………………….….pag.
      • Le variabili casuali……………………………………………………….pag.
      • Le variabili casuali discrete………………………………………….pag.
      • Le variabili casuali continue………………………………………..pag.
        • Le variabili casuali doppie…………………………………….…….pag.
        • Le osservazioni campionarie……………………………………...pag.
        • Gli stimatori……………………………………………………………….pag.
          • La funzione di verosimiglianza…………………………………..pag.
          • Intervallo e livello di confidenza…………………………..……pag.
          • Intervallo di confidenza per la media………………………..pag.
          • Il test statistico……………………………………………………..…..pag.

Es. Collettivo = 10 persone di età compresa tra 10 e 20 anni Unità Età Persona 1 18 Persona 2 15 Persona 3 20 Persona 4 17 Persona 5 13 Persona 6 19 Persona 7 16 Persona 8 14 Persona 9 17 Persona 10 11 Tot. = 10 unità Per migliorare la lettura della tabella, si può suddividere in classi (gli estremi superiori non sono compresi, quindi ad esempio nel primo caso è da 10 anni a 12 anni meno un giorno, a parte nell’ultima classe): Classe di età Unità 10 - 12 1 12 - 14 0 14 - 16 2 16 - 18 3 18 - 20 3 Tot. = 10 unità L’unica differenza tra le due tabelle è che la prima ci fornisce più dettagli della seconda, ma entrambe sono utili a rappresentare in maniera efficacie lo studio preso in esempio. La distribuzione di frequenze , invece, permette di associare ad ogni carattere la corrispondente frequenza assoluta , la quale indica quante volte un carattere X si ripete con la stessa modalità Xi. Il numero di volte in cui ogni modalità si ripete è indicato con nj, la cui somma è indicata con n. n= Xi nj A 2 B 1 C 4

Dalla distribuzione di frequenze, si può calcolare la frequenza relativa per ogni modalità: Il totale delle fj deve essere sempre pari ad 1. Per migliorare la lettura, si può calcolare la frequenza percentuale : La frequenza relativa permette di eliminare l’influenza della grandezza del collettivo, potendo quindi confrontare due o più collettivi. Le frequenze relative di caratteri quantitativi o qualitativi ordinati possono essere utilizzate per calcolare le frequenze cumulate Fj, attraverso la somma consecutiva delle varie frequenze. Allo stesso modo, si possono calcolare la frequenza assoluta cumulata Nj e la frequenza percentuale cumulata Pj.

La media e le alternative ad essa

Qualora non si volesse ricorrere né alla suddivisione in classi né alla distribuzione di frequenze, si può fare riferimento alla media. La media aritmetica di un insieme di valori n, per x 1 … xn, di un carattere quantitativo x, è: Nel caso in cui i valori fossero accompagnati dalle frequenze, anche queste vengono incluse nel calcolo: Da cui si ricava: Se il carattere è suddiviso in classi non conosciamo con esattezza i valori osservati ma solo la classe di appartenenza. Considerando il valore centrale di ogni classe ( ) cj, possiamo arrivare ad un’approssimazione della media: In alcuni casi, si vuole dare diversa importanza alle diverse osservazioni del carattere, attribuendo un peso p ad ognuna di esse, che ne esalti o ne diminuisca l’importanza. Si ha quindi la media ponderata :

Indichiamo con:

  • 𝑀𝑒 la mediana;
  • 𝐼𝑚 l’estremo inferiore della classe mediana;
  • 𝐹𝑚− 1 la frequenza cumulata della classe precedente la classe mediana;
  • 𝐹𝑚 la frequenza cumulata della classe mediana;
  • ∆𝑚 l’ampiezza della classe mediana. Altra alternativa alla media aritmetica è la moda , corrispondente alla modalità del carattere più frequente. Se il carattere è suddiviso in classi, possiamo individuare nella classe con maggior frequenza la classe modale. Se rappresentata graficamente la distribuzione di frequenze, la moda corrisponde al picco della distribuzione, che può essere unimodale o bimodale a seconda del numero di picchi. La stessa formula della mediana può essere utilizzata con i percentili, ovvero quei valori che dividono il collettivo in cento parti uguali. Si può suddividere il collettivo in quartili: Q 1 =25%, Q 2 =Me=50%, Q 3 =75%.

La varianza e la variabilità

La varianza è un indice utilizzato per misurare la variabilità del carattere, ovvero la tendenza delle unità statistiche ad assumere diverse modalità di quel carattere. All’aumentare della varianza, aumenta la variabilità. La varianza è data dalla somma degli scarti quadratici tra valore osservato e media: Il numeratore è detto devianza. In caso di distribuzione di frequenze, la varianza sarà: e quindi Essendo un indice quadratico, anche l’unità di misura lo sarà, dandone una diversa da quella di partenza. Per ovviare a ciò, si fa riferimento alla deviazione standard : Per comparare fenomeni diversi, per si utilizza il coefficiente di variazione : Altri tipi di indici di variabilità sono gli intervalli di variabilità , i quali si basano sul confronto tra due valori. Il più semplice è il campo di variazione. Dati n valori, si ordinano in senso crescente e il campo di variazione è dato dalla differenza tra ultimo e primo valore. Se è 0, non c’è variabilità. Un pericolo relativo a questo indice è la presenza di eventuali valori anomali.

Un altro è la differenza interquartilica , basato sullo stesso concetto dell’intervallo di variabilità ma tenendo conto dei quartili e non dei singoli valori, ed indica il campo di variazione per il 505 delle unità centrali, tenendo fuori eventuali valori anomali: La variabilità di una distribuzione può essere rappresentata graficamente attraverso il box-plot : Se il rettangolo è centrato, la distribuzione sarà simmetrica, altrimenti ci troveremo in una situazione con asimmetria positiva (coda lunga a destra, rettangolo spostato verso sinistra) o asimmetria negativa (coda lunga a sinistra, rettangolo spostato verso destra). Altri indici di variabilità sono:

  • scostamento semplice medio da :
  • scostamento semplice medio da Me :

La concentrazione

La concentrazione indica come un carattere, osservato su un collettivo, sia ripartito fra le varie unità statistiche. Si misura su caratteri quantitativi trasferibili. In base a come è distribuito il carattere, può esserci massima concentrazione o equidistribuzione. Il carattere x è equidistribuito se ogni n possiede dell’ammontare complessivo del carattere. La situazione di massima concentrazione si ha quando l’ammontare è detenuto da una sola unità. Tanto più è concentrato un carattere, tanto più è elevata la sua variabilità. Quando c’è alta concentrazione, possiamo definire con Ai l’ammontare detenuto dalle i unità più povere e Qi la frazione di ammontare relativa ad ognuna di esse. Qi può essere messo in relazione con le frequenze relative cumulate Fi. Se Fi=Qi , c’è equidistribuzione. Per calcolare un indice che ci dia informazioni sulla concentrazione, possiamo usare il rapporto di concentrazione di Gini. All’aumentare di tale indice, aumenta la concentrazione. È compreso tra 0 e 1.

La media di un valore standardizzato è pari a 0 perché: La varianza di un valore standardizzato è pari a 1 perché: 𝜎𝑦^2 = 𝑏^2 𝜎𝑥^2 è una trasformazione lineare della varianza. b^2 è necessario (anziché b) in quanto la varianza è un indice quadratico, a non incide e quindi viene meno.

Frequenze doppie

Quando due caratteri possono essere considerati congiuntamente, si può ricorrere alla distribuzione di frequenze a doppia entrata o tabella doppia di frequenze. Questa permette di osservare come i caratteri sono tra loro in relazione. È così formata: A B 0 n 11 n 12 n1. 1 n 21 n 22 n2. n.1 n.2 n

  • A, B, 0 e 1 sono i caratteri osservati;
  • n è il totale del campione;
  • n1. e n2. rappresentano la distribuzione marginale della x (frequenze marginali);
  • n.1 e n.2 rappresentano la distribuzione marginale della y (frequenze marginali);
  • n 11 , n 12 , n 21 e n 22 rappresentano le frequenze assolute congiunte o doppie. In generale si indicano con nij. I punti vengono utilizzati ad indicare quale è il termine che varia. Le frequenze marginali di ogni riga e di ogni colonna sono la somma delle frequenze doppie delle rispettive righe e colonne: (in questo caso n 11 +n 12 ) Il totale è dato dalla somma di tutte le frequenze congiunte:

Le somme delle distribuzioni marginali di x e y devono dare rispettivamente n. la frequenza relativa sarà data da e quella percentuale da. Per ogni distribuzione condizionata (ovvero ogni riga e colonna) può essere calcolata la media condizionata : Abbiamo anche la varianza condizionata : Nel caso in cui i due caratteri fossero entrambi quantitativi, la distribuzione doppia può essere sintetizzata con il punto ( ; ), detto punto medio o baricentro.

Dipendenza e concordanza tra caratteri

Ci sono due tipi di dipendenza tra caratteri: dipendenza logica e dipendenza statistica. La dipendenza (o indipendenza) logica tra caratteri si ha quando sono note delle relazioni causa- effetto (o meno) tra essi. Per quanto riguarda la dipendenza statistica, invece, le cose sono più complesse. Tra due caratteri c’è indipendenza statistica quando la conoscenza delle modalità di uno dei due caratteri non migliora la conoscenza delle modalità dell’altro. Se X è indipendente da Y, anche Y è indipendente da X. Oltre a questo, si può fare riferimento anche alla tabella di frequenze. Infatti, tra due caratteri c’è indipendenza statistica se i profili riga o i profili colonna di un carattere rispetto all’altro sono tutti uguali. Se i profili riga sono tra loro uguali, anche quelli colonna lo sono e viceversa. Se non si osserva indipendenza, c’è dipendenza o interdipendenza. In caso di indipendenza, la frequenza assoluta congiunta sarà: Un carattere X dipende perfettamente da Y quando ad ogni modalità di X è associata una sola modalità di Y, quando per ogni i c’è solo una j per la quale. La relazione tra due caratteri è detta unidirezionale se dalla conoscenza di un carattere posso dedurre l’altro e non viceversa. È detta bidirezionale quando da un carattere posso risalire all’altro e viceversa. In questo secondo caso c’è interdipendenza perfetta , la quale può essere osservata nelle tabelle doppie quadrate. La dipendenza perfetta , invece, può essere osservata nelle tabelle rettangolari e sarà sempre il carattere con meno modalità a dipendere dall’altro. un induce per misurare il grado di associazione tra due caratteri è il Chi-quadrato :

si intende il valore relativo all’equazione della retta). Se il coefficiente rho è pari a 0, allora X e Y sono indipendenti.

La probabilità

La probabilità è un numero generico tra 0 e 1 che indica il grado di incertezza sul verificarsi di un evento. L’ evento è il risultato osservato di una prova (ad esempio la probabilità che lanciando un dato, prova, esca un numero pari, evento). Gli eventi possono essere semplici o composti. Questi ultimi sono ottenuti attraverso l’applicazione algebrica di unione (U) , intersezione (∩) e negazione (‾). Se c’è unione tra due eventi A e B (AUB), vuol dire che almeno uno dei due eventi si verifica. Se c’è intersezione (A∩B) vuol dire che i due eventi si verificano entrambi contemporaneamente. Se un evento A è negato ( ), esso non si verifica. La probabilità si basa su quattro postulati :

  1. gli eventi formano una algebra di Boole su cui vengono applicati unione, intersezione e ….negazione. Se considero tutti gli eventi, ottengo eventi che rientrano nella cornice degli eventi ….elementari;
  2. dato un evento, la probabilità ad esso associata deve avere sempre valore positivo:
  3. dato uno spazio campionario o un evento certo (Ω), la probabilità ad essi associata deve essere sempre 1:
  4. dati due eventi che non si verificano mai contemporaneamente, la probabilità dei due eventi uniti è uguale alla somma delle due probabilità: La probabilità è data dal rapporto tra il numero di casi favorevoli e quello di casi possibili. In alcune situazioni si può valutare la probabilità di un evento sapendo che se ne è già verificato un altro ad esso collegato. Si parla in questo caso di probabilità condizionata (indicata con ): valido per Da qui la formula delle probabilità composte , ovvero quelle relative all’intersezione di due eventi: Due eventi si dicono indipendenti se il verificarsi di A non influenza il verificarsi di B e viceversa. Quindi: Da queste formule si può poi verificare che la probabilità dell’intersezione di due eventi è pari al prodotto delle probabilità dei singoli eventi:

In caso di inclusione , ovvero di un evento B incluso in un evento A ( ) avremo che la probabilità di B sarà sempre minore o uguale alla probabilità di A. Se invece siamo a conoscenza di , avremo: Alcuni casi particolari: Il teorema Bayes permette di conoscere la probabilità che si manifesti una causa dato l’effetto finale (ad esempio la probabilità che mi sono bagnato perché ha piovuto). Ci troviamo quindi in una situazione in cui l’effetto si è verificato e vogliamo individuare la causa causante. Si identifica lo spazio campionario Ω, formato dall’insieme dei casi possibili in cui l’effetto si manifesta. Lo spazio campionario è suddiviso in sottoinsiemi che rappresentano le singole cause: Conosciamo la probabilità di ogni sottoinsieme Ai. L’effetto (B) ha un’intersezione con tutte le cause, quindi per ogni causa c’è un minimo di probabilità che ci sia l’effetto: La probabilità dell’effetto B, date le cause Ω, sarà data da: L’obiettivo del teorema di Bayes è quello di conoscere la probabilità di una causa dato l’effetto finale, ovvero : Ogni nuovo termine incontrato ha un proprio nome:

Tale funzione è una funzione per la quale l’area ad essa sottesa, corrispondente ad un certo intervallo, è uguale alla probabilità che X assuma un valore di quell’intervallo. In caso di variabile casuale continua X, la funzione che fa corrispondere ai valori x le probabilità cumulate viene detta funzione di ripartizione : L’area totale sottostante la funzione è pari a 1. La funzione non può assumere valori negativi. Il valore atteso o medio che una variabile casuale può assumere è dato da:

  • Variabile casuale discreta: Variabile casuale continua: La varianza invece:
  • Variabile casuale discreta:
  • Variabile casuale continua: La standardizzazione di una variabile casuale permette di ottenere valori che esprimono la distanza tra le osservazioni in termini di deviazione standard. Una variabile casuale standardizzata è così ottenuta:

Variabili casuali discrete

La variabile casuale Uniforme discreta si indica con e può assumere solo i valori interni di un certo intervallo. Sia s il numero di possibili valori e a il valore minimo assumibile: Valore medio e varianza sono:

La variabile casuale di Bernoulli si indica con ed è utilizzata per verificare se in una prova un certo evento si è verificato o meno. Può assumere due valori: allora l’evento non si è verifica; allora l’evento si verifica. La funzione di densità, valore medio e varianza sono: La variabile casuale Binomiale si indica con ed è utilizzata per misurare il numero di successi che si presentano in una sequenza di n sottoprove indipendenti con probabilità di successo costante π. La funzione di densità è: dove: Il valore medio e la varianza sono: Al crescere di n crescono varianza e valore atteso. Inoltre, in casi particolari, è possibile determinare a priori l’andamento della funzione: per π=0,5 la distribuzione sarà simmetrica rispetto a n/2; per n + la distribuzione sarà simmetrica rispetto a E(X); per π<0,5 la distribuzione presenterà un’asimmetria con coda a destra; per π>0,5 la distribuzione presenterà un’asimmetria con coda a sinistra. La variabile casuale di Poisson si indica con ed è utile a rappresentare il numero di eventi che si possono verificare in un determinato arco di tempo. Funzione di densità, valore medio e varianza sono:

La variabile casuale Chi-quadrato si indica con e rappresenta la somma quadratica di due variabili casuali Normali. È una distribuzione asimmetrica influenzata esclusivamente da g, ovvero i gradi di libertà. All’aumentare di g, una variabile Ch0-quadrato tende ad una condizione di normalità. La funzione di densità è: Valore medio e varianza sono: La variabile casuale t di Student si indica con e rappresenta il rapporto tra una variabile casuale Normale e una variabile casuale Chi-quadrato. È influenzata anch’essa da g e, al loro aumentare,. Valore medio e varianza sono: La variabile casuale di Fischer si indica con e rappresenta il rapporto tra due variabili casuali Chi-quadrato ed è influenzata da due parametri interi positivi, ognuno dei gradi di libertà delle rispettive variabili casuali Chi-quadrato coinvolte. Valore medio e varianza sono: La variabile casuale Beta si indica con ed è una distribuzione che può assumere valori nell’intervallo. Varia moltissimo al variare dei suoi parametri e per si riduce a una variabile casuale Uniforme (0;1), orizzontale e parallela all’ascisse. La variabile casuale Esponenziale si indica con e serve per rappresentare un fenomeno duraturo nel tempo ed è definibile come la somma di due variabili casuali Normali standardizzate. Il valore atteso e la varianza sono:

Le variabili casuali doppie

Ad ogni evento possono essere associati anche due valori. Avremo quindi le variabili casuali doppie, che associano ad ogni evento elementare una coppia di numeri (x,y). Ad ogni coppia è associata una probabilità, definita dalla distribuzione di probabilità. Il valore atteso è dato dalla somma dei valori attesi. La variabile casuale doppia discreta può assumere un insieme finito o numerabile di valori. Anche in questo caso deve rispettare due proprietà: La probabilità che (X,Y) sia di (x,y) è data dalla funzione di ripartizione congiunta: La variabile casuale doppia continua può assumere un insieme non numerabile di coppie di valori. La funzione di densità è: Due variabili possono essere tra loro dipendenti. Tale relazione è definita dalla distribuzione di probabilità condizionata di Y dato X=xi:

  • Nel discreto:
  • Nel continuo: Tra le due variabili c’è indipendenza quando la distribuzione di probabilità congiunta può essere espressa dal prodotto delle distribuzioni marginali. Un indice che permette di stabilire come due variabili casuali tra loro correlate varino insieme è la covarianza. Se positiva, indica che a valori piccoli di Y si associano valori piccoli di X e viceversa. Se negativa, indica che a valori piccoli di Y si associano valori grandi di X e viceversa.

𝜎𝑋𝑌= E[(X-E(X))(Y-E(Y))]

Se consideriamo due variabili casuali standardizzate, avremo il coefficiente di correlazione lineare: