




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti dell'esame di Statistica integrati con le dispense fornite dalla professoressa, del corso di Statistica dalla prof. Silvia Bacci. Facoltà di Scienze e Tecniche Psicologiche (L-24) presso l'Università degli Studi di Firenze.
Tipologia: Appunti
1 / 125
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































La statistica è la scienza che studia i fenomeni collettivi.
La statistica mette insieme:
Si vuole conoscere un fenomeno generale relativo ad una popolazione (collettivo). La popolazione è un insieme di unità che presentano manifestazione diverse del fenomeno d’interesse. Si applica alla popolazione una serie di funzioni (media, mediana, quartili, varianti…). Con questo si crea un insieme molto più piccolo formato dalle rappresentazioni della popolazione iniziale. Questo consente di dire qualcosa su un dato fenomeno F.
Allo psicologo interessa il singolo, allo statista no. Ma, per conoscere il singolo, si deve prima conoscere la collettività, per questo è importante la statistica. La collettività, da cui proviene un singolo soggetto, viene usata per comprendere cos’è tipico o atipico attraverso l’elaborazione di dati.
La collettività si manifesta in modo diverso (differenze individuali) tra una pluralità di soggetti. Le manifestazioni diverse portano al concetto di VARIABILITA’.
Se però viene osservato un sottoinsieme della popolazione, detto CAMPIONE, vuol dire che la statistica descrittiva descriverà un sottoinsieme della popolazione, cioè quel dato campione, e in generale ciò che viene osservato. Se si vuole descrivere tutta la popolazione la statistica descrittiva non basta, ma si deve utilizzare l’INFERENZA.
Per quanto riguarda la statistica descrittiva si deve però analizzare il modo in cui il campione viene scelto poiché non tutti i sottoinsiemi della popolazione vanno bene. Per far questo si analizzano anche i vantaggi o gli svantaggi di lavorare con un campione o con una popolazione.
Se si seleziona il campione seguendo determinate regole, allora è possibile tenere sotto controllo (cioè misurare) la variabilità campionaria. Qui interviene la distinzione tra:
Quindi perché usare dei campioni e non lavorare sempre con popolazioni? Perché le rilevazioni che riguardano l’intera popolazione sono costose in termini economici, di tempo, e sono difficilmente implementabili. Questo perché non è facile definire la popolazione (es capire tutte le persone affette da una certa malattia). Molto spesso è quindi impossibile definire le unità della popolazione, non si possono raggiungere i singoli.
Allo stesso tempo se si fanno indagini troppo ampie sulla popolazione sussiste un problema sulla qualità del dato (perché magari non viene compreso ciò che viene chiesto). Questa è una problematica delle indagini Istat sui censimenti.
Si deve quindi usare un campione, ma anche i campioni hanno delle problematiche perché c’è chi può rifiutarsi di partecipare all’indagine (e se questo succede la persona andrebbe rimpiazzata ma questo è complesso), c’è chi non risponderebbe a certe domande o lo fa in maniera falsa. Un altro problema riguarda la DISTORSIONE indotta dal fatto che si usa un campione.
Infatti oggi l’Istat fa indagini campionarie con il censimento permanente fatto di continuo con campioni che a rotazione vengono parzialmente rinnovati. Questo per abbattere i costi, tempi e innalzare la qualità del dato.
Quando si parla di distorsione ci si riferisce al fatto che il campione non rappresenta mai in modo fedele la popolazione. Questo perché esiste la VARIABILITA’ CAMPIONARIA, che è un tipo di distorsione. Essa è dovuta al fatto che viene osservata una parte della popolazione. Quindi due campioni estratti da una stessa popolazione possono essere diversi tra loro (media, variabilità… diverse), cioè 𝑥⃗ ≠ 𝑦⃗ ≠ 𝜇 (media).
Tipi di campioni non probabilistici (alcuni esempi):
Sono coloro che partecipano all’indagine a decidere di farla. Vengono utilizzati perlopiù i social, quindi chi non li possiede non fa parte del campione.
Il problema è che il campione dei volontari è auto selezionato e quindi è difficile generalizzare alla popolazione.
Si parte da alcune unità che vengono contattate e attraverso queste, si arriva ad altre unità. Ad esempio si contattano delle persone che a loro volta ci mettono in contatto con persone con le stesse caratteristiche. Le persone in questione si frequentano.
Si utilizzano persone che conoscono il problema.
In tutti questi casi di campionamento non probabilistico non viene controllata la variabilità campionaria.
F P
R
campione C
R
Occorre fare una distinzione tra i vari tipi di variabili (caratteri), ciò che osserviamo e a cui siamo interessati: VARIABILI QUALITATIVE Si manifestano attraverso la descrizione delle unità (genere, titolo di studio, professione svolta…). Si distinguono in:
VARIABILI QUANTITATIVE Si manifestano attraverso valori numerici (età, distanza casa lavoro, livello di soddisfazione, altezza…). Si distinguono in:
Calcolo di media, moda, mediana, varianze, frequenze e coefficiente di regressione La moda la media e le varianze le calcolo solo su variabili quantitative. La mediana la calcolo sia su variabili quantitative che variabili qualitative su scala ordinale. Le frequenze le calcolo a prescindere (sia su variabili qualitative che quantitative).
Il coefficiente di regressione si applica solo su variabili quantitative.
Ciò che è di centrale interesse è avere informazioni sulla popolazione (sul fenomeno di interesse) a partire dal campione. La statistica descrittiva non basta. Con quest’ultima è possibile descrivere il campione ottenendo delle rappresentazioni del campione ma poi serve l’ inferenza statistica : metodi che permettono di passare dal particolare (campione) al generale (popolazione). Permette di fare un processo induttivo di conoscenza, si parla quindi di METODO INDUTTIVO o INFERENZIALE.
Esse sono:
Sono entrambe la forma più generarle per sintetizzare i dati (del calcolo sia su variabili qualitative che quantitative).
“e”
“unione” o “intersezione”
Es: 𝐴 = { 1 , 2 , 3 }^ ; 𝐵 = { 2 , 3 , 4 }
Es: 𝐴 = { 1 , 2 , 3 }^ ; 𝐵 = { 2 , 3 , 4 }
La definizione di queste operazioni porta a distinguere i seguenti eventi:
Numero molto grande di repliche dell’esperimento
Quindi diventa
Ipoteticamente vengono fatti infiniti lanci
Esistono vari approcci, impostazioni, della probabilità:
𝑷(𝑨)^ =
Es: Lancia un dado in cui deve uscire un numero pari. La probabilità è uguale a 36 = (^12)
Una problematica di questo approccio è che definisce la probabilità stessa perché “è possibile” è sinonimo di “probabile”.
𝒏→∞
La probabilità viene approssimata (perché si parla di limite) con la frequenza relativa. Se si ha un campione abbastanza grande le probabilità sono frequenze relative (calcolate con la statistica descrittiva).
La definizione frequentista sta alla base dell’inferenza frequentista, che è l’approccio frequentista all’esperienza (che usiamo noi). Questo tipo di definizione è valida per la maggior parte dei problemi ma non lo è se non è possibile replicare l’esperimento. Es: se si vuole calcolare la probabilità che l’uomo arrivi su Marte in vent’anni. Così viene introdotta la definizione soggettiva.
Questa definizione supera i problemi delle precedenti. Questa definizione è la base dell’Approccio Bayesiano all’inferenza (o Approccio Bayesiano).
La probabilità è 1 quando l’evento è certo
Avendo visto che: 𝑃(Ω) = 1 (Assioma 1) 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(𝐴) + 𝑃(𝐴̅) (Assioma 3)
Da questi due assunti deriva che: 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(Ω) = 1
E quindi: 1 = 𝑃(𝐴) + 𝑃(𝐴̅)
Si conclude che: 𝑃(𝐴̅) = 1 − 𝑃(𝐴)
(N.B.= 𝐴̅ è il complementare di 𝐴 perché completa lo spazio campionario)
L’unione e l’intersezione godono della proprietà commutativa: dire 𝐴 ∩ 𝐵 è uguale a dire 𝐵 ∩ 𝐴 e 𝐴 ∪ 𝐵 è uguale a 𝐵 ∪ 𝐴. Si decide quale usare a seconda dei dati a disposizione.
Dagli assiomi 1, 2, 3, 4 si deducono altre relazioni rilevanti:
REGOLA DELLA SOMMA (o Principio delle Probabilità Totali) È una regola che viene messa in atto se i due eventi 𝐴 e 𝐵 sono generici e non necessariamente incompatibili (possono anche presentarsi insieme).
𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩)
La probabilità è 0 quando l’evento è impossibile
Ottengo questa relazione perché considero: 𝐴 ∪ 𝐴̅ = Ω e A ∩ 𝐴̅ = ∅
Eventi che non si possono verificare simultaneamente
Un evento non influenza l’altro ma si possono verificare insieme
Se due eventi sono indipendenti allora sono incompatibili? No Caso in cui: 𝑃(𝐴 ∩ 𝐵) = 0 𝑃(𝐴 | 𝐵) = 0 perché 𝑃(𝐴 |𝐵) = 𝑃(𝐴∩𝐵)𝑃(𝐵) = (^) 𝑃(𝐵)^0 = 0 ≠ 𝑃(𝐴)
Se 2 eventi sono incompatibili e si osserva 𝐵, sicuramente 𝐴 non si verificherà mai.
Un caso particolare della probabilità condizionata si ha quando 𝑷(𝑨|𝑩) = 𝑷(𝑨). Questo vuol dire che il fatto che si realizzi 𝐵 non altera la probabilità che 𝐴 si realizzi. Si dice che 𝐴 e 𝐵 sono Eventi Indipendenti (𝐴 non dipende da 𝐵). Vale anche il contrario: 𝑃(𝐵|𝐴) = 𝑃(𝐵).
Esempio: si prende una moneta che viene lanciata due volte. Al primo lancio (𝐴) esce testa. Ad un secondo lancio (𝐵) ci si chiede qual è la probabilità che esca testa. Quindi qual è 𝑃(𝐵|𝐴)? Ne risulta che 𝑃(𝐵|𝐴)^ = 𝑃(𝐵)^ = (^12)
Sempre nel caso di eventi indipendenti è possibile semplificare la regola del prodotto:
𝑷(𝑨 ∩ 𝑩)^ = 𝑷(𝑨|𝑩)^ × 𝑷(𝑩)^ = 𝑷(𝑨) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) = 𝑃(𝐵) × 𝑃(𝐴)
Schema riassuntivo:
N.B.= distinzione tra EVENTI INCOMPATIBILI ed EVENTI INDIPENDENTI
Regola della somma: 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩)
Regola della somma con eventi incompatibili (𝐴 ∩ 𝐵 = ∅):
𝑷(𝐀 ∪ 𝐁) = 𝑷(𝑨) + 𝑷(𝑩)
Regola del prodotto con eventi dipendenti: 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨|𝑩) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴)
Caso particolare in cui gli eventi sono indipendenti: 𝑷(𝑨|𝑩) = 𝑷(𝑨) Oppure 𝑃(𝐵|𝐴) = 𝑃(𝐵)
Semplificando la regola del prodotto si ottiene: 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) × 𝑃(𝐴)
Avendo osservato il risultato del test, la probabilità che il soggetto sia maschio passa da un 45% ad un 66%.
(𝐴𝑡𝑡 ∩ 𝑀) e (𝐴𝑡𝑡 ∩ 𝐹) sono eventi incompatibili. Quindi si utilizza la regola del prodotto:
𝑃(𝐴𝑡𝑡) = 𝑃(𝐴𝑡𝑡 ∩ 𝑀) + 𝑃(𝐴𝑡𝑡 ∩ 𝐹) = = 𝑃(𝐴𝑡𝑡|𝑀) × 𝑃(𝑀) + 𝑃(𝐴𝑡𝑡|𝐹) × 𝑃(𝐹)
𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6 sono le possibili patologie che si possono manifestare, non si intersecano mai. (𝐾 1 ∩ 𝐾 2 ) = ∅
Se si intersecano le patologie (sottoinsiemi) si ottiene lo spazio campionario. 𝐾 1 ∪ 𝐾 2 ∪ 𝐾 3 ∪... 𝐾 6 = ∅
S= sintomi
Evento condizionante 𝐴𝑡𝑡 = (𝐴𝑡𝑡 ∩ 𝑀) ∪ (𝐴𝑡𝑡 ∩ 𝐹)
Quindi: 𝑃(𝐴𝑡𝑡) = [(𝐴𝑡𝑡 ∩ 𝑀) ∪ (𝐴𝑡𝑡 ∩ 𝐹)]
La formula di Bayes può essere estesa anche a quando gli eventi a priori che si manifestano sono più di due. Esempio: un medico deve diagnosticare una malattia tra 6 patologie.
Le patologie si accompagnano a dei sintomi che possono essere comuni a più patologie. Quindi possiamo immaginare di avere un insieme 𝑆 (sintomi che si possono manifestare e che sono legati in modo più o meno frequente alle patologie).
Deriva dall’esperienza del medico. Lui sa quale sono le malattie più comuni conoscendo l’ambiente a cui si fa riferimento.
Probabilità a priori
Non abbiamo questo valore. Esso si calcola attraverso le probabilità condizionate:
𝑃(𝑆) = 𝑃(𝑆 | 𝐾 1 ) × 𝑃(𝐾 1 ) + 𝑃(𝑆 | 𝐾 2 ) × 𝑃(𝐾 2 )+... 𝑃(𝑆 | 𝐾 6 ) × 𝑃(𝐾 6 )
Uno degli addendi è sempre il numeratore
Quando si presenta un paziente, il medico prima di studiare i sintomi, analizza la probabilità a priori che si manifesti la patologia (𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6 ).
Le malattie hanno sintomi comuni che si presentano con frequenze diverse per ogni malattia (questo si evince dalla porzione che 𝑆 occupa in ogni spazio delle malattie 𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6.
Il medico analizza la probabilità che si manifesti il sintomo data la malattia 𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6. Il medico dispone di 𝑆, lui vede i sintomi dal momento in cui vede il paziente. In questo modo aggiorna le sue conoscenze a priori potendo calcolare la probabilità che il paziente abbia una malattia dati i sintomi. Cosi le probabilità a priori diventano a posteriori (in base ai sintomi che osservo emetto una diagnosi basata sulla probabilità a priori).
Le calcolo con:
Per modello probabilistico si intende una rappresentazione semplificata, idealizzata della realtà. È un modello caratterizzato da una variabilità da tenere in considerazione.
Siamo nell’ambito della probabilità ma queste variabili sono il punto di aggancio per l’inferenza.
In modo più generale le variabili casuali vengono definite come un modello probabilistico che permette di descrivere in maniera semplice ma rigorosa un qualsiasi fenomeno collettivo (fenomeno reale) di nostro interesse.
Più specificatamente la variabile casuale (dato un qualsiasi esperimento casuale) viene definita come: una funzione matematica che associa ad ogni elemento dello spazio campionario uno ed un solo numero reale.
Esempio 1 : se l’esperimento casuale (fenomeno) e il lancio del dado, lo spazio campionario Ω sono le 6 facce del dado. Si fa corrispondere ad ogni elemento dello spazio campionario (ad ogni faccia) un numero reale.
Esempio 2: spazio campionario Ω = {𝑙𝑎𝑣𝑜𝑟𝑜, 𝑛𝑜𝑛 𝑙𝑎𝑣𝑜𝑟𝑜}. In questo caso essendo la variabile qualitativa siamo noi ad associare i fenomeni a valori numerici reali.
Una variabile casuale è identificata:
VARIABILI CAUSALI CONTINUE: si hanno quando il supporto è definito da un’infinità non numerabile di valori (es tutti i numeri reali in un certo intervallo).
Nel caso in cui le variabili casuali siano discrete si parla di funzione di massa di probabilità. Sono in grado di sapere la probabilità che Y assuma ogni valore (elementi) del supporto (𝑦):
Graficamente rappresento la funzione delle variabili casuali discrete con il grafico a segmenti:
Nel caso in cui le variabili casuali siano continue si parla di funzione di densità di probabilità. In questo caso la probabilità che Y sia esattamente un certo valore è 0. Questo perché non si riesce a cogliere un valore preciso nell’intervallo considerato. È per questo che si parla di densità. Infatti:
Graficamente rappresento la funzione delle variabili casuali continue nel seguente modo:
Supporto
Numero finito
Infinità numerabile di valori
Variabili discrete
L’area al di sotto la curva della funzione di densità è uguale a 1.
La simbologia che viene utilizzata è 𝒀 ~ 𝑵 (𝝁 , 𝝈𝟐). È una variabile caratterizzata dalla media (𝜇) e dalla varianza (𝜎^2 ).
Caratteristiche della curva della funzione di densità:
𝑓𝑙𝑒𝑠𝑠𝑜 𝑓𝑙𝑒𝑠𝑠𝑜
Quanto più 𝜎 (sigma) è piccolo, più la curva diventa stretta. Quanto più 𝜎 (sigma) è grande, più la curva diventa piatta. Questo perché c’è una maggiore dispersione dei valori rispetto alla media 𝜇. Il fatto che la curva diventi più stretta o più piatta a seconda della grandezza di 𝜎 è il motivo per cui 𝜎 indica la dispersione dei valori. Graficamente:
𝑓𝑙𝑒𝑠𝑠𝑜
𝜇 − 𝜎
𝜇 + 𝜎 𝜇 + 𝜎
𝑓𝑙𝑒𝑠𝑠𝑜
𝑓𝑙𝑒𝑠𝑠𝑜 (^) 𝑓𝑙𝑒𝑠𝑠𝑜
𝜇 − 𝜎
Eventi praticamente impossibili
si assume di conoscere la forma della distribuzione, cioè il modello probabilistico caratterizzante il fenomeno oggetto di studio, ma non si conoscono i suoi parametri. Es: si ipotizza di sapere che 𝑌 è una normale (𝑌 ~ 𝑁), ma non si conoscono i valori dei suoi parametri 𝑌 ~ 𝑁 (? ,? ). Quindi l’oggetto dell’inferenza sono i parametri (es 𝜇 e 𝜎 se si tratta di una distribuzione normale e 𝑝 se si tratta della Bernoulli).
La tavola 2 si dice si riferisce alla distribuzione normale che ha media 𝜇 = 0 e varianza 𝜎 = 1. In questo caso la variabile normale prende il nome di variabile normale standard la quale rappresenta la variazione e si indica nel seguente modo: 𝒁 ~ 𝑵 ( 𝟎 , 𝟏 )
Nella tavola 2 la distribuzione normale viene rappresentata sottoforma di funzione di probabilità cumulata o di ripartizione 𝒇(𝒚) = 𝑷(𝒀 < 𝒚):
Per poter utilizzare le tavole si deve innanzitutto fare la standardizzazione attraverso la seguente formula:
L’inferenza esiste sottoforma di processo deduttivo e induttivo:
Noi tratteremo i processi induttivi. Uno dei compiti della statistica è quello di fornire metodi per fare delle inferenze induttive e misurarne il grado di incertezza. Si distinguono due tipi di inferenze: