









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
riassunto del capitolo 4 del corso di Statistica: Probabilità
Tipologia: Appunti
1 / 17
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Esperimento aleatorio Esperimento aleatorio : un processo che porta a un risultato incerto. Esempio : lancio di una moneta non so in precedenza per certo il risultato, tutti i giochi d’azzardo. Potrebbe essere anche il valore del PIL di una nazione in un anno; noi saremo interessati a fenomeni socio-economici. Qualsiasi cosa può essere un esperimento aleatorio se non so quale sarà il risultato, cercheremo di legare questo a delle probabilità. Posso assegnare una probabilità dal tipo di esperimento che io faccio. Tra i vari esempi troviamo i giochi di sorte, esperimenti di laboratorio, misurazioni fisiche, fenomeni economici e sociali. In generale, tutte le prove, operazioni, attività o fenomeni il cui esito non è prevedibile con certezza. Evento elementare e spazio campionario Evento elementare : un possibile risultato dell’esperimento aleatorio. Esempio : lancio di un dado, ogni faccia è un evento elementare quindi 1,2,3…; nel PIL di una nazione è da -infinito a +infinito. Spazio campionario : insieme di tutti i possibili risultati di un esperimento aleatorio. Esempio : per il lancio del dado sono tutte le facce scritto come S= {1,2,3,4,5,6}; per il PIL è tra -1 e 1. A seconda dell’esperimento ho un diverso spazio campionario. Dato un esperimento aleatorio, si dice spazio campionario l’insieme S di tutti i risultati possibili, esaustivi e mutuamente esclusivi dell’esperimento stesso. I possibili risultati sono detti puri campionari o eventi elementari. Gli eventi elementari diventeranno le modalità delle variabili. Esempio 1 Lanciando una moneta avremo S= {T,C} Se l’esperimento aleatorio viene ripetuto k volte, lo spazio campionario complessivo è dato dal prodotto cartesiano SxSx…xS per un numero k di volte —> se lancio due volte una moneta lo spazio campionario complessivo è {T,C} x {T,C}, i cui punti campionari sono TT, TC, CT, CC. Esempio 2 Un soggetto chiede un finanziamento ad una banca. S = {concesso, rifiutato} Esempio 3 Estrazione di un numero al lotto. S = {1, 2, ..., 90} Cardinalita finita : quando abbiamo un preciso numero di dati. Esempio 4 Numero di casi di influenza nel prossimo anno. S = {0, 1, 2, ...} Cardinalità infinita numerabile : infinita, ma comunque abbastanza semplice numerare. Esempio 5 Tempo di attesa per essere serviti ad un sportello bancario. S = [0, +∞) Cardinalità infinita non numerabile : così tanti valori che non posso prendere tutti in considerazione. Evento Evento : qualsiasi sottoinsieme di eventi elementari in uno spazio campionario. Esempio : insieme dei numeri pari. Dato uno spazio campionario S, un evento è un sottoinsieme di S, quindi è costituito da uno o più punti campionari (a parte il caso dell’evento impossibile, denotato con il simbolo dell’insieme vuoto). Un evento E si verifica (si realizza) quando il risultato dell’esperimento casuale è un qualsiasi punto campionario di E; in caso contrario E non si verifica. Esempio 1 Lanciando un dado S = {1, 2, ...,6}, alcuni dei possibili eventi sono:
A = {Numero pari} = {2,4,6} B = {Numero minore o uguale a 3} = {1,2,3} se ad esempio esce il 4 —> A si verifica, mentre B non si verifica. Esempio 2: temperatura alle 21 a Peretola Lo spazio campionario è 0-20. L’evento che si verifica è la misurazione esatta. Posso anche analizzare l’evento: temperatura superiore a 13 —> si realizza se la temperatura è superiore a 13. Esempio 3: quante bottigliette vendo Ho 21 eventi elementari, venderne da 0 a 20. Se ne vendo 12, si è verificato l’evento 12. Potevo anche analizzare se ho venduto più di 12 bottigliette; lo spazio campionario è si/no. È importante definire la domanda, quali sono gli eventi elementari (quindi definire lo spazio campionario) e analizzare gli eventi di cui sono interessata.
La probabilità viene spesso rappresentata dai diagrammi di Venn. Logica delle proposizioni (eventi) < —> Operazioni sugli insiemi. Lo spazio campione S è rappresentato da un rettangolo e un evento E è rappresentato da una figura ivi contenuta.
Due o più eventi si dicono disgiunti o incompatibili o mutuamente esclusivi quando la realizzazione di uno esclude la realizzazione dell’altro/i. Nota: due eventi elementari sono sempre incompatibili. Se esiste intersezione tra gli eventi essi non possono essere eventi disgiunti; significa che i due eventi possono verificarsi entrambi, se si verifica l’evento elementare all’interno dell’intersezione. Due o più eventi si dicono collettivamente esaustivi quando almeno uno di loro si verifica sicuramente. Due o più eventi formano una partizione quando sono contemporaneamente disgiunti e c. esaustivi. Gli eventi collettivamente esaustivi significa che almeno uno di loro si deve verificare ossia che non ci sono eventi elementari al di fuori degli eventi che ho. Evento complementare Il complementare di un evento E è rappresentato dall’insieme di tutti gli altri elementi dello spazio campionario, e viene indicato con E’ (oppure con Ec o con Ē). Nota: un evento e il suo complementare formano una partizione.
perché la cardinalità non è finita, quindi difficilmente si riuscirà ad elencare tutti i casi. Usata in tutti i giochi di sorte. S è un numero finito di punti campionari che hanno la stessa probabilità. Assumendo che S abbia un numero finito di punti campionari con uguale probabilità, la probabilità di E è calcolata (vedi formula). L’assunzione che tutti i punti campione abbiano la stessa probabilità (cioè che il dado sia bilanciato) è cruciale: se è vera, il valore 0.5 è ben calcolato, se è falsa il valore 0.5 non va bene. Tuttavia, per verificare la plausibilità di tale assunzione bisogna ripetere più volte l’esperimento. Probabilità frequentista Approccio frequentista : è basato solo sull’osservazione dei dati, in assenza di informazioni pre- esistenti sulla modalità dell’esperimento. Sulle grandi prove, ossia su un campione esteso , la probabilità più o meno si riduce a degli eventi equiprobabili. Potrebbe essere un modo per vedere se un dado o una moneta sono bilanciate ossia che se mi danno sempre (o più volte) uno degli eventi. Quando si osserva una serie di prove e si assume che le prove siano ripetizioni indipendenti e in identiche condizioni di un certo esperimento aleatorio —> la probabilità di E è calcolata come (vedi foto). Esempio nel lancio di un dado, poniamo A = {Numero pari} = {2,4,6} e supponiamo che l’esperimento aleatorio “lancio del dado” venga ripetuto 50 volte, in 23 delle quali è uscito un numero pari e quindi si è verificato A. Pertanto P(A) = 23/50=0.46. Osservando altre prove la stima si modifica (es. lanciando il dado altre 50 volte l’evento A si potrebbe verificare 26 volte e quindi la nuova stima sarebbe (23+26)/(50+50)=0.49. Per fortuna al crescere del numero di prove la stima diventa sempre più precisa e converge ad un valore (in questo esempio, se il dado è bilanciato converge a 0.5). Limite a cui tende la proporzione di prove in cui si verifica E quando il numero di prove tende a infinito. Probabilità soggettiva Approccio soggettivo : definisco la probabilità aggiungendo un po’ di informazioni che vengono dai dati. Probabilità è il grado di fiducia associato al verificarsi di un certo evento di interesse espresso dal soggetto che esprime la valutazione probabilità. Esempio : scommessa tra squadre, come la definisco la probabilità sulla vincita/pareggio/perdita? Secondo l’impostazione classica darei la stessa probabilità alle varie possibilità, sarebbe però fatta al buio; secondo l’approccio frequentista dovrei far giocare un numero enorme le squadre per poter vedere come la probabilità di distribuisce, anche guardando al passato, sono però informazioni anche forvianti. L’unico approccio è quello soggettivo, analizzando altre partite, le condizioni della squadra etc. si può usare solo se l’informazione soggettiva è fondata su alcuni fattori, ossia su contributi soggettivi di qualcuno informato. Do una probabilità sul grado di fiducia sulla probabilità dell’evento. La probabilità di un evento E è definita come il grado di fiducia che un individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di .scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento in questione si realizzi Questo approccio si può usare sempre, in tutte le situazioni, ma è davvero importante quando gli approcci classico e frequentista non sono utilizzabili perché:
classico è inutilizzabile.
inutilizzabile.
Definizione assiomatica della probabilità La definizione matematica mi serve per fare delle operazioni, utile a a fare il calcolo delle probabilità. Ricavo probabilità di eventi da altri eventi. È un numero che sta tra 0 e 1, posso probabilizzare ogni evento fino allo stesso spazio campionario. La probabilità dello spazio campionario è 1, significa che si è verificato uno degli eventi elementari in esso contenuto. La probabilità è una funzione d’insieme, P (.), definita nello spazio campione S, con le seguenti proprietà:
B = la carta è rossa P(Rossa U Asso) = P(Rossa) + P(Asso) - P(Rossa ∩ Asso)
Quando ho tipi di eventi più complessi, per calcolare si usa il calcolo combinatorio. Le combinazioni ci servono per rispondere alla domanda: in quanti modi diversi posso prendere k oggetti da un insieme di n oggetti (non mi interessa l’ordine)? Sostanzialmente mi dice in quanti modi posso pescare un numero di k oggetti in un numero n di oggetti. Esempio : ho n soggetti, voglio k persone da interrogare, in quanti modi posso prenderle? Le combinazioni di k oggetti prese da n sono date da: n su k (o binomio di Newton). Esempi - combinazioni (90 5) è il coefficiente binomiale Fattoriali 4! = 4x3x2x1 = 24 Per un numero n, n! si definisce come:
Abbiamo visto come creare eventi da eventi e come calcolare la probabilità di questi. Supponiamo di poter probabilizzare A e B, mi chiedo di come probabilizzare A dato B, la probabilità condizionata. Da non confondere con A intersezione B —> che si verifichi un evento che è in A e in B.
La probabilità di A dato B, significa che cerco la probabilità di A, sapendo che B si è verificato. Consideriamo due eventi A e B e supponiamo di sapere che l’evento B si è verificato (quindi su B non vi è più incertezza). In generale questa conoscenza modifica la probabilità dell’evento A. Nell’approccio classico condizionarsi a B significa che i punti campione (casi possibili) da considerare al denominatore della probabilità non sono tutti quelli dello spazio campionario S, ma solo quelli contenuti in B. In altri termini, lo spazio campionario va modificato alla luce delle informazioni sopraggiunte —>B è il nuovo spazio campionario dell’esperimento. Se so che B si è verificato significa che B diventa il nuovo spazio campionario. Una volta che so che B si è verificato, gli eventi possibili diminuiscono. La probabilità di A condizionatamente a B, detta anche probabilità di A dato B e scritta P(A | B), consiste nella valutazione della probabilità di un evento A valutato subordinatamente allo spazio campionario generato dall’evento B. Approccio classico: P(A | B) è il rapporto tra il numero di casi favorevoli (punti campione per cui si verificano A e B) ed il numero di casi possibili (punti campione per cui si verifica B). Esempio 1 Esempio del lancio del dado. A = {numero pari} = {2, 4, 6} —> P(A)= 3/6 = 1/ B = {numero minore o uguale a 3} = {1, 2, 3} —> P(B) = 3/6 = 1/ A intersezione B = {2}; la probabilità di A intersezione B = 1/ S’= {1, 2, 3} = B P(A | B) ≠ P(A) —> l’informazione che B si è verificato cambia la probabilità di A, in questo esempio diminuisce. Se la probabilità di A dato B è diversa dalla probabilità di A, significa che B influenza A. Esempio 2 Continuiamo l’esempio del lancio di un dado, ponendo A = {Numero pari} = {2,4,6} —> P(A)=1/ C = {Numero tra 2 e 4} = {2,3,4} —> P(C)=1/ Si noti che AintersezioneC = {2,4} —> P(AintersezioneC)=2/6=1/
Esempio
Si parla di indipendenza statistica (o stocastica) quando la conoscenza dell’evento B non modifica la probabilità che si verifichi l’evento A, cioè La realizzazione dell’evento B è ininfluente per determinare la probabilità dell’evento A. Dalle relazioni viste in precedenza segue che l’indipendenza statistica può essere espressa in 3 modi equivalenti (si assuma che A e B siano eventi di probabilità non nulla):
La probabilità congiunta di due eventi (= probabilità dell’intersezione) è uguale al prodotto delle probabilità marginali se e solo se i due eventi sono indipendenti. Moltiplicare le probabilità quando non vi è indipendenza è un errore comune. Esempio 1 Un testimone ha visto una persona sul luogo del delitto, e ne ricorda alcune caratteristiche: capelli neri, occhi neri, barba. Qual è la probabilità che una persona presa a caso dalla popolazione abbia le caratteristiche indicate? Supponiamo che le probabilità siano le seguenti: A = (capelli neri) B = (occhi neri) C = (barba) P(A) = 5/ P(B) = 3/10 P(B|A) = 6/ P(C) = 1/10 P(C|A,B) = 5/ La probabilità corretta è P(AintersBintersC) = P(A) P(B|A) P(C|A,B) = 150/1000 = 0. Mentre con la regola del prodotto si ottiene P(A) P(B) P(C) = 15/1000 = 0.
Le frequenze relative di una distribuzione possono essere sempre interpretabili come una probabilità se pensiamo di estrarre a caso una unità statistica da quella stessa popolazione. Le frequenze relative di una distribuzione osservata sono sempre interpretabili come probabilità se pensiamo di estrarre a caso una unità statistica da quella stessa popolazione Vedremo eventi come modalità di variabili. Esempio 1 Su 200 studenti che questo anno frequentano il corso di Statistica CE, 80 provengono da un liceo. Se estraiamo uno studente a caso tra quei 200, la probabilità che provenga da un liceo è pari alla frequenza relativa, ovvero 80/200 = 0.4. Esempio 2 Fenomeno acquisito di un televisore, le modalità possibili sono (A, B, C). Il campione deve essere rappresentativo della popolazione perché io immagino che la probabilità sia quella che trovo. Etichetto come eventi le modalità e le frequenze relative della modalità sono la probabilità. Le modalità devono essere disgiunte, mutuamente esaustive e unite devono formare una partizione. Probabilità = frequenza relativa associata a ciascuna modalità (evento o evento elementare) della variabile di interesse. Domanda: 0.29 è una buona stima della probabilità che un consumatore italiano acquisti oggi un televisore via internet? Risposta: dipende da dove e quando sono stati rilevati i dati in tabella; siccome si tratta di dati USA di qualche anno fa e il fenomeno degli acquisti via Internet è in fase di rapida crescita e varia molto da paese a paese, l’applicazione ad un caso italiano oggi appare azzardata.
Esempio - probabilità (B|A) Partendo dalla tabella delle frequenze relative (viste come probabilità) la domanda può essere posta come: qual è la probabilità di B (acquisto effettivo) condizionatamente a A (acquisto pianificato)? Un altra domanda è: qual è la probabilità che un cliente che ha effettivamente acquistato avesse pianificato l’acquisto? Ovvero: qual è la probabilità di A (acquisto pianificato) condizionatamente a B (acquisto effettivo)? In precedenza abbiamo calcolato P(A | B) = 0.67 e P(B | A) = 0. Per stabilire che A e B non sono indipendenti basta fare una delle seguenti verifiche (è sufficiente una sola):
Data una partizione B1, B2,..., Bk, e dato un evento A di cui si conoscono le probabilità delle intersezioni con gli elementi della partizione, la probabilità di A è Abbiamo più eventi B: B1, B2…Bk. Questo metodo si chiama marginalizzazione perché è proprio quello che si usa nelle tabelle doppie per calcolare le frequenze marginali. Nell’esempio A è il cerchio azzurro, la parte bianca è A’. Posso trovare le marginali sommando le probabilità congiunte.
Formula delle probabilità totali Esempio - probabilità totali Posto A = {acquisto pianificato} B1 = B = {acquisto effettuato} B2 = B’ = {acquisto non effettuato}
La formula delle probabilità totali corrisponde ad un ragionamento per scenari usato molto spesso. Esempio 1 A={l’anno prossimo il fatturato della mia azienda aumenta} e B1, B2, B3 sono 3 scenari relativi all’andamento del settore economico in cui opera l’azienda (crescita, stazionario, recessione). Ragionare per scenari significa attribuire la probabilità non direttamente ad A, ma ad A dato B1, A dato B2 ecc. (perché l’attribuzione è più facile) e poi derivare la probabilità di A tramite la formula delle probabilità totali. Supponiamo di attribuire le seguenti probabilità: P(A|B1)=0.8, P(A|B2)=0.5, P(A|B3)=0. È necessario attribuire una probabilità anche agli scenari, supponiamo P(B1)=0.1, P(B2)=0.7, P(B3)=0.2 (ovviamente la somma è 1). Pertanto P(A)= 0.8x0.1+0.5x0.7+0.1x0.2 = 0.
Partiamo dalla regola moltiplicativa della probabilità. Il Teorema di Bayes afferma che: Supponiamo che un individuo sia interessato alla probabilità che l’evento B si verifichi e si formi una certa opinione in merito La probabilità di B - P(B) - è detta a priori Se in seguito si ottengono ulteriori informazioni, ad es. che l’evento A si è verificato, questo può modificare il giudizio iniziale sulla verificabilità di B
Si vuole determinare P(D | T) = probabilità che un soggetto per il quale il test dà esito positivo sia effettivamente affetto dalla malattia in questione. Fino a che non si conosce l’esito del test, il soggetto ha una probabilità P(D) di avere la malattia in questione. Tale probabilità viene stimata tramite la prevalenza nella popolazione. Supponiamo che la prevalenza sia di 3 persone ogni 100: pertanto la probabilità che il soggetto abbia la malattia è P(D) = 0.03, mentre la probabilità che sia sano (nel senso che non ha quella malattia) è P(D’) = 0.97. Il secondo elemento necessario per il calcolo è costituito dalla capacità del test di segnalare correttamente chi è sano e chi è malato:
(vero positivo) da ciò segue P(T’ | D) = 0. (nel 10% dei soggetti malati il test sbaglia perché non rivela la malattia – falso negativo).
correttamente che un soggetto non ha quella malattia: P(T’ | D’) = 0.98 (vero negativo) da ciò segue P(T | D’) = 0.02 (nel 2% dei soggetti sani il test sbaglia perché segnala la malattia – falso positivo). I due tipi di errore sono ben diversi, sia concettualmente che per le conseguenze! Cosa succederebbe se lo stesso test fosse usato per una malattia piuttosto rara, con prevalenza di 3 su 1000? Applicando la formula di Bayes con P(D)=0.003: Il test produrrebbe una quantità enorme di falsi positivi, cioè soggetti sani per i quali il test segnala la malattia (questo fa capire perché gli screening di massa siano problematici).
Solo dietro una delle tre porte c’è la macchina. Nelle altre due c’è una capra. Scegli una porta (identifichiamole con 1, 2 e 3 oppure A, B e C, è lo stesso). Il conduttore del gioco mostra cosa c’è dietro una delle altre due porte (mostrerà quella dove c’è una capra, e, se tu hai fatto la scelta giusta, mostrerà, in modo casuale, una delle due porte con dietro una capra). Adesso sai che dietro una porta non c’è la macchina. Mantieni la tua scelta o cambi? Se mantieni la tua scelta la probabilità di vincere è 1/3. Se cambi la tua scelta la tua probabilità di vincere sale a 2/3 (non 1⁄2 come si potrebbe pensare). Conviene cambiare. Supponiamo di scegliere la porta A (ovviamente scegliere la B o la C ci porta ad analogo ragionamento). Sono possibili i 3 scenari (la macchina sta’ dietro la porta A, o la B o la C) elencati sotto. Cosa succede se scelgo la porta A e non cambio? e se invece cambio? Se non cambio vinco una volta su tre, se invece cambio 2 su tre. Un altro modo di pensare.
La porta A ha probabilità 1/3 la porta B e C (messe insieme) la restante 2/3. Una volta che apro una delle due porte che non ho scelto, la probabilità di quella aperta va a zero e la probabilità dell’altra mantiene i 2/3. Inizialmente: P(A vince) = P(B vince) = P(C vince) = 1/ Supponiamo che Monty Hall ha mostrato al concorrente che ha scelto A, che B è vuota; il concorrente condiziona (sbagliando!) la sua decisione se cambiare o meno porta all’evento “B è vuota” Ovvero sapendo che “B è vuota” è indifferente conservare A o operare lo scambio. Tuttavia, consideriamo adesso l’evento “mostriamo B vuota” e condizioniamo la decisione del concorrente a questo: Ovvero il vero evento condizionante non è quello che il concorrente vede, ma l’azione che Monty Hall esegue a seguito della scelta iniziale del concorrente. È certamente conveniente operare lo scambio.