














Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Calcolo combinatorio e probabilità
Tipologia: Appunti
1 / 22
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















Calcolare una probabilità vuol dire calcolare il grado di avverabilità di un evento. Es. lanciare una moneta e chiedersi quale se sequenza del lancio può essere più probabile Ci basiamo sulla definizione secondo la quale siamo in grado di conoscere a priori tutti gli eventi possibili, cioè lo spazio campionario: nel caso della moneta lo spazio campionario è costituito dalle due facce possibili quindi o testa o croce, nel caso del dado è costituito dalle 6 possibili facce. Ognuno di questi esiti possibili è detto EVENTO (esito). Ci aspettiamo che tutte le facce del dado abbiano la stessa probabilità di estrazione quindi definiamo la probabilità come p = !"#$%& () $$!+) ,-&%$&.) !"#$%& () $$!+) /&00)1).)
!"#$%& () $$!+) ,-&%$*&.) 0/-2)& 3-#/)&!-%)& Gli eventi si dividono in:
Fino ad adesso abbiamo applicato il principio classico della probabilità che è stato sviluppato nel ‘600 a partire dall’interesse del Cavaliere de Méré che aveva coinvolto Blaise Pascal. Tutti questi calcoli vengono fatti perché noi conosciamo a priori tutte le possibilità e quindi tutto lo spazio campionario. Come faccio a calcolare una probabilità che non è basata sul fatto che quegli eventi che io sto studiando siano noti a priori? C’è anche una definizione di probabilità a posteriori (frequentista) nella quale questa probabilità viene aggiornata nel tempo sulla base dei dati che osserviamo. Es. lancio un dato e mi aspetto che le facce del dado escano tutte con la stessa probabilità, però anche se il dado fosse perfettamente onesto non mi sorprenderebbe non vedere tutte le facce nei primi sei lanci (allo stesso modo non mi aspetto che lanciando una moneta venga 5 volte testa e 5 volte croce). Quindi osserviamo già un qualcosa che avrà a che fare con la statistica inferenziale:
Allo stesso tempo se un dato è truccato per fare uscire il 50% delle volte la faccia 6 e una faccia a caso le restanti volte non lo riesco a osservare quando i lanci sono pochi; infatti, in questo caso la situazione tra il dado onesto e quello truccato potrebbero essere indistinguibili. Al contrario sul lungo periodo noteremo che la faccia 6 esce con maggiore probabilità delle altre. Quindi la probabilità che noi andiamo a calcolare quando facciamo l’analisi dei dati di tipo inferenziale è legata al fatto che noi facciamo un’analisi di quello che succederà nel lungo periodo. La probabilità è composta da una serie di vari principi:
Questi tipi di ordinamenti prendono il nome di permutazioni semplici Importante:
A livelli di fiducia maggiori corrispondono intervalli più ampi, a livelli di fiducia minori intervalli più ristretti. Posso calcolarmi gli intervalli di fiducia di qualsiasi valore: Sulla base di questi valori z e delle informazioni che ho sul campione sono in grado di calcolarmi i limiti inferiore e superiore dell’intervallo di fiducia del valore che mi interessa nella popolazione. Questo tipo di applicazione si può fare con qualsiasi parametro. Una cosa che sappiamo è che per la legge dei grandi numeri aumentando l’ampiezza campionaria diminuisce l’errore standard: è la deviazione standard del campione diviso la radice quadrata dell’ampiezza campionaria meno 1 che è la stima dell’errore standard a partire dal campione. Se noi manteniamo fissi i valori di M e di deviazione standard del campione quindi M = 21 e s = 3, e manteniamo fissa la percentuale del livello di fiducia dell’intervallo quindi 95% con z = 1,96, quello che può variare in questo caso statisti stico è il valore di n. Quindi all’aumentare di n il valore dell’errore standard non può che diminuire. All’aumentare dall’ampiezza campionaria la stima che io faccio dei livelli di fiducia diventa via via più precisa perché l’intervallo di fiducia si riduce. Quando n diventa infinito l’errore standard diventa 0 e quindi non ha neanche più l’intervallo di fiducia per quel preciso valore della popolazione stimato a partire da quello della popolazione.
Caso di popolazioni finite Se la popolazione fosse finita e ne conoscessimo l’ampiezza per calcolare gl estremi dell’intervallo di fiducia dovremmo applicare il fattore di correzione per popolazioni finite. Posso fare anche il contrario quindi partire dai dati della popolazione e calcolare l’intervallo di fiducia della media campionaria. A cosa mi serve un’operazione di questo tipo? Io so delle informazioni sulla popolazione, cosa posso aspettarmi dal campione che potenzialmente sia rappresentativo di questa popolazione? Con lo stesso procedimento di prima siamo in grado di calcolare l’intervallo di fiducia che possiamo aspettarci nel campione. Es. ho un campione di 36 partecipanti, μ = 21 e σ = 3, che media posso aspettarmi dei punteggi al test di questa popolazione? Se poi la media che osservo io non ricade all’interno di questi intervalli vuol dire che probabilmente quel campione non è così rappresentativo della popolazione come mi aspettavo perché, se io prendo un campione rappresentativo della popolazione la media campionaria mi deve cadere all’interno degli intervalli, se non ci cade io sono comunque in grado di sapere qual è la probabilità che io ho di aver fatto un errore. p = 1- livello di fiducia Popolazioni finite Quando conosciamo anche l’ampiezza della popolazione dobbiamo applicare o la stima dell’errore standard partendo dai dai dati campionari o partendo dai dati della popolazione. È il procedimento che ci permette di calcolarci gli intervalli di fiducia un certo valore.
nella maggior parte dei casi, ma che è più probabile che succeda rispetto alla probabilità opposta (nel 90% dei casi). Es. scegli un’urna da cui estrarre ed estrai una pallina. Se estrai una pallina nera vinci 25. Da quale urna vorresti estrarre? Nell’urna A ci sono 25 palline e una nera, nell’urna B ci sono 25 palline e due nere. Da quale urna vorreste estrarre? La probabilità aumenta di poco ma sarei comunque portato a scegliere l’urna B. Quando facciamo la verifica delle ipotesi dobbiamo fare delle assunzioni da cui partire per fare i calcoli quindi dobbiamo decidere qual è il valore del parametro se le cose stessero in un certo modo, e questo valore deve essere certo. Questa assunzione prende il nome di ipotesi nulla.
Se l’ipotesi è monodirezionale prendiamo in considerazione α in una sola coda. Se invece l’ipotesi è bidirezionale devo prendere in considerazione 8 9 sia sulla coda di sinistra sia sulla coda di destra. Il livello di significatività α rappresenta la probabilità di rifiutare un’ipotesi nulla vera. Come si fa a decidere il valore di α? Il livello classico a cui si fissa α è 0,05 o 5%. Nella distribuzione esistono delle regioni in cui i dati seppur con probabilità diverse possono essere stati generati sia da H₀ sia da H₁. Quindi quando io vado a stabilire la zona di rifiuto di H₀ vuol dire che, quando il valore di probabilità cade nella zona rossa rifiuto H₀, quando non cade nella zona rossa accetto H₀. La zona di H₀ che non è rossa comprende anche una parte di area blu dove è probabile che H₁ abbia generato i dati, devo quindi stare attento a non stabilire un valore di α che sia troppo basso per aumentare la zona blu in cui dovrei accettare H₁ ma in realtà non la accetto perché devo accettare H₀. Fissare un valore di α bassissimo fa alzare di molto l’area blu relativa ai dati generati da H₁. Allo stesso modo nel prendere un valore di α troppo alto l’errore di accettare H₀ quando invece non è accettata diventa troppo alto. Il valore di α quindi dovrebbe essere scelto come compromesso ideale tra i due tipi di errore.
Infatti, gli errori che possiamo commettere quando prendiamo una decisione sulla base della verifica delle ipotesi sono di due tipi:
Significa ritenere inesistente un fenomeno che invece esiste Sappiamo però quantificare la probabilità che abbiamo di sbagliare in un senso e nell’altro nel lungo periodo. Quando si parla di lungo periodo si fa riferimento al fatto che molto spesso uno studio viene condotto una volta sola quando in realtà è il fatto che venga replicato nel tempo che ci permette di prendere una decisione e fare delle affermazioni che si avvicinino di più allo stato reale delle cose. Noi siamo in grado di quantificare sia la probabilità di commettere errori di primo tipo sia di commettere errori di secondo tipo nel momento in cui stabiliamo i valori di α. Agli errori di primo tipo in ambito scientifico più ampio corrispondono i falsi positivi, mentre agli errori di secondo tipo corrispondo i falsi negativi. Questo problema lo ritroviamo quando analizzando i punteggi dei test andiamo a fare delle operazioni di screening che ci portano a individuare le persone a rischio o non a rischio di un certo disturbo. Solo con i test noi non siamo in grado di stabilire se una persona ha un disturbo,a se è più probabile che sviluppi un disturbo. Da cosa deriva il livello di significatività del 5%? Ronald Fisher è stato uno dei primi a pubblicare un’analisi statistica e in quella del 1926 compare per la prima la verifica delle ipotesi sviluppata da Fisher stesso Nessuno in cento anni è mai riuscito a smentire questa ipotesi di Fisher. Però Rosnow e Rosenthal affermano anche che Quando si trovano delle stelline di fianco ai parametri queste indicano il livello di significatività per cui quel fato valore risulta statisticamente significativo.