Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Impostazione assiomatica delle probabilità (Kolmogorov) - Regole e esempi, Appunti di Statistica

Le regole fondamentali dell'impostazione assiomatica delle probabilità secondo Kolmogorov, inclusi esempi pratici per calcolare probabilità condizionate e indipendenti. Il testo copre i quattro assiomi, il principio delle probabilità totali e il calcolo di probabilità di eventi incompatibili.

Tipologia: Appunti

2019/2020

Caricato il 13/01/2022

Arinn00
Arinn00 🇮🇹

5

(1)

19 documenti

1 / 39

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LEZIONE STATISTICA
Corso finisce a inizio dicembre, 3 prove intermedie di giovedì :
→ fine ottobre (probabilità, inferenza, campionamento statistico, inferenza parametrica : stima puntuale
e per intervallo), 5 novembre → invito su meet (anche con sezione di probabilità), turni o stanze parallele
arriviamo fino a intervalli di confidenza inclusi e faremo esercitazione di riepilogo
→ fine novembre (analisi dell’associazione tra variabili categoriali e quantitative)
→ a dicembre (regressione lineare semplice, multivariate, lineare multipla) tr il 15 e il 20
Esame : domande multiple, vero/falso, teoriche o piccoli esercizi
Psicometria è la misura delle grandezze e de concetti relativi alla psicologia, è statistica applicata alla
psicologia. Statistica è disciplina ad ampio raggio che serve di supporto a molte discipline (scienze sociali).
INDICE (programma del corso)
- Introduzione alla statistica
- I Principi della Probabilità
- I Principi dell’Inferenza
- Note di Campionamento statistico
- Note di Inferenza parametrica (stima puntuale e per intervallo)
- Note di Inferenza parametrica (verifica d’ipotesi)
- Analisi dell'associazione tra variabili categoriali
- Analisi dell'associazione tra variabili quantitative
- Regressione lineare semplice
- Relazioni multivariate
- Regressione lineare multipla
STATISTICA è la disciplina che si occupa dell'elaborazione dei risultati dell'osservazione di uno o più caratteri posseduti
dagli elementi di un insieme determinato, con l'intento di esprimere un giudizio e/o prendere una decisione in merito ad
alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai singoli elementi che lo compongono,
viene chiamata fenomeno collettivo. I fenomeni collettivi sono tutti quei fenomeni che presentano una pluralità di
manifestazioni diverse.
La statistica fornisce strumenti per conoscere la realtà che ci circonda.
La statistica non si occupa di singoli individui, ma è interessata/ studia le collettività di individui/ soggetti
(insieme di tanti individui che avranno qualcosa in comune). Nelle scienze applicate (come psicologia)
interesserà il singolo individuo e il giudizio viene espresso con la conoscenza della collettività dalla quale il
singolo individuo proviene.
Statistica è studiare ciò che osserviamo su una pluralità di individui. Obiettivo finale è quello di conoscere le
collettività del mondo in cui viviamo, perché la conoscenza ci serve in sé e per prendere le decisioni ragionate.
Conoscenza di fenomeni reali → collettivi = coinvolge pluralità di manifestazioni diverse, gli elementi della
collettività presenteranno manifestazioni differenti di questo fenomeno (colore capelli, titolo di studio).
Interessano molteplicità di soggetti e si presentano con modalità diverse.
Questa diversità i porta ad osservare la variabilità nella realtà che ci circonda → non tutti abbiamo lo stesso
colore di capelli. Fenomeni sono caratterizzati da variabilità e un mondo senza di essa non potrebbe esistere.
Dove c’è variabilità nei dati → statistica. Se c’è fenomeno senza di essa non c’è bisogno dell’analisi statistica.
La statistica è l’insieme delle metodologie per :
- raccogliere (le evidenze dei fenomeni che vogliamo studiare : i dati)
- organizzare (sistemare i dati con tabelle e grafici)
- sintetizzare (con statistica descrittiva : media)
- analizzare e interpretare
le manifestazioni dei fenomeni collettivi e, laddove, ve ne siano le condizioni, generalizzare le evidenze osservate e
trasformarle in informazioni utili (ovvero la conoscenza del nostro fenomeno) per i processi decisionali.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27

Anteprima parziale del testo

Scarica Impostazione assiomatica delle probabilità (Kolmogorov) - Regole e esempi e più Appunti in PDF di Statistica solo su Docsity!

LEZIONE STATISTICA

Corso finisce a inizio dicembre, 3 prove intermedie di giovedì : → fine ottobre (probabilità, inferenza, campionamento statistico, inferenza parametrica : stima puntuale e per intervallo), 5 novembre → invito su meet (anche con sezione di probabilità), turni o stanze parallele arriviamo fino a intervalli di confidenza inclusi e faremo esercitazione di riepilogo → fine novembre (analisi dell’associazione tra variabili categoriali e quantitative) → a dicembre (regressione lineare semplice, multivariate, lineare multipla) tr il 15 e il 20 Esame : domande multiple, vero/falso, teoriche o piccoli esercizi Psicometria è la misura delle grandezze e de concetti relativi alla psicologia, è statistica applicata alla psicologia. Statistica è disciplina ad ampio raggio che serve di supporto a molte discipline (scienze sociali). INDICE (programma del corso)

  • Introduzione alla statistica
  • I Principi della Probabilità
  • I Principi dell’Inferenza
  • Note di Campionamento statistico
  • Note di Inferenza parametrica (stima puntuale e per intervallo)
  • Note di Inferenza parametrica (verifica d’ipotesi)
  • Analisi dell'associazione tra variabili categoriali
  • Analisi dell'associazione tra variabili quantitative
  • Regressione lineare semplice
  • Relazioni multivariate
  • Regressione lineare multipla STATISTICA è la disciplina che si occupa dell'elaborazione dei risultati dell'osservazione di uno o più caratteri posseduti dagli elementi di un insieme determinato, con l'intento di esprimere un giudizio e/o prendere una decisione in merito ad alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai singoli elementi che lo compongono, viene chiamata fenomeno collettivo. I fenomeni collettivi sono tutti quei fenomeni che presentano una pluralità di manifestazioni diverse. La statistica fornisce strumenti per conoscere la realtà che ci circonda. La statistica non si occupa di singoli individui, ma è interessata/ studia le collettività di individui/ soggetti (insieme di tanti individui che avranno qualcosa in comune). Nelle scienze applicate (come psicologia) interesserà il singolo individuo e il giudizio viene espresso con la conoscenza della collettività dalla quale il singolo individuo proviene. Statistica è studiare ciò che osserviamo su una pluralità di individui. Obiettivo finale è quello di conoscere le collettività del mondo in cui viviamo, perché la conoscenza ci serve in sé e per prendere le decisioni ragionate. Conoscenza di fenomeni reali → collettivi = coinvolge pluralità di manifestazioni diverse, gli elementi della collettività presenteranno manifestazioni differenti di questo fenomeno (colore capelli, titolo di studio). Interessano molteplicità di soggetti e si presentano con modalità diverse. Questa diversità i porta ad osservare la variabilità nella realtà che ci circonda → non tutti abbiamo lo stesso colore di capelli. Fenomeni sono caratterizzati da variabilità e un mondo senza di essa non potrebbe esistere. Dove c’è variabilità nei dati → statistica. Se c’è fenomeno senza di essa non c’è bisogno dell’analisi statistica. La statistica è l’insieme delle metodologie per :
  • raccogliere (le evidenze dei fenomeni che vogliamo studiare : i dati)
  • organizzare (sistemare i dati con tabelle e grafici)
  • sintetizzare (con statistica descrittiva : media)
  • analizzare e interpretare le manifestazioni dei fenomeni collettivi e, laddove, ve ne siano le condizioni, generalizzare le evidenze osservate e trasformarle in informazioni utili (ovvero la conoscenza del nostro fenomeno) per i processi decisionali.

La ragion d'essere della statistica è la presenza di un certo livello di variabilità nei dati (altrimenti, paradossalmente, la comprensione del fenomeno sarebbe possibile ricorrendo ad una sola osservazione) nello studio dei fenomeni collettivi si è consapevoli che al variare dell'unità statistica u entro una certa popolazione P = { u } variano certe caratteristiche misurate su u in altre parole, per lo studio di un fenomeno caratterizzato da assenza di variabilità non serve scomodare uno statistico. Alcuni semplici esempi: altezza e peso degli studenti di una classe, reddito dei parlamentari, votazioni riportate all’esame di Statistica dagli studenti di un corso di studi universitario, valutazione dell’efficacia dei titoli di studio universitari, durata delle lampadine ad alto risparmio energetico, soddisfazione nei confronti del trasporto pubblico locale, preferenze dei cittadini per i partiti politici, valutazione dell’efficacia di un nuovo farmaco, efficacia di una campagna pubblicitaria. L'elemento chiave dei fenomeni collettivi è la pluralità di manifestazioni che si traduce nel concetto di variabilità. La norma è che gli individui siano diversi tra di loro, c'è variabilità nel mondo in cui viviamo. Variabilità genera poi incertezza. Statistica è quindi il fondamento logico e metodologico per la risoluzione dei problemi decisionali in condizioni di incertezza. Può essere divisa in due branche principali = statistica descrittiva e statistica inferenziale. Statistica descrittiva è quella parte che si occupa dell'organizzazione e della sintesi e dei dati al fine di arrivare a descrizione dei fenomeni collettivi. In questo settore rientrano i metodi per sintetizzare con opportune grandezze le caratteristiche salienti dei fenomeni collettivi. La descrizione passa attraverso 2 fasi : formazione del dato statistico e del trattamento matematico dello stesso.

  1. Per formazione del dato statistico si può intendere: l’elaborazione di dati preesistenti in natura (dati anagrafici, indici aziendali di bilancio, dati di produzione industriale ecc.) e la necessità di procedere all’effettiva rilevazione delle informazioni necessarie alla comprensione del fenomeno di interesse
  2. Il processo di rilevazione delle informazioni è generalmente distinto nelle fasi di: definizione del piano di rilevazione, raccolta delle informazioni, spoglio e classificazione. La fase più delicata è senza dubbio la prima, soprattutto in relazione al tipo di fenomeno collettivo che si vuole indagare: altezza -> metro; peso -> bilancia; reddito dei parlamentari -> modello 730; performance esami di profitto -> voto conseguito; durata lampadine -> cronometro; soddisfazione nei confronti del trasporto pubblico locale -> ???. Due fasi della statistica descrittiva
    1. organizzazione del dato statistico = bisogna avere a disposizione i dati trovati pronti in natura (perchè qualcuno li ha già raccolti) oppure procedo a rilevazione dei dati → fenomeno non ancora studiato. Classificazione e sistematizzazione dei dati → dato statistico si presenta con matrice dei dati che è una tabella dove abbiamo una riga per ogni individuo e una colonna per ogni carattere o variabile che osserviamo. Generico individuo i e totale è N. Per il carattere (ansia) nella seconda colonna→ xi e infine xN. Passo da raccolta o reperimento del dato a matrice dei dati → tabulazione dei dati che ci consente di andare avanti e procedere con analisi statistica.
    2. sintesi dei dati raccolti = riduzione della dimensione del dato in modo tale da far emergere le info rilevanti per arrivare a dire qualcosa sul fenomeno (esempio i livelli di ansia nella popolazione). Sintesi effettua tramite strumenti della statistica descrittiva → calcolo media aritmetica, mediana, varianza, tabelle di frequenza (preso punteggi di ansia e riporto per ogni punteggio quante volte quel valore è stato osservato) → frequenze relative e assolute e faccio anche grafici. Fase di sintesi è il cuore della statistica descrittiva → momento in cui si cerca di estrapolare info dal dato grezzo. Utilizzati strumenti di tipo matematico che vanno applicati sui valori osservati. Nostro punto di partenza è fenomeno collettivo che vogliamo studiare su cui noi vogliamo dire qualcosa → livelli di ansia ad esempio Si procurano insieme di osservazioni sul fenomeno di interesse e viene fatto processo di sintesi. Poi riesco a pervenire a rappresentazione sintetica del fenomeno di interesse e riesco a descriverlo.

Di norma acquisisco dati solo su sottoinsieme della popolazione → C il campione. Osservare intera popolazione di individui è teoricamente semplice → popolazioni sono molto grandi o infinite. Questo è un limite al pensare di poter fare indagine statistica osservando intera popolazione, è troppo grande. Anche limiti pratici sul censimento → messe in campo risorse economiche e temporali enormi. Istat → istituto nszionale di statistica, ente geovernativo o pubblico che si occupa di analisi statistica a livello nazionale in Italia. Fa censimenti → della popolazione (ogni 10 anni), abitazioni, industria, agricoltura. Istat sta attuando censimento permanente --> indagine di tipo campionario. Indagine su sottoinsiemi della popolazione italiana → si riesce sempre ad avere fotografia attuale della popolazione italiana. Nel momento in cui osservo campione e non popolazione → uso strumenti statistica descrittiva, ma consentono di dire qualcosa su campione e non sull'intera popolazione. Statistica descrittiva si ferma a descrizione di quello che osservo. Campione deve essere rappresentativo → penso a criterio per far si che unità che vado a selezionare mi riproducono in piccolo la popolazione. Fondamentale diviene quindi in statistica il ruolo dell'esperimento campionario. Campione : un qualsiasi aggregato (sottoinsieme proprio) di unità statistiche appartenenti ad una certa popolazione e selezionate mediante una certa procedura. [n à dimensione del campione] Strategia campionaria è la sola possibile quando: popolazione è virtualmente ∞ ; osservazione è distruttiva. La popolazione da cui si estrae il campione, detta popolazione campionata, non sempre coincide con la popolazione obiettivo. I principali vantaggi derivanti dall’adozione di una strategia di campionamento :

  • contenere i costi dell'indagine entro limiti accettabili;
  • svolgere l'indagine in tempi relativamente brevi;
  • raccogliere per ogni unità inclusa nell'indagine un maggior numero di informazioni;
  • raccogliere le informazioni con maggior accuratezza grazie all'utilizzazione di personale qualificato e/o di tecniche specialistiche. I vantaggi di lavorare su campione → costo inferiore dell'indagine, dati raccolti in tempi brevi, indagine campionaria permette di raccogliere più informazioni e più accurate su individui inclusi nell'indagine (--> grazie all'impiego personale qualificato per rilevazione dei dati e tecniche specialistiche). Vantaggi quindi di qualità del dato. problemi --> campione è sottoinsieme della popolazione e quindi c'è distorsione dovuta alla variabilità campionaria. Le due medie calcolate sui 2 campioni saranno diverse tra di loro = variabilità campionaria. Saranno anche diverse da media dell'intera popolazione. Grazie a strumenti forniti da teoria delle probabilità posso tenere sotto controllo la distorsione indotta dal fatto che lavoro con sottoinsieme della popolazione. Posso avere distorsioni che possono non essere controllabili → dovute alle risposte (non affidabili o date dal quesito posto male) e alle non-risposte (campioni che si rifiutano di partecipare o rispondere ad alcune domande). Però, distorsione indotta dal campionamento: in generale, un campione non costituisce quasi mai una riproduzione fedele della popolazione su piccola scala. Inoltre :
  • Distorsioni dovute alla risposte: a causa di risposte non corrette o quesiti mal posti;
  • Distorsioni dovute alle non-risposte: a causa di soggetti campionati che rifiutano di partecipare o rispondere ad alcune domande del questionario … quindi (dato che molto spesso non possiamo fare a meno di condurre un’indagine campionaria):
  • come estrarre il campione (secondo quale tecnica)? : distinzione tra campionamento probabilistico e non probabilistico + distinzione tra studi sperimentali e studi osservazionali
  • come estendere i risultati campionari all’intera popolazione? Variabilità campionaria può essere controllata sotto certe condizioni relative al fatto che il campionamento venga fatto a modo. Se effettuiamo campionamento probabilistico saremo in grado di controllare variabilità campionaria e poterlo generalizzare all'intera popolazione.

Le fasi relative alla selezione del campione costituiscono il cosiddetto disegno di campionamento/ indagine :

  • definizione della popolazione obiettivo;
  • scelta dei caratteri da studiare e dello strumento per misurarli;
  • scelta dei domini spazio-temporali dell’indagine;
  • definizione del disegno di campionamento;
  • definizione dei metodi di raccolta, codifica ed elaborazione dati;
  • definizione dei costi e dei livelli di precisione desiderati;
  • definizione dei metodi di stima e di calcolo degli errori campionari;
  • definizione dei metodi di controllo degli errori non campionari;
  • analisi e presentazione dei risultati. Campioni probabilistici : ● è possibile definire l’insieme (Universo) di tutti i possibili campioni che potrebbero formarsi seguendo una determinata procedura di estrazione di tipo randomizzato; ● è possibile associare a ciascun campione una probabilità di selezione nota; ● è possibile attribuire ad ogni unità componente la popolazione una probabilità strettamente positiva di essere estratta. Campioni probabilistici permettono di controllare variabilità campionaria → campioni probabilistici ne si parla quando si estrae insieme di campioni in maniera casuale (non si intende a caso ma secondo regole del calcolo della probabilità). Campione probabilistico → quando in grado di assegnare probabilità positiva (diversa da zero) ad ogni unità della popolazione estratta.
  • Campione casuale semplice (CCS) : ogni possibile campione di n unità distinte che può essere estratto dalla popolazione ha un’uguale probabilità di selezione. È lo schema di campionamento più semplice: corrisponde all’estrazione da un’urna (es. estrazione di numeri della tombola). Nel CCS ciascun campione ha la stessa probabilità degli altri di essere scelto, ogni singola unità della popolazione ha la stessa probabilità di entrare a far parte del campione e le unità vengono selezionate casualmente da una lista completa di unità.
  • Campione stratificato : la popolazione è divisa in k strati in funzione di uno o più caratteri osservabili (es., sesso, fascia di età) correlati con quelli indagati; da ogni strato si estrae un CCS di unità. (popolazione viene divisa in strati in funzione di uno o più caratteri di nostro interesse come sesso o fascia di età → all'interno di ogni strato vado a selezionare campione casuale semplice di individui)
  • Campione a grappoli : la popolazione è divisa in grappoli, cioè sottoinsiemi di unità unite da vincoli di contiguità spaziale o di altro tipo (es., zone geografiche, famiglie); si estrae un CCS di grappoli e si selezionano tutte le unità appartenenti ai grappoli estratti. (popolazione dispersa nel territorio → divisa in grappoli, poi seleziono un campione semplice di grappoli e all'interno dei soli grappoli intervisto soggetti)
  • Campione a due stadi : si estrae un CCS di grappoli e, per ogni grappolo selezionato, un CCS di unità (estraggo campione casuale semplice di grappoli per zone geografiche e per ognuno un CCS di famiglie). Campioni non probabilistici
  • Campione a scelta ragionata o per testimoni privilegiati : le unità vengono individuate mediante criteri logici di rappresentatività, autorevolezza, conoscenza specifica del problema (ci si rivolge ad esperti del problema che ci consentono di avere info sul problema stesso),
  • Campione per quota : le unità vengono scelte dal rilevatore in modo che il campione rispetti delle proporzioni predefinite da chi ha pianificato l’indagine (non probabilistico, cerco di stratificare popolazione → no selezione casuale come in quello stratificato, ma si cercano a caso i soggetti e ci si ferma quando si ha trovato il numero di soggetti totale)
  • Campione di volontari : le unità decidono autonomamente se far parte del campione (inaffidabile)
  • Campione a valanga : poche unità con una certa caratteristica rara (es., una certa malattia) vengono usate per individuare, a catena, altre unità con la stessa caratteristica (utilizzati quando si studiano caratteristiche rare → a catena risalgo ad altri individui).

Spazio campionario: esempi di esperimenti casuali

  • Lancio di una moneta: Ω = {Testa, Croce}
  • Esito di un esame: Ω = {non superato, superato}
  • Estrazione di un numero al lotto: Ω = {1, 2, ..., 90}
  • Lancio di un dado: Ω = Le facce del dado = {1, 2, 3, 4, 5, 6}
  • Voto a un esame: Ω = {18, 19, ..., 30 e lode}
  • Numero di casi di influenza il prossimo anno (variabile quantitativa discreta): Ω = {0, 1, 2... → numero infinito di elementi, infinità numerabile}
  • Tempo di attesa alla fermata dell’autobus: Ω = {minimo in 0, + ∞ → è di tipo continuo, non è possibile enumerare il tempo di attesa} Esperimento: lancio di un dado Esperimento: voto conseguibile da uno studente al prossimo appello di Statistica
  • Spazio campionario: Ω = Le sei facce del dado
  • Risultato: esce la faccia del dado col numero 2
  • Se interesse per eventi A = «esce una faccia col numero pari» = {2, 4, 6} e B = «esce una faccia numero inferiore a 4» = {1, 2, 3} si sono verificati
  • L’evento C = «esce una faccia col numero dispari» = {1, 3, 5} non si è verificato (non compreso il 2)
  • Spazio campionario: W = {18, 19, ..., 30 e lode}
  • Risultato: Voto = 28
  • Gli eventi A = «voto maggiore di 25», B = «voto inferiore a 29», C = «voto compreso tra 24 e 29» si sono verificati (il 28 è compreso tra gli eventi)
  • L’evento D = «voto inferiore a 26» non si è verificato Strumento per rappresentare gli eventi → sono gli insiemi, i diagrammi di Venn → spazio campionario è rettangolo, eventi (A e B) saranno insiemi dentro omega Si utilizzano circonferenze o altre forme geometriche. Operazioni che si definiscono tra eventi → negazione, intersezione e unione.
  • Negazione (di un evento) → A con cappello/ trattino sopra, l'evento A negato o non A è l'insieme di tutti gli esiti dell'esperimento che non appartengono ad A, si verifica quando non si verifica A. Ciò che è all'esterno del cerchio A è non A. (esempio con lancio del dado → se A è pari, A negato è dispari). Sono complementari → se non si verifica uno si deve necessariamente verificare l'altro, si completano a vicenda
  • Intersezione → U rovesciata, intersezione tra A e B è un evento che comprende entrambi gli insiemi, due insiemi che hanno uno o più punti in comune/ si sovrappongono (A = 1,2,3 e B = 2,3,4 → 2,3). intersezione = verificarsi contemporaneo di due eventi, si legge A e B.
  • Unione → A o B, dove oppure è da intendersi in senso inclusivo (posso osservare solo A o solo B o anche entrambi), intersezione viene incorporata dentro l'unione (elementi congiunti) e può succedere anche con elementi disgiunti. (A = 1,2,3 e B = 2,3,4 → 1,2,3,4 → compresi elementi in comune) Eventi particolari :
  • Evento impossibile = evento che non si può mai verificare, simbolo di insieme vuoto (O con barra, tagliata), esempio è intersezione di un evento A con non A → perchè A negato si verifica sempre quando non si verifica A
  • Evento certo → si verifica sempre , con certezza. Esempio è lo spazio campionario → unione di A e non A
  • Eventi incompatibili (mutualmente esclusivi) → disgiunti, A e B se la loro intersezione coincide con l'evento impossibile. Non possono presentarsi contemporaneamente, la loro intersezione è l'evento impossibile (l'insieme vuoto). Due cerchi che non si sovrappongono, non hanno punti in comune → se si osserva verificarsi di A (numeri pari dado), si può affermare che B (numeri dispari dado) non si è verificato e viceversa. Dato un certo esperimento casuale un qualsiasi evento A si genera con una certa probabilità P(A) → che è la probabilità che evento A si verifichi. Eventi sono manifestazioni dell'esperimento casuale, probabilità è misura dell'incertezza del verificarsi dell'evento.

Esempio 1 : Esperimento casuale: lancio di moneta, Eventi elementari: Testa, Croce, Qual è probabilità che esca testa? Vari approcci al concetto di probabilità : ● Impostazione classica → concetto probabilità è legato a giochi di sorte (lancio moneta), probabilità definita come il rapporto tra numero di casi favorevoli al verificarsi di A diviso numero di casi possibili purché tutti egualmente possibili → P(A) = na/n. Evento A (2,4,6), evento campionari (da 1 a 6), casi favorevoli sono 3 che vanno divisi con quelli possibili 6 (se dado è equilibrato → tutte le facce hanno stessa possibilità di uscire). P(A) = 3/6 = 50 Limiti = al denominatore ho numeri casi possibili (probabili) purché tutti ugualmente possibili o equiprobabili, ma solo se dado è equilibrato → definizione debole. Casi devono avere tutti stessa probabilità → se è truccato, non sono in grado di calcolare probabilità (no equiprobabilità) ● Definizione frequentista → risolve problemi di quella classica. Esempio lancio moneta → probabilità che esca testa? Non importante che sia equilibrata. Lancio moneta 10 volte e guardo quanto esce testa → 50, 100.. aumento numero lanci e vado a calcolare il rapporto (frequenza relativa) tra numero di casi favorevoli e di lanci. Frequenza relativa o proporzione di volte che si realizza su evento A sul numero di repliche dell'esperimento nelle medesime condizioni → P(A) = na/n Si suppone che esperimento che sia ripetibile all'infinito nelle medesime condizioni = Ipotesi. Se aumento n all'infinito → P(A) = lim per n che va all'infinito (replico esperimento un numero n molto grande di volte) di na/n, posso verificare che frequenza relativa tende alla probabilità che A si realizzi. Moneta truccata → proporzione che esca testa (tende ad essere a 0,50), è probabile che con lancio esca testa. In base a impostazione frequentista = immaginamo di essere in una situazione in cui esperimento casuale sia ripetibile all'infinito nelle stesse condizioni → calcolo frequenza relativa divisio numero totale di lanci effettuati e se questo è molto grande la frequenza relativa coincide con la probabilità che si realizzi evento A di interesse. Limiti → la posso applicare solo se esperimento è ripetibile solo nelle stesse condizioni. Fenomeni reali → in ambito umanistici, non sempre sono ripetibili e nelle stesse condizioni. I fenomeni li osservo una volta e non sono in grado di farlo di nuovo e nelle stesse condizioni. ● Impostazione soggettiva che dà origine a definizione soggettiva di probabilità → probabilità che uomo vada su marte tra 5 anni? Non applico le prime due impostazioni perchè non c'è esperimento da replicare. Secondo impostazione soggettiva → la probabilità di un evento (che venga da piovere..) è il grado di fiducia che viene assegnato al verificarsi dell'evento A. Sulla base delle mie conoscenze teoriche di un fenomeno sono in grado di quantificare grado di incertezza che grava sul realizzarsi o meno di un certo evento. Probabilità data da professoressa è diversa da ingegnere aerospaziale → individui diversi assegnano probabilità diverse all'evento. Impostazione assiomatica → comprende le 3 definizioni di probabilità, sono tutte conformi alle regole di questa impostazione assiomatica (che serve in pratica per fare calcoli con le probabilità) → fornisce regole concrete per fare probabilità, deriva da assioma → regole intuitive che non hanno bisogno di dimostrazione. Impostazione assiomatica → in matematica un assioma è una verità fondamentale, un principio non dimostrabile in quanto è intuitivo. Nell'ambito delle teoria della probabilità abbiamo almeno 4 principi di base sui quali poggia poi costrutto della teoria delle probabilità. L'impostazione assiomatica delle probabilità (Kolmogorov)

  1. P(A) ≥ 0 → no eventi con probabilità negative, valore minimo è zero
  2. P(ᘯ) = 1 → spazio campionario (esempio di evento certo), uno degli eventi possibili sicuramente si realizzerà
  3. Unione → P(AUB) = P(A) + P(B) se A = evento impossible, insieme vuoto Ø→ no elementi in comune Se A e B sono disgiunti, allora si ha un terzo assioma che ci dice la loro probabilità si risolve nella somma delle loro probabilità
  4. P (A/B) → A dato/condizionato a B = [P(A ∩ B) ] / P (B) → principio delle probabilità condizionate Siamo interessati al verificarsi di A dato che B si è verificato → probabilità di ottenere numero 5 dato che è uscito un certo numero dispari Probabilità di A condizionato a B viene definito come il rapporto tra la probabilità dell'intersezione (probabilità che si realizzino sia A che B) diviso la probabilità di B. Esempio → A è numero 5, B è costituito da numeri dispari → A intersezione B coincide con 5. Probabilità di A = 1/6, probabilità di B = 1/2. Supponiamo che si verifichi B, poi siamo interessati a scoprire A = 1/6 diviso 1/2 = 1/

Regola della somma se interesse per unione, P(AUB) = P(A) +P(B) se A ∩ B = Ø → incompatibili P(A U B) = P(A) + P(B) - P(A ∩ B), se A e B hanno intersezione Con riferimento ai dati della tabella precedente, gli eventi A e B sono indipendenti? No perché: P (A/B) diversa da P(A) Il gioco delle tre cartine colorate Si mescolano le carte e le facce (che, al di là del colore, sono indistinguibili), per cui mentre si mescola si possono anche ruotare le carte. Quindi si estrae una carta e la si pone su un tavolo. Il colore che la carta mostra è il VERDE. Ci si chiede quale sia la probabilità che quella carta mostri lo stesso colore anche sull’altra faccia. Carta 1 = 2 facce verdi = v1 e v2 Carta 2 = metà verde v3 e metà beige g1 Carta 3 = 2 parti beige g2 e g P (osservare faccia verde) = P (v1 U v2 U v3) = 3/6. Voglio trovare probabilità di v1 o v2 dato che ho osservato 3 carte A = v1 U v2 B = v1 U v2 U v3 o P (verde) P (A/B) = P (A ⋂ B) → unione di eventi incompatibili) / P (B) P (v1 U v2/ verde) = P ((v1 U v2) ⋂ verde) / P (verde) = P (v1) + P (v2) diviso 3/6 = P (1/6) + P (1/6) diviso 3/6 = 2/ I casi possibili sono 6 e le facce verdi sono 3. Dal principio delle Probabilità condizionate → (assioma 4) e in caso di indipendenza tra A e B : P (A ∩ B) = P (A) per P (B) La fallacia del procuratore → processo O.J Simpson O. J. Simpson era stato condannato ad un periodo di terapia psicologica e psichiatrica per violenze domestiche alla moglie già nel 1989. Nel 1992 i due si separarono ma le violenze continuarono. Nel 1994 la moglie fu trovata sul vialetto di casa accanto al corpo di un suo amico... entrambi pugnalati a morte. Nessun testimone, ma nessuno aveva dubbi: il colpevole doveva essere stato l’ex – marito a causa della sua indole aggressiva nota a tutti. Pochi giorni dopo O. J. Simpson è in manette. Il processo viene trasmesso in diretta televisiva: oltre alla questione razziale (l’uomo è nero, la moglie era bianca) l’altro aspetto che incrementa l’audience è la notorietà mediatica della coppia. Si contendono 2 dei più famosi studi legali del tempo. L’accusa sostiene la tesi della colpevolezza a partire dalla indole violenta dell’accusato. Obiettivo era creare movente assolutamente credibile e sembravano indirizzati sulla buona strada. La difesa allora ricorre ad alcuni dati e al calcolo delle probabilità. Consultando i dati della criminalità negli USA, emerse che su 100.000 donne che avevano subito violenza domestica solo 45 vengono uccise. Di queste 40 per mano del marito. Tesi difesa: 40 / 100.000 = 0.04 %. Le percosse non sono un movente credibile dati i 40 omicidi per mano del marito ogni 10.000 casi di violenza domestica subita (1 / 2500). La tesi contribuisce a far presa sulla giuria che stabilisce, il 3 ottobre 1985, l’assenza di condizioni sufficienti a sancire la colpevolezza dell’imputato. O. J. Simpson verrà condannato in sede civile a risarcire i parenti delle vittime con oltre 20 milioni di dollari. Durante il processo penale, l’accusa non ebbe la capacità di controdedurre rispetto alla tesi della difesa (che fu probabilmente elaborata ad arte). È certamente vero che: con VM= violenza dal marito, ASS = assassinio post VM, ASSm = per mano del marito post Vm P(ASS/Vm) = 45/100000 P(ASSmar/Vm) = 40/ Quindi in generale, alla luce di questi dati, è abbastanza inverosimile che un caso di violenza domestica ad una donna finisca con un omicidio da parte del marito della stessa. Ma l’evento che nello specifico si era verificato era ASS. Per cui, data la acclarata violenza domestica, sarebbe stato giusto calcolare: P(ASSmar/ASS) = P(ASSmar ∩ ASS) diviso P(ASS) = P(ASSmar) / P(ASS) = 40/ Evento condizionante è l'assassinio, non la violenza del marito → giusto chiedersi qual è la prob di essere stati assassinati dal marito dato che si è stati assassinati «Il popolo contro Collins» (Corte Suprema della California - 1968) California, 18 giugno 1964. La signora Brooks, scippata mentre cammina, fa appena in tempo a girarsi e vedere una ragazza bionda con la coda di cavallo che scappa su un’automobile gialla guidata da un nero con la barba e i baffi. Questi dati sono confermati dal signor Bass, che assiste alla scena dalla finestra di casa sua. Pochi giorni dopo i coniugi Collins vengono arrestati perché un poliziotto, passando per caso davanti a casa loro, nota che il loro aspetto è identico a quello della vittima dello scippo e del testimone. Purtroppo in tribunale né la vittima, né il testimone, furono in grado di confermare che gli imputati erano gli autori materiali della rapina.

Ma a quel punto un insegnante di matematica di un college elaborò per la corte un calcolo che, a suo dire, era sufficiente a comprovare la colpevolezza dei due. Alla Corte venne presentata la seguente tabella: (Evento - Probabilità)

  • Automobile parzialmente gialla → 1/
  • Uomo con i baffi → 1/
  • Uomo nero con barba → 1/
  • Ragazza con coda di cavallo → 1/
  • Ragazza bionda → 1/
  • Coppia mista in auto 1/ ll professore di matematica sostenne che tutte queste probabilità si dovesse applicare la regola del prodotto per eventi indipendenti, quindi la probabilità che una coppia avesse tutte queste caratteristiche risultava essere 1 su 12 milioni (ovvero la probabilità che i Collins siano una coppia con caratteristiche osservate dai testimoni). Avendo i Collins tutte queste caratteristiche non potevano esserci dubbi sulla loro colpevolezza. La tesi è però discutibile. Primo, perché ipotizza indipendenza tra eventi sebbene alcuni di loro non sembrano avere tale caratteristica (barba e baffi ad esempio... la probabilità di avere i baffi non sembra essere uguale alla probabilità di avere i baffi dato che si porta la barba). → eventi non necessariamenti indipendenti Secondo, perché i Collins sono solo una delle possibili coppie che risponde a quelle caratteristiche. In altre parole, la probabilità corretta da calcolare sarebbe dovuta essere: P (Collins colpevoli / Collins coppia con quelle caratteristiche), ovvero che i Collins siano colpevoli dato che hanno quelle caratteristiche/corrispondono a descrizione. In altre parole, anche supponendo che la probabilità di individuare una coppia con quelle caratteristiche sia 1 su 1 milione, dato che l’area residenziale in questione conta diversi milioni di abitanti, le possibili coppie colpevoli dovrebbero essere 3 o 4. in tal caso, 1/3 o 1/4 sono valori non compatibili con una sentenza di colpevolezza ogni ragionevole dubbio. Per questi motivi la Corte negò la richiesta di condanna. Gli eventi che condizionano sono quelli che già sappiamo, che abbiamo osservato. «Il caso Sally Clark» Nel 1999 una corte Britannica condannò Sally Clark per l’omicidio dei due suoi bambini morti improvvisamente all’età di 11 e 8 settimane per cause ignote. Non furono trovate prove dell’omicidio, né una valida motivazione. L’accusa sosteneva il soffocamento volontario. La difesa parlava di cause naturali, la cosiddetta sindrome della morte in culla (SIDS). Un pediatra interpellato come esperto affermò che la probabilità che in una famiglia vi siano due casi di morte in culla è di circa 1 su 73 milioni.
  • Dai dati disponibili in letteratura emerge che in una famiglia come quella di Sally Clark la morte in culla colpisce un bambino ogni 8500, per cui la probabilità è 1/
  • Il pediatra quindi calcolò la probabilità di due morti in culla come 1/8500 x 1/8500 (applicando la regola del prodotto tra eventi indipendenti), cioè circa 1 su 73 mln La stima del pediatra venne considerata attendibile e costituì la prova principale per la condanna di Sally Clark. Tuttavia, la Royal Statistical Society evidenziò che il calcolo del pediatra era completamente errato per almeno 2 motivi
  • Una seconda morte in culla non è indipendente dalla prima perché possono subentrare cause genetiche (familiarità); → prima morte in culla aumenta probabilità seconda
  • Un altro esperto ha calcolato che in una famiglia in cui si è già verificato un caso di morte in culla i bambini successivi hanno una probabilità di 1/100 di morire per lo stesso motivo;
  • Quindi, la probabilità di due morti in culla è 1/8500 x 1/100 = 1/850000 (applicando il principio delle probabilità condizionate, per eventi qualsiasi);
  • Fu accertato che il decesso del primo bambino era effettivamente dovuto a SIDS (non vi erano dubbi), per cui l’unica probabilità rilevante è 1/100 → ci condizioniamo al primo evento : morte naturale del figlio. Nonostante 1/100 sia una probabilità molto più bassa di quella cui pervenne la tesi difensiva nel caso del «Popolo contro Collins», 1/100 è un sempre un valore non compatibile con una sentenza di colpevolezza ogni ragionevole dubbio. Un primo appello nel 2000 ha confermato la sentenza, ma un secondo appello nel 2003 ha assolto Sally Clark, rilasciata dopo 3 anni di carcere.

Il test viene però, in genere, messo a punto da un soggetto terzo (ente / azienda) che cerca di massimizzare la probabilità di identificare correttamente la presenza dello status partendo da due distinte popolazioni:

  • quella dei soggetti per i quali la condizione è certamente presente: P (T+ /D) = sensibilità del test
  • quella dei soggetti per i quali la condizione è certamente assente: P (T - /D’) = specificità del test Devono essere livelli elevati per essere fatti bene, più accurati → vicino a 1. NB:
  • la sensibilità è quindi la capacità del test di individuare correttamente la presenza della condizione e: 1 - P (T+ /D ) = P (T- /D) = falso negativo
  • la specificità è quindi la capacità del test di individuare correttamente l’assenza della condizione e: 1 - P (T- /D’) = P (T+ /D’) = falso positivo Ma chi si sta accingendo a sottoporsi ad un test diagnostico, in realtà riterrebbe importante sapere con quale probabilità sarà interessato dalla condizione patologica o fisiologica, nell’eventuale presenza di un riscontro positivo. Note:
  • P (D) → probabilità che abbia covid
  • P (D’) = 1 - P (D) → probabilità che non abbia virus
  • P (T+ /D) → probabilità che test risulti positivo dato che individuo ha virus
  • P (T- /D’) → probabilità che test sia negativo dato che individuo è sano Ci chiediamo quale sia: P (D/ T+) → probabilità che individuo per il quale è risultato positivo il test sia effettivamente a affetto dalla malattia. Formula di Bayes → interpretazione (alternativa) che diamo alla probabilità degli eventi condizionati Osserviamo un evento, ci chiediamo quali tra le possibili cause è la più probabilità? Qual è la probabilità che a causare l'evento sia una delle possibili cause? Tipica applicazione è relativa ai test diagnostici. L’esito può essere positivo o negativo e la condizione di nostro interesse può essere assente o presente. Quando test non dà la risposta giusta → falso positivo quando è positivo ma la condizione è assente, falso negativo → test è negativo ma la condizione è presente. Test con specificità (probabilità che condizione sia presente dato che è risultato positivo) e sensibilità (possibilità che sia positivo dato che condizione è presente) devono essere il più possibili elevati. P(D)= probabilità che deriva dalla presenza della condizione all'interno della popolazione, può chiamarsi probabilità a priori → che sia ammalato. P(D) ≠ P(D') = 1 -P (D) P(T+/D) probabilità che test risulti positivo dato che condizione è presente P(T-/ D') probabilità che test sia negativo dato che l'individuo non è malato Ci interessa che individuo sia malato dato che test è risultato positivo → P(D/ t+) Usiamo formula di Bayes → P (D/T+) = P(D ∩ T+) / P La probabilità che test sia positivo non ce l'ho nei dati e la ricavo → probabilità che test sia positivo e l'individuo è malato, o probabilità che test sia positivo e l'individuo non è malato → P(T+) = P [(T+ ∩ D) U (T+ ∩ D')] → due eventi sono incompatibili. P (T+ ∩ D) + P (T+ ∩ D') = P (T+/ D) per P (D) + P (T+/D') per P(D') Cosa accade in presenza di patologie rare? Supponiamo → P(D) = 3/1000 → P(D') = 9997/ e che il test abbia una sensibilità e una specificità molto elevate : P(T+ /D) = 0,95 P(T- /D') = 0,90 P (T- /D) = 1 - 0,95 = 0, (0,05 → 5% di trovare falsi negativi) P (T+ /D') = 0, Dato risultato positivo al test qual è probabilità che sia malato? P (D/T+) =... 0,0028 → valore più grande di P(D) = 3/1000, ma molto più piccola di P (T+/D) = 0,95 → la probabilità che il test sia positivo con individuo malato. Talvolta i medici confondono P(D/T+) con P(T+/D) affermando che un soggetto positivo al test ha una probabilità, nell’esempio precedente pari a 0,95, di presentare la condizione patologica o fisiologica in questione. Nel caso di una patologia rara, se si riuscisse a sviluppare un test diagnostico con elevati valori di sensibilità e specificità, questo comunque produrrebbe una quantità di falsi positivi che in proporzione sarebbe molto più elevati dei positivi reali. Questo fa capire perché gli screening di massa siano spesso problematici.

ESERCIZI :

P (che adulto USA creda nel paradiso → A) = 0, P (B/A → probabilità) di credere nel diavolo dato che si crede nel paradiso = 0, P (A ∩ B) = P (B/A) per P(A) = 0,84 per 0,84 = 0,71 → probabilità che entrambi si verifichino Se parte di organizzazioni ambientalista - disposto a pagare prezzi più alti B B negato A 30 66 96 A negato 88 933 1021 118 999 1117 Identifico probabilità con frequenza relativa, perché 96/1117 = 0,086 è una stima della probabilità che un americano scelto casualmente sia membro di un'organizzazione ambientalista. Mostrano che probabilità stimata di essere disponibile a pagare prezzi più alti per proteggere ambiente è 0,312 essendo un membro di un'organizzazione ambientalista e nel caso non lo fosse è 8,6% P (B/A) → ambientalisti che sono disposti a pagare di più) = anche P (B ∩ A) /P(A) = 30/96 = 0, P (B/Anegato)= 88/1021 = 0,086 → Mi sto condizionando all'evento A Mostra che pari a 0,021 la probabilità stimata che una persona faccia parte di una organizzazione ambientalista e sia disponibile a pagare prezzi più alti per proteggere ambiente → 30/1117 = P(A ∩ B) → P(B/A) per (PA) Mostra probabilità stimata che persona risponda sì a entrambe o no a entrambe le domande → P[(A ∩ B) U (Anegato ∩ Bnegato)] : incompatibili = P (A ∩ B) + P (Anegato ∩ Bnegato) = 90/117 + 933/1117 = 0, Scatola contiene 12 palline di cui 3 rosse e le altre bianche, supponendo probabili di estrarre a caso 2 palline bianche senza reimmissione Rosse = 3 → B, bianche = 9 → B negato, tot = 12 n = 2 P (1’ sia bianca e 2’ sia rossa) → P (B1 ∩ B2negato) = P (B1) per P (Bnegato2/B1) = 9/12 per 3/11 = 0,205 → 20,5% P (prima rossa e prima bianca) → P (B2 ∩ B1 negato) = P(B19 per P(B2/B1 negato) = 3/12 per 9/11 = 0, P (tutte rosse) = P (B1negato ∩ B2negato = P (B1negato) per P (B2negato /B1 negato= 3/12 per 2/11 = 0, P (che la seconda sia rossa) = P (B2 negato) = B2 negato = P (B1 ∩ B2negato) U (B1negato ∩ B2negato) → regola della somma dato che sono incompatibili = 0, Nella famiglia Bianchi quando litigano, 60% delle volte lui ha torto, le gli dà ragione a lui il 25% delle volte in cui egli ha torto e il 50% delle volte in cui ha ragione. Lui ha torto o no → T = evento marito che ha torto, T negato = non ha torto Lei può dare in entrambi casi ragione o no → quando ha torto o non ha torto → R = evento in cui moglie dà ragione al lui Diagramma ad albero : 1) T - R o Rnegato 2) T negato - R o Rnegato P(T) = 0,60 P(Tnegato) = 0, P (R/T → (probabilità che lei dia ragione dato che lui ha torto) = 0,25 P (R/Tnegato) = 0, P (Rnegato/Tnegato) = 0,50 P (Rnegato /Tnegato) = 0, P (R) = P(R/T) per P(T) + P(R/Tnegato) per P(Tnegato) = 0,25 per 0,60 + 0,5 per 0,4 = 0,35 → gli dà ragione il 35% volte in cui litigano indipendentemente che abbia torto o meno Posso calcolare la probabilità che marito abbia torto quando la moglie gli dà ragione → P(T/R) = P(R/T) per P(T) / P(R) = (0,25 per 0,6) / 0,35 = 0,43, prob a posteriori → alla luce dell'evidenza empirica qual è la probabilità Probabilità che esca 23 al secondo estratto → estrazione del lotto = 5 numeri compresi tra 1 e 90, senza reimmissione. evento A = estrazione numero 23 P(A) = 1 - P (Anegato) = 1 - (89/90 per 88/89 per 87/88 per 86/87 per 85/86) = 1 - 85/90 = 1- 1/17 = 1/ P (che 23 esca alla seconda estrazione) → no interesse esito prima estrazione = (A2 ∩ A1negato) U (A2 ∩ A1) → quest'ultimo è impossibile, quindi → P (A2 ∩ A1 negato) = P (A1negato) per P (A2/A1negato) = 89/90 per 1/89 = 1/ Mazzo di 40 carte → probabilità che esca un alla seconda estrazione, senza reimmissione (4 sono i re → posso averne uno anche alla prima estrazione)

Variabili casuali (aleatorie, stocastiche) Dato un qualsiasi esperimento casuale: una V.C. è una funzione matematica a valori reali che associa ad ogni elemento dello spazio campionario uno ed un solo numero reale NB: per ogni esperimento casuale possono essere create infinite V.C Una V.C. è quindi un modello (probabilistico) che ci permette di descrivere in maniera semplice ma rigorosa un qualsiasi fenomeno collettivo di nostro interesse La normale è una delle variabili casuali → è modello probabilistico utilizzato per descrivere fenomeni collettivi → dà descrizione sintetica dei fenomeni reali. La normale ha una distribuzione, ma è una variabile casuale. Il modello è un qualcosa che utilizziamo per rappresentare una certa realtà in maniera semplificata → descriverlo nei suoi caratteri essenziali. Bisogno di strutture matematiche che permettano di descrivere i fenomeni reali in maniera essenziale. Modelli sono probabilistici perché fenomeni di nostro interesse sono gravati da incertezza Esempio = fenomeno reale è lancio del dado, esiti (omega) → da 1 a 6, sei punti dentro un insieme. Esiti sono associati con una certa probabilità che si verifichino se non è truccato, se dado è equilibrato. Posso definire una funzione matematica che associa ad ogni elemento dello spazio campionario/possibile esito dell'insieme campionario → un numero reale. Alla faccia con un punto associa numero 1. Altro fenomeno reale → condizione occupazionale dell'individuo : omega è composta da : lavora, non lavora. Sono due punti di un insieme, a cui associo una certa probabilità. Associo numeri a eventi → a 1 lavora, a 2 non lavora, per rappresentare questo particolare fenomeno reale. Definisco modello Y :1,2 → qual è la probabilità che assuma valore/sia 1 oppure 2? 1/ Siamo partiti da fenomeno reale o esperimento casuale, individuato spazio campionario che poi viene tradotto in numeri reali a cui abbiamo associato le probabilità → modello definito variabile casuale. Definire variabile casuale → ho fenomeno reale che voglio studiare e invidio quale variabile casuale è più adatto a descrivere fenomeno reale. Per definirla devo trovare quali valori può assumere (numeri da 1 a 6, o 1 e 2) e le probabilità associate ai valori (⅙ o ½). Reddito è variabile quantitativa continua → posso associare una variabile casuale per descriverlo.

Una variabile casuale risulta completamente identificata:

  • dai valori che essa può assumere (dominio o supporto) ● V.C. discrete: quando variabili casuali assumono un numero finito o un’infinità numerabile di valori (si può sempre stabilire una corrispondenza biunivoca tra il loro supporto e un qualsiasi sottoinsieme dei numeri Naturali) → fenomeno reale è carattere qualitativo sconnesso e per descriverlo uso variabile casuale discreta → può assumere solo due valori (lavora o non lavora) 1 o 2 ● V.C. continue: assumono un’infinità non numerabile di valori (non li posso contare) → associate a caratteri quantitativi continui come età, peso, distanze..
  • e dalle probabilità ad essi associate ● nel caso di V.C. discrete: funzione di massa di probabilità ● nel caso di V.C. continue: funzione di densità di probabilità Variabili casuali → funzioni matematiche che associano i valori reali ad elementi dello spazio campionario. Dato un fenomeno reale definiamo lo spazio campionario, associamo ai punti dell'insieme dei numeri reali. Anche se carattere è di tipo qualitativo (valori non sono numeri ma descrizioni), per modellare carattere usiamo variabili casuali → associamo comunque dei numeri reali. Ma per definire variabile casuale bisogna anche associare delle probabilità perché siamo in uno contesto di incertezza e ogni valore della variabile casuale è definita da un livello di probabilità. Si parla di funzione o distribuzione di probabilità. A seconda dei valori che possono assumere, le variabili casuali si distinguono in discreta e continua. Con densità si intende funzione di probabilità di una variabile continua. Le principali V.C.:
    • Bernoulli e binomiale nel discreto → utilizzo quando ho fenomeni sono binari = esempio condizione occupazionale del soggetto (lavora o non lavora) → per stimare proporzione di individui che lavorano
    • Normale nel continuo (uno dei tanti modelli probabilistici esistenti per descrivere fenomeni reali) → è la più utilizzata perché molti fenomeni nella realtà hanno un andamento ben descritto dalla funzione della normale soprattutto in ambito biologico, poi molti altri fenomeni non seguono andamento della normale ma le loro trasformazioni possono essere descritte con la normale → il logaritmo del reddito. Altro motivo → dovuto al teorema del limite centrale che dice che al crescere della dimensione campionaria i fenomeni tendono a essere ben descritti dalla variabile normale → se ho campioni sufficientemente grandi la normale descrive bene i fenomeni sotto questi grandi campioni Variabile casuale Y ha una distribuzione di tipo normale con parametri caratteristici di una specifica popolazione: mi e sigma quadro, μ e σ^2→ nelle situazioni reali normalmente non le conosciamo, usiamo info campionarie per scoprire qualcosa su questi. Parametro → è una quantità costante, che mi permette di identificare completamente la mia popolazione. Mi (μ) è la media della normale, si indica con E(y) → valore atteso di Y, expected value che vuol dire la media. Sigma quadro è la varianza. Se li cambio, cambio forma della distribuzione di probabilità. La normale assume tutti i valori da più e meno infinito, numeri che appartengono all'asse reale. La normale è centrata su Mi → è una curva simmetrica rispetto all'asse di simmetria che passa per la media Sigma quadro (varianza è misura di variabilità) regola la larghezza della curva→ misura quanto i valori che noi osserviamo si distribuiscono intorno alla media. Indica i due punti di flesso → punti in cui la curva cambia concavità (μ-σ oppure μ+σ), la deviazione standard (radice varianza) li regola la distanza dei punti di flesso dalla media, quanto più sono vicini alla media, quando è più stretta la curva. La media regola la posizione della curva lungo l’asse delle ascisse Funzione di densità/probabilità nell'asse delle ordinate → f (y) è circa la probabilità che y assuma un certo valore. Su asse ordinate vado a leggere la sua densità (funzione di probabilità) All'aumentare di mi la curva si sposta verso dx, al diminuire di mi si sposta verso sx. Al variare di sigma quadro, rimane nella stessa posizione cambia la sua forma → se si riduce è più concentrata intorno al valore medio, se aumenta si schiaccia maggiormente (più dispersione nei dati).

Nella stima puntuale ci poniamo l’obiettivo di fornire una misura puntuale del parametro incognito, alla fine l’esito di una stima puntuale sarà un numero che sarà la nostra stima del parametro che non conosciamo. è un metodo un po’ debole, usare un numero per misurare quantità incognita → povera come inferenza. Meglio accompagnarla a un intervallo di valori plausibili per parametro incognito → intervalli di confidenza che fanno riferimento alla stima per intervalli. Trovare intervalli di valori possibili. Si vuole studiare un evento Y, un carattere che si rappresenta come una variabile casuale, Y ha una sua distribuzione di probabilità → ha una funzione di probabilità di tipo f caratterizzata da parametri incogniti chiamati per esempio ፀ theta. Y potrebbe essere una normale dove parametri incogniti sono mi e sigma quadro. Non conosciamo parametri → theta è un punto interrogativo. Inferenza statistica parametrica. Abbiamo a nostra disposizione un campione → casuale o probabilistico (Y1, Y2,..Yn). Prima di estrarre campione da popolazione, ciascuno di questi elementi può assumere uno qualsiasi dei valori della popolazione, in realtà Y1 è = Y. Primo elemento del campione è uguale alla mia popolazione, osservo uno qualsiasi dei valori che sono nella popolazione. Quando estraggo il secondo individuo (senza reimmissione), alla mia i-esima estrazione prima di selezionare posso osservare uno qualsiasi dei valori della mia popolazione. Questa sequenza Y1 =Y, Y2 =1.. Yn =1 è una sequenza di variabili casuali → esempio voglio stimare reddito medio degli italiani. Y = reddito medio, si distribuisce con una certa media mi (che non conosciamo) → per acquisire conoscenza selezionare un campione. Selezione per esempio n100 individui dalla mia popolazione → sequenza di valori del reddito di 100 individui. Prima ad andare ad estrarre concretamente da popolazione, Y e Y2 sono di quelli che posso osservare uno degli individui che compongono popolazione. Y1 che è il reddito del primo individuo selezionato → sarà uno dei valori della Y, Y2 reddito secondo individuo,... fino al 100 → ciascuno è una variabile casuale che è proprio uguale alla Y della quale intendo selezionare campione. Nostro campione casuale è esso stesso una variabile casuale, fortemente legato alla variabile casuale da cui parto → che è la popolazione di origine. Prima dell’estrazione 1, Y2, Yn sono variabili casuali. Dopo aver selezionato 100 individui e ho fatto estrazione, avrò una sequenza → Y (sarà 1000, y2 sarà 2000…) Quando ho materialmente in mano il campione → si riduce a una sequenza di n numeri reali. Teoria della Stima Puntuale

  • (domani, prima) si estrae un campione casuale (Y1,Y2,....Yn) ∊ R^n → valori non sono noti
  • oggi, dopo i valori estratti non sono noti per cui è una variabile casuale
  • si utilizza un’opportuna funzione di riduzione dei dati Tn. Tn : R^n → R, si passa dal campione casuale che ha una dimensione di n alla dimensione dei numeri reali→ funzione di sintesi la statistica campionaria
  • Tn è detta statistica campionaria se NON dipende da altre quantità incognite (parametro incognito popolazione)
  • La statistica campionaria Tn è una v.c., in quanto è funzione delle v.c.. (Y1, Y2,....Yn)
  • Tn assume valori nell’universo dei campioni per cui la sua distribuzione di probabilità è detta distribuzione campionaria. Ragiono in termini di proprietà in termini probabilistico del campione variabile → la variabile casuale del campione prima dell’estrazione che proprietà ha dal punto di vista probabilistico? Prima cosa che possiamo fare è capire se esiste una funzione del nostro campione (variabile casuale) Y1, Y2 ,Yn che permetta di sintetizzare info contenuta nel campione, in modo che arrivo a dire qualcosa sul mi, reddito medio. Fare operazione di sintesi come si fa nella statistica descrittiva per sintetizzare info campionaria per arrivare a dire qualcosa sul reddito medio mi. Obiettivo è trovare funzione Tn (di n elementi campionari, di sequenza di n variabili casuali) → funzione di sintesi per sintetizzare info campione, chiamata statistica o statistica campionaria. Cambia il campione e quindi cambia la media → 100 valori diversi, per ogni campione un valore medio diverso. Media reddito medio italiani nella popolazione è incognito, selezioniamo campione casuale (prima estrazione) mentre stiamo ragionando liveoo reotico, questi 100 individui (variabili casuali) le gestisco male, quindi vanno sintetizzati in T. In questo modo non ho da gestire 100 vc, ma solo una che potrebbe essere la media campionaria → solo 1 n, necessariamente è una variabile casuale (assume valori diversi perchè posso selezionare campioni diversi).

A seconda del campione che osservo avrò un valore della media campionaria diversa. Nel concreto ho 100 valori del reddito, su questi 100 posso calcolare media campionaria che sarà un numero. Di questo numero cosa faccio? Supponiamo che media di 100 individui sia 1300, può essere una buona stima del mi? Per questo non possiamo ragionare in termini del singolo campione osservato, prima devo capire qual è il supporto teorico che mi permetterà sul singolo campione di essere autorizzato a calcolare la media. Per questo devo ragionare in termini di variabile casuale. Statistica media campionaria, è una variabile casuale e assume certi valori e associati a questi ci sono delle probabilità. In quanto variabile casuale avrà una sua funzione di probabilità (come la popolazione dalla quale il campione proviene), assumerà una serie di valori e associati a questi ci saranno probabilità (su qual è comportamento della variabile casuale). Parametri popolazione con lettere greche, le statistiche calcolate con campioni si calcolano con lettere. Esempio di statistica (campionaria) : la media campionaria → oggi, prima di effettuare estrazione è una variabile casuale → Tn (Y1,...Yn) = ў = Σ Yi/n (somma per y che va da 1 a n con gli y con i che sono gli elementi del nostro campione = sommo elementi campioni e divido per n). → domani, dopo estrazione/ che ho osservato effettivamente campione è un numero ў = Σ yi/ n. I valori che ў potrà assumere saranno in numero uguale al numero dei campioni e varieranno in funzione di tali campioni. La distribuzione di ў dipenderà dalla distribuzione della Popolazione Y e sarà caratterizzata, come tutte le distribuzioni di probabilità, da una sua media, una sua varianza, … Statistica con valori vicino e poco dispersi da mi (coincide nella normale con media, mediana, moda). A livello di variabile casuale quale ha minore dispersione per fornire una stima di mi? Media campionaria, essendo una variabile casuale avrà una sua distribuzione di probabilit, la media e la varianza. E = valore atteso, media. Qual è la media della media campionaria? è uguale a mi → E(ў ) = μ. Esempio : Supponiamo di selezionare campione di 100 individui → su questo calcolo reddito medio (media campionaria) ў1= 1300, poi seleziono secondo campione da 100 ў 2 = 1450, ў3 = 1290… seleziono tutti i possibili campioni che possono essere estratti dalla mia popolazione di ampiezza n. Alla fine ho lunga sequenza di medie campionarie, di numeri → tutte quelle possibili. Se mi metto a fare la media di tutte le possibili medie campionarie scopro che questa mi dà il valore di mi. La mediana e media → loro media dà mi. Nel caso di un campione la media è meno dispersa di mediana, ho più probabilità di ottenere valore che si avvicina a mi, si preferisce statistica con variabilità inferiore. Non devo usare moda campionaria perchè mediamente non mi dà mi. 2 elementi per valutare la bontà di una statistica → valore atteso di funzione E(Tn) e varianza Van(Tn) C’è differenza se estraggo con ripetizione o senza ripetizione nel caso della varianza. Popolazione y è una variabile casuale, mi è incognito, ho un campione casuale che immagino di selezionare da mi, mi focalizzo su una sintesi del campione che prende il nome della statistica che si indica con T = assume valori diversi al variare del campione (è variabile casuale). Ci concentriamo su media campionaria → sua media è uguale a mi, sua varianza è più piccola della mediana campionaria. Se trovo una statistica che si comporta bene, che ha delle proprietà buone posso usarla per stimare mi (parametro incognito) questa statistica si chiama stimatore (esempio media campionaria)→ che è una funzione degli elementi campionari che uso per misurare e stimare il parametro incognito. Il valore che lo stimatore (variabile casuale) assume una volta che io calcola la funzione su un campione specifico (numero) prende il nome di stima = risultato che ottengo applicando stimatore a uno specifico campione (1300 era una stima di mi). Stima Puntuale Stimatore : è una statistica (ovvero una funzione di v.c. che è essa stessa v.c.) utilizzata per stimare il parametro incognito θ ∊ Θ. Per esempio : μ ∊ 〜 o^2 ∊ 〜+ U {0} T (Y1, Y2, ..Yn) → oggi è una variabile casuale T (y1, y2, ..yn) = t → domani è un numero ovvero stima di θ Supponendo di voler stimare θ qual è il miglior stimatore che possiamo utilizzare?