Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


APPUNTI ESAME STATISTICA Prof. Bacci, Appunti di Statistica

Appunti dell'esame di Statistica integrati con le dispense fornite dalla professoressa, del corso di Statistica dalla prof. Silvia Bacci. Facoltà di Scienze e Tecniche Psicologiche (L-24) presso l'Università degli Studi di Firenze.

Tipologia: Appunti

2022/2023

In vendita dal 17/06/2023

Divra
Divra 🇮🇹

4.5

(37)

74 documenti

1 / 125

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
- Raccolta delle informazioni (dati)
La statistica si occupa dell’analisi di dati che devono essere generati
- Organizzazione dei dati
- Sintetizzazione dei dati
La sintetizzazione viene fatta attraverso la statistica descrittiva la quale
sintetizza il dato al fine di analizzare la collettività. La sintesi viene
maggiormente attuata con formule matematiche e grafici.
- Analisi dei dati
- Interpretazione dei dati
- Generalizzazione dei dati
F P
f1 (...)
f2 (...)
f3 (...)
R
APPUNTI STATISTICA
STATISTICA (4-10-2022)
INTRODUZIONE
La statistica è la scienza che studia i fenomeni collettivi.
La statistica mette insieme:
STATISTICA DESCRITTIVA
Si vuole conoscere un fenomeno generale relativo ad una popolazione (collettivo). La popolazione è un
insieme di unità che presentano manifestazione diverse del fenomeno d’interesse.
Si applica alla popolazione una serie di funzioni (media, mediana, quartili, varianti…). Con questo si crea un
insieme molto più piccolo formato dalle rappresentazioni della popolazione iniziale. Questo consente di dire
qualcosa su un dato fenomeno F.
Allo psicologo interessa il singolo, allo statista no. Ma, per
conoscere il singolo, si deve prima conoscere la collettività, per
questo è importante la statistica. La collettività, da cui proviene
un singolo soggetto, viene usata per comprendere cos’è tipico o
atipico attraverso l’elaborazione di dati.
La collettività si manifesta in modo diverso (differenze
individuali) tra una pluralità di soggetti. Le manifestazioni
diverse portano al concetto di VARIABILITA’.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica APPUNTI ESAME STATISTICA Prof. Bacci e più Appunti in PDF di Statistica solo su Docsity!

  • Raccolta delle informazioni (dati) La statistica si occupa dell’analisi di dati che devono essere generati
  • Organizzazione dei dati
  • Sintetizzazione dei dati La sintetizzazione viene fatta attraverso la statistica descrittiva la quale sintetizza il dato al fine di analizzare la collettività. La sintesi viene maggiormente attuata con formule matematiche e grafici.
  • Analisi dei dati
  • Interpretazione dei dati
  • Generalizzazione dei dati

F P

f 1 (...)

f 2 (...)

f 3 (...)

R

APPUNTI STATISTICA

STATISTICA (4- 10 - 2022)

INTRODUZIONE

La statistica è la scienza che studia i fenomeni collettivi.

La statistica mette insieme:

STATISTICA DESCRITTIVA

Si vuole conoscere un fenomeno generale relativo ad una popolazione (collettivo). La popolazione è un insieme di unità che presentano manifestazione diverse del fenomeno d’interesse. Si applica alla popolazione una serie di funzioni (media, mediana, quartili, varianti…). Con questo si crea un insieme molto più piccolo formato dalle rappresentazioni della popolazione iniziale. Questo consente di dire qualcosa su un dato fenomeno F.

Allo psicologo interessa il singolo, allo statista no. Ma, per conoscere il singolo, si deve prima conoscere la collettività, per questo è importante la statistica. La collettività, da cui proviene un singolo soggetto, viene usata per comprendere cos’è tipico o atipico attraverso l’elaborazione di dati.

La collettività si manifesta in modo diverso (differenze individuali) tra una pluralità di soggetti. Le manifestazioni diverse portano al concetto di VARIABILITA’.

Se però viene osservato un sottoinsieme della popolazione, detto CAMPIONE, vuol dire che la statistica descrittiva descriverà un sottoinsieme della popolazione, cioè quel dato campione, e in generale ciò che viene osservato. Se si vuole descrivere tutta la popolazione la statistica descrittiva non basta, ma si deve utilizzare l’INFERENZA.

Per quanto riguarda la statistica descrittiva si deve però analizzare il modo in cui il campione viene scelto poiché non tutti i sottoinsiemi della popolazione vanno bene. Per far questo si analizzano anche i vantaggi o gli svantaggi di lavorare con un campione o con una popolazione.

Se si seleziona il campione seguendo determinate regole, allora è possibile tenere sotto controllo (cioè misurare) la variabilità campionaria. Qui interviene la distinzione tra:

  • Campionamento probabilistico
  • Campionamento non probabilistico (campionamento fatto a caso, ad esempio selezionando per uno studio le prime 100 persone che passano)

Quindi perché usare dei campioni e non lavorare sempre con popolazioni? Perché le rilevazioni che riguardano l’intera popolazione sono costose in termini economici, di tempo, e sono difficilmente implementabili. Questo perché non è facile definire la popolazione (es capire tutte le persone affette da una certa malattia). Molto spesso è quindi impossibile definire le unità della popolazione, non si possono raggiungere i singoli.

Allo stesso tempo se si fanno indagini troppo ampie sulla popolazione sussiste un problema sulla qualità del dato (perché magari non viene compreso ciò che viene chiesto). Questa è una problematica delle indagini Istat sui censimenti.

Si deve quindi usare un campione, ma anche i campioni hanno delle problematiche perché c’è chi può rifiutarsi di partecipare all’indagine (e se questo succede la persona andrebbe rimpiazzata ma questo è complesso), c’è chi non risponderebbe a certe domande o lo fa in maniera falsa. Un altro problema riguarda la DISTORSIONE indotta dal fatto che si usa un campione.

Infatti oggi l’Istat fa indagini campionarie con il censimento permanente fatto di continuo con campioni che a rotazione vengono parzialmente rinnovati. Questo per abbattere i costi, tempi e innalzare la qualità del dato.

Quando si parla di distorsione ci si riferisce al fatto che il campione non rappresenta mai in modo fedele la popolazione. Questo perché esiste la VARIABILITA’ CAMPIONARIA, che è un tipo di distorsione. Essa è dovuta al fatto che viene osservata una parte della popolazione. Quindi due campioni estratti da una stessa popolazione possono essere diversi tra loro (media, variabilità… diverse), cioè 𝑥⃗ ≠ 𝑦⃗ ≠ 𝜇 (media).

CAMPIONAMENTO NON PROBABILISTICO

Tipi di campioni non probabilistici (alcuni esempi):

  1. CAMPIONE PER QUOTA Ricorda il campione stratificato ma è diverso. Le unità vengono scelte secondo delle proporzioni prestabilite (ad esempio si divide la popolazione in maschi e femmine dicendo quanti selezionarne di ciascuno. Se invece si seleziona casualmente tre maschi e femmine senza un numero prestabilito di ognuno si parla di campione stratificato).

2. CAMPIONE DI VOLONTARI

Sono coloro che partecipano all’indagine a decidere di farla. Vengono utilizzati perlopiù i social, quindi chi non li possiede non fa parte del campione.

Il problema è che il campione dei volontari è auto selezionato e quindi è difficile generalizzare alla popolazione.

3. CAMPIONE A VALANGA

Si parte da alcune unità che vengono contattate e attraverso queste, si arriva ad altre unità. Ad esempio si contattano delle persone che a loro volta ci mettono in contatto con persone con le stesse caratteristiche. Le persone in questione si frequentano.

4. CAMPIONE A SCELTA RAGIONATA O PER TESTIMONI PRIVILEGIATI

Si utilizzano persone che conoscono il problema.

In tutti questi casi di campionamento non probabilistico non viene controllata la variabilità campionaria.

F P

f 1 (...)

f 2 (...)

f 3 (...)

R

campione C

f 1 (...)

f 2 (...)

f 3 (...)

R

STATISTICA ( 8 - 10 - 2022)

Occorre fare una distinzione tra i vari tipi di variabili (caratteri), ciò che osserviamo e a cui siamo interessati:  VARIABILI QUALITATIVE Si manifestano attraverso la descrizione delle unità (genere, titolo di studio, professione svolta…). Si distinguono in:

  • Variabili nominali (o sconnesse): si misurano su scala nominale e non c’è un ordinamento predefinito. Si può dire solo se due unità sono uguali o diverse rispetto ad un certo carattere (esempio la facoltà frequentata).
  • Variabili ordinali : c’è un ordinamento, ad es il titolo di studio. Si è in grado di ordinare le modalità di un carattere vedendo se una modalità viene prima di un’altra. Ciò che non si può fare è quantificare (non si può vedere di quanto il carattere viene prima o dopo).

VARIABILI QUANTITATIVE Si manifestano attraverso valori numerici (età, distanza casa lavoro, livello di soddisfazione, altezza…). Si distinguono in:

  • Variabili discrete : si ha o un numero finito o un’infinità di modalità ma numerabile. Quest’ultima affermazione vuol dire che sono in grado di enumerare (elencare) i valori che la variabile può assumere (es n° di figli o n° di persone che accedono all’ospedale nel weekend). In entrambi i casi sono in grado di contare, e numerare numeri interi.
  • Variabili continue : la variabile assume un’infinità non numerabile di valori (numeri reali). Sono variabili legate al tempo.

Calcolo di media, moda, mediana, varianze, frequenze e coefficiente di regressione La moda la media e le varianze le calcolo solo su variabili quantitative. La mediana la calcolo sia su variabili quantitative che variabili qualitative su scala ordinale. Le frequenze le calcolo a prescindere (sia su variabili qualitative che quantitative).

Il coefficiente di regressione si applica solo su variabili quantitative.

Ciò che è di centrale interesse è avere informazioni sulla popolazione (sul fenomeno di interesse) a partire dal campione. La statistica descrittiva non basta. Con quest’ultima è possibile descrivere il campione ottenendo delle rappresentazioni del campione ma poi serve l’ inferenza statistica : metodi che permettono di passare dal particolare (campione) al generale (popolazione). Permette di fare un processo induttivo di conoscenza, si parla quindi di METODO INDUTTIVO o INFERENZIALE.

Esse sono:

  • Assolute
  • Relative

Sono entrambe la forma più generarle per sintetizzare i dati (del calcolo sia su variabili qualitative che quantitative).

“e”

“unione” o “intersezione”

OPERAZIONI DI INTERESSE NELLA PROBABILITÀ

  • Negazione 𝑨̅ (𝐴 negato, non 𝐴, o complementare di 𝐴): insieme degli esiti dell’esperimento che non appartengono ad 𝐴.
  • Intersezione Dati due eventi 𝐴 𝑒 𝐵, l’intersezione di essi è l’insieme di tutti gli elementi che appartengono sia ad 𝐴 che a 𝐵 ⇒ 𝑨 ∩ 𝑩

Es: 𝐴 = { 1 , 2 , 3 }^ ; 𝐵 = { 2 , 3 , 4 }

  • Unione Dati due eventi 𝐴 𝑒 𝐵, l’unione è l’insieme degli elementi che appartengono ad 𝐴, a 𝐵, oppure ad entrambi gli insiemi⇒ 𝑨 ∪ 𝑩

Es: 𝐴 = { 1 , 2 , 3 }^ ; 𝐵 = { 2 , 3 , 4 }

La definizione di queste operazioni porta a distinguere i seguenti eventi:

  • Evento impossibile Evento che non si verifica mai ∅. Es: considero l’evento “𝐴 numero pari” e “𝐵 numero dispari”. Esso è impossibile perché non si possono realizzare entrambi. ∅ → 𝐴 ∩ 𝐴̅ = ∅
  • Evento certo Evento che sicuramente si verifica. L’evento certo per eccellenza è lo spazio campionario Ω. È dato dall’unione dell’evento con la sua negazione. Es se si lancia un dado o esce “n° pari” o “n° dispari”. Ω → 𝐴 ∪ 𝐴̅ = Ω

Numero molto grande di repliche dell’esperimento

Quindi diventa

Ipoteticamente vengono fatti infiniti lanci

  • Eventi incompatibili (o disgiunti) Eventi che non si possono realizzare insieme. Non hanno quindi elementi in comune, la loro intersezione è l’insieme vuoto. (N.B. l’evento indipendente è un concetto diverso).

Esistono vari approcci, impostazioni, della probabilità:

  1. DEFINIZIONE CLASSICA Nasce con la nascita dei giochi di sorte. Essa dice che dato un evento 𝐴, la probabilità di esso è data dal n° di casi favorevoli all’evento fratto il n° di casi possibili purché siano tutti ugualmente possibili. Questo vuol dire che tutti i casi che si possono realizzare devono avere la stessa possibilità di realizzarsi.

𝑷(𝑨)^ =

Es: Lancia un dado in cui deve uscire un numero pari. La probabilità è uguale a 36 = (^12)

Una problematica di questo approccio è che definisce la probabilità stessa perché “è possibile” è sinonimo di “probabile”.

  1. DEFINIZIONE FREQUENTISTA Si suppone che il dado sia truccato. Lanciando il dado più volte si può verificare quante volte esce ad esempio un numero pari. Questa si chiama frequenza relativa. Si replica l’esperimento un numero infinitamente grande di volte e si vede quante volte si replica la frequenza relativa. La frequenza relativa si calcola con la seguente formula:

𝒏→∞

La probabilità viene approssimata (perché si parla di limite) con la frequenza relativa. Se si ha un campione abbastanza grande le probabilità sono frequenze relative (calcolate con la statistica descrittiva).

La definizione frequentista sta alla base dell’inferenza frequentista, che è l’approccio frequentista all’esperienza (che usiamo noi). Questo tipo di definizione è valida per la maggior parte dei problemi ma non lo è se non è possibile replicare l’esperimento. Es: se si vuole calcolare la probabilità che l’uomo arrivi su Marte in vent’anni. Così viene introdotta la definizione soggettiva.

  1. DEFINIZIONE SOGGETTIVA La probabilità di un evento 𝐴 (𝑃(𝐴)) è il grado di fiducia che si assegna al realizzarsi di questo evento. Ciascuno di noi, che ha conoscenze diverse sullo stesso fenomeno, assegnerà probabilità soggettive al verificarsi di un evento.

Questa definizione supera i problemi delle precedenti. Questa definizione è la base dell’Approccio Bayesiano all’inferenza (o Approccio Bayesiano).

La probabilità è 1 quando l’evento è certo

Avendo visto che: 𝑃(Ω) = 1 (Assioma 1) 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(𝐴) + 𝑃(𝐴̅) (Assioma 3)

Da questi due assunti deriva che: 𝑃(𝐴 ∪ 𝐴̅) = 𝑃(Ω) = 1

E quindi: 1 = 𝑃(𝐴) + 𝑃(𝐴̅)

Si conclude che: 𝑃(𝐴̅) = 1 − 𝑃(𝐴)

(N.B.= 𝐴̅ è il complementare di 𝐴 perché completa lo spazio campionario)

L’unione e l’intersezione godono della proprietà commutativa: dire 𝐴 ∩ 𝐵 è uguale a dire 𝐵 ∩ 𝐴 e 𝐴 ∪ 𝐵 è uguale a 𝐵 ∪ 𝐴. Si decide quale usare a seconda dei dati a disposizione.

STATISTICA ( 11 - 10 - 2022)

Dagli assiomi 1, 2, 3, 4 si deducono altre relazioni rilevanti:

  • Dato un evento 𝐴 qualsiasi, ha una probabilità tra 0 e 1: 𝟎 ≤ 𝑷(𝑨) ≤ 𝟏 (conseguenza assiomi 1 e 2)
  • La probabilità dell’evento impossibile è 0: 𝑷(∅)^ = 𝟎
  • Se 𝑨 ∩ 𝑩 = ∅ ⟹ 𝑷(𝑨 ∩ 𝑩) = 𝟎
  • Se 𝑨 ∪ 𝑩 = 𝛀 ⟹ 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝛀) = 𝟏
  • Dalla precedente, ponendo 𝐵 = 𝐴̅ , ne deriva che 𝑷(𝑨̅ ) = 𝟏 − 𝑷(𝑨)

REGOLA DELLA SOMMA (o Principio delle Probabilità Totali) È una regola che viene messa in atto se i due eventi 𝐴 e 𝐵 sono generici e non necessariamente incompatibili (possono anche presentarsi insieme).

𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩)

La probabilità è 0 quando l’evento è impossibile

Ottengo questa relazione perché considero: 𝐴 ∪ 𝐴̅ = Ω e A ∩ 𝐴̅ = ∅

𝑨 𝑩^ 𝛀

Eventi che non si possono verificare simultaneamente

Un evento non influenza l’altro ma si possono verificare insieme

Se due eventi sono indipendenti allora sono incompatibili? No  Caso in cui: 𝑃(𝐴 ∩ 𝐵) = 0 𝑃(𝐴 | 𝐵) = 0 perché 𝑃(𝐴 |𝐵) = 𝑃(𝐴∩𝐵)𝑃(𝐵) = (^) 𝑃(𝐵)^0 = 0 ≠ 𝑃(𝐴)

Se 2 eventi sono incompatibili e si osserva 𝐵, sicuramente 𝐴 non si verificherà mai.

REGOLA DEL PRODOTTO CON EVENTI INDIPENDENTI

Un caso particolare della probabilità condizionata si ha quando 𝑷(𝑨|𝑩) = 𝑷(𝑨). Questo vuol dire che il fatto che si realizzi 𝐵 non altera la probabilità che 𝐴 si realizzi. Si dice che 𝐴 e 𝐵 sono Eventi Indipendenti (𝐴 non dipende da 𝐵). Vale anche il contrario: 𝑃(𝐵|𝐴) = 𝑃(𝐵).

Esempio: si prende una moneta che viene lanciata due volte. Al primo lancio (𝐴) esce testa. Ad un secondo lancio (𝐵) ci si chiede qual è la probabilità che esca testa. Quindi qual è 𝑃(𝐵|𝐴)? Ne risulta che 𝑃(𝐵|𝐴)^ = 𝑃(𝐵)^ = (^12)

Sempre nel caso di eventi indipendenti è possibile semplificare la regola del prodotto:

𝑷(𝑨 ∩ 𝑩)^ = 𝑷(𝑨|𝑩)^ × 𝑷(𝑩)^ = 𝑷(𝑨) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) = 𝑃(𝐵) × 𝑃(𝐴)

Schema riassuntivo:

N.B.= distinzione tra EVENTI INCOMPATIBILI ed EVENTI INDIPENDENTI

UNIONE EVENTI

Regola della somma: 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩)

Regola della somma con eventi incompatibili (𝐴 ∩ 𝐵 = ∅):

𝑷(𝐀 ∪ 𝐁) = 𝑷(𝑨) + 𝑷(𝑩)

INTERSEZIONE EVENTI

Regola del prodotto con eventi dipendenti: 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨|𝑩) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴)

Caso particolare in cui gli eventi sono indipendenti: 𝑷(𝑨|𝑩) = 𝑷(𝑨) Oppure 𝑃(𝐵|𝐴) = 𝑃(𝐵)

Semplificando la regola del prodotto si ottiene: 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨) × 𝑷(𝑩) Oppure 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) × 𝑃(𝐴)

Avendo osservato il risultato del test, la probabilità che il soggetto sia maschio passa da un 45% ad un 66%.

(𝐴𝑡𝑡 ∩ 𝑀) e (𝐴𝑡𝑡 ∩ 𝐹) sono eventi incompatibili. Quindi si utilizza la regola del prodotto:

𝑃(𝐴𝑡𝑡) = 𝑃(𝐴𝑡𝑡 ∩ 𝑀) + 𝑃(𝐴𝑡𝑡 ∩ 𝐹) = = 𝑃(𝐴𝑡𝑡|𝑀) × 𝑃(𝑀) + 𝑃(𝐴𝑡𝑡|𝐹) × 𝑃(𝐹)

𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6 sono le possibili patologie che si possono manifestare, non si intersecano mai. (𝐾 1 ∩ 𝐾 2 ) = ∅

Se si intersecano le patologie (sottoinsiemi) si ottiene lo spazio campionario. 𝐾 1 ∪ 𝐾 2 ∪ 𝐾 3 ∪... 𝐾 6 = ∅

S= sintomi

𝑃(𝑀|𝐴𝑡𝑡)^ =

𝑃(𝐴𝑡𝑡)^

𝑃(𝐴𝑡𝑡/𝑀)^ × 𝑃(𝑀)

𝑃(𝐴𝑡𝑡)^

𝑃(𝐴𝑡𝑡|𝑀)^ × 𝑃(𝑀)

𝑃(𝐴𝑡𝑡|𝑀) × 𝑃(𝑀)

𝑃(𝐴𝑡𝑡|𝑀) × 𝑃(𝑀) + 𝑃(𝐴𝑡𝑡|𝐹) × 𝑃(𝐹)

0. 60 × 0. 45

0. 60 × 0. 45 + 0. 25 × 0. 55

Evento condizionante 𝐴𝑡𝑡 = (𝐴𝑡𝑡 ∩ 𝑀) ∪ (𝐴𝑡𝑡 ∩ 𝐹)

Quindi: 𝑃(𝐴𝑡𝑡) = [(𝐴𝑡𝑡 ∩ 𝑀) ∪ (𝐴𝑡𝑡 ∩ 𝐹)]

La formula di Bayes può essere estesa anche a quando gli eventi a priori che si manifestano sono più di due. Esempio: un medico deve diagnosticare una malattia tra 6 patologie.

Le patologie si accompagnano a dei sintomi che possono essere comuni a più patologie. Quindi possiamo immaginare di avere un insieme 𝑆 (sintomi che si possono manifestare e che sono legati in modo più o meno frequente alle patologie).

Deriva dall’esperienza del medico. Lui sa quale sono le malattie più comuni conoscendo l’ambiente a cui si fa riferimento.

Probabilità a priori

𝑃(𝑆 | 𝐾 1 ) × 𝑃(𝐾 1 )

Non abbiamo questo valore. Esso si calcola attraverso le probabilità condizionate:

𝑃(𝑆) = 𝑃(𝑆 | 𝐾 1 ) × 𝑃(𝐾 1 ) + 𝑃(𝑆 | 𝐾 2 ) × 𝑃(𝐾 2 )+... 𝑃(𝑆 | 𝐾 6 ) × 𝑃(𝐾 6 )

Uno degli addendi è sempre il numeratore

Quando si presenta un paziente, il medico prima di studiare i sintomi, analizza la probabilità a priori che si manifesti la patologia (𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6 ).

Le malattie hanno sintomi comuni che si presentano con frequenze diverse per ogni malattia (questo si evince dalla porzione che 𝑆 occupa in ogni spazio delle malattie 𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6.

Il medico analizza la probabilità che si manifesti il sintomo data la malattia 𝐾 1 , 𝐾 2 , 𝐾 3 …𝐾 6. Il medico dispone di 𝑆, lui vede i sintomi dal momento in cui vede il paziente. In questo modo aggiorna le sue conoscenze a priori potendo calcolare la probabilità che il paziente abbia una malattia dati i sintomi. Cosi le probabilità a priori diventano a posteriori (in base ai sintomi che osservo emetto una diagnosi basata sulla probabilità a priori).

Le calcolo con:

Per modello probabilistico si intende una rappresentazione semplificata, idealizzata della realtà. È un modello caratterizzato da una variabilità da tenere in considerazione.

STATISTICA ( 18 - 10 - 2022)

LE VARIABILI CASUALI

Siamo nell’ambito della probabilità ma queste variabili sono il punto di aggancio per l’inferenza.

In modo più generale le variabili casuali vengono definite come un modello probabilistico che permette di descrivere in maniera semplice ma rigorosa un qualsiasi fenomeno collettivo (fenomeno reale) di nostro interesse.

Più specificatamente la variabile casuale (dato un qualsiasi esperimento casuale) viene definita come: una funzione matematica che associa ad ogni elemento dello spazio campionario uno ed un solo numero reale.

Esempio 1 : se l’esperimento casuale (fenomeno) e il lancio del dado, lo spazio campionario Ω sono le 6 facce del dado. Si fa corrispondere ad ogni elemento dello spazio campionario (ad ogni faccia) un numero reale.

Esempio 2: spazio campionario Ω = {𝑙𝑎𝑣𝑜𝑟𝑜, 𝑛𝑜𝑛 𝑙𝑎𝑣𝑜𝑟𝑜}. In questo caso essendo la variabile qualitativa siamo noi ad associare i fenomeni a valori numerici reali.

Una variabile casuale è identificata:

  1. Dal SUPPORTO (o DOMINIO ) cioè i valori numerici reali che la variabile casuale (𝑌) può assumere. Ad esempio nel caso di un dado 𝑌 = { 1 , 3 , 4 , 5 , 6 }. A seconda della natura del supporto si possono distinguere due tipologie di variabili:  VARIABILI CAUSALI DISCRETE: si hanno quando il supporto è definito secondo un numero finito o un’infinità numerabile di valori.

 VARIABILI CAUSALI CONTINUE: si hanno quando il supporto è definito da un’infinità non numerabile di valori (es tutti i numeri reali in un certo intervallo).

  1. Dalle PROBABILITÀ associate agli elementi del supporto. Questo significa che non basta sapere i valori che 𝑌 assume, ma è importante conoscere la probabilità che ad esempio che Y sia uguale a 1 , 2 , 3 ,... 6 cioè: 𝑃(𝑌 = 1 ) =? 𝑃(𝑌 = 2 ) =? 𝑃(𝑌 = 3 ) =? Ecc.…

 Nel caso in cui le variabili casuali siano discrete si parla di funzione di massa di probabilità. Sono in grado di sapere la probabilità che Y assuma ogni valore (elementi) del supporto (𝑦):

Graficamente rappresento la funzione delle variabili casuali discrete con il grafico a segmenti:

 Nel caso in cui le variabili casuali siano continue si parla di funzione di densità di probabilità. In questo caso la probabilità che Y sia esattamente un certo valore è 0. Questo perché non si riesce a cogliere un valore preciso nell’intervallo considerato. È per questo che si parla di densità. Infatti:

Graficamente rappresento la funzione delle variabili casuali continue nel seguente modo:

Supporto

Numero finito

Infinità numerabile di valori

Variabili discrete

L’area al di sotto la curva della funzione di densità è uguale a 1.

N.B.

TIPOLOGIE DI VARIABILI CASUALI CONTINUE

VARIABILE CAUSALE NORMALE

La simbologia che viene utilizzata è 𝒀 ~ 𝑵 (𝝁 , 𝝈𝟐). È una variabile caratterizzata dalla media (𝜇) e dalla varianza (𝜎^2 ).

  • Il supporto della variabile normale è: 𝒀 ∈ (−∞, +∞) 𝒄𝒐𝒏 𝒚 ∈ ℝ
  • La funzione associata alla probabilità è la funzione di densità :

Caratteristiche della curva della funzione di densità:

  • È continua
  • È simmetrica rispetto ad uno dei due parametri caratteristici (cioè 𝝁). Da questo ne consegue che 𝜇 coincide con la moda e la mediana. Quindi 𝜇 = 𝑚𝑒𝑑𝑖𝑎 = 𝑚𝑜𝑑𝑎 = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
  • 𝜎, la deviazione standard, individua quanto i valori si disperdono rispetto alla media. 𝜎 individua il flesso (punto in cui si passa da una curva che guarda verso l’alto ad una guarda verso il basso e poi di nuovo verso l’alto).
  • La curva normale è asintotica. Questo vuol dire che la curva si avvicina all’infinito senza mai toccare l’asse delle 𝑦.
  • La curva va da −∞ a +∞ ma quasi la totalità dei valori della normale (il 99 ,7%) si trova tra − 3 𝜎 𝑒 + 3 𝜎.

𝑓𝑙𝑒𝑠𝑠𝑜 𝑓𝑙𝑒𝑠𝑠𝑜

Quanto più 𝜎 (sigma) è piccolo, più la curva diventa stretta. Quanto più 𝜎 (sigma) è grande, più la curva diventa piatta. Questo perché c’è una maggiore dispersione dei valori rispetto alla media 𝜇. Il fatto che la curva diventi più stretta o più piatta a seconda della grandezza di 𝜎 è il motivo per cui 𝜎 indica la dispersione dei valori. Graficamente:

𝑓𝑙𝑒𝑠𝑠𝑜

𝜇 − 𝜎

𝜇 + 𝜎 𝜇 + 𝜎

𝑓𝑙𝑒𝑠𝑠𝑜

𝑓𝑙𝑒𝑠𝑠𝑜 (^) 𝑓𝑙𝑒𝑠𝑠𝑜

𝜇 − 𝜎

Eventi praticamente impossibili

si assume di conoscere la forma della distribuzione, cioè il modello probabilistico caratterizzante il fenomeno oggetto di studio, ma non si conoscono i suoi parametri. Es: si ipotizza di sapere che 𝑌 è una normale (𝑌 ~ 𝑁), ma non si conoscono i valori dei suoi parametri 𝑌 ~ 𝑁 (? ,? ). Quindi l’oggetto dell’inferenza sono i parametri (es 𝜇 e 𝜎 se si tratta di una distribuzione normale e 𝑝 se si tratta della Bernoulli).

La tavola 2 si dice si riferisce alla distribuzione normale che ha media 𝜇 = 0 e varianza 𝜎 = 1. In questo caso la variabile normale prende il nome di variabile normale standard la quale rappresenta la variazione e si indica nel seguente modo: 𝒁 ~ 𝑵 ( 𝟎 , 𝟏 )

Nella tavola 2 la distribuzione normale viene rappresentata sottoforma di funzione di probabilità cumulata o di ripartizione 𝒇(𝒚) = 𝑷(𝒀 < 𝒚):

Per poter utilizzare le tavole si deve innanzitutto fare la standardizzazione attraverso la seguente formula:

I PRINCIPI DELL’INFERENZA

L’inferenza esiste sottoforma di processo deduttivo e induttivo:

  • Processo deduttivo : è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i teoremi. Ess: se un triangolo rettangolo ha un angolo di 90° e il triangolo A è rettangolo allora il triangolo A ha un angolo di 90°
  • Processo induttivo : si generalizza l’esperimento singolo alla classe di tutti gli esperimenti simili operando una sorta di estensione dal particolare (campione) al generale (popolazione). Le generalizzazioni però non sono certe. L’inferenza induttiva è un processo d’azzardo e l’incertezza viene misurata in termini probabilistici.

Noi tratteremo i processi induttivi. Uno dei compiti della statistica è quello di fornire metodi per fare delle inferenze induttive e misurarne il grado di incertezza. Si distinguono due tipi di inferenze:

  1. Inferenza parametrica :