











Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa dei concetti fondamentali della statistica, esplorando le diverse tipologie di variabili (quantitative e qualitative), le distribuzioni di frequenza e le varie rappresentazioni grafiche utilizzate per analizzare e visualizzare i dati. Vengono inoltre trattati concetti come media aritmetica, mediana, moda e variabilità, offrendo una solida base per la comprensione dell'analisi statistica. Infine, vengono esaminate le distribuzioni unitarie doppie e le tecniche per valutare l'associazione tra variabili, come l'analisi della dipendenza e l'interdipendenza, fornendo strumenti essenziali per l'interpretazione dei dati e la verifica di ipotesi.
Tipologia: Sintesi del corso
1 / 19
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!












Attraverso un’indagine grazie alla quale si possono rilevare tutte le unità di una popolazione, si può raggiungere una descrizione del fenomeno oggetto di studio anche se spesso bisogna limitarsi a osservare un fenomeno. Per questo sono state sviluppate altre tecniche di campionamento che permettono di ottenere osservazioni su un fenomeno con un alto livello di affidabilità. Lo strumento principale è il questionario. Le operazioni tipiche dell’analisi statistiche sono: Il conteggio; La classificazione; La misurazione; La sintesi e la previsione. La statistica è un insieme di tecniche che hanno come scopo la conoscenza quantitativa di fenomeni collettivi, fenomeni che richiedono l’osservazione di un insieme grande di manifestazioni individuali (es. reddito di un insieme di individui, natalità…). In uno studio vengono riportati i caratteri che, in corrispondenza di ogni individuo (che rappresenta un’ unità elementare ) corrisponde a una modalità. Si definizione unità statistica l’unità elementare su cui vengono osservati i caratteri oggetto di studio. Ad esempio, sono modalità il titolo di studio, l’attività, il peso e il punteggio degli esercizi. Un carattere può assumere modalità differenti in corrispondenza delle diverse unità statistiche del collettivo. Le modalità del carattere debbono essere esaustive si intende che le modalità elencate devono rappresentare tutti i possibili modi di manifestarsi del carattere; e non sovrapposte se a ogni unità si può associare una sola modalità. Quando le modalità sono espresse numericamente, il carattere è detto quantitativo (o variabile) altrimenti è detto qualitativo (o mutabile). Questa distinzione non è sufficiente, quindi, è necessario specificare con maggiore dettaglio la natura del carattere. Un carattere qualitativo viene distinto in: Carattere sconnesso (o con scala nominale) se date due modalità è possibile affermare soltanto se queste sono uguali o diverse. Carattere ordinato (o con scala ordinale) se date due sue modalità è possibile solo dare un ordine, specificando che una precede l’altra. I caratteri quantitativi vengono a volte distinti in caratteri quantitativi con scala a intervalli o con scala di rapporti. In un carattere quantitativo con scala a intervalli non esiste uno zero assoluto, naturale e non arbitrario, il quale deve, invece, esistere per un carattere quantitativo con scala di rapporti. I caratteri quantitativi vengono distinti anche in continui che è
l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali. E discreti che è l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme di numeri interi. Un insieme di unità statistiche omogenee rispetto a una o più caratteristiche costituisce un collettivo statistico o una popolazione. Esistono vari tipi di collettivo: Di stato, individuabile in maniera esatta fissato un preciso instante di tempo (popolazione residente all’Aquila); Di movimento, individuabile relativamente a un intervallo di tempo (automobili vendute in Italia in un certo periodo); Empirico, se tutte le unità della popolazione sono osservabili; Teorico, non empirico; Finito, se l’insieme della popolazione è costituito da un numero finito di unità statistiche; Infinito, non finito. Il carattere, inoltre, può essere detto trasferibile se si immagina che un’unità statistica possa cedere tutto o parte del carattere posseduto a un’altra unità statistica (reddito, numero di operai, dipendenti). La suddivisione in classi è utile quando il carattere che si vuole analizzare presenta molte modalità distinte, quindi, può essere necessario accorpare le modalità. Se il carattere è quantitativo, l’operazione consiste nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti. Con questa operazione il carattere quantitativo passa a un livello ordinale. È opportuno definire le classi in modo che: Il loro numero sia piccolo da fornire una sintesi ma abbastanza grande da mantenere l’informazione in dettaglio; Abbiano tutte le possibili modalità del carattere; Abbiano la stessa ampiezza. Alla fine, si utilizzerà una ripresentazione grafica dei dati per mezzo delle classi: istogramma. Tra le rilevazioni per l’acquisizione di dati bisogna distinguere quelle sperimentali (medicina, fisica, chimica) e quelle osservazionali (indagini di mercato, sondaggi). Le rilevazioni sperimentali sono caratterizzate da: o Ipotesi di lavoro: formate da enunciati formalizzabili in termini matematici; o Possibilità di controllo: condizioni sperimentali e delle caratteristiche delle unità statistiche da impiegare.
Quindi la struttura del questionario dipende dal tipo di intervista utilizzata. Può essere usata la tecnica dell’autocompilazione che è efficace quando si ritiene che la popolazione sia ben disposta a collaborare alla ricerca e permette di ridurre i costi dell’indagine e di ridurre al minimo l’organizzazione del lavoro sul campo. Questo tipo di questionario può essere inviato o per posta (indagine postale) o consegnato da personale specializzato con il compito di ritirarlo. L’intervista telefonica, invece, è utilizzata nei paesi sviluppati e, gli abbonati al servizio telefonico coprono ogni tipo di fascia sociale, etnica e geografica, permettendo di effettuare indagini telefoniche su ogni tipo di fenomeno. In questi ultimi anni però, la diffusione dei telefoni cellulari, crea un effetto distorsivo di queste indagini. Sono state realizzate delle tecniche informatiche di supporto all’intervista ( CATI ) che permettono di migliorare tempi e coti di un’intervista, per cui sul sito web è riportato un video che mostra lo svolgimento di un’intervista telefonica. Si è anche diffuso l’uso della posta elettronica come mezzo di invio di un questionario, per cui, in alcuni casi, l’email invita a visitare il sito web sulla quale si può trovare il questionario in formato elettronico che viene completato in piena autonomia dagli intervistati ed è detta ( CAWI ). Un’altra tecnica è il CAPI, per cui vengono svolte interviste faccia a faccia, nelle quali l’intervistatore, gestisce il questionario elettronico e inserisce le risposte. Un’importante modalità d’intervista è l’exit poll che ha lo scopo di fornire stime dei risultati dell elezioni prima dello spoglio delle schede elettorali. Quest’indagine si svolge tramite un’intervista in forma anonima delle persone che escono dai seggi dopo il voto (verrà selezionato un piccolo campione). Anche se le informazioni ottenute da un’unità di campione sono state raccolte con cura e attenzione, esse sono comunque un’approssimazione. Il vantaggio di un’indagine campionaria sono:
Se poi l’indagine viene ripetuta nel tempo (ogni mese, ogni anno,) i fattori di tempo e denaro diventano cruciali. Tramite l’interferenza statistica si può controllare l’attendibilità delle informazioni tramite un campione. Infatti, è possibile progettare le indagini campionarie definendo il grado di attendibilità e questo rende più interessante l’uso di un’indagine campionaria. I risultati di un’indagine possono anche essere affetti da errori che potrebbero dipendere da vari fattori e questi sono detti errori non campionari. Sono errori che possono essere evitati, almeno in parte, se le persone deputate alla raccolta dati sono ben addestrate ma questo impiego avviene quando il numero di unità da intervistare è limitato. Il primo passo per la progettazione di un questionario è la concettualizzazione, in cui si cerca di ricondurre un fenomeno a un modello logico-concettuale. In questa fase si individuano delle possibili gerarchie. La rilevazione tramite questionario può generare errori non campionari che possono essere causati da diversi soggetti: Dal ricercatore: durante la fase della progettazione del questionario nella quale, ad esempio, può commettere errori di formulazione della domanda, errori nella sequenza delle domande…; Dal rispondente: che, non ricordando eventi passati o ignorando argomenti, approssima la realtà dei fatti; Dall’intervistatore: poiché con la sua presenza può condizionare le risposte alle domande o registrare erroneamente le risposte. Quindi, è necessario evitare: La formulazione della domanda troppo generica o troppo tecnica; Le domande devono evitare di creare stati di imbarazzo o di tensione psicologica; La domanda non deve indirizzare verso una risposta in particolare; Le domande devono essere poste in successione. Un tipo di domande che permette all’intervistatore di ridurre il numero di domande è la domanda filtro, una domanda che permette di passare da un pacchetto di domande a un altro, evitando domande non pertinenti. Un altro aspetto è rappresentato dalla sequenza delle domande per una stessa tematica, per questo possiamo distinguere due tipi di sequenza delle domande: Successione a imbuto: corrisponde alla formulazione iniziale di domande molto generiche per poi giungere a domande più specifiche. Successione a imbuto capovolto: avviene l’opposto. Inoltre, le domande possono essere poste in due modi: Diretta: quando si chiama in causa direttamente l’intervistato.
e il numero di unità osservate. La frequenza percentuale è pari alla frequenza relativa per cento. La somma delle frequenze relative è uguale a 1, mentre le somma delle frequenze percentuali è uguale a 100. Le frequenze cumulate quando le modalità del carattere sono ordinate (qualitative) o quantitative. La frequenza di una classe è ottenuta dalla somma delle corrispondente frequenza e di quelle delle classi precedenti. Quando si misura un fenomeno nel tempo in determinati istanti, si ottiene una rappresentazione tabellare detta serie storica o temporale. Quando si ha un carattere geografico le cui modalità rappresentano nazioni, regioni, città, locazioni territoriali viene detta serie territoriale o spaziale. L’immagine grafica dà una lettura più semplice. Possono essere bidimensionali, tridimensionali e viene anche aggiunta la prospettiva (per estetica poiché non cambia la sostanza del grafico). La tridimensionalità e la prospettiva, infatti, rendono il grafico di difficile lettura, portando l’osservatore a interpretazioni distorte. Quindi, molto spesso sono bidimensionali. Grafici a nastri; Grafici a barre; Grafici ad aree; Istogrammi; Grafici a torta; Grafici radar; Cartogrammi; Diagrammi cartesiani. Sono scelti in base alla meglio rappresentazione di un dato. Hanno lo scopo di illustrare, tramite: Figure; Linee o segmenti; Superfici o aree; Solidi; Simboli convenzionali. Una distribuzione di frequenza o di intensità in funzione delle modalità di uno o più caratteri. Grazie ai grafici si ha una visualizzazione immediata dell’andamento di un fenomeno e della struttura della distribuzione con la possibilità di confrontare più distribuzioni (curve, spezzate…). Nei grafici a barre o a nastri , ogni frequenza o intensità viene rappresentata da una barra o da un nastro per ottenere una successione di rettangoli con la stessa base (o altezza) e le altezze o le basi proporzionali
alle frequenze o quantità. Usato per caratteri qualitativi ordinati o quantitativi (esempio n. di componenti del nucleo familiare o voto a un esame). I grafici a barre (o nastri) multipli, si usano per mettere a confronto due o più distribuzioni semplici relativi, ad esempio, a diversi collettivi. Questo tipo di grafico permette di rappresentare contemporaneamente più distribuzioni semplici mettendo a confronto per ciascuna modalità le diverse frequenze (esempio, confronto fra le distribuzioni in percentuale degli occupati in Italia per settore di attività economica negli anni 1971, 1981, 1991 e 2002). Un altro modo di confronto semplice è dato dal grafico a barre (o nastri) suddivisi, meno efficace rispetto al precedente. Ogni barra è riferita a un particolare collettivo e, viene costruito mettendo una sopra l’altra le barre corrispondenti alle frequenze delle singole modalità della distribuzione. I pictogrammi hanno scopo divulgativo e sono dei grafici a barre (o nastri) in cui si usano figure, simboli, disegni attinenti al carattere in esame. (percentuale dei laureati in un certo anno che si può rappresentare simbolicamente attraverso l’altezza di una pila di libri: più è grande la percentuale più è alta la pila di libri). Gli istogrammi per caratteri qualitativi ordinati o per caratteri quantitativi discreti. È un grafico formato da barre non distanziate, con basi uguali o diverse, dove ogni area è proporzionale alla corrispondente frequenza o quantità. L’istogramma a basi regolari si ottiene associando a ogni classe un rettangolo che ha come base l’intervallo di valori della classe e come altezza la frequenza corrispondente. Invece, un istogramma con classi di stessa ampiezza, l’altezza del rettangolo corrisponde a una classe detta densità che si ottiene dal rapporto tra frequenza e ampiezza della classe. L’istogramma si usa quando si hanno tanti dadi. I grafici ad aree sono usati per i caratteri continuativi nel tempo. Consiste in una spezzata che unisce i punti che hanno come coordinate i valori delle frequenze corrispondenti ai valori di ascissa osservati. Se si vogliono confrontare due o serie storiche di uno stesso fenomeno, conviene riportarle in unico grafico sovrapponendole o posizionandole una a fianco all’altra rispetto le modalità del carattere. Si possono aggiungere colori e tridimensionalità. Può essere a aree sovrapposte o affiancate. I grafici a torta sono utili quando si vuole rappresentare la composizione di un aggregato (in termini di valori assoluti, relativi o percentuali). Con questo tipo di grafico bisogna rappresentare distribuzioni con un numero di modalità non troppo elevato, perché aumentando i settori circolari la loro dimensione diminuisce e poi diventa difficile il confronto. I grafici sono utili quando il carattere è ciclico (nascite per mese, matrimoni…). Per rappresentare un carattere ciclico su un grafico radar, si suddivide l’angolo di 360 gradi quante sono le modalità del carattere e agli
Un’approssimazione della media aritmetica può comunque essere ottenuta considerando il suo valore centrale, ossia il valore che si ottiene come semisomma degli estremi della classe. Nel caso in cui si voglia dare, nella media aritmetica, un valore che esalti o ne diminuisca l’importanza alle osservazioni, si introduce la media aritmetica ponderata, attribuendo a ciascun carattere il peso. Si introduce la media aritmetica ponderata di un
…, xn di un carattere quantitativa x con pesi p1, p2, …, pn non negativi, è data da: la media geometrica è una media analitica utilizzata soprattutto nel caso in cui l’insieme dei dati è costituito da valori positivi generati da rapporti. La media geometrica di
pari alla radice n-esima del prodotto dei singoli valori: La media aritmetica è un valore caratteristico intorno al quale si posizionano i valori della distribuzione. Un modo che consente di diminuire l’effetto dei valori estremi nel calcolo della media è quello di effettuare il calcolo solo sui valori centrali. La media così ottenuta viene detta trimmed mean. La trimmed mean è la media aritmetica calcolata su una percentuale (50%) di valori centrali di un insieme di dati, non considerando il 25% dei valori più grandi, eliminando l’influenza dei valori anomali. Ad esempio, con i valori del carattere 3,5,56,8, 8,9,150, la trimmed mean sarà ottenuta escludendo i valori più piccoli e quelli più grandi quindi: 5+6+8+8/4= 216.75. Una media più robusta della media aritmetica, cioè non influenzabile dai valori estremi, che può essere calcolata anche sui caratteri qualitativi ordinabili ed è la mediana. La mediana, di un insieme di unità ordinate (secondo un carattere ordinabile, questo vuol dire che deve essere possibile ordinare in senso crescente o decrescente le modalità), è la modalità presentata dall’ unità centrale, dove per unità centrale si intende quell’unità che divide il collettivo in due parti di uguale numerosità: una parte formata dalle unità che presentano una modalità precedente o uguale a quella dell’unità centrale e una parte formata dalle unità che presentano una modalità successiva o uguale a quella dell’unità centrale.
La moda è la modalità della distribuzione che si presenta con la frequenza più alta, usata per qualsiasi tipo di carattere. Se la distribuzione del carattere è suddivisa in classi, si ha la classe modale definita come la classe a cui corrisponde la frequenza più alta. Se le classi hanno diversa ampiezza, occorre dividere le frequenze delle classi per la loro ampiezza. Se, con un istogramma di frequenze, si rappresenta graficamente la distribuzione di frequenza, la moda corrisponde al picco di distribuzione. Una distribuzione è unimodale se presenta due picchi con uguale frequenza massima. Immaginando di suddividere la distribuzione in cento parti, ognuna delle quali contenuta lo stesso numero di unità, chiamando quindi i valori di suddivisione percentili. I percentili sono quei valori che dividono la distribuzione in cento parti di uguale numerosità. Quelli più usati sono il 25esimo e il 75esimo poiché su di loro cade il primo (Q1) e terzo quartile (Q3) che insieme alla mediana dividono la distribuzione in quattro parti uguali (la mediana corrisponde al secondo quartile, Q2).
La variabilità di una distribuzione esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere. Si hanno in considerazione i caratteri quantitativi. Per misurare la variabilità si possono usare degli indici che sintetizzano la diversità tra ogni modalità e una media, oppure tra due valori della distribuzione. Questi indici vengono chiamati indici di variabilità. Un indice di variabilità deve assumere il suo valore minimo se tutte le unità della distribuzione hanno uguale modalità del carattere. Deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità. Tra gli indici di variabilità il più noto è la varianza. La varianza è la media dei quadrati degli scarti dalla media aritmetica. È una media degli scarti quadratici e la somma degli scarti si chiama devianza. Per una distribuzione di frequenza di una variabile X con K modalità distinte, e considerate nj e fj le frequenze assolute e relative si ha. La varianza ha valore minimo, quindi 0, quando tutte le modalità sono uguali tra loro e anche al valor medio. Aumenta all’aumentare della differenza tra i valori osservati. Varianza di una trasformazione lineare. La varianza di un carattere Y, ottenuto attraverso la trasformazione Y= aX+ B di un carattere X di media x e varianza o2. La varianza ha il difetto di non posseder la stessa misura dei valori della distribuzione, per questo è preferibile usare come indice di variabilità la deviazione standard o scarto quadratico medio che è data dalla radice quadrata della varianza. Anche la devianza standard risente dell’unità di misura e dell’ordine di grandezza dei dati, per questo essa non esegue
se il carattere quantitativo è suddiviso in classi e si ricorre a un’approssimazione considerando il valore centrale della classe nei calcoli. Oltre alla media si può trovare la varianza condizionata. Quando i caratteri della distribuzione doppia sono quantitativi, la rappresentazione doppia si può rappresentare attraverso un grafico di dispersione in cui, le coppie di modalità di due caratteri quantitativi osservate per ogni unità del collettivo, vengono rappresentate come punti sul piano cartesiano in cui gli assi ortogonali corrispondono ai due caratteri. Utile quando si ha a disposizione la distribuzione unitaria. Si può costruire anche uno stereogramma da una tabella di frequenza doppie. Lo stereogramma rappresenta la frequenza di una tabella doppia tramite dei parallelepipedi di altezza proporzionale alla frequenza congiunta in uno spazio tridimensionale. Può rappresentare caratteri quantitativi o qualitativi. La ricerca scientifica non si limita solo alla descrizione dei fenomeni, ma si interessa anche della loro relazione con gli altri. A tal proposito, spesso il ricercatore, utilizzato dei concetti di causa-effetto, avanza delle ipotesi di dipendenza che viene considerata come una relazione di dipendenza logica. Si parla di dipendenza logica fra due o più caratteri quando tra questi sono note a priori che tra questi non possa sussistere nessuna relazione di causa ed effetto (es. altezza e colore dei capelli). Inoltre, tramite l’analisi statistica, si vuole verificare l’esistenza o meno di un’associazione tra le modalità dei caratteri osservati, per questo si possono usare due approcci: Analisi della dipendenza: dove si studia come le modalità di un carattere dipendono da quelle di un altro carattere tramite un legame unidirezionale. Analisi dell’interdipendenza: in cui si assume che i caratteri abbiano tutti lo stesso ruolo e che i legami tra essi siano bidirezionali. Per quanto riguarda l’indipendenza statistica, tra due caratteri essa sussiste quando la conoscenza della modalità di uno dei due caratteri non migliora la previsione della modalità dell’altro. Quindi, se X è indipendente da Y allora anche Y è indipendente da X. Ogni volta che in una tabella doppia frequenza non si osserva indipendenza statistica, si dirà che esiste dipendenza o interdipendenza tra i caratteri. Se due caratteri sono indipendenti, la generica frequenza assoluta corrispondente alla i-esima modalità di X e alla i-esima modalità di Y deve essere uguale a: Tra due caratteri indipendenti si può osservare un’ associazione statistica e si parla di associazione spuria, un legame statistico empirico che si verifica
tra due caratteri logicamente indipendenti. Se il legame non è spurio, lo studio si affronta sull’ottica della dipendenza e dell’interdipendenza. Importante è l’associazione perfetta che si divide in: Dipendenza perfetta: per cui, un carattere Y dipendente perfettamente da X quando a ogni modalità di X è associata una sola modalità di Y, cioè quando in una tabella a doppia entrata per ogni i c’è un solo j per il quale nij è diverso da 0. Interdipendenza perfetta: sussiste se a ogni modalità di uno dei due caratteri corrisponde una e una sola modalità dell’altro carattere e viceversa. La misura dell’associazione tra due caratteri qualitativi sconnessi avviene analizzando la distribuzione congiunta delle frequenze di due caratteri. Per valutare l’interdipendenza si usano degli indici basati su un approccio simmetrico e calcolati sulla distribuzione doppia dei due caratteri. Per la dipendenza si usa, invece, un approccio asimmetrico e gli indici si calcolano sulla distribuzione condizionata. Iniziando a considerare le differenze delle frequenze osservate (nij) e quelle teoriche di indipendenza (n’ij= ni.n.j/n) che corrispondono alle frequenze che avremmo dovuto avere se i due caratteri fossero stati indipendenti. Le differenze tra le frequenze osservate e quelle teoriche sono dette contingenze ( cij nij-n’ij= nij –(ni.nj/n). La somma delle contingenze è sempre nulla, quindi 0. L’indice di associazione più noto è il Chi-quadrato di Pearson. Se i due caratteri sono indipendenti, tutte le contingenze devono essere nulle e, quindi, il Chi-quadrato sarà nullo. Se i due caratteri sono associati, i valori saranno più grandi. Per evitare che il Chi-quadrato dipenda dalla numerosità totale, Pearson ha proposto l’indice di contingenza media. Il suo valore minimo è zero mentre il massimo è 1. Cramer ha, invece, proposto di normalizzare quest’indice con la formula, aumentando il suo valore. Oltre a verificare se c’è corrispondenza fra le modalità, si può analizzare anche se alle modalità di ordine più elevato di un carattere corrispondono più frequentemente le modalità di ordine più basso o più alto dell’altro carattere. A tal proposito fra loro possono sussistere due tipi diversi di relazione: Relazione diretta o concordanza: tra X se modalità di ordine elevato di X si associano più a modalità di ordine elevato di Y, mentre modalità di ordine basso di X si associano più frequentemente a modalità di ordine basso di Y.
L’evento La probabilità. In una data prova, l’evento (E) si verifica con la probabilità P(E). La prova (o esperimento aleatorio) è un esperimento che ha due o più possibili risultati e in cui c’è un certo grado di incertezza su quale di questi risultati si presenterà. La prova può essere suddivisa in diverse fasi che si definiscono sottoprove. Un esempio di prova è il lancio di un dado, o un esame universitario, un esempio di sottoprove è il lancio di due dadi, consiste, appunto, del lancio di ogni singolo dato. L’evento si può distinguere in due tipi: evento elementare si intende uno dei possibili risultati della prova, l’evento non-elementare si intende un evento che può essere a sua volta scomposto in più eventi elementari. La probabilità è un numero compreso tra 0 e 1 che misura il grado di incertezza sul verificarsi di un evento. Per effettuare operazioni sugli eventi, bisogna introdurre una collezione di eventi E= E1, E2,…, Ep. E tutti i sottoinsiemi la cui struttura matematica è l’algebra di Boole (postulato 1). È una struttura matematica sui cui elementi sono definite tutte le operazioni e le regole per l’algebra degli eventi. In questa struttura sono definite tre operazioni: La negazione di un evento A, dato un evento A, la sua negazione è data dall’evento “A non si verifica”. L’intersezione tra due eventi A e B, dato due eventi, A e B, la loro intersezione è data dall’evento “tutti e due gli eventi A e B si verificano contemporaneamente”. L’unione tra due eventi A e B, dato due eventi, A e B, la loro unione è data dall’evento “almeno uno degli eventi A e B si verifica”. L’insieme degli eventi elementari viene chiamato spazio campionario. Altri due eventi rilevanti sono: L’evento impossibile che è l’evento che non può mai verificarsi è può essere definito come l’intersezione fra un qualsiasi evento e la sia negazione L’evento certo è l’evento che si verifica sempre. La probabilità è indicata P(Ei). I seguenti postulati introducono le proprietà assiomatiche: Postulato 2; Postulato 3;
Postulato 4. I postulati sono degli assunti che non devono essere dimostrati o verificati e i postulati (2,3,4) hanno un riferimento empirico nella nozione di frequenza relativa di un evento. Da questi postulati è possibile dimostrare il teorema: in una prova, dati due eventi possibili A e B, si ha: La definizione classica della probabilità la probabilità è data dal
verificarsi di un evento E: Spesso si vuole valutare la probabilità di un evento sapendo che si è già verificato un altro evento a esso collegato, quindi, dati due eventi, A e B, è noto che l’evento B si è verificato; si cerca la probabilità che si verifica A condizionatamente al verificarsi di B: P(A/B). Si definisce probabilità condizionata di A dato B il rapporto tra la probabilità tra l’evento (A unione B) e la probabilità dell’evento. Il principio delle probabilità composte per cui dati due eventi A e B tali che P(A) > 0 0 e P(B)>0. Due eventi si dicono i ndipendenti se e solo se il verificarsi di B non influenza le probabilità le probabilità di A e il verificarsi di A non influenza la probabilità di B. Teorema di Bayes è uno dei concetti fondamentali della probabilità e della statistica, ed è particolarmente utile per aggiornare la probabilità alla luce di nuove informazioni. Un esempio: supponiamo un test per una malattia: Il 1% della popolazione ha la malattia Il test è positivo nel 99% dei malati Il test è positivo nel 5% dei sani. La domanda è: se il test è positivo, qual è la probabilità che la persona sia realmente malata? anche se il test è positivo, la probabilità che la persona sia malata è solo circa 16,67%. Questo mostra quanto sia importante considerare la probabilità a priori (prevalenza) nella valutazione di test diagnostici o ipotesi.
Una variabile casuale X è una funzione definita sullo spazio campionario ( ) che associa a ogni risultato elementare ( ) un unico numero reale.
chiamato anche valore atteso o speranza matematica. Il valore medio o atteso di una variabile casuale X, indicato con E(X), è definito come: La varianza di una variabile casuale X è definita da: la radice quadrata della varianza di una v.c. X viene chiamata deviazione
Una variabile casuale binomiale rappresenta il n. di successi che si presentano in una sequenza di sottoprove indipendenti con probabilità di successo costante. Quindi, la distribuzione B. considerando la somma di variabile casuale di Berioulli indipendenti e distribuite. La variabile casuale più importante è la variabile casuale normale per le sue innumerevoli applicazioni. La variabile normale standard ha media nulla e varianza unitaria. La variabile chi-quadrato è una distribuzione asimmetrica continua e definita per valori reali non negativi. La distribuzione Guassiana ha la forma a campana è simmetrica, unimodale, con 2 punti di flesso, asintottica all’asse X ed è normalizzata a 1.