Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica Newbold Piccolo, Appunti di Statistica

appunti dei libri Newbold e Piccolo primo modulo

Tipologia: Appunti

2022/2023

Caricato il 10/09/2024

chiara-cara-1
chiara-cara-1 🇮🇹

1 documento

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica 1, Cara Chiara
Capitolo Primo
La statistica è una scienza relativamente giovane che spesso viene confusa con “le statistiche”
(dati, tabelle ecc). In effetti essa si dimostra utile ed efficace in tutte le scienze perché
rappresenta uno strumento essenziale per la scoperta e la conferma di leggi e relazioni.
Soprattutto la statistica si rivela essenziale quando è necessario prendere delle decisioni in
momenti di incertezza, come ad esempio nell’analisi economica o nel monitoraggio e nella
valutazione di sistemi complessi: fornisce strumenti utili e rigorosi che si basano sull’utilizzo
efficiente delle informazioni che si hanno a disposizione. Originariamente la statistica era
divisibile in due approcci: il primo la vede strettamente unita all’essere umano che prende
coscienza del mondo e dei suoi simili e che bella lotta per la sopravvivenza utilizza le
conoscenze acquisite per eleab0rare comportamenti ottimali che gli consentono di nutrirsi,
difendersi e riprodursi. A queste strategie possono rivelarsi delle sconfitte o dei successi ma
grazie a queste prove sarà possibile fare delle approssimazioni che creeranno delle convinzioni
comuni (leggi); il secondo nasce invece dal fatto che di fronte ad una realtà che cambia
continuamente ci sono dei risultati che meritano più fiducia di altri perché si ripetono con
maggiore regolarità (clima, malattie ecc). La mente umana infatti registra regolarità senza
certezze e senza un esito univoco. Da una parte questo genera insicurezza e paura mentre
dall’altra incoraggia la prevenzione e la predisposizione di cautele contro i rischi. L’unione di
questi due approcci è avvenuta quando, davanti alla natura sempre più sperimentale della
conoscenza, ci si è posti il problema della validità delle ipotesi e così il metodo statistico
diviene nei fatti la metodologia della ricerca scientifica, diventa prassi sperimentale che ha un
contenuto autonomo e strumenti rigorosi d’indagine. Oggi vediamo come la Statistica diviene
uno strumento di convincimento per sostenere delle tesi predefinite.
1.3
La statistica utilizza alcuni paradigmi:
- sintesi delle informazioni: di fronte ad una pluralità di informazioni che riguardano uno o più
fenomeno, è necessario trovare un indicatore riassuntivo che diventerà la rappresentanza del
fenomeno da esaminare. Questa semplificazione a volte può risultare dann0sa ma spesso è
una necessità quotidiana che occorre per prendere delle decisioni. Per limitare i rischi si
possono calcolare diverse sintesi per evitare di avere risultati distorti;
- scoperta del nuovo: mettere in evidenza fatti e problematiche non note in precedenza è un
paradigma tipico della ricerca scientifica moderna e in questo contesto la statistica propone
soluzioni e ipotesi che possono essere associate ad una valutazione probabilistica di falsità e
non di certezza matematica;
- contenimento dell’errore: l’analisi statistica presuppone una black-box al cui interno è
contenuto il vero legame tra i fatti ma che lo statistico non conosce né mai conoscerà. Questa
relazione è infatti approssimata e accolta in modo dubitativo sino a che una nuova proposta
non diventi sino a che una nuova proposta non si presenti più convincente della precedente.
Analizzare i dati con metodi statistici richiede modalità iterative (replica della analisi dopo aver
cambiato alcuni aspetti) e interattive (lo studioso apprende dai suoi risultati e li rimette in
discussione ad ogni tappa). La ricerca statistica applicata consiste soprattutto nel costruire
schemi formali, detti modelli, che forniscano ragione sufficiente delle osservazioni e indichino
agli scienziati (osservatori/decisori ecc) la concreta possibilità di migliorare le loro
acquisizioni/teorie. Dai dati iniziali che vengono raccolti si creano quindi dei modelli statistici da
cui si elaborerà un’ipotesi teorica.
1.4
Nell’ambito delle attività quotidiane, donne e uomini raccolgono informazioni sia per curiosità
che per raggiungere obiettivi concreti. In entrambi i casi vale un principio generale secondo cui
l’obiettivo specifica sia la natura delle informazioni da raccogliere che gli strumenti mediante i
quali esaminare tali informazioni. Questa prospettiva è chiamata soluzione dei problemi. Ogni
analisi empirica si articola quindi in:
OBIETTIVI – INFORMAZIONI- METODI STATISTICI – RISULTATI
La fase più delicata della ricerca statistica e dell’applicazione ai problemi concreti consiste
proprio nella trasposizione di un problema reale in un problema statistico. Il passaggio richiede
esperienza specifica e cultura statistica ma avviene in modo efficace solamente tramite
l’interazione regolare e costruttiva tra studiosi di diverse discipline. A volte le indagini
statistiche di un problema sono condizionate dalla natura del fenomeno e delle condizioni al
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Statistica Newbold Piccolo e più Appunti in PDF di Statistica solo su Docsity!

Statistica 1, Cara Chiara

Capitolo Primo

La statistica è una scienza relativamente giovane che spesso viene confusa con “le statistiche” (dati, tabelle ecc). In effetti essa si dimostra utile ed efficace in tutte le scienze perché rappresenta uno strumento essenziale per la scoperta e la conferma di leggi e relazioni. Soprattutto la statistica si rivela essenziale quando è necessario prendere delle decisioni in momenti di incertezza, come ad esempio nell’analisi economica o nel monitoraggio e nella valutazione di sistemi complessi: fornisce strumenti utili e rigorosi che si basano sull’utilizzo efficiente delle informazioni che si hanno a disposizione. Originariamente la statistica era divisibile in due approcci: il primo la vede strettamente unita all’essere umano che prende coscienza del mondo e dei suoi simili e che bella lotta per la sopravvivenza utilizza le conoscenze acquisite per eleab0rare comportamenti ottimali che gli consentono di nutrirsi, difendersi e riprodursi. A queste strategie possono rivelarsi delle sconfitte o dei successi ma grazie a queste prove sarà possibile fare delle approssimazioni che creeranno delle convinzioni comuni (leggi); il secondo nasce invece dal fatto che di fronte ad una realtà che cambia continuamente ci sono dei risultati che meritano più fiducia di altri perché si ripetono con maggiore regolarità (clima, malattie ecc). La mente umana infatti registra regolarità senza certezze e senza un esito univoco. Da una parte questo genera insicurezza e paura mentre dall’altra incoraggia la prevenzione e la predisposizione di cautele contro i rischi. L’unione di questi due approcci è avvenuta quando, davanti alla natura sempre più sperimentale della conoscenza, ci si è posti il problema della validità delle ipotesi e così il metodo statistico diviene nei fatti la metodologia della ricerca scientifica, diventa prassi sperimentale che ha un contenuto autonomo e strumenti rigorosi d’indagine. Oggi vediamo come la Statistica diviene uno strumento di convincimento per sostenere delle tesi predefinite. 1. La statistica utilizza alcuni paradigmi:

  • sintesi delle informazioni: di fronte ad una pluralità di informazioni che riguardano uno o più fenomeno, è necessario trovare un indicatore riassuntivo che diventerà la rappresentanza del fenomeno da esaminare. Questa semplificazione a volte può risultare dann0sa ma spesso è una necessità quotidiana che occorre per prendere delle decisioni. Per limitare i rischi si possono calcolare diverse sintesi per evitare di avere risultati distorti;
  • scoperta del nuovo: mettere in evidenza fatti e problematiche non note in precedenza è un paradigma tipico della ricerca scientifica moderna e in questo contesto la statistica propone soluzioni e ipotesi che possono essere associate ad una valutazione probabilistica di falsità e non di certezza matematica;
  • contenimento dell’errore: l’analisi statistica presuppone una black-box al cui interno è contenuto il vero legame tra i fatti ma che lo statistico non conosce né mai conoscerà. Questa relazione è infatti approssimata e accolta in modo dubitativo sino a che una nuova proposta non diventi sino a che una nuova proposta non si presenti più convincente della precedente. Analizzare i dati con metodi statistici richiede modalità iterative (replica della analisi dopo aver cambiato alcuni aspetti) e interattive (lo studioso apprende dai suoi risultati e li rimette in discussione ad ogni tappa). La ricerca statistica applicata consiste soprattutto nel costruire schemi formali, detti modelli, che forniscano ragione sufficiente delle osservazioni e indichino agli scienziati (osservatori/decisori ecc) la concreta possibilità di migliorare le loro acquisizioni/teorie. Dai dati iniziali che vengono raccolti si creano quindi dei modelli statistici da cui si elaborerà un’ipotesi teorica. 1. Nell’ambito delle attività quotidiane, donne e uomini raccolgono informazioni sia per curiosità che per raggiungere obiettivi concreti. In entrambi i casi vale un principio generale secondo cui l’obiettivo specifica sia la natura delle informazioni da raccogliere che gli strumenti mediante i quali esaminare tali informazioni. Questa prospettiva è chiamata soluzione dei problemi. Ogni analisi empirica si articola quindi in: OBIETTIVI – INFORMAZIONI- METODI STATISTICI – RISULTATI La fase più delicata della ricerca statistica e dell’applicazione ai problemi concreti consiste proprio nella trasposizione di un problema reale in un problema statistico. Il passaggio richiede esperienza specifica e cultura statistica ma avviene in modo efficace solamente tramite l’interazione regolare e costruttiva tra studiosi di diverse discipline. A volte le indagini statistiche di un problema sono condizionate dalla natura del fenomeno e delle condizioni al

contorno; d’altra parte, spesso sono invece i problemi reali a suggerire lo sviluppo di nuovi metodi statistici che introducono soluzioni innovative per quei problemi. 1. L’analisi statistica è divisa in fasi:

  1. DEFINIZIONE DEGLI OBIETTIVI DI RICERCA: gli obiettivi devono essere chiari per individuare le informazioni da ricercare, evitando dubbi nelle definizioni;
  2. RILEVAZIONE DEI DATI: la rilevazione può essere completa (tutta la popolazione) o parziale (solo una parte della popolazione detta campione) ed è necessario definire la numerosità degli elementi da studiare, la lista dei dati da raccogliere, la tipologia delle risposte ecc. Le informazioni si possono raccogliere tramite delle dichiarazioni (questionario, intervista, registrazione) o delle misurazioni (strumenti semplici o complessi). Le modalità di raccolta dei dati possono modificare l’accuratezza delle informazioni sui cui si lavora;
  3. ELABORAZIONE METODOLOGICA: vengono applicati degli schemi formali che si distinguono in base al fatto che i caratteri analizzati siano qualitativi o quantitativi;
  4. PRESENTAZIONE ED INTEPRETAZIONE DEI RISULTATI: la presentazione deve essere essenziale e particolareggiata, con riferimento alle interpretazioni proprie del settore in cui si opera, con una corretta ed efficace comunicazione;
  5. UTILIZZAZIONE DEI RISULTATI DI RICERCA: lo statistico contribuisce ad una corretta utilizzazione dei risultati di un’indagine scientifica e l’uso che può essere fatto dei risultati di una ricerca deriva anche dalle sue modalità di esecuzione e dai dettagli mediante i quali è stata condotta la misurazione o l’intervista. Anche pianificando con cura ogni aspetto di una ricerca la realtà fenomenica è così complessa che spesso ci si trova davanti a situazioni non previste che richiedono modifiche e adattamenti rispetto al progetto iniziale. questo può creare problemi nella gestione e nella previsione di tempi e risorse ma costituisce un aspetto positivo della ricerca empirica. Il metodo statistico viene applicato ogni volta che ci troviamo davanti a fenomeni non definibili a priori di cui è necessario quantificare l’incertezza. Ogni fenomeno naturale infatti è soggetto ad una certa variazione che noi definiamo incertezza e che chiamiamo in generale variabilità. Una bassa variazione darà una bassa incertezza e quindi un basso rischio mentre un’alta variazione darà un’alta incertezza e quindi un rischio alto. Se un fenomeno risulta costante non siamo interessati ad esaminarlo perché non c’è variazione.

Capitolo secondo

La rilevazione statistica è il complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio e possono essere classificate in modi diversi come, ad esempio, rispetto alla complessità delle operazioni (semplici e complesse), rispetto alla natura delle informazioni raccolte (risposte e misure), rispetto al gruppo di riferimento (globali e parziali). Le rilevazioni globali vedono la popolazione come collettivo statistico considerato unico e irripetibile. La popolazione (o universo) è qualsiasi insieme di elementi che formano oggetto di studio statistico e si distingue tra reale (esistente e visibile) e virtuale (non osservata né osservabile). Le rilevazioni parziali vedono il campione come collettivo statistico considerato omogeneo e ripetibile. Si parla di popolazione quando il collettivo di riferimento esaurisce tutte le informazioni che si ritengono utili per l’indagine statistica. Il campione è qualsiasi sottoinsieme derivato da una certa popolazione e finalizzato allo studio statistico. La metodologia statistica ha approfondito le modalità con cui si perviene all’individuazione del sottoinsieme campionario. La conoscenza umana infatti è sempre parziale e provvisoria e le informazioni di cui si dispone sono in tutti i casi un insieme limitato e circoscritto delle informazioni di cui si poteva disporre. La statistica, infatti, privilegia un approccio allo studio dei fenomeni che presuppone sempre una dimensione campionaria. Si parla di campione quando le informazioni sono derivate da un sottoinsieme proprio della popolazione di riferimento. L’unità statistica (soggetto) è l’elemento di base della popolazione sulla quale viene effettuata la rilevazione di uno o più fenomeni oggetto dell’indagine. Questa può essere ulteriormente suddivisa per le esigenze dell’indagine (famiglia). L’unità statistica deve essere definita nei termini di tempo, occasione, durata, territorio e essa spesso può cambiare durante la rilevazione. La variabile è il fenomeno oggetto di studio, rilevato o misurato sulle unità statistiche e si chiama così perché l’interesse per il suo studio nasce proprio dal fatto che assume valori

-coppie ordinate (x1, y1) … -triple ordinate (x1, y1, z1) … -m-ple ordinate (x1, y1, …, w1) … Una variabile multipla presenta un ordine ben preciso con cui ogni variabile compare nella coppia, tripla, ecc. La matrice di dati è una rappresentazione tabellare in cui vengono riordinate le informazioni raccolte su ciascuna unità statistica rispetto ad una molteplicità di variabili. Ogni colonna esprime una variabile rilevata sulle diverse unità statistiche mentre ogni riga esprime ordinatamente le rilevazioni su tutte le variabili ottenute per ogni singola unità statistica. La rilevazione statistica deve essere sempre il punto di partenza per un’analisi statistica completa. Individuata la popolazione o il campione, sarà poi necessario individuare le singole unità statistiche e i caratteri statistici o variabili che vengono studiati. Questi si esprimeranno secondo certe modalità e intensità di cui risulteranno delle frequenze assolute e relative. Tutte le frequenze saranno poi riordinate nel grafico della distribuzione di frequenze. In statistica i dati vengono si rilevati, ma per diventare utili devono essere anche rielaborati e interpretati. I dati si trasformano in informazioni utili con l’interpretazione, cioè dare un significato ad un certo dato raccolto con una rilevazione statistica: questa è detta statistica descrittiva e si basa ancora sulla logica a posteriori. L’informazione diventerà conoscenza tramite l’inferenza, cioè la trasformazione della prima in conoscenza tramite uno studio: questa è detta statistica inferenziale e si basa sulla logica a priori, è collegata a quella descrittiva tramite la teoria delle probabilità. La conoscenza mi dà la possibilità di prevedere qualcosa che non conosco. Ogni rilevazione statistica possiede un bisogno informativo, cioè identificare il problema.

  1. DATI: applicazione della statistica descrittiva che ci permette di avere informazioni utili, cioè di definire i dati raccolti;
  2. INFORMAZIONE: applicazione statistica inferenziale tramite lo studio delle informazioni che ci porta a conoscere;
  3. CONOSCENZA: questa ci porterà a saper prendere delle decisioni in base alle risposte date;
  4. DECISIONI: il fine è quello di costruire modelli e sistemi a supporto delle decisioni che dobbiamo prendere. La statistica e la matematica ci permettono di definire la probabilità. Il processo di rilevazione statistica è iterattivo e incrementale. La statistica riguarda tutte le operazioni che rientreranno nel processo di indagine finalizzato all’accrescimento della conoscenza: quindi è sia metodologia (insieme di processi che portano alle decisioni) che scienza (ricerca e innovazione). La statistica è una scienza che studia le decisioni da prendere i c0ndizioni di incertezza.

Capitolo terzo

Le distribuzioni di frequenza consentono di analizzare la gran parte dei fenomeni reali ai fini di sintesi, confronto e interpretazione e possono essere costruite sia per le variabili quantitativa che per quelle qualitative. Un insieme di dati viene riordinato in una rappresentazione tabellare per esplicitare in modo immediato ed essenziale ogni aspetto importante dei dati raccolti. La distribuzione di frequenza è quindi una organizzazione dei dati in forma tabellare che ad ogni modalità di una certa variabile fa corrispondere una rispettiva frequenza. Visto che lo studio coinvolge le frequenze, è sempre possibile prevenire ad una distribuzione di frequenza per qualsiasi fenomeno. Se si esamina il numero di volte con cui si manifestano le differenti modalità si parla di frequenza assoluta. Se la frequenza assoluta viene divisa per il numero di unità statistiche si parla di frequenza relativa. Infine, se la frequenza relativa è moltiplicata per 100 si parla di frequenza percentuale. I caratteri statistici qualitativi (numerali e ordinali) e quantitativi (discreti e continui) devono sottostare al criterio di misura di Stevens che prevede la divisione in 4 scale differenti, due per ogni carattere. Caratteri qualitativi:

  1. SCALA NOMINALE: variabile nominale del tutto arbitraria che prevede solamente l’operazione di uguaglianza, tramite l’ordinamento si procede a
  1. SCALA ORDINALE: segue l’ordine delle modalità e prevede le operazioni di uguaglianza e confronto, tramite la differenza si procede a Caratteri quantitativi:
  2. SCALA INTERVALLO: è arbitraria e la sua origine deve essere oggettiva e prevede le operazioni di uguaglianza, confronto e differenza, tramite il rapporto si procede a
  3. SCALA DI RAPPORTO: è fissa e prevede le operazioni di uguaglianza, confronto, differenza e rapporto. 3. Le rappresentazioni possono essere numeriche, tabellari e grafiche. Nel caso dei caratteri statistici qualitativi abbiamo la distribuzione di frequenze (tabellare), il diagramma a torta, il diagramma a barre e il diagramma di Pareto (grafici).
  4. DIAGRAMMA A BARRE: può essere di due tipi, a colonne o verticale, oppure a nastri o orizzontale. IL diagramma consiste in una successione di rettangoli equidistanti, tanti quanti sono gli attributi del carattere, la cui altezza o lunghezza è proporzionale alla frequenza dell’attributo corrispondente. Il diagramma si può servire di un sistema di riferimento cartesiano, ad esempio se ci sono valori negativi (saldi);
  5. DIAGRAMMA A TORTA: mostra le proporzioni delle parti rispetto all’insieme e si basa sulla corrispondenza tra frequenze o intensità da una parte e superfici di cerchi o settori circolari dall’altra. L’area del cerchio esprime l’intensità o la frequenza assoluta, mentre i settori circolari esprimono le quote riferibili agli attributi del carattere, cioè le frequenze relative. Questi settori vengono individuati dividendo l’intero angolo giro in parti proporzionali alle frequenze da rappresentare;
  6. DIAGRAMMA DI PARETO: permette di distinguere le poche cause importanti dalle cause poco importanti ed è composto da due grafici: il diagramma a barre delle frequenze relative e la sferzata delle frequenze cumulate. La frequenza cumulata è detta anche frequenza empirica o sperimentale e si calcola facendo la sommatoria delle frequenze relative. Per costruire questo diagramma sarà necessario ordinare le modalità in ordine alle frequenze, poi ordinare le modalità in ordine non crescente rispetto alle frequenze e infine calcolare le frequenze cumulate. Dopo aver fatto ciò sarà possibile costruire il diagramma di Pareto. Nel caso dei caratteri statistici quantitativi abbiamo le serie storiche, le distribuzioni di frequenze in classi quali l’istogramma per le frequenze relative in classi e l’ogiva per le frequenze cumulate in classi, le distribuzioni d’intensità quali il grafico ramo-foglia e il boxplot.
  7. SERIE STORICHE: insieme d’intensità/sequenza di osservazioni osservate nel tempo. La serie storica è il più semplice di tutti grafici. Ad una serie di intensità è associata una serie temporale;
  8. DISTRIBUZIONE DI FREQUENZE IN CLASSI: è una lista di intervalli di possibili valori di una variabile insieme con una tabulazione del numero di osservazioni per ciascun intervallo (frequenza assoluta). Le classi sono di solito scelte di uguale ampiezza e ogni dato deve cadere in una e una sola classe. La frequenza cumulata è detta anche funzione di ripartizione empirica e si calcola con la somma di tutte le frequenze con intensità x minore o uguale a xi. La funzione di ripartizione empirica è: contenuta tra 0 e 1; non decrescente; la funzione di meno infinito è uguale a zero e di più infinito è 1; continua a destra. La funzione empirica è sempre un’applicazione di quella teorica e all’aumentare del campione le curve di quella teorica e di quella empirica combaceranno;
  9. ISTOGRAMMA: si costruisce con le colonne delle frequenze assolute e relative della distribuzione di frequenze. Le intensità vengono rappresentate in classi. L’istogramma è infatti una rappresentazione empirica e quindi uno strumento sperimentale che da informazioni sulla forma della distribuzione. Per costruire l’istogramma sarà necessario: -individuare il numero di classi k e il campo di variazione (range) in cui sono contenute; -individuare l’ampiezza delle classi che possono essere equiampie (quando hanno tutte la stessa ampiezza e bisogna calcolarne la densità di frequenza/altezza classe) ed equifrequenti (quando hanno la stessa frequenza e quindi lo stesso numero di osservazioni ma diversa ampiezza). In un esercizio bisognerà ordinare le intensità in ordine crescente, determinare il range facendo la differenza tra x massimo e x minimo, determinare il numero di classi, se sono equiampie o equifrequenti, definire i limiti delle singole classi, contare le intensità in ogni intervallo e riportare la frequenza osservata come un rettangolo nell’istogramma;

a) 1: La media aritmetica è sempre compresa tra il minimo e il massimo delle modalità della variabile; b) 2: La media aritmetica è il valore centrale di una successione di ordine dispari; c) 3: La media aritmetica è il baricentro della successione di intensità; d) 4: La media aritmetica è quel valore che minimizza la somma degli scarti al quadrato (gli scarti della media sono le quantità (xi-mi) per ogni i); e) 5: La media aritmetica è un operatore lineare quindi se si aggiunge o si sottrae una costante variabile X, la rispettiva media sarà modificata dello stesso ammontare e se la variabile X è moltiplicata per un coefficiente costante, anche la media risulterà moltiplicata per lo stesso ammontare; f) 6: La media aritmetica è un operatore associativo; g) 7: La media aritmetica non è un indice robusto perché è sensibile ai valori anomali estremi o outliers, risente quindi di ogni cambiamento. 4.

  • LA MODA: è un indice di posizione che individua la modalità o l’intensità con la frequenza più alta. A differenza della media aritmetica si può determinare anche per le variabili qualitative: per le nominali e ordinali si possono avere distribuzioni unimodali, zeromodali o plurimodali. Per le variabili quantitative si deve fare invece un discorso differente: considerata la distribuzione di frequenze in classi, sarà necessario individuare la classe modale e non la moda, questa quindi non sarà un solo valore. Nel caso in cui le frequenze fossero equiampie la classe modale sarà quella con la frequenza più alta, mentre nel caso in cui fossero equifrequenti la classe modale sarà quella con la densità di frequenza più elevata. 4.
  • I QUANTILI: sono quei valori che bipartiscono le successioni di intensità o di modalità in 2 gruppi disgiunti, che quindi non hanno elementi in comune. I quantili si suddividono in: primo quartile Q1; secondo quartile Q2 o mediana Me; terzo quartile Q3; decili; percentili. Ogni quartile contiene il 25% delle osservazioni e hanno la stessa frequenza. Ogni decile contiene il 10% delle osservazioni. Ogni percentile contiene l’1% delle osservazioni. a) PRIMO QUARTILE : è quel valore che divide la successione in due gruppi di numerosità n/4 e 3/4n ed è quel valore per cui la funzione di ripartizione F è pari a 0,25; b) SECONDO QUARTILE: è la modalità dell’unità statistica che occupa il posto centrale nella distribuzione delle osservazioni ordinate. È determinata in modo che metà delle osservazioni siano inferiori alla mediana e metà siano superiori ad essa. È quel valore per cui la funzione di ripartizione vale 0,50. La mediana gode di alcune proprietà: è sempre un valore realmente osservato, cioè una modalità effettivamente presente nella popolazione in esame; la mediana è l’unico valore che minimizza la somma degli scarti presi in valore assoluto; è un indice robusto rispetto agli outliers e ai valori estremi molto diversi dagli altri. Bisogna calcolarla in modo diverso in base alle variabili prese in considerazione. Soprattutto per le variabili continue in classi sarà necessario prima individuare la classe mediana, cioè una delle k classi, e la mediana che si trova all’interno della classe mediana. c) TERZO QUARTILE : è quel valore che divide la successione di intensità o modalità in due gruppi, il primo con 3/4n e il secondo non n/4 ed è quel valore per cui la funzione di ripartizione vale 0,75; d) DECILE : n/10; e) PERCENTILE : n/ Per quanto riguarda la relazione tra moda e mediana vediamo tre casi possibili: a) Quando Me=mi abbiamo una simmetria rispetto ad un indicatore centrale; b) Quando mi>Me abbiamo un’asimmetria positiva in cui il 50% dei valori è grande e la funzione ha la coda a destra; c) Quando Me> mi abbiamo un’asimmetria negativa in cui il 50% dei valori è piccolo e la funzione ha la coda a sinistra. La moda si può calcolare per tutte le tipologie di variabili. La moda è utile quando occorre “minimizzare gli scontenti” e quindi in tutte quelle situazioni dove il consenso ed il numero delle singole unità hanno significato per la decisione. La moda è un indice per decisioni che implicano costi elevati nei casi estremi. La mediana, i quartili, i quantili si possono calcolare per tutte le variabili le cui modalità possono essere ordinate. La mediana “minimizza i costi complessivi” ed è soprattutto

resistente a valori estremi. La mediana è un indice per decisioni che implicano costi elevati nei casi estremi. La media si può calcolare solo per variabili quantitative. La media aritmetica è il baricentro dei dati e quindi propone un valore che equiripartisce il fenomeno tra le unità statistiche. La media aritmetica è un indice di equilibrio generale. I 5 NUMERI DI SINTESI : è una rappresentazione sintetica della distribuzione di valori e questi sono: il minimo, il massimo, il primo quartile, la mediana e il terzo quartile. Ci possono essere delle asimmetrie in base a dove si trova la mediana e perciò è necessario identificare i valori anomali o outliers.

Capitolo quinto

  1. INDICE DI POSIZIONE: gli indici di posizione non sono sufficienti per esplicitare aspetti importanti di una variabile, soprattutto quando per uno studio statistico è necessario conoscere la misura della variabilità del fenomeno oggetto di studio. La variabilità è l’attitudine di un fenomeno ad assumere modalità o intensità diverse. L’indice di posizione gode di alcune proprietà: a) La variabilità è sempre maggiore uguale a zero; b) La variabilità è uguale a zero se le modalità o le intensità sono valori costanti; c) La variabilità di una serie di modalità o intensità sommate a una costante è uguale alla variabilità di una serie di modalità senza la somma; d) Se x è più variabile di y allora la variabilità di xi è maggiore della variabilità di yi. Le misure della variabilità hanno un significato descrittivo dell’intensità dei fenomeni, sia che li si veda al proprio interno che vengano posti a confronto essendo diversi. Si basa sul concetto di disuguaglianza che si differenzia in tre modi: eterogeneità, quando si studia se le modalità sono uguali o differenti; dispersione, quando si suppone che le modalità siano almeno ordinate; variabilità, quando è possibile operare algebricamente con le modalità. Gli indici di variabilità si distinguono rispetto a cosa vengono calcolati: a) rispetto alla funzione di ripartizione:  RANGE O CAMPO DI VARIAZIONE: è il più semplice e questo lo porta ad essere molto impreciso in base ai difetti che presenta;  DIFFERENZA INTERQUARTILE: è il campo di variazione del 50% delle osservazioni di una successione ordinata. b) rispetto ad una misura di centralità : un fenomeno può variare nel tempo ecc e un indice di variabilità deve misurare questi aspetti. È ragionevole misurare la variabilità di un fenomeno controllando se le singole unità statistiche presentano modalità più o meno stabili rispetto ad un indice di posizione, il quale viene assunto come rappresentativo dell’intera distribuzione di frequenza. Se si assume che il punto di riferimento sia la media aritmetica occorre sintetizzare le differenze tra le singole modalità rispetto alla media, cioè le quantità, definite scarti dalla media. La somma algebrica degli scarti è sempre nulla mentre è minima la somma dei quadrati degli scarti. È opportuno sintetizzare la variabilità di una variabile X tramite i quadrati degli scarti. La somma degli scarti al quadrato si chiama varianza.  VARIANZA: è una misura sempre non-negativa perché varia da un minimo 0 ad un massimo che può crescere indefinitamente e si calcola sottraendo dalla media aritmetica dei quadrati il quadrato della media aritmetica. Si ottiene anche facendo la somma delle modalità e la somma delle modalità al quadrato senza passare per il calcolo egli scarti. Le principali proprietà della varianza sono: o La varianza è un indice assoluto con range compreso tra 0 e + infinito; o La varianza è molto sensibile ai valori estremi; o La varianza è 0 se e solo se la variabile X è una costante, cioè assume in tutte le unità statistiche lo stesso valore; o Se alla variabile X si aggiunge una costante finita, la sua varianza non cambia; o La varianza si misura con l’unità di misura al quadrato del carattere x di cui stiamo calcolando la variabilità.  DERIVAZIONE STANDARD O SCARTO QUADRATICO MEDIO: una difficoltà nell’interpretazione della varianza deriva dal fatto che essa è espressa nell’unità di misura della variabile al quadrato e per questo si introduce lo scarto quadratico medio, definito come la radice quadrata della varianza.  COEFFICIENTE DI VARIAZIONE: sia la varianza che la derivazione standard dipendono dall’unità di misura, perciò, è opportuno considerare il coefficiente di variazione, che invece

un’asimmetria positiva; se è uguale a zero si avrà una simmetria; se è minore di zero si avrà un’asimmetria negativa. 6.  INDICE DI CURTOSI: un altro aspetto della forma di una distribuzione riguarda il maggiore o minore accentramento su di una modalità e il peso più o meno accentuato delle code rispetto alla parte centrale della distribuzione. Si tratta di verificare se la distribuzione di frequenza sia più o meno appuntita per qualche modalità oppure se tenda ad essere piuttosto piatta. L’indice di Curtosi è definito come la media aritmetica delle potenze quarte della variabile standardizzata. Gode di alcune proprietà: è simmetrica; è unimodale; la media è uguale alla mediana e alla moda; ha forma campanulare.

Capitolo settimo

Le relazioni tra variabili Lo studio di possibili relazioni tra variabili è un obiettivo fondamentale di qualsiasi ricerca empirica allo scopo di interpretare, prevedere, simulare, controllare i fenomeni reali. A tal fine non ci si può limitare allo studio delle singole distribuzioni ma diventa essenziale analizzare il contemporaneo presentarsi delle modalità di più variabili. Quando su ogni unità statistica appartenente ad una determinata popolazione si rilevano più variabili si parla di distribuzione multipla. Nel caso si disponga di una sola variabile X si parla di distribuzione univariata. Quando si hanno caratteri statistici multipli come nelle distribuzioni doppie si parla di statistica bivariata. È necessario determinare le relazioni di tipo causa-effetto tra X e Y. Lo studio del contemporaneo verificarsi di una o più modalità/intensità del carattere oggetto di studio può riguardare mutabili doppie (quando entrambe le variabili sono qualitative); variabili doppie (quando entrambe le variabili sono quantitative); variabili miste (quando una variabile è qualitativa e una variabile è quantitativa). Se la rilevazione di una variabile doppia sulle n unità statistiche consiste nella collezione delle coppie ordinate, ottenute registrando su una ciascuna delle n unità statistiche sia la variabile X che la variabile Y, si ha una serie. Se le informazioni sulla variabile doppia sono organizzate in modo che di ciascuna coppia di modalità sono disponibili le frequenze, si ha una distribuzione doppia di frequenze, cioè una seriazione. X si può presentare con k modalità/intensità; Y si può presentare con h modalità/intensità. Si indicherà con nij la frequenza assoluta con la quale la coppia di valori si presenta (la frequenza con la quale su di una unità statistica la variabile X assume il valore xi e contemporaneamente la variabile Y assume il valore yj). La frequenza relativa è la proporzione dei casi in cui su una popolazione di n unità statistiche, la coppia di valori si presenta (rapporto tra la frequenza assoluta e la numerosità della popolazione). Per organizzare e riassumere tali informazioni si costruisce la tabella a doppia entrata (tabella di contingenza) che esplicita sia le modalità delle due variabili che le corrispondenti frequenze assolute doppie; ciascun incrocio tra la modalità i- esima di X e la modalità j-esima di Y è detta cella. Le frequenze poste ai due margini della tabella doppia sono ottenute per addizione rispetto alle righe e rispetto alle colonne e sono definite frequenze marginali. Le frequenze marginali esplicitano la frequenza della modalità di una variabile senza tener conto della modalità dell’altra. Bisogna osservare che le frequenze doppie nij della variabile (X,Y) possiedono due indici di cui il primo riguarda la modalità della X e il secondo della Y. La frequenza marginale ni. Riguarda le frequenze della modalità i-esima della prima variabile e il punto ricorda che sono state sommate tutte le frequenze corrispondenti alla seconda componente, cioè la variabile Y; per la frequenza marginale n.j il discorso sarà analogo. Per esempio n2. È la frequenza della modalità x2 per la variabile X senza tenere conto dei valori assunti da Y: quindi n2. è il numero di unità statistiche che presentano la modalità x2 per la variabile X a prescindere dai valori assunti per la variabile Y. La tabella a doppia entrata delle frequenze relative di una variabile doppia (X,Y) si ottiene dalla tabella delle frequenze assolute dividendo ogni elemento di ciascuna cella per n. Il totale generato dalle frequenze relative è uguale a 1. Da una distribuzione doppia (X, Y) con k modalità distinte e h modalità distinte si ottengono due distribuzioni semplici univariate per le variabili componenti (distribuzioni marginali): h distribuzioni condizionate della X per ciascuno dei valori della Y, k distribuzioni condizionate della Y per ciascuno dei valori della X. Tuttavia, la conoscenza delle distribuzioni univariate non è sufficiente a ricostruire la distribuzione doppia. Ciò che è nuovo in una distribuzione doppia è l’informazione connessa al contemporaneo presentarsi delle modalità di una variabile con quelle di un’altra variabile. Questo aspetto si manifesta nel disporsi delle frequenze in una tabella multipla in modo che certe coppie di modalità si presentino più frequentemente di altre. Assume notevole

interesse studiare questo aspetto perché si manifesta una qualche associazione tra X e Y. In questo modo vengono introdotti indicatori che utilizzano le sole frequenze oppure indicatori che includono nella sintesi anche le modalità delle variabili: nel primo caso si parla di misure di associazione (qualitative), nel secondo di misure di correlazione (quantitative).  DIPENDENZA / CONNESSIONE / ASSOCIAZIONE: tra le due variabili esiste una relazione di dipendenza di tipo causa-effetto. Tuttavia, per studiare questa relazione occorre chiedersi quale sia la situazione estrema caratterizzata dall’assenza di qualsiasi legame tra X e Y da cui si ha una condizione di indipendenza (indipendenza in distribuzione e indipendenza in media). L’indipendenza implica che la conoscenza del valore assunto da una delle due variabili non deve aggiungere alcuna informazione sulla distribuzione dell’altra. Quindi le componenti X e Y di una variabile doppia sono indipendenti se e solo se le distribuzioni delle frequenze relative condizionate sono costante. Bisogna quindi misurare il legame tra le variabili mediante una distanza tra le frequenze doppie realmente osservate e le frequenze doppie ipotetiche o attese che si sarebbero dovute osservare nel caso in cui ci fosse una perfetta indipendenza tra le variabili. Maggiore è tale distanza, più si è lontani dall’indipendenza e più forte sarà il legame tra le variabili. Osservata una tabella a doppia entrata per la variabile doppia (X, Y) le frequenze n^ij sono quelle che ci si dovrebbe attendere se tra X e Y sussistesse perfetta indipendenza. Allora se nij e n^ij sono poco distanti si deve presumere che si è vicini ad una situazione di quasi- indipendenza, mentre se esse sono molto distanti occorre supporre un qualche legame tra le variabili. Questi ragionamenti implicano che una misura di connessione fra X e Y sarà tanto più grande per quanto più grande sarà la differenza tra nij e n^ij. Queste differenze vengono definite contingenze (cij). L’indice quadratico di connessione (chi quadro) deve essere in grado di misurare il grado di associazione o connessione tra le modalità di X e quelle di Y. L’assenza di associazione e connessione implica l’indipendenza. Per ciascuna cella (i, j) di una tabella a doppia entrata, l’indice X2 confronta le frequenze osservate nij e le frequenze teoriche n^ij tramite la loro differenza al quadrato (che evita la compensazione tra valori positivi e negativi) divisa per le frequenze teoriche (in modo da tener conto dell’ampiezza relativa alle discrepanze): quindi l’indice si ottiene facendo la somme di queste quantità. Se X e Y sono indipendenti allora le frequenze relative congiunte sono uguali al prodotto delle frequenze relative marginali. Se X e Y sono statisticamente indipendenti allora tutte le frequenze osservate sono uguali a quelle teoriche. L’indice quadratico di connessione ha alcune proprietà:

_1. è sempre compreso tra o e + infinito;

  1. quando è uguale a zero le variabili sono indipendenti e le frequenze osservate sono_ _uguali a quelle teoriche;
  2. quando è maggiore di zero attesta la presenza di un certo grado di connessione tra X e_ Y. Almeno una frequenza congiunta osservata è diversa da una frequenza teorica. È stato inoltre proposto un ulteriore indice, detto quadratico medio di contingenza, che ha lo scopo di eliminare la numerosità di n. Dal suo valore possiamo capire se le due _variabili sono indipendenti o quanto sono dipendenti l’una dall’altra:
  3. se è uguale a zero, allora le variabili sono indipendenti l’una dall’altra;
  4. se è uguale a k-1=h-1, allora le due variabili sono legate da una perfetta dipendenza_ _bilaterale reciproca tra X e Y;
  5. se è uguale a k-1, allora le due variabili sono legate da una perfetta dipendenza di X da_ _Y, con h>k;
  6. se è uguale a h-1, allora le due variabili sono legate da una perfetta dipendenza di Y da_ X, con k>h.  CORRELAZIONE / INTERDIPENDENZA: quando le componenti della variabile doppia (X, Y) sono entrambe variabili quantitative è preferibile utilizzare una misura esplicita del loro eventuale legame che coinvolga anche le modalità. Il coefficiente che si introdurrà misura solo un particolare legame statistico, quello di tipo lineare (esprimibile tramite una relazione di primo grado tra le due variabili), ma il suo studio è preliminare rispetto a qualsiasi altro tipo di legame tra variabili quantitative. Supponendo di disporre di una serie di osservazioni (xi;yi) ottenute sulla variabile doppia, la rappresentazione più immediata di tali informazioni utilizza gli assi cartesiani, facendo corrispondere a ciascuna unità statistica un punto che ha per ascissa xi e per ordinata yi. L’insieme di tali punti fornisce un’informazione preliminare per verificare se ed in quale misura sussista una relazione tra le variazioni di X e di Y. Visto

si ha quando il coefficiente è uguale a +1 (tutte le coppie di osservazioni giacciono su una retta con pendenza positiva); o Quando il coefficiente di correlazione è maggiore di zero si avrà una correlazione lineare positiva con pendenza positiva; quando è minore di zero si avrà una correlazione lineare negativa con pendenza negativa; o Se l’indice quadratico di connessione è uguale a zero anche l’indice di correlazione sarà uguale a zero ma non viceversa; o Se il coefficiente di correlazione è uguale a -1 o a +1 allora c’è perfetta dipendenza lineare; o Se il coefficiente di correlazione è compreso tra -1 e +1 allora ci sarà una certa relazione tra X e Y. DIPENDENZA LINEARE: due variabili quantitative e ipotizziamo che esista una relazione causa-effetto di tipo lineare. La dipendenza lineare, al contrario dell’indice di correlazione, non è simmetrica. Si verifica nel diagramma di dispersione con la retta di regressione la cui equazione è composta da una dipendente endogena e una indipendente esogena. o (xi, yi) sono valori osservati sulla singola unità statistica; o mx ed my sono le medie di X e Y; o mx2 e my2 sono le medie di X e Y al quadrato (xi2, yi2); o mxy è la media dei prodotti di X e Y; o mx my è il prodotto delle medie di X e Y. REGRESSIONE LINEARE : è un tipo di relazione lineare causa-effetto in cui il legame funzionale tra X e Y è di tipo lineare. Si parla di regressione lineare di una variabile Y s una variabile X quando il valore medio della prima dipende dal valore medio della seconda come nel caso della retta dei minimi quadrati. In questo caso il coefficiente angolare della retta prende il nome di coefficiente di regressione lineare della Y sulla variabile X. METODO DEI MINIMI QUADRATI : è una tecnica di ottimizzazione o regressione che permette di trovare una funzione che si avvicini il più possibile ad un insieme di dati. La funzione trovata deve essere quella che minimizza la somma dei quadrati delle distanze tra i dati osservati e quelli della funzione stessa. Per interpolazione si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati, nell'ipotesi che tutti i punti si possano riferire ad una funzione di una data famiglia di funzioni di una variabile reale.

Capitolo ottavo

La teoria delle probabilità La variabilità presente nella vita quotidiana genera incertezza nell’assumere decisioni e induce l’uomo a ricercare comportamenti razionali, anche quando non è sicuro dei risultati delle azioni che intraprende; soprattutto rispetto al futuro: da questa insicurezza derivano il bisogno e l’utilità di studiare la probabilità. L’osservazione dei fenomeni naturali mostra che la previsione accurata di un risultato è resa difficile da meccanismi molto complessi e infatti più si approfondisce lo studio più aumenta l’indeterminatezza nella previsione del risultato. Motivi storici ed esigenze didattiche hanno spesso associato il calcolo della probabilità ai giochi di sorte in cui le situazioni sono ben schematizzabili e gli esiti sono elencabili con precisione, rendendo più semplice la valutazione secondo il buon senso. Ma l’utilità della teoria delle probabilità si dimostra maggiormente in situazioni più lontane dai giochi di sorte come nella ricerca scientifica. La teoria della probabilità unisce la statistica descrittiva, cioè l’osservazione di un fenomeno e la sintesi dei dati raccolti, e la statistica inferenziale, cioè il domandarsi quali siano i possibili risultati di un fenomeno. Permette di passare da una logica a posteriori a una logica a priori e viceversa. Il concetto di probabilità è molto complesso poiché nessuno sa esattamente cosa sia. Si deve fare la differenza tra concetto e misura:

- la probabilità è un concetto primitivo, cioè originario per l’essere umano perché innato e sempre presente nelle sue regole di comportamento. In quanto tale esso obbedisce a criteri logici coerenti traducibili in un sistema di assiomi dai quali si possono con deduzioni rigorose dimostrare i teoremi (il cervello è una macchina biologica che calcola probabilità);

- la probabilità è una misura perché associa al conetto primitivo una valutazione numerica. Tuttavia, dovrebbe essere sempre distinti il momento della percezione concettuale da quello della valutazione numerica. I fenomeni di cui si occupa il calcolo delle probabilità riguardano le scienze fisiche, naturali e umane e forniscono esiti così differenti tra loro che una elencazione esaustiva appare impossibile. Per questo riconosciamo 3 condizioni per cui può essere definita la probabilità:

  1. INCERTEZZA DEL RISULTATO: deriva dal fatto che nelle situazioni esaminate sono possibili più esiti. Tali possibili risultati sono elencabili oppure possono essere concettualmente assimilati a tutti i numeri inclusi in un intervallo reale (momentanea, tecnologica, fisica, psicologica, intrinseca);
  2. RIPETIBILITÀ DELL’ESPERIMENTO: rende lecito chiedersi se quell’esito si verificherà nuovamente in circostanze diverse o simili. Quest’affermazione è molto delicata perché un esperimento reale è fisicamente irripetibile considerato che l’universo si modifica continuamente. Non tutti gli esperimenti sono ripetibili, per definizione o per ragioni strutturali.
  3. EQUIPROBABILITÀ DEI RISULTATI: si ha quando si è indifferenti rispetto al verificarsi di ciascuno degli esiti possibili, cioè non esistono motivi oggettivi per attribuire maggiore fiducia al presentarsi di un risultato anziché di un altro. Quindi tutti gli esperimenti sono incerti, molti esperimenti sono ripetibili, solo alcuni esperimenti danno luogo ad esiti equiprobabili. Vediamo alcuni termini e le loro semplici definizioni che sono utilizzati nel linguaggio probabilistico:
  • PROVA: esperimento il cui risultato è incerto;
  • EVENTO: uno dei possibili risultati dell’esperimento;
  • PROBABILITÀ: un numero associato al verificarsi di un evento. Per rappresentare gli eventi viene comunemente utilizzato il diagramma di Venn, uno strumento grafico che si costruisce con un rettangolo al cui interno sono presenti gli eventi rappresentati sottoforma di aree chiuse. 8. Esistono diverse interpretazioni della probabilità che dipendono dalle condizioni esistenti per gli esperimenti persi in considerazione. Vediamo quindi 3 definizioni diverse per situazioni diverse:
  1. INTERPRETAZIONE CLASSICA: in questo caso valgono incertezza, ripetibilità ma soprattutto l’equiprobabilità, senza di cui non è applicabile. Dato un esperimento ben specificato ed un evento E tra quelli possibili per quell’esperimento, se m (casi favorevoli) è il numero dei possibili risultati che danno luogo all’evento E mentre n (casi totali) è il numero di tutti i possibili risultati dell’esperimento, allora la probabilità dell’evento E è il rapporto m/n, purché tutti gli n risultati siano ugualmente possibili.
  2. DEFINIZIONE FREQUENTISTA: valgono incertezza e ripetibilità senza cui non è applicabile. Dato un esperimento ben specificato e perfettamente ripetibile, sia un evento E tra quelli possibili, ed indichiamo con fr(E) il numero di volte in cui E si è verificato in una serie di n esperimenti ripetuti tutti nelle medesime condizioni, per cui fr(E)/n è la frequenza relativa. Allora la probabilità di E è il limite cui tende la frequenza relativa dell’evento E al crescere del numero degli esperimenti. Quando ho un esperimento ripetuto tante volte c’è la possibilità che il risultato degli esperimenti si avvicini alla definizione teorica.
  3. DEFINIZIONE SOGGETTIVISTA: vale solo l’incertezza. Dato un esperimento ben specificato, sia E un evento tra quelli possibili. Allora la probabilità dell’evento E è la somma che un individuo coerente è disposto a scommettere in un gioco equo nel quale al verificarsi di E egli riceve dal banco un importo unitario. Il grado di fiducia che un individuo coerente associa al verificarsi di un evento. Se scommette ha fiducia che l’evento accada; se non scommette non ha fiducia che quell’evento accada. TEORIA ASSIOMATICA : una scienza assiomatica stabilisce il proprio contenuto individuando gli elementi di cui si occupa, le regole per combinarli e gli enunciati fondamentali, ricercando poi nuovi risultati (teoremi) per ampliare il proprio campo di interesse, spesso sulla spinta di esigenze applicative. I momenti fondamentali sono: individuazione dei concetti primitivi (elementi non definibili ma per i quali la storia e l’esperienza hanno prodotto convinzioni universali); enunciazione dei postulati (affermazioni non dimostrabili ma utili, coerenti, necessarie per costruire la scienza assiomatica); dimostrazione dei teoremi tramite gli assiomi.

evento B deve verificarsi A intersecato B perché non è più possibile che B si verifichi senza che si verifichi contemporaneamente anche A. Allora la probabilità di B dato A è uguale al rapporto tra la probabilità di A intersecato B e la probabilità di A (con il vincolo secondo cui la probabilità di A è maggiore di zero). L’effetto del verificarsi di A è quello di ridurre lo spazio degli eventi di B da omega ad A. o REGOLA MOLTIPLICATIVA: L’incompatibilità è una relazione tra eventi ed ha come conseguenza il fatto che la probabilità della unione di più eventi incompatibili è la somma delle singole probabilità. L’indipendenza è una relazione tra le probabilità degli eventi ed ha come conseguenza il fatto che la probabilità dell’intersezione di più eventi è il prodotto delle singole probabilità.

  • RISOLUZIONE DEI CASI PRATICI: CALCOLI 8. IL TEOREMA DI BAYES: è un’applicazione del calcolo delle probabilità che ha un ruolo di notevole importanza per l’interpretazione statistica che se ne può derivare. Questa interpretazione è talmente importante che la statistica può essere costruita e decostruita in base ha questa teoria. Ancora oggi è aperta la discussione sull’effettiva utilizzabilità nei casi reali, ma è comunque essenziale perché esplicita il ruolo delle differenti probabilità nella scelta tra decisioni alternative. Soprattutto il teorema mostra come le probabilità si modifichino acquisendo informazioni aggiuntive sui risultati sperimentali, il che costruisce la base della conoscenza umana e dell’apprendimento scientifico. Se H1, H2, …, Hm sono eventi che costituiscono una partizione di omega, allora per qualsiasi evento E compreso in omega si ha che la probabilità di Hi dato E è uguale al rapporto tra il prodotto della probabilità di Hi e la probabilità di E dato Hi e la sommatoria del prodotto delle probabilità Hj e le probabilità di E dato Hj.
  • P (E/Hi) è la probabilità a posteriori;
  • P(Hi) è la probabilità a priori;
  • P (E/Hi) è la verosimiglianza. Ciò è importante perché la probabilità a posteriori si ottiene grazie al prodotto tra la probabilità a priori e un certo fattore che è il rapporto tra P(E/Hi) e P(E). Nella sua essenza il teorema di Bayes mostra come la probabilità dell’affermazione “E si è verificato” modifica l’assegnazione iniziale delle probabilità P(Hi) nelle probabilità condizionate P(Hi/E). In questo modo il teorema di Bayes esplicita la probabilità condizionate P(Hi/E) tramite le probabilità P(E/Hi) e P(Hi). L’utilizzo del teorema si estende in modo notevole attribuendo significato particolare agli eventi che sono presenti nella sua espressione formale: in particolare, sia un evento E che può realizzarsi in conseguenza di m cause o ipotesi Hi, una delle quali certamente agisce e ognuna delle quali ha una probabilità a priori di agire. Sia P(E/Hi) la probabilità che E si verifichi quando è noto che abbia agito la causa Hi: questa probabilità si definisce verosimiglianza di E dato Hi. Allora dato un effetto E ed m cause Hi , necessarie ed incompatibili, il teoria di Bayes esprime la probabilità a posteriori, cioè la probabilità che avendo osservato l’evento E esso sia stato generato dalla causa Hi, in funzione delle probabilità a priori e delle verosimiglianze. Grazie al teorema di Bayes, chi deve prendere una decisione tra più alternative possiede un criterio di scelta razionale. Il teorema di Bayes interviene quindi nel cosiddetto problema inverso, cioè nel problema di determinare le cause più probabile avendo osservato i risultati sperimentali.