Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Metodi quantitativi 1, Dispense di Probabilità e Statistica

FREQUENTANTE. Parte di statistica e probabilità completi, appunti integrati con le spiegazioni in classe.

Tipologia: Dispense

2023/2024

In vendita dal 23/03/2024

Viola1803
Viola1803 🇮🇹

4.4

(9)

38 documenti

1 / 22

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
1
STATISTIVA VS PROBABILITÀ
Statistica: si fa riferimento a una disciplina che studia un processo di tipo induttivo (o inferenziale), ovvero
utilizziamo un approccio che procede dall’alto verso il basso: dalle osservazioni di casi particolari (dati) cerchiamo
di risalire a una legge generale, tramite l’applicazione del metodo scientifico (osservazione di un fenomeno >
formulazione ipotesi > verifica > si: formulazione principio/legge generale)
Probabilità: disciplina che sfrutta processi di tipo deduttivo. Percorso inverso: partire da un principio generale
per ottenere delle spiegazioni per dei fenomeni particolari.
STATISTICA
La statistica è la disciplina che consente di dare delle spiegazioni a dei fenomeni collettivi che possiamo osservare
quotidianamente
a) ripetutamente nel tempo riferiti a un generico concetto
Es. prezzi di chiusura giornalieri del titolo AAPL su un intervallo temporale
b) ad un dato istante temporale
Es. realizzazione in un singolo giorno dei prezzi di tutti i titoli che compongono l’indice FTSE-MIB
Il concetto di “osservazione” rimanda a un procedimento di raccolta dei dati.
Dato: possiamo identificare una serie di oggetti (prezzo azionario, numero di oggetti, colore dei capelli), termino
generico che fa riferimento a tutto quello che possiamo osservare e annotare.
Annotare = raccogliere informazioni
L’operazione di raccolta dei dati prende il nome di rilevazione.
RILEVAZIONE: osservare, o raccogliere i dati, significa associare a ogni unità statistica una e una sola modalità.
Il concetto stesso di rilevazione rimarrebbe puramente astratto se non ne specifichiamo l’oggetto, il luogo, le
tempistiche e le modalità. Pertanto, nel progettare un’indagine statistica, dobbiamo pianificare la rilevazione
rispondendo a 4 domande fondamentali:
1. Cosa osservare? → definizione della popolazione e dei caratteri di interesse
2. In che modo effettuare l’indagine? → definizione delle tecniche di indagine
3. Quando avverrà l’indagine?
4. Dove verrà svolta l’indagine?
Es. indagine sull’età dei presenti in aula
Distribuire un questionario con scritto la domanda “qual è il tuo anno di nascita?” = raccolta dei dati
Complicazioni: per tutta l’Italia diviene infattibile la raccolta di tutti i questionari cartacei
Si può adottare una scelta simile: questionari online oppure osservazione di una sola parte della popolazione, e
in base al campione avere un’idea sul resto della popolazione.
= in base alla natura della popolazione, in base del carattere di interesse, alla fattibilità tecnica e disponibilità
andremo a scegliere una tecnica di indagine piuttosto che un’altra.
OBIETTIVI DELLANALISI STATISTIC A (raccolta di dati)
a) Fornire una sintesi dei dati raccolti, al fine di renderli più comprensibili statistica descrittiva
b) Utilizzare i dati raccolti per trarre conclusioni generali statistica inferenziale
Passaggio successivo: utilizza le informazioni date dalla statistica descrittiva per cercare di allargare le conclusioni
date a una popolazione più generale.
Dopo aver calcolato l’età media dei studenti iscritti all’università di Novara, vado all’università di Torino per fare la
stessa cosa con un corso analogo e verificare che l’età media è 20. All’università di Milano, stesso procedimento,
età media 19 anni. E così via con le altre università.
Conclusione: età media si aggira tra i 19 e 20 anni. Posso prevedere che sarà così anche per le altre università.
POPOLAZIONE: insieme di tutti gli elementi attraverso i quali il fenomeno oggetto di studio si
manifesta in maniera diretta o indiretta.
Ogni elemento della popolazione viene detto unità statistica (us)
Posso sempre osservare l’intera popolazione? Dipende perché la popolazione può essere
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Anteprima parziale del testo

Scarica Metodi quantitativi 1 e più Dispense in PDF di Probabilità e Statistica solo su Docsity!

STATISTIVA VS PROBABILITÀ

Statistica : si fa riferimento a una disciplina che studia un processo di tipo induttivo (o inferenziale), ovvero utilizziamo un approccio che procede dall’alto verso il basso: dalle osservazioni di casi particolari (dati) cerchiamo di risalire a una legge generale, tramite l’applicazione del metodo scientifico (osservazione di un fenomeno > formulazione ipotesi > verifica > si: formulazione principio/legge generale) Probabilità : disciplina che sfrutta processi di tipo deduttivo. Percorso inverso: partire da un principio generale per ottenere delle spiegazioni per dei fenomeni particolari.

STATISTICA

La statistica è la disciplina che consente di dare delle spiegazioni a dei fenomeni collettivi che possiamo osservare quotidianamente a) ripetutamente nel tempo riferiti a un generico concetto Es. prezzi di chiusura giornalieri del titolo AAPL su un intervallo temporale b) ad un dato istante temporale Es. realizzazione in un singolo giorno dei prezzi di tutti i titoli che compongono l’indice FTSE-MIB Il concetto di “ osservazione ” rimanda a un procedimento di raccolta dei dati. Dato : possiamo identificare una serie di oggetti (prezzo azionario, numero di oggetti, colore dei capelli), termino generico che fa riferimento a tutto quello che possiamo osservare e annotare. Annotare = raccogliere informazioni L’operazione di raccolta dei dati prende il nome di rilevazione.

RILEVAZIONE: osservare, o raccogliere i dati, significa associare a ogni unità statistica una e una sola modalità.

Il concetto stesso di rilevazione rimarrebbe puramente astratto se non ne specifichiamo l’oggetto, il luogo, le tempistiche e le modalità. Pertanto, nel progettare un’indagine statistica, dobbiamo pianificare la rilevazione rispondendo a 4 domande fondamentali:

  1. Cosa osservare? → definizione della popolazione e dei caratteri di interesse
  2. In che modo effettuare l’indagine? → definizione delle tecniche di indagine
  3. Quando avverrà l’indagine?
  4. Dove verrà svolta l’indagine? Es. indagine sull’età dei presenti in aula Distribuire un questionario con scritto la domanda “ qual è il tuo anno di nascita? ” = raccolta dei dati Complicazioni: per tutta l’Italia diviene infattibile la raccolta di tutti i questionari cartacei Si può adottare una scelta simile: questionari online oppure osservazione di una sola parte della popolazione, e in base al campione avere un’idea sul resto della popolazione. = in base alla natura della popolazione, in base del carattere di interesse, alla fattibilità tecnica e disponibilità andremo a scegliere una tecnica di indagine piuttosto che un’altra. OBIETTIVI DELL’ANALISI STATISTICA (raccolta di dati) a) Fornire una sintesi dei dati raccolti, al fine di renderli più comprensibilistatistica descrittiva b) Utilizzare i dati raccolti per trarre conclusioni generalistatistica inferenziale Passaggio successivo: utilizza le informazioni date dalla statistica descrittiva per cercare di allargare le conclusioni date a una popolazione più generale. Dopo aver calcolato l’età media dei studenti iscritti all’università di Novara, vado all’università di Torino per fare la stessa cosa con un corso analogo e verificare che l’età media è 20. All’università di Milano, stesso procedimento, età media 19 anni. E così via con le altre università. Conclusione: età media si aggira tra i 19 e 20 anni. Posso prevedere che sarà così anche per le altre università.

 POPOLAZIONE: insieme di tutti gli elementi attraverso i quali il fenomeno oggetto di studio si

manifesta in maniera diretta o indiretta. Ogni elemento della popolazione viene detto unità statistica (us) Posso sempre osservare l’intera popolazione? Dipende perché la popolazione può essere

a) Infinita, se il numero di us è infinito b) Finita, se il numero di us è finito. In tal caso, è possibile determinare la numerosità della popolazione, vale a dire il numero di us che ne fanno parte Il fatto che una popolazione sia finita, non implica necessariamente che sia osservabile nella sua interezza. Spesso, infatti, siamo in grado di osservarne solo una parte.

 CAMPIONE: frazione di popolazione su cui verte la nostra indagine

In particolare, un campione casuale è un sottoinsieme della popolazione selezionato in maniera casuale (determinato da cause esterni dalla propria scelta/volontà). Il campione è considerato rappresentativo della popolazione. Pertanto, le conclusioni tratte dall’osservazione del medesimo verranno estese all’intera popolazione. Quale problema può sorgere? Distorsione : idea sbagliata perché si parte da dei dati selezionati in maniera non rappresentativa ma casuale. Risolvere il problema: bisogna essere attenti alle tecniche che andiamo ad applicare.

CLASSIFICAZIONE DEI DATI

Il primo e più immediato risultato dell’osservazione è la raccolta di un insieme di dati. Tuttavia, la mera raccolta dei dati, è inutile senza un’adeguata classificazione dei medesimi, vale a dire, senza la corretta identificazione del carattere e delle modalità.  Il carattere è l’aspetto tramite il quale possiamo percepire il fenomeno collettivo di esame (quello che vogliamo osservare)  La modalità è l’espressione con cui può manifestarsi il carattere sotto osservazione Es. Carattere: provincia di residenza / Modalità: provincia di Novara, di Vercelli, ecc.. Es. carattere: età / Modalità: numero  CARATTERE O QUALITATIVO Le modalità sono espresse in termini di attributi (aggettivo, numero, ma senza che abbia senso svolgere un qualsiasi tipo di operazione matematico) es. provincia di residenza Distinguiamo tra  QUALITATIVO SCONNESSO : assenza di una relazione d’ordine naturale tra gli attributi (es: sesso, comune di residenza, materia preferita...)  QUALITATTIVO ORDINALE : esistenza di una relazione d’ordine naturale tra gli attributi (es: valutazione di un esame, ordine di arrivo in una gara, taglie di abbigliamento…) O QUANTITATIVO Le modalità sono espresse in termini numerici (in modo tale che abbia senso effettuare delle operazione aritmetiche) es. temperatura nel mese di gennaio Distinguiamo tra  QUANTITATIVO DISCRETO : le modalità si manifestano come valori numerici all’interno di un insieme finito (es: numero di passeggeri su un aereo, numero di studenti in una classe, componenti di una famiglia…)  QUANTITATIVO CONTINUO : le modalità si manifestano come valori numerici all’interno di un intervallo (es: temperatura, peso, altezza,…)  QUANTITATIVO IN CLASSI : le modalità sono rappresentate da classi di misure (come un raggruppamento) Attenzione! Il fatto che un dato appaia come un numero, non implica automaticamente che il carattere sia quantitativo.  Si osservino gli autobus che passano davanti alla stazione di Novara al lunedì mattina e si annoti il numero riportato sul display luminoso frontale. Tale numero identifica la linea e, di conseguenza, il tragitto compiuto dal bus. Il carattere osservato è di tipo qualitativo.  In un questionario, si chiede di codificare la propria regione di residenza in base a un numero da 1 a 20 (es: 1 = Valle d’Aosta, 2 = Piemonte, 3 = Liguria, etc.). Anche in questo caso, il carattere è di tipo qualitativo.

DISTRIBUZIONE DI FREQUENZA

ESEMPIO

Un’indagine condotta su 20 macchinari dell’azienda Alfa ha rilevato, per ciascuna unità, il numero di guasti occorsi nel mese di gennaio 2023. I risultati sono riportati nella seguente tabella Si può notare che  le macchine A001, A002, A004, A007, A009, A011, A012 e A014 non hanno avuto guasti  le macchine A003, A017 e A019 hanno avuto 1 guasto  la macchina A013 ha avuto 2 guasti  le macchine A005, A010, A015 e A020 hanno avuto 3 guasti  le macchine A008 e A018 hanno avuto 4 guasti  le macchine A006 e A016 hanno avuto 5 guasti Abbiamo raggruppato i macchinari in base al numero di guasti osservati (in base a una modalità) Cambiare il riferimento: dall’us al carattere e alle rispettive modalità. Fissata una modalità contiamo quanti macchinari hanno avuto gli stessi numeri di guasti. Quanti macchinari (us) sono associati a ciascun numero di guasti (a ciascuna modalità)?  0 guasti: 8 macchine  1 guasto: 3 macchine  2 guasti: 1 macchina  3 guasti: 4 macchine  4 guasti: 2 macchine  5 guasti: 2 macchine Raccogliamo i risultati ottenuti in una tabella La procedura sopra descritta prende il nome di SPOGLIO DEI DATI e può essere schematizzata come segue:

  1. All’interno della sequenza dei dati ”grezzi” rilevati, dobbiamo identificare tutte le modalità del carattere oggetto

di studio; se possibile, ordinarle. Si indica con xi una generica modalità ;

  1. Contare su quante us è stata osservata la medesima modalità. Il numero ottenuto è detto frequenza assoluta. Si

indica con ni la frequenza assoluta della modalità xi ;

  1. Ripetere il conteggio per ciascuna modalità e raccogliere in una tabella i risultati ottenuti. Si ottiene la c.d. distribuzione di frequenze. Con riferimento ai dati dell’esempio precedente, abbiamo La somma delle frequenze assolute restituisce la numerosità campionaria (indicata con N nella tabella) Normalizzando le frequenze assolute rispetto alla numerosità campionaria, si ottengono le frequenze relative. Si

indica con f^ i la frequenza relativa della modalità xi

Le frequenze relative devono sommare a 1. Può assumere valori tra 0 e 1. A differenza della frequenze assolute, le frequenze relative hanno il vantaggio della possibilità di fare confronti N. guasti 0 1 2 3 4 5 Totale N. di macchine 8 3 1 4 2 2 20

RAPPRESENTAZIONI GRAFICHE

Per visualizzare graficamente la distribuzione di frequenze, possiamo utilizzare: per VARIABILI QUALITATIVEDIGRAMMA A BARRE Grafico:  un rettangolo per ciascuna modalità osservata  le basi dei rettangoli hanno tutte la medesima ampiezza  l’ altezza di ciascun rettangolo è proporzionale alla frequenza (assoluta o relativa) della modalità corrispondente  i rettangoli sono staccati gli uni dagli altri Non è importante l’ordine Invece di colonne verticali possono avere delle barre orizzontali.  DIAGRAMMA A COLONNE Grafico:  Un unico rettangolo principale suddiviso in tanti rettangoli contigui quante sono le modalità osservate  l’ altezza di ciascun rettangolo è proporzionale alla frequenza della modalità osservata  DIAGRAMMA A SETTORI CIRCOLARI Grafico:  un cerchio è diviso in tanti settori circolari quante sono le modalità osservate  l’ampiezza di ciascun settore è proporzionale alla frequenza della modalità osservata Pregio: abbiamo un’idea delle proporzioni per VARIABILI QUANTITATIVEDIGRAMMA A BASTONI Furto Rapira Omicidio volontario Omicidio colposo 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 16%^ 61% 11% 12% (^) Furto Rapina Omicio volontario Omicidio colposo Furto Rapira Omicidio volontario Omicidio colposo 0 100 200 300 400 500

Tramite le adeguate rappresentazioni grafiche è possibile visualizzare le caratteristiche di un’intera distribuzione. In aggiunta o in alternativa rispetto alla rappresentazione grafica è altresì utile concentrarsi su aspetti specifici della distribuzione, sintetizzando l’informazione desiderata in un singolo valore Tale valore è detto indicatore di sintesi Quanti indicatori possiamo avere? Rispondono a necessità informative diverse In particolare, per variabili quantitative, possiamo definire

  1. indici di posizione (o misure di tendenza centrale)
  2. indici di dispersione
  3. indici di concentrazione MISURE DI TENDENZA CENTRALEVALORE CENTRALE Tra tutti i possibili valori delle modalità rilevati, il valore centrale considera solo il massimo (max) e il minimo (min) Si ha ESEMPIO Un’analisi volta a indagare il numero di figli delle famiglie italiane negli anni Venti del Novecento ha restituito la seguente distribuzione di frequenze Il valore centrale è influenzato da quelli che possono essere i valori atipici. La frequenza con cui è stato registrato il n. di figli pari a 10 è bassa. Se fosse stata più basse avremmo comunque dovuto includere il valore.  MEDIANA In presenza di una distribuzione di frequenze per caratteri quantitativi ordinabili, è possibile identificare un valore ”soglia” che divida tale distribuzione in 2 parti uguali (più avanti rimuoveremo l’ipotesi che la numerosità dei due sottoinsiemi debba essere la medesima). Tale ”soglia” prende il nome di mediana Si procede come segue:
  4. si considera il dataset risultante da una rilevazione: si ordinano i valori dei dati in esso contenuti dal più piccolo al più grande (in ordine crescente)
  5. si osserva il valore che divide il campione in 2 sottoinsiemi di uguale numerosità leggiamo quel valore che si trova a metà ESEMPIO Da un’indagine campionaria relativa al numero di automobili possedute dalle famiglie piemontesi sono emersi i seguenti dati {1, 2, 0, 4, 2, 1, 0, 0, 1, 2, 3, 1, 2, 2, 5, 1, 0, 2, 0, 3, 2, 1, 1, 2} -> dati grezzi
  6. Ordino i dati (ordine crescente) {0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4, 5}
  7. La mediana divide l’insieme in 2 gruppi (il 50% delle osservazioni appartiene al primo gruppo, il 50% al secondo) {0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, |2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4, 5}
  8. Mediana = 1 > 12 prima unità termina con il valore 1
  9. Interpretazione: sul 50% delle unità statistiche sono stati rilevati valori minori o uguali a 1  QUARTILI

Lo stesso ragionamento per il calcolo della mediana può essere applicato a ciascuno dei due sottoinsiemi da essa definiti. Riprendendo i dati dell’esempio Il valore che divide a metà il primo sottocampione è 1. In maniera più precisa, diciamo che sul 25 % delle us sono stati rilevati minori o uguali a 1 Il valore che divide a metà il secondo sottocampione è 2. In maniera più precisa, diciamo che sul 75 % delle unità statistiche sono stati rilevati minori o uguali a 2 Formalizziamo quanto appena osservato nell’esempio e definiamo  Primo quartile : il valore che separa il primo 25% dei dati osservati dal restante 75%  Secondo quartile : il valore che separa il primo 50% dei dati osservati dal restante 50% -> coincide con la mediana  Terzo quartile : il valore che separa il primo 75% dei dati osservati dal restante 25% Indichiamo con Q 1 ,Q 2 ,Q 3 il primo, secondo, e terzo quartile, rispettivamente. Per quanto riguarda il Q 2 , possiamo indifferentemente utilizzare la notazione Me per enfatizzare il riferimento alla mediana. ESEMPIO Sono date le seguenti osservazioni {1, 0, 5, 3, 5,−6,−5, 2, 1, 1, 2,−3,−3, 2, 0}. Si calcolino i quartili della distribuzione.

  1. Ordiniamo i dati in ordine crescente {−6,−5,−3,−3, 0, 0, 1, 1, 1, 2, 2, 2, 3, 5, 5}
  2. Calcoliamo la numerosità campionaria: N = 15
  3. Identifichiamo le posizioni di nostro interesse:  Q 1 → 25% → N × 0.25 = 3.  Q 2 → 50% → N × 0.50 = 7.  Q 3 → 75% → N × 0.75 = 11. Trattandosi di posizioni, abbiamo bisogno di numeri interi. Non ha avrebbe senso cercare l’elemento in ”posizione 3.75”: dovremo fare riferimento al terzo o al quarto. Arrotondiamo per eccesso:  3.75 → 4 ⇒ Q 1 : quarto elemento  7.50 → 8 ⇒ Q 2 : ottavo elemento  11.25 → 12 ⇒ Q 3 : dodicesimo elemento {−6,−5,−3,−3, 0, 0, 1, 1 , 1, 2, 2, 2 , 3, 5, 5} Q 1 = −3, Q 2 = Me = 1, Q 3 = 2 Perché arrotondare per eccesso? Abbiamo bisogno di calcolare la frequenza cumulata La frequenza cumulata associata a una modalità è data dalla somma della sua frequenza e di quelle delle modalità che la precedono. La somma a 1 è riflessa a quella cumulata che deve fare 100. Non ho 25% preciso. Se Q 1 deve coprire il 25%, se considero il -5 è insufficiente, mentre se considero il -3 il 25% è coperto. Q 2 : la mediana non è 0 perché ricoprirei solo il 40% delle us, ma 1

ESERCIZIO

Disegnare il box-plot relativo alla seguente distribuzione di frequenze. Min 3 Max 19 Q1 7 Q2 8 Q 11  MODA La moda di una variabile quantitativa

  • discreta → la moda è la modalità che si presenta con la massima frequenza
  • con dati in classi → la moda è la classe con la massima densità di frequenza. Parliamo di classe modale Complicazione : Tabella 1 : freq. Rel 0.32 osservata sulla modalità 3 e su 11. La moda è 3 e 11 > distribuzione bimodaleMEDIA ARITMETICA Non è sempre calcolabile. È applicabile soltanto a variabili quantitative e trasferibili (ovvero caratteri per i quali può essere operata una ridistribuzione tra gli individui) Calcolo dove N è la numerosità campionaria Se vuoi calcolare la media aritmetica della variabile, devi sommare i dati e dividere la somma ottenuta per la numerosità del campione. Indicatore facilmente comprensibile, ma la tempo stesso particolarmente sensibile ai valori estremi della distribuzione. ESEMPIO Per un gruppo di individui, sono stati rilevati i seguenti redditi annui (valori ×10^4 , espressi in EUR) {1.56, 1.75, 1.73, 1.82, 1.76, 1.80}. Il redito medio risulta

 Dati grezzi Noto che

INDICI DI DISPERSIONE E INDICI DI CONCENTRAZIONE

INDICI DI DISPERSIONE

La deviazione standard di X è la radice quadrata della varianza di X Std(X) = (^) √ Var ( x ) Assume una maggiore interpretabilità. Varianza = 30,25 > risultato sia di 5,5 sia di -5,5 > la deviazione standard è 5,5: per definizione la radice quadrata di un numero è sempre positiva. INDICI DI VARIAZIONE RELATIVI Particolarmente utili per effettuare confronti tra fenomeni diversi. Gli indici di variazione relativi si ottengono dividendo un indice di variazione assoluto per una media. Il risultato di tale operazione è un numero adimensionale , vale a dire, privo di unità di misura. > ho numeri puri da confrontare, ho un confronto omogenei tra numeri e non valori. I numeri assoluti non ci permettono di fare confronti, mentre i numeri relativi si. ESEMPI INDICI DI CONCENTRAZIONE Scopo degli indici di concentrazione è la misurazione di come un carattere trasferibile sia diviso tra la popolazione. Caratteri trasferibili: un carattere quantitativo è detto trasferibile quando è misurato in scala per rapporti e può essere redistribuito tra le unità statistiche del collettivo. Esempi - Reddito, Fatturato, Superficie coltivabile, Numero turisti, ecc. ESEMPIO È uso comune che il vincitore di una gara ciclistica condivida il premio in denaro ricevuto con i componenti (atleti e staff) della propria squadra. L’Atleta 1, vincitore del Giro della Gallia, ha ricevuto in premio 500000 EUR, che ha deciso di dividere con gli altri 2 atleti e i 2 componenti dello staff secondo uno dei seguenti schemi. Appare evidente che lo schema B è una delle configurazioni possibili tra i due schemi estremi A e C In particolare, 2 casi estremi

  • schema A: caso di una equidistribuzione (ogni membro della squadra riceve lo stesso ammontare).
  • schema C: caso di massima concentrazione (il vincitore tiene l’intero premio per sé). Tutto è concentrato su una singola unità Indichiamo con A l’ ammontare complessivo disponibile per la redistribuzione tra gli individui. EQUIDISTRIBUZIONE VS. MASSIMA CONCENTRAZIONE Dopo aver disposto in ordine crescente gli N dati osservati per la variabile quantitativa oggetto di studio, verifichiamo che si ha
  • equidistribuzione se l’ammontare complessivo A è diviso in parti uguali tra gli individui
  • massima concentrazione se l’ammontare complessivo A è interamente detenuto dall’ultimo individuo A: non c’è concentrazione B: c’è concentrazione, ma non sappiamo dire quanta C: massima concentrazione MISURAZIONE DELLA CONCENTRAZIONE Come è possibile misurare la concentrazione nei casi intermedi tra equidistribuzione e massima concentrazione (schema B)? abbiamo 2 strumenti:
  1. Diagramma di Lorenz
  2. Indice di Gini  DIAGRAMMA DI LORENZ È una rappresentazione grafica che consente il confronto immediato tra la situazione di concentrazione osservata e la situazione ideale di equidistribuzione.
  3. Dopo aver disposto in ordine crescente i dati, si calcoli l’ammontare cumulato Ai posseduto dalle prime i unità statistiche Le prime unità statistiche sono quelle più povere. Le ultime unità statistiche sono quelle più ricche.
  4. Relativamente ai dati osservati, si determini la proporzione cumulata del totale di pertinenza delle prime i unità statistiche si calcola il rapporto tra l’unità statistica e l’ammontare assoluto. qi = 50000/500000 = 0. qi = 125000/500000 = 0. La somma di tutti i q dovrà restituire l’intero. La q si calcola dalla prima unità statistica -> il primo valore sarà sempre un numero positivo. Possiamo anche fissare un riferimento comune q 0 = 0 -> abbiamo un valore di qi che varia tra 0 e 1 L’idea di misurare la concentrazione è qualcosa di relativo: siamo più o meno concentrati rispetto al caso di concentrazione nulla o rispetto al caso di massima concentrazione. Possiamo prendere come asse di riferimento il caso di equidistribuzione
  5. Relativamente alla situazione ideale di equidistribuzione , si determini la proporzione cumulata del totale di pertinenza delle prime i unità statistiche qi = 300000/500000 = 0. pi = 300000/500000 = 0. pi: quantità teorica, serve come riferimento. Nel caso di equidistribuzione la proporzione di ricchezza cumulata rispetto al totale detenuta dalle prima i us dovrebbe essere pari all’indice di riferimento dell’unità statistica sul totale delle unità statistiche = Tutte le us devono dividersi il patrimonio in parti uguali. È sempre così nel caso in cui non ci sia concentrazione. La quantità teorica pi stabilisce questa relazione di incrementi costanti.

i = 1 N ( piqi ) = 0.1 + 0.15 + 0.2 + 0.1 = 0. Che significato assume il valore 0.55 ottenuto? Per rispondere a questa domanda dobbiamo comprendere quali siano i valori associati ai casi ”estremi” di equidistribuzione e di massima concentrazione Schema A: Equidistribuzione In caso di equidistribuzione, pi = qi per tutte le us. Pertanto, (pi − qi) è sempre pari a 0 Possiamo quindi concludere che, in assenza di concentrazione,

i = 1 N ( piqi ) = 0 Schema C: Massima concentrazione

In caso di massima concentrazione ∑

i = 1 N ( piqi ) = U Il valore di U sarò diverso da una rilevazione all’altra e dovrà quindi essere calcolato Si osserva che

U =

(∑ i = 1

n

pi

− 1 -> U = (0.2 + 0.4 + 0.6 + 0.8 +1) – 1 = 2

N − 1

Possiamo quindi concludere che il valore risultante da ∑

i = 1 N ( piqi ) deve essere compreso tra 0 e U, con

U =

N − 1

- Valori di ∑

i = 1 N ( piqi ) più vicini a U indicheranno una maggiore concentrazione;

- Valori di ∑

i = 1 N ( piqi ) più vicini a 0 saranno posti in relazione a una maggiore equità nella distribuzione del carattere tra gli individui In molti casi è preferibile avere a che fare con dei valori estremi ”fissi” piuttosto che con un valore U da determinare.

Dividendo la quantità ∑

i = 1 N ( piqi ) per U si ottiene un valore normalizzato, vale a dire, compreso tra 0 e

L’indice così ottenuto si chiama indice di concentrazione di Gini

G =

i = 1 N ( piqi )

U

Più si avvicina a 0 più la concentrazione è bassa

G =

i = 1 N ( piqi^ )

U

= 0.275 -> La concentrazione dello schema B è bassa

U =

N − 1

i = 1 N ( piqi ) = 0.

PROBABILITÀ

RICHIAMI DI TEORIA DEGLI INSIEMI

Un insieme è una collezione di oggetti, detti elementi. Due insiemi A e B sono uguali se contengono esattamente gli stessi elementi, sia dal punto di vista quantitativo che qualitativo; in tal caso, scriviamo A = B Se l’insieme A (risp. B) è interamente contenuto nell’insieme B (risp. A), allora l’insieme A (risp. B) è un sottoinsieme di B (risp. A) Es. A: 0,1 B: 0,1,2 -> 0,1 sono gli stessi elementi -> A è un sottoinsieme di B 2 conseguenze

  1. ogni insieme è un sottoinsieme di se stesso
  2. se due insiemi sono uguali, allora sono anche l’uno sottoinsieme dell’altro Sa A contiene 0,1 e B contiene 0,1 automaticamente l’insieme A è interamente contenuto nell’insieme B, ma B è anche sottoinsieme di A. Operazioni tra insiemi
  3. (A ∪ B) (leggasi “A unione B”) è l’insieme costituito da tutti gli elementi che appartengono ad A o a B o a entrambi Es. Siano A = {5, 6, 7, 8} e B = {0, 3, 4, 6}. Allora, A ∪ B = {0, 3, 4, 5, 6, 7, 8}
  4. (A ∩ B) (leggasi “A intersezione B”) è l’insieme costituito da tutti gli elementi che appartengono sia ad A che a B. Formato dagli elementi in comune Es. Siano A = {5, 6, 7, 8} e B = {−3, 6}. Allora, A ∩ B = {6} Due insiemi che non hanno alcun elemento in comune sono disgiunti ; la loro intersezione è l’ insieme vuoto , indicato con ∅ (non è uno 0 perché è un numero)
  5. Sia Ω una famiglia di insiemi (insieme che contiene più insiemi), allora possiamo definire AC^ (leggasi “complementare di A”) come l’insieme degli elementi che appartengono a Ω ma non appartengono ad A ⋆ A ∩ AC^ = ∅ -> vuoto perché il complementare non ha nessun elemento di A ⋆ A ∪ AC^ = Ω -> tutti gli elementi sono elementi di A NOZIONI DI BASE

3. Se A ∩ B = ∅ , allora P (A ∪ B) = P (A) + P (B) -> se l’intersezione tra due eventi A e B è pari all’insieme vuoto

(due eventi sono incompatibili), allora la probabilità che si verifichino entrambi è 0. Abbiamo da considerare la probabilità che si verifichi uno o l’altro e viene rappresentato con la somma delle due probabilità. Conseguenze:

1. 0 ≤ P (A) ≤ 1 -> dato dal primo e secondo assioma ≤ P (A) ≤

P ( ∅ )= 0 P (Ω) = 1

(impossibilità) (certezza assoluta del verificarsi)

2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) -> la probabilità dell’unione di due eventi, è data dalla somma delle

probabilità meno la probabilità che si verifichino contemporaneamente l’intersezione è data dalla sovrapposizione di due insiemi consideriamo la probabilità che si verifichi l’evento A se consideriamo la probabilità dell’evento B abbiamo bisogno di calcolare la probabilità di essere all’interno della sovrapposizione.

P (A ∩ B)≠ 0 Quando calcoliamo la probabilità dell’unione abbiamo un problema: dove ho la

sovrapposizione sto misurando due volte la misura dell’area = devo togliere la probabilità di ricadere in entrambi

Se P (A ∩ B) = ∅ allora P (A ∪ B) = P (A) + P (B)

se i due eventi sono incompatibili vuol dire che non c’è sovrapposizione tra i due = non si verificano insieme. Se voglio calcolare la probabilità che si verifichi uno o l’altro avrò bisogno di calcolare

la P (A) + P (B) -> sto prendendo tutto A e tutto B solo una volta.

Se due eventi A e B sono incompatibili

(A ∩ B )= ∅ -> P ( ∅ )= 0

l’insieme vuoto è il complementare dello spazio campionario:

∅ = Ωc^ -> P (Ω) = 1 -> P ¿ ) = 0

3. P (AC) = 1 − P (A), pertanto P ( ∅ ) = 1 − P (Ω) = 0

La probabilità dell’evento impossibile sia pari a 0

Fissato un evento A la probabilità del suo complementare è pari a 1- P ( A ) -> se A non si verifica si verificherà A

complementare. Dovrà essere ricompreso tra 0 e 1 ESEMPIO Esperimento: lancio di un dado non truccato a 6 facce Evento certo: esce un numero compreso tra 1 e 6 Ω = {1,2,3,4,5,6} -> è anche lo spazio campionario Supponiamo di essere interessati a un evento in particolare tra i possibili risultati dell’esperimento (A). Evento impossibile: C = esce 7 A = esce 3 -> evento possibile caratterizzato da incertezza B = esce 4 -> evento possibile ma incerto

Eventi A e B sono incompatibili -> (A ∩ B) = ∅

D = esce 3 oppure esce 4 -> ci importa che non escano gli altri numeri D = (AB)

Se A e B sono incompatibili, allora P (A ∪ B) = P (A) + P (B)

E = esce un numero dispari -> E = {1,3,5} E compatibile con A, incompatibile con B

(A ∩ E) = {3} ≠ ∅

Ω A B Ω A B Ω A B Ω

F = esce un numero dispari oppure esce 3

F = (E ∪ A) = P (E) + P (A) − P (E ∩ A)

Probabilità dell’evento complementare

P (AC) = 1 − P (A)

ASSEGNAZIONE DELLA PROBABILITÀ

Due eventi A e B che hanno la stessa probabilità P (A) = P (B) sono detti equiprobabili.

Qual è la probabilità che lanciando una volta una moneta non truccata esca testa? 0. Qual è la probabilità che lanciando una volta un dado non truccato si legga un numero dispari? 0.

Si ha P (A) = P (B) = 0.

 APPROCCIO CLASSICO

P ( A )=

n. casi favorevoli

n. casi possibili

Qual è la probabilità che lanciando una volta una moneta non truccata esca testa? ▶ Evento A = esce testa ▶ Casi favorevoli: esce testa ▶ N. casi favorevoli: 1 ▶ Casi possibili: esce testa oppure esce croce ▶ N. casi possibili: 2

▶ P ( A )=

n. casi favorevoli

n. casi possibili

Qual è la probabilità che lanciando una volta un dado non truccato si legga un numero dispari? ▶ Evento A = esce un numero dispari ▶ Casi favorevoli: esce un numero qualsiasi tra 1,3 e 5 ▶ N. casi favorevoli: 3 ▶ Casi possibili: esce un numero qualsiasi tra 1,2,3,4,5 e 6 ▶ N. casi possibili: 6

▶ P^ (^ A^ )=^

n. casi favorevoli

n. casi possibili

Il problema dell’approccio classico è che diamo per scontato che lanciando un dado la probabilità che esca 1 sia uguale alla probabilità che esce un altro numero, ovvero che gli aventi siano equiprobabili. L’approccio classico si basa sull’ipotesi che gli n eventi elementari siano equiprobabili (con probabilità pari a

n

Cosa accade se tale ipotesi viene a mancare? È possibile prescindere dall’ipotesi di equiprobabilità degli eventi elementari adottando l’approccio frequentista  APPROCCIO FREQUENTISTA Ripetiamo lo stesso esperimento n volte, sempre nelle medesime condizioni il risultato di un esperimento non deve essere influenzato da quello di una o più prove precedenti. Calcoliamo la frequenza relativa assunta dal risultato di nostro interesse. ESEMPIO Lanciamo un dado e osserviamo quante volte esce 1 oppure 5. n = numero di prove N1,5 = numero di volte in cui abbiamo osservato 1 o 5 su n prove f1,5 = frequenza relativa di osservazione di 1 o 5 A (^) E A Ω