














Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
FREQUENTANTE. Parte di statistica e probabilità completi, appunti integrati con le spiegazioni in classe.
Tipologia: Dispense
1 / 22
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















Statistica : si fa riferimento a una disciplina che studia un processo di tipo induttivo (o inferenziale), ovvero utilizziamo un approccio che procede dall’alto verso il basso: dalle osservazioni di casi particolari (dati) cerchiamo di risalire a una legge generale, tramite l’applicazione del metodo scientifico (osservazione di un fenomeno > formulazione ipotesi > verifica > si: formulazione principio/legge generale) Probabilità : disciplina che sfrutta processi di tipo deduttivo. Percorso inverso: partire da un principio generale per ottenere delle spiegazioni per dei fenomeni particolari.
La statistica è la disciplina che consente di dare delle spiegazioni a dei fenomeni collettivi che possiamo osservare quotidianamente a) ripetutamente nel tempo riferiti a un generico concetto Es. prezzi di chiusura giornalieri del titolo AAPL su un intervallo temporale b) ad un dato istante temporale Es. realizzazione in un singolo giorno dei prezzi di tutti i titoli che compongono l’indice FTSE-MIB Il concetto di “ osservazione ” rimanda a un procedimento di raccolta dei dati. Dato : possiamo identificare una serie di oggetti (prezzo azionario, numero di oggetti, colore dei capelli), termino generico che fa riferimento a tutto quello che possiamo osservare e annotare. Annotare = raccogliere informazioni L’operazione di raccolta dei dati prende il nome di rilevazione.
Il concetto stesso di rilevazione rimarrebbe puramente astratto se non ne specifichiamo l’oggetto, il luogo, le tempistiche e le modalità. Pertanto, nel progettare un’indagine statistica, dobbiamo pianificare la rilevazione rispondendo a 4 domande fondamentali:
manifesta in maniera diretta o indiretta. Ogni elemento della popolazione viene detto unità statistica (us) Posso sempre osservare l’intera popolazione? Dipende perché la popolazione può essere
a) Infinita, se il numero di us è infinito b) Finita, se il numero di us è finito. In tal caso, è possibile determinare la numerosità della popolazione, vale a dire il numero di us che ne fanno parte Il fatto che una popolazione sia finita, non implica necessariamente che sia osservabile nella sua interezza. Spesso, infatti, siamo in grado di osservarne solo una parte.
In particolare, un campione casuale è un sottoinsieme della popolazione selezionato in maniera casuale (determinato da cause esterni dalla propria scelta/volontà). Il campione è considerato rappresentativo della popolazione. Pertanto, le conclusioni tratte dall’osservazione del medesimo verranno estese all’intera popolazione. Quale problema può sorgere? Distorsione : idea sbagliata perché si parte da dei dati selezionati in maniera non rappresentativa ma casuale. Risolvere il problema: bisogna essere attenti alle tecniche che andiamo ad applicare.
Il primo e più immediato risultato dell’osservazione è la raccolta di un insieme di dati. Tuttavia, la mera raccolta dei dati, è inutile senza un’adeguata classificazione dei medesimi, vale a dire, senza la corretta identificazione del carattere e delle modalità. Il carattere è l’aspetto tramite il quale possiamo percepire il fenomeno collettivo di esame (quello che vogliamo osservare) La modalità è l’espressione con cui può manifestarsi il carattere sotto osservazione Es. Carattere: provincia di residenza / Modalità: provincia di Novara, di Vercelli, ecc.. Es. carattere: età / Modalità: numero CARATTERE O QUALITATIVO Le modalità sono espresse in termini di attributi (aggettivo, numero, ma senza che abbia senso svolgere un qualsiasi tipo di operazione matematico) es. provincia di residenza Distinguiamo tra QUALITATIVO SCONNESSO : assenza di una relazione d’ordine naturale tra gli attributi (es: sesso, comune di residenza, materia preferita...) QUALITATTIVO ORDINALE : esistenza di una relazione d’ordine naturale tra gli attributi (es: valutazione di un esame, ordine di arrivo in una gara, taglie di abbigliamento…) O QUANTITATIVO Le modalità sono espresse in termini numerici (in modo tale che abbia senso effettuare delle operazione aritmetiche) es. temperatura nel mese di gennaio Distinguiamo tra QUANTITATIVO DISCRETO : le modalità si manifestano come valori numerici all’interno di un insieme finito (es: numero di passeggeri su un aereo, numero di studenti in una classe, componenti di una famiglia…) QUANTITATIVO CONTINUO : le modalità si manifestano come valori numerici all’interno di un intervallo (es: temperatura, peso, altezza,…) QUANTITATIVO IN CLASSI : le modalità sono rappresentate da classi di misure (come un raggruppamento) Attenzione! Il fatto che un dato appaia come un numero, non implica automaticamente che il carattere sia quantitativo. Si osservino gli autobus che passano davanti alla stazione di Novara al lunedì mattina e si annoti il numero riportato sul display luminoso frontale. Tale numero identifica la linea e, di conseguenza, il tragitto compiuto dal bus. Il carattere osservato è di tipo qualitativo. In un questionario, si chiede di codificare la propria regione di residenza in base a un numero da 1 a 20 (es: 1 = Valle d’Aosta, 2 = Piemonte, 3 = Liguria, etc.). Anche in questo caso, il carattere è di tipo qualitativo.
Un’indagine condotta su 20 macchinari dell’azienda Alfa ha rilevato, per ciascuna unità, il numero di guasti occorsi nel mese di gennaio 2023. I risultati sono riportati nella seguente tabella Si può notare che le macchine A001, A002, A004, A007, A009, A011, A012 e A014 non hanno avuto guasti le macchine A003, A017 e A019 hanno avuto 1 guasto la macchina A013 ha avuto 2 guasti le macchine A005, A010, A015 e A020 hanno avuto 3 guasti le macchine A008 e A018 hanno avuto 4 guasti le macchine A006 e A016 hanno avuto 5 guasti Abbiamo raggruppato i macchinari in base al numero di guasti osservati (in base a una modalità) Cambiare il riferimento: dall’us al carattere e alle rispettive modalità. Fissata una modalità contiamo quanti macchinari hanno avuto gli stessi numeri di guasti. Quanti macchinari (us) sono associati a ciascun numero di guasti (a ciascuna modalità)? 0 guasti: 8 macchine 1 guasto: 3 macchine 2 guasti: 1 macchina 3 guasti: 4 macchine 4 guasti: 2 macchine 5 guasti: 2 macchine Raccogliamo i risultati ottenuti in una tabella La procedura sopra descritta prende il nome di SPOGLIO DEI DATI e può essere schematizzata come segue:
Le frequenze relative devono sommare a 1. Può assumere valori tra 0 e 1. A differenza della frequenze assolute, le frequenze relative hanno il vantaggio della possibilità di fare confronti N. guasti 0 1 2 3 4 5 Totale N. di macchine 8 3 1 4 2 2 20
Per visualizzare graficamente la distribuzione di frequenze, possiamo utilizzare: per VARIABILI QUALITATIVE DIGRAMMA A BARRE Grafico: un rettangolo per ciascuna modalità osservata le basi dei rettangoli hanno tutte la medesima ampiezza l’ altezza di ciascun rettangolo è proporzionale alla frequenza (assoluta o relativa) della modalità corrispondente i rettangoli sono staccati gli uni dagli altri Non è importante l’ordine Invece di colonne verticali possono avere delle barre orizzontali. DIAGRAMMA A COLONNE Grafico: Un unico rettangolo principale suddiviso in tanti rettangoli contigui quante sono le modalità osservate l’ altezza di ciascun rettangolo è proporzionale alla frequenza della modalità osservata DIAGRAMMA A SETTORI CIRCOLARI Grafico: un cerchio è diviso in tanti settori circolari quante sono le modalità osservate l’ampiezza di ciascun settore è proporzionale alla frequenza della modalità osservata Pregio: abbiamo un’idea delle proporzioni per VARIABILI QUANTITATIVE DIGRAMMA A BASTONI Furto Rapira Omicidio volontario Omicidio colposo 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 16%^ 61% 11% 12% (^) Furto Rapina Omicio volontario Omicidio colposo Furto Rapira Omicidio volontario Omicidio colposo 0 100 200 300 400 500
Tramite le adeguate rappresentazioni grafiche è possibile visualizzare le caratteristiche di un’intera distribuzione. In aggiunta o in alternativa rispetto alla rappresentazione grafica è altresì utile concentrarsi su aspetti specifici della distribuzione, sintetizzando l’informazione desiderata in un singolo valore Tale valore è detto indicatore di sintesi Quanti indicatori possiamo avere? Rispondono a necessità informative diverse In particolare, per variabili quantitative, possiamo definire
Lo stesso ragionamento per il calcolo della mediana può essere applicato a ciascuno dei due sottoinsiemi da essa definiti. Riprendendo i dati dell’esempio Il valore che divide a metà il primo sottocampione è 1. In maniera più precisa, diciamo che sul 25 % delle us sono stati rilevati minori o uguali a 1 Il valore che divide a metà il secondo sottocampione è 2. In maniera più precisa, diciamo che sul 75 % delle unità statistiche sono stati rilevati minori o uguali a 2 Formalizziamo quanto appena osservato nell’esempio e definiamo Primo quartile : il valore che separa il primo 25% dei dati osservati dal restante 75% Secondo quartile : il valore che separa il primo 50% dei dati osservati dal restante 50% -> coincide con la mediana Terzo quartile : il valore che separa il primo 75% dei dati osservati dal restante 25% Indichiamo con Q 1 ,Q 2 ,Q 3 il primo, secondo, e terzo quartile, rispettivamente. Per quanto riguarda il Q 2 , possiamo indifferentemente utilizzare la notazione Me per enfatizzare il riferimento alla mediana. ESEMPIO Sono date le seguenti osservazioni {1, 0, 5, 3, 5,−6,−5, 2, 1, 1, 2,−3,−3, 2, 0}. Si calcolino i quartili della distribuzione.
Disegnare il box-plot relativo alla seguente distribuzione di frequenze. Min 3 Max 19 Q1 7 Q2 8 Q 11 MODA La moda di una variabile quantitativa
Dati grezzi Noto che
La deviazione standard di X è la radice quadrata della varianza di X Std(X) = (^) √ Var ( x ) Assume una maggiore interpretabilità. Varianza = 30,25 > risultato sia di 5,5 sia di -5,5 > la deviazione standard è 5,5: per definizione la radice quadrata di un numero è sempre positiva. INDICI DI VARIAZIONE RELATIVI Particolarmente utili per effettuare confronti tra fenomeni diversi. Gli indici di variazione relativi si ottengono dividendo un indice di variazione assoluto per una media. Il risultato di tale operazione è un numero adimensionale , vale a dire, privo di unità di misura. > ho numeri puri da confrontare, ho un confronto omogenei tra numeri e non valori. I numeri assoluti non ci permettono di fare confronti, mentre i numeri relativi si. ESEMPI INDICI DI CONCENTRAZIONE Scopo degli indici di concentrazione è la misurazione di come un carattere trasferibile sia diviso tra la popolazione. Caratteri trasferibili: un carattere quantitativo è detto trasferibile quando è misurato in scala per rapporti e può essere redistribuito tra le unità statistiche del collettivo. Esempi - Reddito, Fatturato, Superficie coltivabile, Numero turisti, ecc. ESEMPIO È uso comune che il vincitore di una gara ciclistica condivida il premio in denaro ricevuto con i componenti (atleti e staff) della propria squadra. L’Atleta 1, vincitore del Giro della Gallia, ha ricevuto in premio 500000 EUR, che ha deciso di dividere con gli altri 2 atleti e i 2 componenti dello staff secondo uno dei seguenti schemi. Appare evidente che lo schema B è una delle configurazioni possibili tra i due schemi estremi A e C In particolare, 2 casi estremi
i = 1 N ( pi − qi ) = 0.1 + 0.15 + 0.2 + 0.1 = 0. Che significato assume il valore 0.55 ottenuto? Per rispondere a questa domanda dobbiamo comprendere quali siano i valori associati ai casi ”estremi” di equidistribuzione e di massima concentrazione Schema A: Equidistribuzione In caso di equidistribuzione, pi = qi per tutte le us. Pertanto, (pi − qi) è sempre pari a 0 Possiamo quindi concludere che, in assenza di concentrazione,
i = 1 N ( pi − qi ) = 0 Schema C: Massima concentrazione
i = 1 N ( pi − qi ) = U Il valore di U sarò diverso da una rilevazione all’altra e dovrà quindi essere calcolato Si osserva che
n
i = 1 N ( pi − qi ) deve essere compreso tra 0 e U, con
i = 1 N ( pi − qi ) più vicini a U indicheranno una maggiore concentrazione;
i = 1 N ( pi − qi ) più vicini a 0 saranno posti in relazione a una maggiore equità nella distribuzione del carattere tra gli individui In molti casi è preferibile avere a che fare con dei valori estremi ”fissi” piuttosto che con un valore U da determinare.
i = 1 N ( pi − qi ) per U si ottiene un valore normalizzato, vale a dire, compreso tra 0 e
i = 1 N ( pi − qi )
Più si avvicina a 0 più la concentrazione è bassa
∑ i = 1 N ( pi − qi^ )
∑ i = 1 N ( pi − qi ) = 0.
Un insieme è una collezione di oggetti, detti elementi. Due insiemi A e B sono uguali se contengono esattamente gli stessi elementi, sia dal punto di vista quantitativo che qualitativo; in tal caso, scriviamo A = B Se l’insieme A (risp. B) è interamente contenuto nell’insieme B (risp. A), allora l’insieme A (risp. B) è un sottoinsieme di B (risp. A) Es. A: 0,1 B: 0,1,2 -> 0,1 sono gli stessi elementi -> A è un sottoinsieme di B 2 conseguenze
(due eventi sono incompatibili), allora la probabilità che si verifichino entrambi è 0. Abbiamo da considerare la probabilità che si verifichi uno o l’altro e viene rappresentato con la somma delle due probabilità. Conseguenze:
(impossibilità) (certezza assoluta del verificarsi)
probabilità meno la probabilità che si verifichino contemporaneamente l’intersezione è data dalla sovrapposizione di due insiemi consideriamo la probabilità che si verifichi l’evento A se consideriamo la probabilità dell’evento B abbiamo bisogno di calcolare la probabilità di essere all’interno della sovrapposizione.
sovrapposizione sto misurando due volte la misura dell’area = devo togliere la probabilità di ricadere in entrambi
se i due eventi sono incompatibili vuol dire che non c’è sovrapposizione tra i due = non si verificano insieme. Se voglio calcolare la probabilità che si verifichi uno o l’altro avrò bisogno di calcolare
Se due eventi A e B sono incompatibili
l’insieme vuoto è il complementare dello spazio campionario:
La probabilità dell’evento impossibile sia pari a 0
complementare. Dovrà essere ricompreso tra 0 e 1 ESEMPIO Esperimento: lancio di un dado non truccato a 6 facce Evento certo: esce un numero compreso tra 1 e 6 Ω = {1,2,3,4,5,6} -> è anche lo spazio campionario Supponiamo di essere interessati a un evento in particolare tra i possibili risultati dell’esperimento (A). Evento impossibile: C = esce 7 A = esce 3 -> evento possibile caratterizzato da incertezza B = esce 4 -> evento possibile ma incerto
D = esce 3 oppure esce 4 -> ci importa che non escano gli altri numeri D = (A ∪ B)
E = esce un numero dispari -> E = {1,3,5} E compatibile con A, incompatibile con B
Ω A B Ω A B Ω A B Ω
F = esce un numero dispari oppure esce 3
Probabilità dell’evento complementare
Qual è la probabilità che lanciando una volta una moneta non truccata esca testa? 0. Qual è la probabilità che lanciando una volta un dado non truccato si legga un numero dispari? 0.
Qual è la probabilità che lanciando una volta una moneta non truccata esca testa? ▶ Evento A = esce testa ▶ Casi favorevoli: esce testa ▶ N. casi favorevoli: 1 ▶ Casi possibili: esce testa oppure esce croce ▶ N. casi possibili: 2
Qual è la probabilità che lanciando una volta un dado non truccato si legga un numero dispari? ▶ Evento A = esce un numero dispari ▶ Casi favorevoli: esce un numero qualsiasi tra 1,3 e 5 ▶ N. casi favorevoli: 3 ▶ Casi possibili: esce un numero qualsiasi tra 1,2,3,4,5 e 6 ▶ N. casi possibili: 6
Il problema dell’approccio classico è che diamo per scontato che lanciando un dado la probabilità che esca 1 sia uguale alla probabilità che esce un altro numero, ovvero che gli aventi siano equiprobabili. L’approccio classico si basa sull’ipotesi che gli n eventi elementari siano equiprobabili (con probabilità pari a
Cosa accade se tale ipotesi viene a mancare? È possibile prescindere dall’ipotesi di equiprobabilità degli eventi elementari adottando l’approccio frequentista APPROCCIO FREQUENTISTA Ripetiamo lo stesso esperimento n volte, sempre nelle medesime condizioni il risultato di un esperimento non deve essere influenzato da quello di una o più prove precedenti. Calcoliamo la frequenza relativa assunta dal risultato di nostro interesse. ESEMPIO Lanciamo un dado e osserviamo quante volte esce 1 oppure 5. n = numero di prove N1,5 = numero di volte in cui abbiamo osservato 1 o 5 su n prove f1,5 = frequenza relativa di osservazione di 1 o 5 A (^) E A Ω