
































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa primo parziale con slides, appunti e esercizi in aula
Tipologia: Dispense
1 / 40
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

































STATISTICA: è l’insieme di metodi e strumenti per poter osservare, analizzare e prendere decisioni riguardanti fenomeni collettivi che la mente umana non è in grado di analizzare senza il loro ausilio. I metodi statistici permettono di descrivere sinteticamente il fenomeno di interesse e averne una percezione rapida trarne da esso conclusioni più generali Fare previsioni su dinamiche future UNITA’ STATISTICA: oggetto delle nostre rilevazioni, può essere l’individuo. Quando l’individuo è l’oggetto delle nostre rilevazioni creiamo una banca dati di tipo micro, parliamo di tipo macro quando facciamo riferimento a gruppi di individui (comuni, province…) Utilizzeremo i dati raccolti sia su base micro che su base macro > dati raccolti una sola volta in un determinato periodo di tempo ( dati cross section ) Dati longitudinali: in tempi diversi sulle stesse unità ( dati panel ) oppure su unità diverse (campione) ma confrontabili in tempi diversi ( cross section ripetute ) Statistica come scienza (o complesso di metodi che usa il linguaggio della matematica o della probabilità) del Disegno di studi Analisi dei dati raccolti Traduzione dei dati in conoscenza per prendere decisioni e fare previsioni POPOLAZIONE O POPOLAZIONE TARGET: insieme di tutte le unità statistiche su cui potremmo effettuare una misurazione di statistiche di interesse Unità statistiche Popolazione > dimensione N. è l’insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere molto grande o addirittura infinita. Campione > dimensione n. È il sottoinsieme delle unità osservate nella popolazione. Il campione non deve essere di convenienza ma rappresentativo. PROCESSO INFERENZIALE Trarre conclusioni o Sull’intera popolazione o A partire dall’analisi di un campione estratto dalla popolazione CAMPIONE CASUALE: è il procedimento usato per selezionare un campione di n oggetti da una popolazione, in modo tale che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Ogni possibile campione di dimensione assegnata n, inoltre, deve avere la stessa possibilità di essere selezionato. In sintesi: Campione > rappresentativo Campione casuale :
o estrazione a caso di un’unità alla volta o ciascuna > stessa probabilità di essere estratta o campioni della stessa ampiezza PARAMETRO – STATISTICA Parametro > sintesi numerica (caratteristica specifica) a livello di popolazione > oggetto di inferenza Statistica > sintesi numerica (caratteristica specifica) a livello di campione Esempio 1 Parametro: Numero medio di imprese che operano nel settore digitale in Italia Statistica: Numero medio di imprese che operano nel settore digitale, in un campione estratto a caso, di imprese che operano in Italia Esempio 2 Parametro: La proporzione di studenti fuori sede nelle università italiane Statistica: La proporzione di studenti fuori sede in un campione estratto a caso di 100 studenti, iscritti in una università italiana Statistica descrittiva: Comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni (insieme di tecniche). Statistica inferenziale: fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza (trarre informazione su parametri da statistiche campionarie). La statistica inferenziale è un processo che può comprendere stime, verifiche di ipotesi, analisi di relazioni e previsioni. FASI DELL’INDAGINE STATISTICA:
Seconda colonna: o Frequenza assoluta (fi) o Frequenza relativa (pi) RAPPRESENTAZIONI GRAFICHE Per descrivere i dati categorici sono comunemente usati i diagrammi a barre (o ortogrammi) e i diagrammi a torta (o diagrammi a settori circolari). Se il nostro scopo è quello di attirare la nostra attenzione sulla frequenza di ogni categoria, allora molto probabilmente disegneremo un diagramma a barre. In un diagramma a barre l'altezza di ogni rettangolo rappresenta la frequenza e non è necessario che le barre si tocchino. Se il nostro scopo invece è quello di sottolineare la proporzione di ciascuna categoria, allora la scelta opportuna sarà il diagramma a torta. Diagramma a torta o Cerchio > totale o Spicchi > angolo proporzionale alla frequenza (parti del totale). Il diagramma a torta è costruito in modo che l’area di ciascun settore circolare sia proporzionale alla frequenza corrispondente. Diagramma a barre o Valori distinti (nominali o ordinali) o Rettangolo > altezza equale a frequenza Diagramma ad aste o Variabili numeriche > valori distinti o Asse orizzontale > valori o Asse verticale > frequenza assoluta/relativa Molti valori distinti Prima colonna > intervalli di valori o classi o Posso decidere di costruire intervalli tutti della medesima ampiezza o di ampiezze diverse. Avere intervalli di ampiezza diversa spesso mi permette di avere una descrizione più accurata, evitando di avere intervalli vuoti da un lato e intervalli troppo grandi dall’altra, per cui potrei procedere dal primo lato a un raggruppamento e dall’altro a uno spezzamento degli altri). o Gli intervalli possono essere scritti: Il primo [ ), gli altri [ ) e l’ultimo [ ]
Il primo [ ], gli altri ( ] e l’ultimo ( ] Seconda colonna > frequenze assolute o relative COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZE
'
dove w può essere arrotondato per eccesso, preferibilmente all’intero successivo
. In tal modo l’area di ogni rettangolo sarà pari a pi e l’area totale dell’istogramma sarà pari a 1. o Asse orizzontale > intervalli (che possono essere di ugual ampiezza o di ampiezza diversa) o Su ciascun rettangolo: Area uguale alla frequenza relativa. La somma delle aree di tutti i rettangoli è uguale a 1 altezza uguale alla densità (d i= Area=/ampiezze dell’intervallo = frequenza relativa/ ampiezze dell’intervallo = pi / wi)
o Campione ordinato diviso in due metà o Metà delle unità > valore al di sotto della mediana o Metà delle unità > valore al di sopra della mediana Dati grezzi o Ordinare le osservazioni in modo non decrescente o n dispari > valore con posizione (n+1)/ o n pari o due osservazioni centrali o qualsiasi delle due o media se numeriche. Se si tratta di una variabile categorica ordinale non calcolo la media. Anche se si tratta di una variabile numerica la media è un valore non osservato per cui noi terremo in considerazione solo valori osservati (distribuzione della cumulata delle frequenze relative) DISTRIBUZIONE DELLE FREQUENZE CUMULATE : si ottiene sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti. In una distribuzione delle frequenze cumulate si cumulano le frequenze relative (se si cumulano le frequenze percentuali si ottiene la distribuzione delle frequenze percentuali cumulate) Frequenza relativa cumulata (Fi) Associa a ciascuna modalità distinta Frequenza relativa di unità con valore minore o uguale alla modalità Variabili ordinali e numeriche Considero un valore/modalità alla volta e valuto quale sia il valore minimo o uguale alla modalità > sul minimo non avrò un valore inferiore e sul massimo non avrò un valore maggiore per cui sarà uguale a 1, per i valori intermedi avrò la somma della frequenza relativa dei valori precedenti e di quello di riferimento. Mediana della distribuzione di frequenze Frequenza cumulata > mai uguale a 0. o La mediana è la prima modalità in cui la frequenza cumulata supera 0. Frequenza cumulata > uguale a 0. o La mediana è la prima modalità in cui la frequenza cumulata è uguale a 0.
MEDIA: è la somma dei valori di tutte le osservazioni divise per il numero di osservazioni. Se i dati si riferiscono all'intera popolazione, μ è un parametro dato da:
∑ i = 1 N
con
statistica data da
∑ i = 1 n
con n=dimensione del campione e x 1 =valore misurato sulla prima unità Media aritmetica dei valori osservati Sono variabili numeriche SCARTO: differenza tra il valore osservato e la media aritmetica. Rappresenta la distanza. Tanto maggiore è lo scarto in valore assoluto, tanto maggiore è la distanza tra il valore osservato e la media aritmetica. Proprietà della media Somma degli scarti = 0 Media > baricentro della distribuzione di frequenza Linea con pesi dove si collocano i valori Pesi proporzionali alle frequenze Media > punto di bilanciamento Dove x 1 è il valore osservato e a è la media, per cui elevo al quadrato le distanze e le sommo. La media aritmetica è un buon valore di sintesi, rappresenta la distanza minima. MEDIA VS MEDIANA Media > tutti i valori Mediana > basata sulle frequenze Valori anomali (outliers): osservati con una frequenza minima, sono molto più grandi o molto più piccoli dei dati osservati o Influenzano la media perché per calcolarla devo usare tutti i valori attribuendo loro lo stesso peso o Non influenzano la mediana perché ha una frequenza minima
Si sostituisce il singolo intervallo con il punto centrale dello stesso (prendere il punto centrale è una scelta, poiché potrei prendere qualunque punto dell’intervallo) Si assegna al punto centrale la frequenza relativa dell’intervallo Si calcola la media come da distribuzione di frequenza Con questo procedimento sto perdendo via via informazioni (sto facendo delle scelte perché sono in una situazione di scarsa informazione) 5 INTERVALLI DI AMPIEZZA DIVERSA MISURE DI POSIZIONE Posizione di un valore nella successione ordinata di osservazioni > variabili ordinali e numeriche Quartili Percentili I percentili e i quartili sono le misure che indicano la posizione di un dato relativamente a tutto l'insieme di dati. I percentili e i quartili sono generalmente utilizzati per la descrizione di dataset molto grandi. Per la determinazione di percentili o di quartili (o, più in generale, dei quantili di una distribuzione) bisogna innanzitutto ordinare i dati in modo non decrescente. QUARTILI : sono misure descrittive che separano gli insiemi di dati molto numerosi in quattro parti. Il primo quartile, Q 1 (o 25-mo percentile) separa approssimativamente il 25% più piccolo dei dati dai dati rimanenti Il secondo quartile, Q 2 (o 50-mo percentile) è la mediana Il terzo quartile, Q 3 (o 75-mo percentile) separa approssimativamente il più piccolo 75% dei dati rispetto ai rimanenti 25% più grandi. Q 1 = il valore che si trova nella posizione 0.25(n + 1) dalla sequenza ordinata Q 2 = il valore che si trova nella posizione 0.50(n + 1) dalla sequenza ordinata Q 3 = il valore che si trova nella posizione 0.75(n + 1) dalla sequenza ordinata
In sintesi: Si divide il campione ordinato in quattro parti equali o Primo quantile > Q1 > nel primo 25% delle mie unità osservo un valore pari al primo quantile Secondo quantile > mediana Terzo quantile > Q QUARTILI DELLA DISTRIBUZIONE DI FREQUENZE Primo quantile: o primo valore in cui la cumulata raggiunge o supera 0. Terzo quantile: o primo valore in cui la cumulata raggiunge o supera 0. PERCENTILI Il P-mo percentile è quel valore che lascia alla sua sinistra (eventualmente includendo lo stesso valore) approssimativamente il P% di osservazioni. I percentili separano i grandi insiemi ordinati di dati in centesimi. Il 50-mo percentile è la mediana. P-mo percentile = valore collocato nella posizione (P/100) (n + 1) della sequenza ordinata. In sintesi: p-esimo percentile (dove p è un valore qualunque) o valore tale che su p% delle unità osservo un valore inferiore primo valore a cui la cumulata raggiunge o supera p% Il minimo è 0 e il massimo è 4 Mediana 1 (primo valore dove le frequenze cumulate raggiungono o superano 0.50) 0 primo quartile (valore in corrispondenza del quale il valore delle cumulate supera il 25%) 2 terzo quartile (valore in corrispondenza del quale il valore delle cumulate supera il 75%)
o Valore che dista per più di una volta e mezzo il range interquartile (1.5xIQR) o Dal primo o dal terzo quartile Il trattino sotto o sopra la scatola è 1,5xIQR (non necessariamente un valore osservato) L’outlier o osservazione anomala è un qualunque valore che cade al di sotto o al disopra del range interquartile e si indica con un cerchietto o un asterisco Se faccio Q1 – 1.5xIQR posso trovare due valori: min > Q1 - 1.5xIQR significa che la distanza tra il primo quartile e l’outlier è inferiore rispetto a 1.5xIQR min < Q1 - 1.5xIQR significa che la distanza tra il primo quartile e l’outlier è superiore rispetto a 1.5xIQR allo stesso modo Se faccio Q3 + 1.5xIQR posso trovare due valori: max < Q3 + 1.5xIQR significa che la distanza tra il terzo quartile e l’outlier è inferiore rispetto a 1.5xIQR max > Q3 + 1.5xIQR significa che la distanza tra il terzo quartile e l’outlier è superiore rispetto a 1.5xIQR MISURE DI VARIABILITA’ Numeriche Misure di variabilità o Campo di variazione / range Massimo – minimo (intervallo che ha come estremo inferiore il minimo e come estremo superiore il massimo)
Influenzato da outliers: più è grande la variabilità dei dati rispetto al centro della distribuzione, più sarà grande il campo di variazione. Poiché il campo di variazione prende in considerazione solo il massimo e il minimo, sebbene misuri la variabilità totale dei dati, non è una misura soddisfacente di dispersione, perché è influenzata dagli outlier. Un modo per evitare questa difficoltà è quello di ordinare i dati o in modo non decrescente o in modo non crescente, scartare alcuni dei valori estremi e trovare il campo di variazione dei rimanenti. La differenza interquartile misura la variabilità del 50% centrale dei dati. o Range interquartile o differenza interquartile (IQR) Terzo quartile – primo quartile (non è influenzato da outliers, basta confrontare l’altezza delle scatole per sapere qual è il range interquartile più elevato) variabilità del 50% centrale della distribuzione o Varianza Scarto > valore osservato meno la media
2
2
2
variabilità rispetto alla media > con questa formula faccio riferimento alla varianza campionaria (n) e non a quella della popolazione (N). la varianza sarà sempre maggiore o al massimo uguale a 0, non ha un valore massimo con cui confrontarsi. È usata nella maggior pare dei casi per fare dei confronti. o Scarto quadratico medio o deviazione standard
2
2
2
radice quadrata della varianza
squarto quadratico medio espresso come percentuale della media (dispersione media intorno alla media) Confronto di variabilità indipendentemente dalla unità di misura e dalla media (è un numero puro, non è espresso con un’unità di misura) VARIANZA DELLA DISTRIBUZIONE DI FREQUENZA
quartile rispetto al terzo. La distanza tra il minimo e la il primo quartile è più piccola rispetto alla distanza tra il terzo quartile e il massimo. La mia coda è a sinistra: si parte da valori piccoli bassi e poi cresce, si dice anche negativamente asimmetrica > lentamente il primo quartile e anche la mediana, per cui la mediana sarà più vicina al terzo quartile rispetto al primo. La distanza tra il minimo e la il primo quartile è più grande rispetto alla distanza tra il terzo quartile e il massimo. ASSEGNAZIONE DI FREQUENZE IN BASE A MEDIA E SCARTO QUADRATICO Dati grezzi non disponibili Distribuzione di frequenze non disponibile Fornite > media e varianza/scarto quadratico medio DISUGUAGLIANZA DI CHEBYCHEV Dati media 𝑥, e scarto quadratico medio ̅ 𝑠 per k >0 assegnato, si dimostra che o la frequenza relativa (proporzione) di unità o su cui si osserva valore nell’intervallo (𝑥− ̅ 𝑘s, 𝑥+ ̅ 𝑘s) > (min,max) > considero intervallo che ha come punto centrale la media o è almeno (1 − 1/𝑘^2 )
Fr = frequenza relativa Per determinare k o prendo in considerazione l’estremo inferiore o un estremo superiore Min=media – ks da cui ricavo k Oppure Max= media +ks da cui ricavo k ANALISI DI CONCENTRAZIONE Caratterizzazione della distribuzione di frequenze
Nel caso di concentrazione =0 (perfetta equidistribuzione) la curva di concentrazione va a coincidere con un pezzo della bisettrice del primo quadrante Nel caso di massima concentrazione abbiamo una spezzata La curva di concentrazione sarà sempre sotto la bisettrice, la curva sarà sempre convessa, F sarà sempre maggiore di Q
Quanto più la curva di concentrazione si avvicina alla bisettrice > tanto minore è la concentrazione Quanto più la curva di concentrazione si avvicina all’asse x > tanto maggiore è la concentrazione INTERPRETAZIONE DELLE COORDINATE DELLA CURVA DI CONCENTRAZIONE 𝑄𝑖 o frazione dell’ammontare totale del carattere detenuto o dalla frazione 𝐹𝑖 bottom del campione 𝑄𝑖 100% o percentuale dell’ammontare totale del carattere detenuta o dal bottom 𝐹𝑖 100% del campione INDICI DI CONCENTRAZIONE Area di concentrazione divisa per il valore massimo dell’area di concentrazione Area di concentrazione divisa per 2 Assume valori tra 0 e 1 Quanto maggiore valore tanto maggiore la concentrazione