
































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Le basi della statistica descrittiva e inferenziale. tendenza centrale e dispersione frequenze grafici ...
Tipologia: Appunti
1 / 40
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!

































La statistica è la scienza che si occupa della trattazione dei dati osservati→ riguarda fenomeni misurabili per ottenere informazioni. La statistica è una scienza a supporto di tutte le altre scienze empiriche ( intendiamo tutte le discipline in fondano le loro teorie sulle osservazioni del mondo reale→ chimica, economia, fisica…) L'obiettivo si può classificare in due tipologie:
Invece una misura di sintesi dei dati osservati sull’intera popolazione viene indicata come parametro.
Quelli numerici detti anche dati quantitativi derivano da misurazioni o conteggi. Serie storiche dati cross Section In presenza di dati statistici raccolti nel corso del tempo, si parla di serie storiche. Quando i dati si riferiscono ad un istante o periodo di tempo fisso ma a diversi paesi, famiglie, individui si parla di dati cross Section. Ad esempio, per le serie storiche, si pone il problema di come confrontare i redditi del 1960 con quelli del 2017, perché all'aumentare della distanza temporale vari fenomeni possono accadere. Un fenomeno simile all'autocorrelazione nel tempo può manifestarsi anche con dati cross Section. In questo caso si parla di autocorrelazione spaziale geografico. Scala di misura È principalmente dedicato al trattamento statistico di dati di tipo numerico. Sia nel caso cross Section che in presenza di serie temporali, si pone il problema del processo di misurazione. E quindi importante fare una riflessione in merito alle diverse scale di misura. Per ogni scala di misura è necessario l'utilizzo di tecniche statistiche specifiche e appropriate. Nella scelta dei metodi di analisi è opportuno individuare preliminarmente la scala di misura dei dati. E possiamo distinguere quattro scale di misura. ● a livello più basso abbiamo la scala nominale —> Dove i dati rappresentano nomi o etichette. ● Su scala ordinale (soddisfazione, dimensione dell'auto, livello di istruzione, condizione socio economico)—> contengono più informazioni dei dati. Per esempio "decisamente sì" "è più sì che no”…. Tutti questi esempi esprimono diversi gradi di soddisfazione e non possiamo misurare di quanto un “cliente” può essere soddisfatto.
La distanza tra le varie soddisfazioni non è quantificabile perché i dati sono espressi su una scala perfettamente ordinale. ● Scala intervallo —> consentono un ordinamento delle osservazioni e la quantificazione uniforme ben definita delle distanze tra valori successivi nella scala stessa. (gradi, tempo del calendario in anni, quoziente di intelligenza). ● La scala rapporto —> include tutte le proprietà ma in aggiunta a 10 naturale, non soggettivo, che permette un confronto tra dati anche in termini di rapporto. (reddito, prezzo, età, peso, fatturato) Fonti dei dati: L'insieme di attività poste in essere per la raccolta dei dati grezzi (cioè di dati da elaborare statisticamente) viene indicato con il termine rilevazione. La rilevazione dei dati è una fase molto delicata perché adesso dipende strettamente la qualità delle informazioni raccolte e quindi dei risultati finali. Alcuni importanti fonti dei dati sono: ● Internet: c'è una buona probabilità di raggiungere anche i dati più nascosti oltre a quelli più visibili. ● Enti pubblici o privati: agenzie-governative aziende pubbliche o private rappresentano un'importante fonte di dati economico aziendali. Istituti di statistica nazionali o sovranazionali (come Istat o euro start) ma anche banche centrali l’UNESCO. Nel settore privato, società come bloomberg, forniscono importanti e dettagliati i dati su fai finanza. ● Studi originali: le informazioni cercate possono essere ottenuti e progettando e realizzando uno studio originale. Nella pratica esso si traduce nell'impostare e condurre un esperimento o un’indagine. Analizzando e confrontando le quantità vendute in funzione del prezzo, è possibile valutare l'effetto di questo sui volumi di vendita. La somministrazione del questionario ai rispondenti, è molto delicate ed affrontare con la dovuta cautela (per esempio come vengono scritte le domande come vengono presentate). Quando l'indagine implica la rilevazione dei dati su tutta la popolazione oggetto di studio, si parla di
Le variabili categoriali nominali→ sono modalità non intrinsecamente ordinali (come l’occupazione) (cittadinanza, settore attività, affiliazione politica) Le variabili categoriali binarie-dicotomica → esistono due sole modalità possibili. Consistono nel fornire informazione su assenza o presenza di una certa caratteristica nella unità statistica. (sesso, occupazione) Le variabili numeriche ( quantitative) → le modalità sono numeri Le variabili numeriche discrete → sono modalità che derivano da un conteggio (difetti, numero di clienti procurati, numero di figli, anzianità) Le variabili numeriche continue→ modalità che derivano da una misurazione (età, altezza, peso, reddito) Dataset: Il dataset è l'insieme dei dati grezzi, organizzati in modo tale da poter essere elaborati statisticamente in funzione degli obiettivi informativi dello studio. La prima regola: è che le modalità di ciascuna variabile dovrebbero essere opportunamente codificate, tenendo conto delle esigenze e della natura dei dati. per ogni variabile ordinale le etichette dovrebbero essere a loro volta ordinabili (ad esempio in base alle lettere dell’alfabeto). La regola universalmente riconosciuta e che le righe del dataset corrispondono all'unità statistiche e le colonne alle variabili. È possibile, per errore di rilevazione, di trascrizione del dato o di tipo informatico, che alcuni dati, siano mancanti.ciò va indicato utilizzando un simbolo specifico ( ?, * ). Dipende dal tipo di software adottato. In questi casi non è detto che la scelta migliore da fare sia quella di rimuovere le unità statistiche su cui si registrano dei mancanti. Talvolta opportuno e conveniente stimare i dati mancanti utilizzando l'informazione disponibile.
Ovviamente non è fattibile quando tutti i dati sono mancanti. CAPITOLO 2. Esempio variabili numeriche sul quaderno Tendenza centrale e dispersione (20, 16,25, 32,18, 17,15, 19,28) Vi sono fondi che rendono di più e altri che rendono di meno. L'obiettivo però è quello di valutare l'intera categoria presi in analisi. Per valutare se investire, è necessario valutare l'ordine di grandezza del rendimento, se il rendimento di questi fondi tendono a distribuirsi su valori elevati o meno. Statisticamente parlando siamo interessati alla tendenza centrale di questi valori numerici. Un altro elemento da considerare ai fini della decisione di investimento, attiene all'incertezza dello stesso, cioè al rischio. Quanto più fondi di questo tipo tendono ad avere un rendimento simile, tanto più basso è il rischio che, il rendimento sia inadeguato perché lontano dalla tendenza centrale. Dobbiamo valutare quindi la dispersione dei valori numerici che rappresentano i rendimenti. Tendenza centrale DEF: La tendenza centrale o posizione di un insieme di dati numerici fa riferimento a dove tendenzialmente sono posizionati i dati, cioè attorno a quali valori essi tendono a distribuirsi o a concentrarsi. Ciò significa che la categoria di fonti i cui rendimenti tendono a distribuirsi su valori più elevati sarà ovviamente preferibile. Questo non vuol dire che tutti i fondi di tale categoria abbiano rendimento maggiore di quelli dell’altra. Variabilità
Se indichiamo con Vj il J-esimo di cinque distinti valori osservati e con Fj il numero di volte in cui quel valore osservato. V1=1 V2=2 V3=3 V4=4 V5=5 sono le modalità mentre F1=1 F2=1 F3= F4=2 F5=3 (osservate) sono le frequenze assolute. È evidente che il caso più frequente è di cinque, mentre è raro l'uno e il due. Quindi 3 e 4 sono variabili limitate. È quindi opportuno raggruppare i dati definendo delle classi e calcolando quante osservazioni cadono in ciascuna. Non c'è un unico modo universalmente condiviso per scegliere il numero e l'ampiezza delle classi. Bisogna considerare che un numero eccessivo di classi non semplifica abbastanza la lettura dei dati. E anche un numero troppo ridotto di classi può creare problemi. Dato che l'obiettivo di ogni metodo di statistica descrittiva è quello di semplificare la lettura di dati, l'unica regola da seguire è quella della semplicità, nel calcolo e nell'interpretazione dei risultati. È comunque importante che siano chiare esplicite le scelte adottate, in modo che l'interpretazione dei risultati sia comprensibile non ambigua. Quando è utile e sensato si può considerare un valore rappresentativo per ogni classe. È ragionevole porre come valore rappresentativo il punto medio dell’intervallo. In presenza di frequenze assolute, la distribuzione di frequenza consiste quindi nell'elenco delle modalità o delle classi di valori e delle corrispondenti frequenze assolute. Ovviamente la somma delle frequenze assolute coincide con il numero di dati in esame cioè quelle osservate. Per confrontare le frequenze di insiemi di dati con diversa numerosità è opportuno ricorrere alle frequenze relative. (cumulata o semplice) esempio su quad dela differenza tra le due
Distribuzione di frequenze relative percentuali Una tabella di frequenza relativa è un modo alternativo di riassumere i dati di una variabile numerica. Essa rappresenta la proporzione di casi in cui si osserva un certo valore o una certa classe. Ipotizzando che il numero di unità statistiche sotto esame sia pari ad N, la frequenza relativa della j.esima modalità o della j.esima classe è pari a: freq. relativa semplice <— Pj = Fj / N —> num. oss. Freq ass. Dove Fj è la frequenza assoluta. La frequenza relativa della modalità o della classe j.esima è un numero compreso tra 0 e 1, che indica la frazione di dati uguali a Vj o che cadono nella J-esima classe. A volte la frequenza relativa viene indicata come percentuale. Frequenze percentuali si ottiene moltiplicando x cento la frequenza relativa: 100 x Pj = 100 x Fj / N Ma è necessario confrontare due o più distribuzioni di frequenza. Mando il numero di dati analizzati nei diversi gruppi non è il medesimo, il confronto delle distribuzioni va fatto ricorrendo alla frequenza relativa o a quelle percentuali. Confrontare le frequenze di una certa modalità riguardanti due distribuzioni diverse non ha alcun senso se le frequenze stesse non sono espressi in termini relativi. Esempio: se il numero di femmine della classe fosse pari a 9 e numero di maschi pari a 5 , Le frequenze relative sarebbero rispettivamente 3 / 9 = 0, e 2 / 5 = 0,40.
Ovviamente la frequenza relativa cumulata si può tenere anche come rapporto tra la frequenza assoluta cumulata il numero di osservazione ovvero: Pj=Fj / N GRAFICI: Diagramma È un grafico utile a rappresentare la distribuzione di frequenza ( assoluta, relativa, non cumulata o cumulata e anche le variabili categoriali) di una variabile numerica con dati non raggruppati. Un asse del grafico rappresenta I valori della variabile, mentre l'altro rappresenta le frequenze. in corrispondenza dell'asse orizzontale viene tracciato un rettangolo o barra, la cui lunghezza è proporzionale alla frequenza e la larghezza è uguale per ogni Barra. Il grafico fornisce informazione anche riguardo alla variabilità del fenomeno. La variabile quindi può essere valutata in base alla velocità di crescita prima del massimo e di decrescita dopo il massimo. Quanto più rapidamente le frequenze crescono prima e decrescono dopo il valore massimo, tanto minore è la variabilità, e viceversa. Se la rapidità di crescita o decrescita delle barre del grafico è alta, significa che si osservano molti dati con valori vicini a quelli centrali e pochi dati con valori lontani da quelli centrali e quindi la dispersione bassa. Istogramma E’ un tipo particolare di diagramma a barre→ tale che ogni barra-rettangolo ha base corrispondente ad una classe e area proporzionale alla frequenza di quella classe. (quindi altezze proporzionali alle frequenze) E’ un grafico utilizzato per rappresentare una distribuzione di frequenza di variabili numeriche per dati raggruppati in classi (quindi per rappresentare classi e le frequenze associate alle classi ) Esempio sul quaderno-->pag
La densità di frequenza è il rapporto tra la frequenza e l’ampiezza della classe. Poligono di frequenza: (Assoluto relativa, non cumulata o cumulata) È uno strumento grafico per rappresentare distribuzione di frequenze di variabili numeriche. Di fatto è un istogramma perché parte da esso e collega i punti medi dei lati superiore delle barre (traccia una spezzata che collega i vari lati superiori). Si parte da zero e arriva a zero. Esso è preferibile soprattutto per confrontare due o più distribuzioni di frequenza. Esempio sul quaderno-->pag Variabili categoriali (si manifestano attraverso categorie) La distribuzione di frequenze consiste nell'elenco delle modalità (i modi in cui la variabile si manifesta, possibili valori che essa può assumere) e delle corrispondenti frequenze. La frequenza assoluta di una modalità è il conteggio di unità statistica su cui viene osservata quella modalità. La frequenza relativa è la proporzione di unità statistiche su cui viene osservata quella modalità Esempio sul quaderno-->pag Diagramme a barre per variabili categoriali Consiste nel rappresentare frequenze con dei rettangoli o barre che corrispondono ad una modalità, e ha lunghezza proporzionale alla frequenza di quella modalità. Esempio sul quaderno-->pag6ù
la media di X per la popolazione è: la media campionaria di X è: n<N La media può quindi considerarsi come il punto centrale punto di equilibrio. La media rappresenta il punto in cui collocare il fulcro per garantire l'equilibrio. I dati palestra sono bilanciati da quelli a sinistra, gli scarti sono pari a zero. In realtà una variazione, anche minima, comporta una variazione della media, perché viene calcolata utilizzando tutti i dati ovvero tutte le informazioni. Vantaggio→ nel suo calcolo utilizza tutte le informazioni osservate. semplicità di calcolo Svantaggio→ La media quindi ha un indice poco robusto perché sensibile alla presenza di outlier (dati anomali). Media troncata permetto di utilizzare sempre quasi tutte le informazioni ma è più robusto non prendendo gli estremi. MEDIANA =La mediana di un insieme di dati è un valore tale che almeno metà dei dati è minore o uguale ad essa e almeno metà dei dati è maggiore o uguale ad esso Esempio sul quaderno-->pag Consiste in un valore centrale nella successione ordinata dei dati. La procedura per determinarla, cambia a seconda che il numero di dati sia dispari o pari. Il calcolo della mediana presuppone l'ordinamento dei dati in senso crescente e l'individuazione della posizione centrale.
Se il numero dei dati è dispari, la posizione mediana : N + 1 / 2 per la popolazione n + 1 / 2 per il campione. Se il numero di dati è pari esistono due posizioni centrali: N / 2 ed N / 2 + 1 per la popolazione, e n / 2 ed n / 2 + 1 per il campione Vantaggio→ La mediana è un indice robusto in presenza degli outliers. Infatti l'ordine di grandezza dei valori estremi non cambia il valore centrale o la media dei due valori centrali. Utilizzabili per dati categoriali ordinali. MODA = La moda di un insieme di dati è il valore con frequenza, assoluta o relativa, maggiore. Essa implica la scelta della modalità più frequente, come valore tipico, che rappresenta l’insieme dei dati osservati. Quando non cè un valore più frequente degli altri, allora non si ha una moda. Vantaggio→ utilizzabile per dati categoriali nominali. Esempio sul quaderno-->pag
Misure di variabilità Esempio sul quaderno-->pag3A Misura di dispersione Così come per la tendenza centrale, per approfondire l'analisi empirica, è senz'altro utile e opportuno quantificare il grado di variabilità calcolando una misura di dispersione. A tale scopo esistono diversi indici, con diverso livello di robustezza, alcuni semplici e veloci da calcolare altri più complessi ma più idonei. Un indice di dispersione assume valori positivi quanto più grande è la variabilità dei dati. Inoltre Esso assume valore 0 quando la variabilità dei dati è nulla, cioè tutte le osservazioni della variabile coincidono con un unico valore, quindi abbiamo a che fare con una costante. Range o campo di variazione Xmax - Xmin E’ l’ampiezza dell’intervallo in cui cadono i dati Il Range o campo di variazione di un insieme di dati numerici è la differenza tra i due valori estremi, cioè la differenza tra Massimo e il minimo di questi dati. Vantaggio: è un indice molto semplice da calcolare ed interpretare perché non usa tutte le informazioni. Svantaggio: non utilizzando tutte le informazioni non è robusto alla presenza di outliers Esempio sul quaderno-->pag3A Range interquartile Q3 - Q L’ampiezza dell’intervallo in cui cade il 50% dei dati centrali. Meno sensibile alla presenza degli outliers Esempio sul quaderno-->pag3A ↓ Per individuare gli outlier abbiamo bisogno di Soglie:
Box-plot è un grafico che rappresenta i 5 numeri di sintesi, di una distribuzione di dati numerici. Minimo, Q1, Mediana, Q3, Massimo Esempio sul quaderno-->pag4A Deviazione media assoluta Essa utilizza tutte le informazioni disponibili |dati osservati - media| + |dati osservati - media| + …. / numero di osservazioni MAD per la popolazione= / N MAD campionaria= / n Variazione si tratta della media dei quadrati degli scarti= (la differenza tra un singolo valore e la media). L'idea è quella di misurare la distanza dei dati dalla media, a prescindere dal segno della differenza Per come è costruita, la varianza è espressa nel quadrato dell’unità di misura utilizzata per la variabile. ( dati osservati - media) al quadrato / N o N - 1