




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi a lezione di statistica univariata.
Tipologia: Appunti
1 / 100
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Obiettivi della lezione:
Quindi potremmo tentare di individuare una relazione funzionale tra una variabile da spiegare (dipendente, Y) e una “esplicativa” (indipendente, X). Questa funzione identifica una relazione tra il fenomeno Y e il fenomeno X. Quindi se identifichiamo questa relazione, andiamo ad associare un fenomeno osservato sugli individui che chiameremo X, ad un immagine, che chiameremo Y. ESEMPIO DI FILE EXCEL File “Edizioni giro d’Italia”: elenco dei ciclisti che hanno completato l’edizione 2019 del giro d’Italia, per ordine di arrivo. Le informazioni raccolte all’interno di questo file sono:
caratteristiche sociali della famiglia in Italia. Nel 2016 (edizione più recente): campione di 32 mila 585 individui di 18 anni e più distribuiti in 852 comuni italiani di diversa ampiezza demografica. Le interviste sono state effettuate da rilevatori comunali presso l’abitazione dell’individuo campione, estratto casualmente dalle liste anagrafiche del comune. La popolazione di interesse dell’indagine in oggetto, ossia l’insieme delle unità statistiche intorno alle quali si intende investigare, è costituita dalle famiglie residenti in Italia e dagli individui ad esse appartenenti.
Obiettivi della lezione:
G @ Sesso Maschio: Femmina: E @ Performance economica: Entrate mensili in migliaia di euro S @ Titolo di studio:^ _______,____ D : Solo diplomato L : Laureato P : Post-laurea U @ Carriera ‘sentimentale’: Quanti amori? _ 0 _ _ 1 _ _ 2 _ _ 3 _ _ 4+ _ Scheda per la rilevazione
Ovviamente ogni sistemi comporta una perdita di informazioni e quindi nella matrice dati, restano impigliati soltanto le informazioni relative ai caratteri da analizzare. Tutte le altre informazioni (nome) si perde. LA RICLASSIFICAZIONE DEI DATI: PASSO NUMERO TRE Ora si tratta di entrare nel “passo numero tre”. Già nel passo numero due avevamo oscurato alcune informazioni, come ad esempio i noi. Ora facciamo un passo avanti e oscuriamo tutte le colonne evidenziate in rosa, per contrarci su una sola colonna, quindi su un solo carattere, che viene osservato sulla popolazione della classe A. Il carattere su cui ci concentriamo è il carattere S, ossia sul titolo di studio. In questo primo modulo esaminiamo gli s t r u m e n t i d i A N A L I S I S TAT I S T I C A MONOVARIATA. Ovvero guardiamo in una popolazione ad un carattere per volta; non mettiamo insieme le osservazioni relative al titolo di studio e le osservazioni relative al genere. Non andiamo a vedere se c’è una prevalenza di ragazze tra coloro che hanno un titolo di studio più elevato rispetto alla laurea, o viceversa. Non mettiamo insieme due caratteri, ne guardiamo uno per volta. Ogni sintesi comporta perdita di informazioni Nella classe A ci sono dieci unità Nella classe B ci sono 15 unità Cognome Nome G S U E Cognome Nome G S U E Bassi Mario M D 3 4,5 Bonfedi Paolo M L 1 2, Campelli Guido M L 0 2,2 Di Polo Luca M P 0 1, Lucioni Fabio M P 2 3,7 Frediani Giulio M L 1 4, Parisi Paolo M D 0 6,8 Rosina Alex M P 1 3, Gatti Luisa F L 4 4,7 Vinci Roberto M L 3 7, Gennai Mara F L 1 4,2 Appiani Laura F D 2 3, Minoli Ester F P 3 1,5 Assaghi Linda F D 2 4, Premoli Sara F P 3 5,0 Fiori Anna F D 2 1, Tacchi Laura F L 2 5,2 Rivellini Giulia F P 1 5, Viesti Rosaria F L 2 7,2 Rizzi Ester F P 1 3, Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare. Ogni altra informazione (per esempio il nome, il cui posto può essere preso da un codice identificativo) si perde. Santi Miriam F L 0 6, Senisi Lucia F L 1 7, Stame Claudia F L 2 2, Tetti Pauline F L 3 3, Trionfi Nicole F L 1 2, Ogni sintesi comporta perdita di informazioni Nella classe A ci sono dieci unità Nella classe B ci sono 15 unità Cognome Nome G S U E Cognome Nome G S U E Bassi Mario M D 3 4,5 Bonfedi Paolo M L 1 2, Campelli Guido M L 0 2,2 Di Polo Luca M P 0 1, Lucioni Fabio M P 2 3,7 Frediani Giulio M L 1 4, Parisi Paolo M D 0 6,8 Rosina Alex M P 1 3, Gatti Luisa F L 4 4,7 Vinci Roberto M L 3 7, Gennai Mara F L 1 4,2 Appiani Laura F D 2 3, Minoli Ester F P 3 1,5 Assaghi Linda F D 2 4, Premoli Sara F P 3 5,0 Fiori Anna F D 2 1, Tacchi Laura F L 2 5,2 Rivellini Giulia F P 1 5, Viesti Rosaria F L 2 7,2 Rizzi Ester F P 1 3, Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare. Ogni altra informazione (per esempio il nome, il cui posto può essere preso da un codice identificativo) si perde. Santi Miriam F L 0 6, Senisi Lucia F L 1 7, Stame Claudia F L 2 2, Tetti Pauline F L 3 3, Trionfi Nicole F L 1 2, La riclassificazione dei dati: passo numero tre Nella classe A ci sono dieci unità CognomeNome G S U E Bassi Mario M D 3 4, Campelli Guido M L 0 2, Lucioni Fabio M P 2 3, Parisi Paolo M D 0 6, Gatti Luisa F L 4 4, Gennai Mara F L 1 4, Minoli Ester F P 3 1, Premoli Sara F P 3 5, Tacchi Laura F L 2 5, Viesti Rosaria F L 2 7,
Trascriviamo, allora, in orizzontale le informazione che sono riportate in quell’unica colonna non oscurata. Quindi passiamo dalla matrice dati alla cosiddetta serie ordinata S, ossia dei titoli di studio osservati sul nostro collettivo. La serie del carattere “titolo di studio”, osservata sulla classe, quindi sulla popolazione A, è rappresentata da: Quindi si scrivono una di seguito all’altro, le manifestazioni del carattere S, osservate sui 10 individui. Si rispetta in generale l’ordine di rilevazione, ecco perché si dice serie ordinata. Quindi avrò la manifestazione del carattere x sul soggetto uno, la manifestazione del carattere x sul soletto 2 fino ad arrivare alla manifestazione del carattere x sul soggetto ennesimo. Le informazioni adesso sono, però, ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. Non potremmo permetterci di scrivere la serie per esteso di mille unità. Quindi si deve fare un’ulteriore sintesi. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’ ) l’ordine (l’unità di tempo di rilevazione) è fondamentale. DALLA MATRICE DATI ALLA VARIABILE STATISTICA La formazione della Variabile Statistica a partire da una serie ordinata implica in sequenza le seguenti operazioni:
Dalla matrice dati alla serie ordinata Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione, si dice SERIE ORDINATA : X = {x 1 , x 2 , x 3 , .., xN- 2 , xN- 1 , xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’ ) l’ordine (l’unità di tempo di rilevazione) è fondamentale. Esempio: serie storica dei tassi di disoccupazione. Invertire il valore del 1999 con quello del 2009 , cambierebbe di molto il trend della serie. Dalla matrice dati alla variabile statistica La formazione della Variabile Statistica a partire da una serie ordinata implica in sequenza le seguenti operazioni: ➢Individuazione di tutte le k modalità (xi) con cui si presenta il carattere ➢Loro elencazione in ordine crescente, se si tratta di misure ordinabili ➢Riclassificazione delle N occorrenze entro le k possibili modalità ➢ Infine, conteggio/calcolo del numero di occorrenze ripetute per ogni modalità (ni). Classificazione del carattere S: Modalità (xi) Occorrenze (ni) D XX 2 L XXXXX 5 P XXX 3 Classificazione del carattere U: Modalità (xi) Occorrenze (ni) 0 XX 2 1 X 1 2 XXX 3 3 XXX 3 4 X 1
Se Somma < N, le modalità potrebbero non essere esaustive (ovvero non coprire il ventaglio di tutte le possibilità). L’espressione “Somma delle numerosità specifiche ni per i che va da i a k”, dove k è il numero delle modalità , si può scrivere in modo più compatto come: Si legge: “somma delle n con i, per i che va da 1 a k, è pari a N” Se Somma < N le modalità potrebbero non essere esaustive (ovv entaglio di tutte le possibilità) L’espressione “Somma delle numerosità specifiche ni per i che (k=numero delle modalità) si può scrivere in modo più compa
=
k i i^
1 Si scrive così e si legge: “somma per i che va da 1 a k, è pari a N”
Obiettivi della lezione:
Bisogna fare attenzioni alla classi, perché non c’è un modo unico di costruire le classi di valori. La scelta degli estremi degli intervalli di dare alle classi è demandata, entro certi limiti, all’arbitrio del ricercatore che sta studiando il fenomeno. Sicuramente ci sono due modi per costruire le classi:
Ma anche intervalli che hanno un ampiezza crescente, con il crescere delle modalità o in altri modi ancora, a fantasia del ricercatore.
loro interno. CLASSIFICAZIONE DI E IN 3 CLASSI EQUIVALENTI: creiamo 3 classi equivalenti. Prendiamo in riferimento il sottogruppo più semplice, quindi i 10 compagni. Decidiamo di riclassificare il nostro reddito in sole 3 classi. Queste 3 classi devono avere la stessa ampiezza. L’ampiezza di queste 3 classi è pari a 3. Per determinare l’ampiezza si fa l’estremo superiore meno l’estremo inferiore, della classe. Inoltre si è segnato il DELTA con I, ed è il simbolo che identifica l’ampiezza della classe. Il pedice I, identifica la modalità. Quindi l’indice I è associato alle modalità della variabile statistica. Qui abbiamo una variabile statistica che ha 3 classi, quindi 3 modalità. Per le occorrenze si è utilizzato delle barrette, per indicare le unità statistiche che ricadono entro le classi. Faccio la somma di n con i e scopro che la numerosità complessiva è pari a 10. CLASSIFICAZIONE DI E IN 4 CLASSI EQUIVALENTI: creiamo 4 classi equivalenti. le classi questa volta hanno ampiezza 2 e sono di più. Le ampiezze di queste classi è pari a 2. La distribuzione delle unità statiche dentro queste classi, cambierà rispetto a prima. la sommatoria delle n con i è sempre 10. Attenzione alle classi! li estremi degli intervalli erti limiti, demandata l ricercatore. ssono costruire intervalli (uguale ampiezza), ma alli di ampiezza crescente delle modalità, o in altri a fantasia. e classi equifrequenti ssa numerosità al loro successivo.
Modalità xi─|xi+1 Occorrenze (ni) 0─|3 Ampiezza classe (Di) = 3 \ = 2 3─|6 Ampiezza = 3 \\\ = 6 6─|9 Ampiezza = 3 \ = 2 N = 10
Modalità (xi─|xi+1) Occorrenze (ni) 0─|2 Ampiezza classe (Di) = 2 \ = 1 = n 1 2─|4 Ampiezza classe = 2 \ = 2 = n 2 4─|6 [Di = 2] \\\ = 5 = n 3 6─|8 [Di = 2] \ = 2 = n 4 N = 10
Attenzione alle classi! gli estremi degli intervalli erti limiti, demandata l ricercatore. ssono costruire intervalli (uguale ampiezza), ma alli di ampiezza crescente delle modalità, o in altri a fantasia. he classi equifrequenti ssa numerosità al loro successivo.
Modalità xi─|xi+1 Occorrenze (ni) 0─|3 Ampiezza classe (Di) = 3 \ = 2 3─|6 Ampiezza = 3 \\\ = 6 6─|9 Ampiezza = 3 \ = 2 N = 10
Modalità (xi─|xi+1) Occorrenze (ni) 0─|2 Ampiezza classe (Di) = 2 \ = 1 = n 1 2─|4 Ampiezza classe = 2 \ = 2 = n 2 4─|6 [Di = 2] \\\ = 5 = n 3 6─|8 [Di = 2] \ = 2 = n 4 N = 10
CLASSIFICAZIONE DI E IN 4 CLASSI EQUIFREQUENTI: creiamo classi con uguale numerosità. La numerosità specifica è data da N/numero delle classi. In questo caso 24/4 = 6 Prendo i miei valori e li ordino dal più piccolo al più grande e cambio colore una volta che ne ho scritti sei. La classe deve avere al suo interno 6 unità statistiche. Una volta fatto questo passaggio devo costruire bene le classi. Per non correre i rischi faccio partire la classe d aut valore precedente, tanto so che non c’è nessuno che percepisce quel valore. E chiudo subito dopo l’ultimo valore, in questo prima modalità 2,7. Non devo dimenticarmi di chiudere le classi negli estremi giusti, altrimenti poi mi perdo l’ultimo valore. Nella costruzione delle classi non ci devono essere buchi nelle classi, quindi nelle modalità delle variabili per classi. LA DISCRETIZZAZIONE DELLE VARIABILI PER CLASSI Quando abbiamo a che fare con le variabili statistiche per classi, è importante fare questa operazione di discretizzazione , ossia assegnare alla classe di valori un unico valore, che sarà il valore centrale della classe. Quindi discretizzare vuol dire passare da una modalità espressa in classi ad una modalità espressa con un singolo valore, il valore centrale della esima classe. Si prende l’estremo superiore della classe, l’estremo inferiore della classe, si sommano e divido questa somma per due. Al pedice di x ci sarà scritto v.c che indica il valore centrale della classe i esima. Accanto alle modalità rappresentate in classi, metterò una colonna che identifica i valori centrali di queste classi.
Classi equifrequenti Prova tu!
Torniamo alle modalità, siano esse rappresentate da valori singoli o per classi. Esse devono possedere queste tre qualità:
Non disgiunte (20 e 25enni) OK Non esaustive (19 e 24enni) Non esaustive (isole) Non disgiunte (es. Umbria?)
Il carattere statistico è un particolare proprietà o caratteristica che viene rilevata sull’unità statistica, relativa al fenomeno oggetto di indagine. Una prima distinzione può essere:
Se il carattere è quantitativo si definisce suddivisione in classi del carattere l’operazione consistente nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti (si vedano le variabili statistiche per classi). VARIABILI DICOTOMICHE Altro tipo di variabile statistica molto importante. Difficile pensare “Maschio / Femmina” come modalità quantitative. Nemmeno le si può ritenere ordinabili (In che senso M è più di F?). Eppure questa variabile come tutte quelle dicotomiche (composte da solo due modalità disgiunte ed esaustive) resta a cavallo tra qualitativo e quantitativo. Basta leggerla così:
Ritiriamo al protocollo di rilevazione. Con la ricodifica, la matrice dati e la costruzione della variabile statistica, abbiamo via via sintetizzato le nostre informazioni, però ora abbiamo bisogno di fare un esercizio di lettura dei dati. Il primo esercizio è quello del confronto del ‘peso’ della stessa modalità in diverse popolazioni. Quindi abbiamo bisogno di realizzare una comparazione tra il peso che ha una determinata modalità in un popolazione A e in una popolazione B. ESEMPIO: nella classe A (composta di 10 individui) i maschi sono 4. Nella classe B (15 individui) sono 5. Quindi la modalità che adesso andiamo. Confrontare è la modalità maschio del carattere genere, rilevato sulle due popolazioni. La popolazione della classe A e la popolazione della classe B. In termini assoluti quindi, senza andare a fare un rapporto tra quanto pesano i maschi sull’intera popolazione in A e quanto pesano i maschi sull’intera popolazione in B, non v’è dubbio: ci sono più maschi in B. Ma nelle dinamiche di classe 5 maschi su 15 erano solo il 30%, 4 su 10 erano il 40%! Quindi se andiamo a fare dei confronti serve mettere a rapporto il valore assoluto sull’ammontare complessivo della popolazione. Perché una cosa è dire 4 su 10, un’altra cosa è dire 5 sull’ammontare complessivo di 15. Il confronto tra due variabili statistiche (relative allo stesso carattere) osservate in popolazioni di diversa dimensione è possibile solo tenendo sotto controllo la numerosità complessiva della popolazione (fattore di disturbo). Quindi le due variabili statistiche sono: la variabile statistica del carattere genere osservato in A e la variabile statistica del carattere genere osservato in B. Per tenere sotto controllo la numerosità complessiva della popolazione abbiamo bisogno di passare a queste frequenze. LE FREQUENZE Allora chiamiamo le frequenze relative o anche solo frequenze specifiche, i rapporti tra le corrispondenti numerosità specifiche (ni) e la numerosità totale (N). Quindi abbiamo che f con i, che è la frequenza specifica associata alla i esima modalità, è data dal rapporto tra n con i (numerosità specifica) e N (numerosità complessiva della popolazione). Le frequ Chiamiamo frequenze relative (o anch tra le corrispondenti numerosità specif f n N i i = da cui la^ condizion Scrivibile anc