

































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
• Concetti introduttivi; • Fonti statistiche; • Indagine e questionario; • Distribuzioni di frequenza; • Indici di centralità; • Indici di variabilità; • Analisi bivariata; • Relazioni tra caratteri; • La retta di regressione.
Tipologia: Schemi e mappe concettuali
1 / 41
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


































Testi suggeriti:
In un’indagine sulle famiglie calabresi, si ha interessa a studiare il numero di figli, osservandone il valore per le famiglie indagate. Il numero di figli è la nostra variabile , che può essere di diverse dimensioni e caratteristiche (possono essere numeriche o non numeriche ), il valore varia di famiglia in famiglia. Le famiglie sono le unità statistiche , cioè gli elementi nei quali si possono osservare i valori della variabile. Se, però, studiassimo una variabile che si manifestasse in tutte le unità indagate con lo stesso valore, questo tipo di studio non servirebbe a nulla, perché essendo uguale in tutti i casi non mi dà nessuna informazione in quanto indagine statistica. Per cui la variabilità è il fondamento di tutte le indagini statistiche. La variabile viene usata dunque per osservarne il valore in un insieme di unità statistiche (sempre più di una). Nel nostro caso, possiamo indagare:
rappresentativi lo facciamo in determinati intervalli temporali ; dobbiamo tener conto che potenzialmente le unità potrebbero essere infinite, e dunque concettuali. Per questo inizialmente dicevamo che l’indagine è molto generica e di conseguenza basata anche su tempi e spazi. Ne consegue che il censimento è un’indagine che possiamo solamente condurre su una popolazione reale di N unità, quindi un’analisi statistica completa e risolutiva , visto che ne osserviamo i valori su tutta la popolazione. Quando invece disponiamo solo di un campione e quindi un insieme parziale di n dati, l’analisi è concettuale e dunque inferenziale , che ha lo scopo di sintetizzare i dati campionari e poi, attraverso metodi più evoluti (come il calcolo delle probabilità), conduce l’analisi nella popolazione di riferimento. L’analisi inferenziale però è un metodo incerto , per questo abbiamo a che fare con la probabilità di ottenere determinati risultati. Questa è la vera statistica, anche perché le conclusioni saranno si incerte, ma con un margine di errore contenuto, piccolo , e saremo dunque fiduciosi sui risultati che otterremo. Tipi di variabili, che in Italia sono anche definite caratteri :
Nella distribuzione di frequenze ogni unità è uno studente, e per ognuno di esso il valore della variabile “numero di esami” va da 0 a 3, con i valori osservati che vengono presentati uno ad uno, studente per studente; quindi, anche questa è una forma di distribuzione disaggregata. Ci si rende conto, però, che leggere questa tabella è molto più impegnativo che leggere la prima che abbiamo visto; per questo costruiamo un dot plot che semplifichi l’operazione: Dunque, 50 valori osservati ma solamente 4 diversi, ognuno con una certa ripetizione, che quindi posso rappresentare in maniera più facile e immediata semplicemente impilando un pallino per ogni volta che quel valore si ripete nella tabella. O, altrimenti, possiamo ordinare la tabella facendo riferimento alla frequenza con cui la variabile si presenta:
Gli studenti che hanno fatto 0 esami sono 10, quelli che ne hanno fatti 1 sono 18 ecc… riorganizziamo le colonne colorate in una tabella più ordinata, che tenga conto dei 4 valori che si alternano nel totale di 50 studenti. Abbiamo dunque ottenuto dieci osservazioni pari a 0, diciotto pari 1 ecc… Tutto questo, si traduce in un linguaggio formale di questo tipo: Per ottenere, da queste osservazioni, una frequenza percentuale , facciamo un’operazione matematica percentuale con un comune denominatore, che è 50, cioè il numero di unità osservate: In pratica, la frequenza 10 si è presentata in 10 casi su 50, e quindi nel 20% dei casi. Un’operazione semplice ma molto importante per le osservazioni statistiche
Nel primo caso, potrebbe sembrare che, analizzando le frequenze relative , sia maggiore il numero di studenti ad aver dato 0 esami nella classe di economia che in quella di statistica, però è una parvenza sbagliata e fuorviante. In realtà però, il numero di studenti con 0 esami è più importante nella prima che nella seconda classe, poiché 10 studenti su 50 totali sono molti di più che 30 in rapporto al totale di 200. Per questo, il confronto corretto tra gruppi di numerosità diverse, deve essere eseguito sulle frequenze percentuali, e non quelle relative. Frequenza cumulata (assoluta) : sommare frequenza in frequenza dall’alto, a partire dalla prima assoluta, fino ad arrivare a farla coincidere con N. Al contrario per le frequenze retrocumulate (assolute) , cioè una somma ma a partire dal basso, sommando a partire dalla frequenza assoluta degli studenti che hanno dato 3 esami e a salire. Queste sono semplici elaborazioni che ci permettono di avere più informazioni sui nostri dati osservati. Es: il numero 42 sono gli studenti che hanno dato fino a 2 esami. Lo stesso vale per le frequenze relative (cumulate e retrocumulate). Per calcolarne la frequenza percentuale, basta moltiplicare per 100. Altro esempio di distribuzione di frequenze, completo di grafici e valori cumulati:
Formo delle classi di valori che raggruppino i voti, così da ridurre la quantità e rendere più ordinata la rappresentazione. Per calcolare il range , sottraggo l’estremo inferiore all’estremo superiore, anche se può talvolta risultare approssimativo (se per esempio nessuno studente prendesse 30, il range partirebbe da 29 ). Qualora, invece non si disponga dei dati disaggregati, si ha una perdita delle informazioni dettagliate , per esempio quali sono i voti effettivi dei 28 studenti con voto compreso nella prima classe? Possiamo ugualmente eseguire cumulazioni e retro-cumulazioni, ma non possiamo eseguire confronti tra classi, perché può essere ingannevole. Per poter confrontare le classi di valori, dobbiamo eliminare le loro differenze, “depurarle” dall’ampiezza di classe , cosicchè possano essere confrontate. Ad esempio, la frequenza 40 supera la 32 perché, una volta depurata con il calcolo della densità (assoluta o relativa), l’ampiezza attesta che 40>32.
È chiaro che se le classi hanno la stessa ampiezza, useremo le frequenze assolute, trovando l’area moltiplicando la frequenza assoluta n di ogni classe, per l’ampiezza comune ad ognuna —> ai x n Per individuare in maniera più semplice la densità maggiore delle classi, ma in generale per studiare in modo più specifico i dati, dividiamo le classi in più classi così da individuare la classe modale in modo più accurato (slide 56). Un altro esempio di grafico è il density plot , che segna una curva che sottende l’area. (Slide 58–> altro esempio) Nel caso delle variabili continue , invece, (tipo classi 6-7,7- 8 , 8-9, ecc) che quindi compongono un’intera classe che in questo caso sarà 6-8, approssimiamo la frequenza relativa di ogni intervallo unitario della classe (slide 60 61 ). Un tipo di grafico che possiamo usare per rappresentare le classi attaverso i loro estremi superiori, è l’ ogiva , che segue “la traiettoria di un proiettile” perché parte dal basso salendo verso l’alto segnando ogni estremo di classe e rispettive frequenze. Nel caso della variabile nominale (cioè che si esprime con parole o frasi anziché in formato numerico), definiamo le categorie con x (1,2,3…). Nel caso di questo tipo di variabile osservata, usiamo grafici a barre e grafici a torta , divisa in spicchi quante sono le classi, con la fetta più grande che esprime la classe modale (slide 63-).
La somma di tutti i valori osservati divisa per il loro numero, ed è ovviamente compresa tra il massimo e il minimo delle osservazioni ( principio di internalità ). Il calcolo della media è, inoltre, influenzato dalla presenza di outliers. La formula, che sottintende una variabile X di tipo necessariamente discreto o continuo , è: Se io conosco la media, invece, moltiplico per il numero di osservazioni e ottengo il totale.
Esempio: Stiamo ripartendo il totale per 5, cioè il numero di osservazioni (per esempio se dovessimo dividere 7850 mele per 5 famiglie, dividiamo il totale, democraticamente in parti uguali e ognuno otterrà lo stesso numero di mele). ——esempi nelle slide a seguire—— 4 è il numero di osservazioni tra esse diverse, ma la media deve essere fatta delle 50 osservazioni, le 50 famiglie con rispettivi numeri di figli, per cui procediamo così: Il totale non è altro che la somma di prodotti , poiché le classi sono tutte diverse tra loro e dunque disaggregate. In questo caso la media è un tipo di media aritmetica ponderata. Questo tipo di media è molto importante, perché i software non lo fanno in maniera distinta, per cui ci serve per gestire il calcolo se abbiamo di fronte una distribuzione di frequenza. Ed ecco, di conseguenza, un recap di tutto ciò che abbiamo detto finora per la media aritmetica: Dunque, vediamo nel seguente esempio quando è opportuno usare la media normale o ponderata:
Ovviamente, anche gli scarti possono essere visualizzati graficamente con il solito dot plot: Cosa succede invece in una distribuzione di frequenze disaggregata con l’uso degli scarti? Procediamo calcolando la media ponderata e, successivamente, sottraendo il suo valore alle osservazioni. Inutile dire che, per ogni classe otteniamo uno scarto, ma non li andremo a sommare perché essendo classi diverse sarebbe irrilevante farlo. Tuttavia, moltiplicando lo scarto per ogni ni, otterremo dei valori che sommati daranno 0; diversamente invece considerando come scarti un secondo numero C, che sarà sempre uno scarto ma che nella sua somma non darà 0. Media aritmetica – proprietà di linearità : succede che di fronte alla nostra X si abbia la necessità di ottenere una nuova variabile Y da quella originaria, trasformando la prima linearmente, cioè applicando una funzione lineare. Se la variabile diventa questa, è chiaro che anche le osservazioni in x diventino delle osservazioni in y, trasformando linearmente la variabile sfruttando le costanti che ci sono fornite dal problema (nella slide a, b). Ovviamente, anche la media può essere linearizzata in y: calcolo la media originale di X e la moltiplico per (a+bX) , senza la necessità quindi di fare effettivamente la trasformazione dei dati X.
Casi speciali di funzione lineare: ho tutti i dati iniziali ma necessito di conoscere y con la traslazione dei dati , che si verifica solo quando b=1 , facendo una somma o una differenza algebrica di a+X. Calcolo la media iniziale, la traslo e ho la media di b traslata, senza necessità di trasformare tutti i dati. Y=a+bX ——Esempio di questa casistica anche slide 85—— Faccio l’operazione inversa nel caso in cui y sia x – qualcosa. A partire dalla differenza, inverto gli addendi e la trasformo in una somma. Y= x- 1000 —> X=y+ Il caso della media armonica : la velocità media tra due o più percorsi uguali, non è la media aritmetica, bensì la media armonica, ovvero il reciproco della media aritmetica dei reciproci delle velocità. Al contrario, se i percorsi sono spazi diversi, si fa la media ponderata dei reciproci :
Nel caso in cui, invece, abbiamo a che fare con una distribuzione disaggregata di valori , si procede con tutte le operazioni che siamo abituati a fare: calcoliamo la cumulazione e la frequenza cumulata dei dati. Sulla base delle formule iniziali, possiamo trovare la mediana della distribuzione in questo caso ponendo n+1/2 ( n è dispari) , ottenendo quindi il valore della mediana che può essere osservata anche semplicemente prendendo la prima frequenza relativa che supera 0,50. Nel caso in cui invece n sia pari (slide 107), dividiamo n/2 e capiamo quale valore è la mediana facendo la semi somma tra il valore della mediana e quello successivo. Quindi, riassumiamo quanto detto finora: (Esempio completo slide 110-)
I quartili: I quartili sono tre , con il secondo che coincide con la mediana, e servono a dividere i valori della distribuzione ordinata in quattro parti uguali. Q1 è il primo quartile (o quartile inferiore ), Q3 è il terzo (o superiore ). Il primo quartile è il valore che non è superato da un quarto dei valori della distribuzione. Si calcolano con diverse formule che, come per la mediana, variano in base alla natura di n: Il terzo, invece: (Esempi slide 120-) Invece, calcolando le frequenze cumulate relative, indipendentemente dal valore di n, se è presente una frequenza cumulata = 0.25 , allora il primo quartile si ottiene dalla media tra il valore corrispondente e quello successivo ; altrimenti è indicato dalla prima frequenza relativa > 0. Se è invece presente una frequenza cumulata = 0.75 , anche il terzo quartile si calcola con la media tra il valore corrispondente e quello successivo ; altrimenti si indicherà con il primo valore di frequenza cumulata > 0. 75
Alla luce dei dati che osserviamo possiamo realizzare graficamente i nostri quartili con un box plot , che ci dà indicazioni sulla centralità dei dati , sulla loro posizione e delle indicazioni sulla loro variabilità. Il box plot può essere però sostituito da un dot plot o un istogramma, anche se il box plot ci dà il vantaggio di poter individuare più facilmente eventuali outliers. Inoltre, nel box plot parliamo anche di simmetria e asimmetria : una distribuzione è simmetrica perché i suoi valori si prolungano circa in egual misura a destra e sinistra della mediana. Se, al contrario, la distribuzione tende più verso un lato, sarà un’ asimmetria positiva (tende verso destra) o asimmetria negativa (tende verso sinistra). Nella distribuzione ci saranno sempre delle barriere ( massimo di fatto e minimo di fatto ) ultime che rappresentano l’ultimo valore prima dell’outlier.
a partire dalla media aritmetica, che uso come termine di riferimento. In base a quanto ogni osservazione è distante capiamo quanto si allontanano dalla media, e quindi quanto variano. Gli indici che possiamo usare sono:
La deviazione assoluta media fa riferimento al valore assoluto dello scarto calcolato: divido il totale delle osservazioni per la loro quantità, e sottraggo la singola osservazione al risultato. Dividendo nuovamente il totale della deviazione assoluta per il totale delle osservazioni, otteniamo la variabilità (in unità di misura) di osservazione in osservazione. Nel caso di una distribuzione di frequenze , invece, dobbiamo considerare la possibilità di calcolare la media ponderata , quindi: La varianza : la varianza è la devianza rapportata ad M, cioè la somma dei quadrati : Lo stesso accade nel caso della distribuzione di frequenze (media ponderata):