Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica - 27003002, Schemi e mappe concettuali di Statistica

• Concetti introduttivi; • Fonti statistiche; • Indagine e questionario; • Distribuzioni di frequenza; • Indici di centralità; • Indici di variabilità; • Analisi bivariata; • Relazioni tra caratteri; • La retta di regressione.

Tipologia: Schemi e mappe concettuali

2022/2023

In vendita dal 22/03/2025

simonezinno03
simonezinno03 🇮🇹

5

(2)

18 documenti

1 / 41

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Statistica
Testi suggeriti:
“Statistica, metodologie per le scienze economiche e sociali” 2021
“Statistica, principi e metodi, quarta edizione” 2022
“Statistica per le decisioni” 2020
“Statistics, the art and science of learning from data” 2023 (online web app)
Parte 1: Concetti elementari
In un’indagine sulle famiglie calabresi, si ha interessa a studiare il numero di figli, osservandone il valore per
le famiglie indagate.
Il numero di figli è la nostra variabile, che può essere di diverse dimensioni e caratteristiche (possono essere
numeriche o non numeriche), il valore varia di famiglia in famiglia. Le famiglie sono le unità statistiche, ci
gli elementi nei quali si possono osservare i valori della variabile.
Se, però, studiassimo una variabile che si manifestasse in tutte le unità indagate con lo stesso valore, questo
tipo di studio non servirebbe a nulla, perché essendo uguale in tutti i casi non mi dà nessuna informazione in
quanto indagine statistica. Per cui la variabilità è il fondamento di tutte le indagini statistiche. La variabile
viene usata dunque per osservarne il valore in un insieme di unità statistiche (sempre più di una).
Nel nostro caso, possiamo indagare:
Tutte le famiglie, che quindi andrebbero a comporre una popolazione statistica, sapendo che
comunque questo concetto non comprende solo ed esclusivamente persone, ma possono indagare
anche oggetti, eventi, tempi o spazi. Così facendo inevitabilmente studio la variabile nel modo più
completo possibile, eseguendo dunque quello che in statistica è detto censimento, cioè un’indagine
a tappeto, nessuno escluso (rimane comunque un evento raro e costoso).
Una parte delle famiglie, cioè su un sottoinsieme della popolazione, che viene scelta poiché
rappresenta abbastanza fedelmente l’intera popolazione, uno specchio della situazione totale, che
rappresentino in piccolo l’interessa dell’insieme. Questo sottoinsieme si chiama campione statistico,
e quindi l’indagine non sarà un censimento, ma un’indagine campionaria. L’analisi parziale però, non
deve essere limitata al solo campione di famiglie, bensì sfrutto le informazioni che ottengo con la
precisa finalità di poter dire qualcosa di generale che riguardi tutte le famiglie calabresi.
I valori osservati (o osservazioni) della variabile, sono quelli che chiamiamo dati statistici.
La statistica fa due cose fondamentalmente:
1. Programma l’indagine attraverso la scelta dei metodi di raccolta dei dati, come per esempio
scegliere la variabile statistica, quanti campioni voglio esaminarne, su quali unità statistiche (anche
se spesso questa scelta avviene casualmente).
2. Sceglie i metodi con cui analizzare i dati: tratta matematicamente i dati statistici.
Nel nostro corso, eseguiremo una statistica descrittiva, cioè li analizziamo “riassumendoli” e innanzitutto
rappresentando i dati (con tabelle e grafici che ci permettano di organizzarli in maniera ordinata), calcolando
gli indicatori sintetici (percentuali, medie…), nel caso in cui le variabili siano molteplici, studieremo le loro
relazioni, interpretare, capire ed enfatizzare i risultati dei nostri studi sulla variabile.
Dove si applica la statistica? In tutte le scienze empiriche, che osservano, sperimentano e apprendono
attraverso i dati, per sostenere teorie e nuove idee. L’apprendimento, dunque, nasce dalla disponibilità di
dati, ragion per cui la statistica e i suoi metodi sono fondamentali. Le scienze empiriche sono tutte le scienze
esclusa la matematica e affini, che invece apprendono a partire da postulati e teoremi che non necessitano
di un momento in cui c’è bisogno di dati per sostenere teorie, ma solo di numeri e tesi iniziali per sviluppare
una rete di formule.
Nel nostro esempio, i dati di famiglie calabresi non devono essere obbligatoriamente reali o finiti, ma possono
essere anche astratti e concettuali, un numero infinito di unità statistiche. Per capire, nel controllo di un
processo produttivo come quello del ricambio della popolazione, per condurre un’indagine di n unità tra quelli
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29

Anteprima parziale del testo

Scarica Statistica - 27003002 e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

Statistica

Testi suggeriti:

  • “Statistica, metodologie per le scienze economiche e sociali” 2021
  • “Statistica, principi e metodi, quarta edizione” 2022
  • “Statistica per le decisioni” 2020
  • “Statistics, the art and science of learning from data” 2023 (online web app)

Parte 1: Concetti elementari

In un’indagine sulle famiglie calabresi, si ha interessa a studiare il numero di figli, osservandone il valore per le famiglie indagate. Il numero di figli è la nostra variabile , che può essere di diverse dimensioni e caratteristiche (possono essere numeriche o non numeriche ), il valore varia di famiglia in famiglia. Le famiglie sono le unità statistiche , cioè gli elementi nei quali si possono osservare i valori della variabile. Se, però, studiassimo una variabile che si manifestasse in tutte le unità indagate con lo stesso valore, questo tipo di studio non servirebbe a nulla, perché essendo uguale in tutti i casi non mi dà nessuna informazione in quanto indagine statistica. Per cui la variabilità è il fondamento di tutte le indagini statistiche. La variabile viene usata dunque per osservarne il valore in un insieme di unità statistiche (sempre più di una). Nel nostro caso, possiamo indagare:

  • Tutte le famiglie, che quindi andrebbero a comporre una popolazione statistica , sapendo che comunque questo concetto non comprende solo ed esclusivamente persone, ma possono indagare anche oggetti, eventi, tempi o spazi. Così facendo inevitabilmente studio la variabile nel modo più completo possibile, eseguendo dunque quello che in statistica è detto censimento , cioè un’indagine a tappeto, nessuno escluso (rimane comunque un evento raro e costoso).
  • Una parte delle famiglie, cioè su un sottoinsieme della popolazione , che viene scelta poiché rappresenta abbastanza fedelmente l’intera popolazione, uno specchio della situazione totale, che rappresentino in piccolo l’interessa dell’insieme. Questo sottoinsieme si chiama campione statistico , e quindi l’indagine non sarà un censimento, ma un’ indagine campionaria. L’analisi parziale però, non deve essere limitata al solo campione di famiglie, bensì sfrutto le informazioni che ottengo con la precisa finalità di poter dire qualcosa di generale che riguardi tutte le famiglie calabresi. I valori osservati (o osservazioni) della variabile, sono quelli che chiamiamo dati statistici. La statistica fa due cose fondamentalmente:
  1. Programma l’indagine attraverso la scelta dei metodi di raccolta dei dati , come per esempio scegliere la variabile statistica, quanti campioni voglio esaminarne, su quali unità statistiche (anche se spesso questa scelta avviene casualmente).
  2. Sceglie i metodi con cui analizzare i dati : tratta matematicamente i dati statistici. Nel nostro corso, eseguiremo una statistica descrittiva , cioè li analizziamo “riassumendoli” e innanzitutto rappresentando i dati (con tabelle e grafici che ci permettano di organizzarli in maniera ordinata), calcolando gli indicatori sintetici (percentuali, medie…), nel caso in cui le variabili siano molteplici, studieremo le loro relazioni , interpretare, capire ed enfatizzare i risultati dei nostri studi sulla variabile. Dove si applica la statistica? In tutte le scienze empiriche, che osservano, sperimentano e apprendono attraverso i dati, per sostenere teorie e nuove idee. L’apprendimento, dunque, nasce dalla disponibilità di dati , ragion per cui la statistica e i suoi metodi sono fondamentali. Le scienze empiriche sono tutte le scienze esclusa la matematica e affini, che invece apprendono a partire da postulati e teoremi che non necessitano di un momento in cui c’è bisogno di dati per sostenere teorie, ma solo di numeri e tesi iniziali per sviluppare una rete di formule. Nel nostro esempio, i dati di famiglie calabresi non devono essere obbligatoriamente reali o finiti , ma possono essere anche astratti e concettuali , un numero infinito di unità statistiche. Per capire, nel controllo di un processo produttivo come quello del ricambio della popolazione, per condurre un’indagine di n unità tra quelli

rappresentativi lo facciamo in determinati intervalli temporali ; dobbiamo tener conto che potenzialmente le unità potrebbero essere infinite, e dunque concettuali. Per questo inizialmente dicevamo che l’indagine è molto generica e di conseguenza basata anche su tempi e spazi. Ne consegue che il censimento è un’indagine che possiamo solamente condurre su una popolazione reale di N unità, quindi un’analisi statistica completa e risolutiva , visto che ne osserviamo i valori su tutta la popolazione. Quando invece disponiamo solo di un campione e quindi un insieme parziale di n dati, l’analisi è concettuale e dunque inferenziale , che ha lo scopo di sintetizzare i dati campionari e poi, attraverso metodi più evoluti (come il calcolo delle probabilità), conduce l’analisi nella popolazione di riferimento. L’analisi inferenziale però è un metodo incerto , per questo abbiamo a che fare con la probabilità di ottenere determinati risultati. Questa è la vera statistica, anche perché le conclusioni saranno si incerte, ma con un margine di errore contenuto, piccolo , e saremo dunque fiduciosi sui risultati che otterremo. Tipi di variabili, che in Italia sono anche definite caratteri :

  • Variabile/carattere quantitativa o numerica , e sono di tipo (1) discreta , se i valori che ne osserviamo sono numeri interi , o (2) continua , se sono numeri reali.
  • Variabile/carattere qualitativo o categoriale , nel linguaggio informatico chiamate anche “fattori”, sono tutte quelle variabili che sono verbi o nomi, non numeri. Possono essere (1) nominale , se sono categorie non ordinabili , per questo le sue categorie si dicono “sconnesse”. (2) Ordinale , se sono categorie ordinabili in modo arbitrario, non c’è nessuna logica che dica cosa viene prima e cosa dopo. La variabile diventa variabile statistica nel momento in cui viene usata e analizzata. Prima ancora però, i dati li dobbiamo organizzare e presentare, attraverso ciò che in statistica chiamiamo distribuzioni statistiche , che si concretizzano in tabelle e/o grafici. La finalità della distribuzione è quella di mostrarci come i dati si ripartiscono, come si presentano nelle e tra le varie unità. Esistono vari tipi di distribuzione:
  1. Distribuzione disaggregata , che può essere semplice (una sola variabile), doppia e multipla;
  2. Distribuzione temporale.
  3. Serie territoriale.
  4. Distribuzione di frequenze.
  5. Tabella di contingenza. Il tipo di distribuzione dipende dalla tipologia di unità statistiche , dalla numerosità del campione, dalla tipologia di variabile che trattiamo, dalla quantità di variabili.

La stessa cosa ma con gli spazi avviene con le serie territoriali :

Parte 2: Distribuzioni di frequenze

Nella distribuzione di frequenze ogni unità è uno studente, e per ognuno di esso il valore della variabile “numero di esami” va da 0 a 3, con i valori osservati che vengono presentati uno ad uno, studente per studente; quindi, anche questa è una forma di distribuzione disaggregata. Ci si rende conto, però, che leggere questa tabella è molto più impegnativo che leggere la prima che abbiamo visto; per questo costruiamo un dot plot che semplifichi l’operazione: Dunque, 50 valori osservati ma solamente 4 diversi, ognuno con una certa ripetizione, che quindi posso rappresentare in maniera più facile e immediata semplicemente impilando un pallino per ogni volta che quel valore si ripete nella tabella. O, altrimenti, possiamo ordinare la tabella facendo riferimento alla frequenza con cui la variabile si presenta:

Gli studenti che hanno fatto 0 esami sono 10, quelli che ne hanno fatti 1 sono 18 ecc… riorganizziamo le colonne colorate in una tabella più ordinata, che tenga conto dei 4 valori che si alternano nel totale di 50 studenti. Abbiamo dunque ottenuto dieci osservazioni pari a 0, diciotto pari 1 ecc… Tutto questo, si traduce in un linguaggio formale di questo tipo: Per ottenere, da queste osservazioni, una frequenza percentuale , facciamo un’operazione matematica percentuale con un comune denominatore, che è 50, cioè il numero di unità osservate: In pratica, la frequenza 10 si è presentata in 10 casi su 50, e quindi nel 20% dei casi. Un’operazione semplice ma molto importante per le osservazioni statistiche

Nel primo caso, potrebbe sembrare che, analizzando le frequenze relative , sia maggiore il numero di studenti ad aver dato 0 esami nella classe di economia che in quella di statistica, però è una parvenza sbagliata e fuorviante. In realtà però, il numero di studenti con 0 esami è più importante nella prima che nella seconda classe, poiché 10 studenti su 50 totali sono molti di più che 30 in rapporto al totale di 200. Per questo, il confronto corretto tra gruppi di numerosità diverse, deve essere eseguito sulle frequenze percentuali, e non quelle relative. Frequenza cumulata (assoluta) : sommare frequenza in frequenza dall’alto, a partire dalla prima assoluta, fino ad arrivare a farla coincidere con N. Al contrario per le frequenze retrocumulate (assolute) , cioè una somma ma a partire dal basso, sommando a partire dalla frequenza assoluta degli studenti che hanno dato 3 esami e a salire. Queste sono semplici elaborazioni che ci permettono di avere più informazioni sui nostri dati osservati. Es: il numero 42 sono gli studenti che hanno dato fino a 2 esami. Lo stesso vale per le frequenze relative (cumulate e retrocumulate). Per calcolarne la frequenza percentuale, basta moltiplicare per 100. Altro esempio di distribuzione di frequenze, completo di grafici e valori cumulati:

Formo delle classi di valori che raggruppino i voti, così da ridurre la quantità e rendere più ordinata la rappresentazione. Per calcolare il range , sottraggo l’estremo inferiore all’estremo superiore, anche se può talvolta risultare approssimativo (se per esempio nessuno studente prendesse 30, il range partirebbe da 29 ). Qualora, invece non si disponga dei dati disaggregati, si ha una perdita delle informazioni dettagliate , per esempio quali sono i voti effettivi dei 28 studenti con voto compreso nella prima classe? Possiamo ugualmente eseguire cumulazioni e retro-cumulazioni, ma non possiamo eseguire confronti tra classi, perché può essere ingannevole. Per poter confrontare le classi di valori, dobbiamo eliminare le loro differenze, “depurarle” dall’ampiezza di classe , cosicchè possano essere confrontate. Ad esempio, la frequenza 40 supera la 32 perché, una volta depurata con il calcolo della densità (assoluta o relativa), l’ampiezza attesta che 40>32.

È chiaro che se le classi hanno la stessa ampiezza, useremo le frequenze assolute, trovando l’area moltiplicando la frequenza assoluta n di ogni classe, per l’ampiezza comune ad ognuna —> ai x n Per individuare in maniera più semplice la densità maggiore delle classi, ma in generale per studiare in modo più specifico i dati, dividiamo le classi in più classi così da individuare la classe modale in modo più accurato (slide 56). Un altro esempio di grafico è il density plot , che segna una curva che sottende l’area. (Slide 58–> altro esempio) Nel caso delle variabili continue , invece, (tipo classi 6-7,7- 8 , 8-9, ecc) che quindi compongono un’intera classe che in questo caso sarà 6-8, approssimiamo la frequenza relativa di ogni intervallo unitario della classe (slide 60 61 ). Un tipo di grafico che possiamo usare per rappresentare le classi attaverso i loro estremi superiori, è l’ ogiva , che segue “la traiettoria di un proiettile” perché parte dal basso salendo verso l’alto segnando ogni estremo di classe e rispettive frequenze. Nel caso della variabile nominale (cioè che si esprime con parole o frasi anziché in formato numerico), definiamo le categorie con x (1,2,3…). Nel caso di questo tipo di variabile osservata, usiamo grafici a barre e grafici a torta , divisa in spicchi quante sono le classi, con la fetta più grande che esprime la classe modale (slide 63-).

Parte 3: Media aritmetica

La somma di tutti i valori osservati divisa per il loro numero, ed è ovviamente compresa tra il massimo e il minimo delle osservazioni ( principio di internalità ). Il calcolo della media è, inoltre, influenzato dalla presenza di outliers. La formula, che sottintende una variabile X di tipo necessariamente discreto o continuo , è: Se io conosco la media, invece, moltiplico per il numero di osservazioni e ottengo il totale.

Esempio: Stiamo ripartendo il totale per 5, cioè il numero di osservazioni (per esempio se dovessimo dividere 7850 mele per 5 famiglie, dividiamo il totale, democraticamente in parti uguali e ognuno otterrà lo stesso numero di mele). ——esempi nelle slide a seguire—— 4 è il numero di osservazioni tra esse diverse, ma la media deve essere fatta delle 50 osservazioni, le 50 famiglie con rispettivi numeri di figli, per cui procediamo così: Il totale non è altro che la somma di prodotti , poiché le classi sono tutte diverse tra loro e dunque disaggregate. In questo caso la media è un tipo di media aritmetica ponderata. Questo tipo di media è molto importante, perché i software non lo fanno in maniera distinta, per cui ci serve per gestire il calcolo se abbiamo di fronte una distribuzione di frequenza. Ed ecco, di conseguenza, un recap di tutto ciò che abbiamo detto finora per la media aritmetica: Dunque, vediamo nel seguente esempio quando è opportuno usare la media normale o ponderata:

Ovviamente, anche gli scarti possono essere visualizzati graficamente con il solito dot plot: Cosa succede invece in una distribuzione di frequenze disaggregata con l’uso degli scarti? Procediamo calcolando la media ponderata e, successivamente, sottraendo il suo valore alle osservazioni. Inutile dire che, per ogni classe otteniamo uno scarto, ma non li andremo a sommare perché essendo classi diverse sarebbe irrilevante farlo. Tuttavia, moltiplicando lo scarto per ogni ni, otterremo dei valori che sommati daranno 0; diversamente invece considerando come scarti un secondo numero C, che sarà sempre uno scarto ma che nella sua somma non darà 0. Media aritmetica – proprietà di linearità : succede che di fronte alla nostra X si abbia la necessità di ottenere una nuova variabile Y da quella originaria, trasformando la prima linearmente, cioè applicando una funzione lineare. Se la variabile diventa questa, è chiaro che anche le osservazioni in x diventino delle osservazioni in y, trasformando linearmente la variabile sfruttando le costanti che ci sono fornite dal problema (nella slide a, b). Ovviamente, anche la media può essere linearizzata in y: calcolo la media originale di X e la moltiplico per (a+bX) , senza la necessità quindi di fare effettivamente la trasformazione dei dati X.

Casi speciali di funzione lineare: ho tutti i dati iniziali ma necessito di conoscere y con la traslazione dei dati , che si verifica solo quando b=1 , facendo una somma o una differenza algebrica di a+X. Calcolo la media iniziale, la traslo e ho la media di b traslata, senza necessità di trasformare tutti i dati. Y=a+bX ——Esempio di questa casistica anche slide 85—— Faccio l’operazione inversa nel caso in cui y sia x – qualcosa. A partire dalla differenza, inverto gli addendi e la trasformo in una somma. Y= x- 1000 —> X=y+ Il caso della media armonica : la velocità media tra due o più percorsi uguali, non è la media aritmetica, bensì la media armonica, ovvero il reciproco della media aritmetica dei reciproci delle velocità. Al contrario, se i percorsi sono spazi diversi, si fa la media ponderata dei reciproci :

Nel caso in cui, invece, abbiamo a che fare con una distribuzione disaggregata di valori , si procede con tutte le operazioni che siamo abituati a fare: calcoliamo la cumulazione e la frequenza cumulata dei dati. Sulla base delle formule iniziali, possiamo trovare la mediana della distribuzione in questo caso ponendo n+1/2 ( n è dispari) , ottenendo quindi il valore della mediana che può essere osservata anche semplicemente prendendo la prima frequenza relativa che supera 0,50. Nel caso in cui invece n sia pari (slide 107), dividiamo n/2 e capiamo quale valore è la mediana facendo la semi somma tra il valore della mediana e quello successivo. Quindi, riassumiamo quanto detto finora: (Esempio completo slide 110-)

I quartili: I quartili sono tre , con il secondo che coincide con la mediana, e servono a dividere i valori della distribuzione ordinata in quattro parti uguali. Q1 è il primo quartile (o quartile inferiore ), Q3 è il terzo (o superiore ). Il primo quartile è il valore che non è superato da un quarto dei valori della distribuzione. Si calcolano con diverse formule che, come per la mediana, variano in base alla natura di n: Il terzo, invece: (Esempi slide 120-) Invece, calcolando le frequenze cumulate relative, indipendentemente dal valore di n, se è presente una frequenza cumulata = 0.25 , allora il primo quartile si ottiene dalla media tra il valore corrispondente e quello successivo ; altrimenti è indicato dalla prima frequenza relativa > 0. Se è invece presente una frequenza cumulata = 0.75 , anche il terzo quartile si calcola con la media tra il valore corrispondente e quello successivo ; altrimenti si indicherà con il primo valore di frequenza cumulata > 0. 75

Alla luce dei dati che osserviamo possiamo realizzare graficamente i nostri quartili con un box plot , che ci dà indicazioni sulla centralità dei dati , sulla loro posizione e delle indicazioni sulla loro variabilità. Il box plot può essere però sostituito da un dot plot o un istogramma, anche se il box plot ci dà il vantaggio di poter individuare più facilmente eventuali outliers. Inoltre, nel box plot parliamo anche di simmetria e asimmetria : una distribuzione è simmetrica perché i suoi valori si prolungano circa in egual misura a destra e sinistra della mediana. Se, al contrario, la distribuzione tende più verso un lato, sarà un’ asimmetria positiva (tende verso destra) o asimmetria negativa (tende verso sinistra). Nella distribuzione ci saranno sempre delle barriere ( massimo di fatto e minimo di fatto ) ultime che rappresentano l’ultimo valore prima dell’outlier.

Parte 5: Indici di variabilità : si può misurare tramite indici la distanza media dei valori della distribuzione

a partire dalla media aritmetica, che uso come termine di riferimento. In base a quanto ogni osservazione è distante capiamo quanto si allontanano dalla media, e quindi quanto variano. Gli indici che possiamo usare sono:

  • la varianza ;
  • la deviazione standard ;
  • la deviazione assoluta media (poco utilizzata).

La deviazione assoluta media fa riferimento al valore assoluto dello scarto calcolato: divido il totale delle osservazioni per la loro quantità, e sottraggo la singola osservazione al risultato. Dividendo nuovamente il totale della deviazione assoluta per il totale delle osservazioni, otteniamo la variabilità (in unità di misura) di osservazione in osservazione. Nel caso di una distribuzione di frequenze , invece, dobbiamo considerare la possibilità di calcolare la media ponderata , quindi: La varianza : la varianza è la devianza rapportata ad M, cioè la somma dei quadrati : Lo stesso accade nel caso della distribuzione di frequenze (media ponderata):