Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Principi generali della STATISTICA, Dispense di Statistica

Definizione del concetto di statistica, unità e collettivi statistici, caratteri e modalità (variabili statistiche), distribuzioni di frequenze, calcolo della media, moda e mediana, calcolo della varianza e dello scarto quadratico medio

Tipologia: Dispense

2023/2024

In vendita dal 07/11/2024

ilenia-cecala
ilenia-cecala 🇮🇹

4.7

(12)

10 documenti

1 / 11

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
PRINCIPI GENERALI DELLA STATISTICA
La statistica studia i fenomeni collettivi da un punto di vista quantitativo. Un
fenomeno collettivo riguarda più soggetti, che chiamiamo unità statistiche un
termine generico, non riguarda per forza le persone. La statistica potrebbe studiare
un fenomeno che riguarda animali o oggetti, come i beni culturali e i musei).
Da questi studi che conduciamo, vogliamo tirare fuori una quantità, una valutazione
numerica (perciò analisi quantitativa). La statistica è la disciplina che elabora i
principi e le metodologie che presiedono al processo di rilevazione e raccolta dati.
Le analisi qualitative non fanno parte della statistica, ma della sociologia. Una
qualità, però, posso analizzarla quantitativamente: analizzo, ad esempio, tutti i
numeri delle persone che hanno una determinata caratteristica (come il colore dei
capelli).
1. UNITA’ STATISTICHE E COLLETTIVI STATISTICI
La generica unità statistica la indichiamo con n e la identifichiamo con “i” che
assume il numero che specifica una data unità statistica: ni – i = 1 (u indica l’insieme
generico, come la classe, mentre la “i” quella specifica, come lo specifico studente.)
Le unità statistiche si differenziano in:
- unità statistiche semplici (una sola unità)
- unità statistiche composte (come la famiglia)
Abbiamo poi l’idea di collettivo statistico, o popolazione, che è composto da N unità
statistiche che indica la numerosità del collettivo (volendo studiare l’età della
clientela degli alberghi nel lazio, il collettivo (o la popolazione) è costituito
dall’insieme di clienti arrivati negli alberghi in un determinato prefisso temporale. I
collettivi possono essere:
-finiti, costituiti da un numero finito di unità statistiche; i collettivi finiti sono
concreti (come il numero delle persone);
-infiniti, costituiti da un numero infinito di unità statistiche (come i visitatori
del museo nel corso degli anni e nell’avvenire, non sai quanti ce ne saranno). Si
dice anche virtualmente infinito (come il numero di salmoni nel mare). I
collettivi infiniti sono ipotetici (perché sono il risultato di un esperimento,
come nel campo della medicina o nel controllo qualità).
2. CARATTERI E MODALITA
I caratteri sono le caratteristiche che voglio studiare nelle mie unità statistiche
(come il colore dei capelli, l’età, il titolo di studio). Devo distinguere poi le
manifestazioni del carattere: ad esempio, il colore dei capelli ha diverse
manifestazioni (biondi, scuri, rossi) e in abito statistico le manifestazioni
rappresentano le modalità: è un numero se la caratteristica è numerica (come il
peso), è una stringa di testo o un attributo se il carattere è di tipo qualitativo (il
sesso, il titolo di studio e l’attività). Per comodità, a queste
caratteristiche/modalità/variabili statistiche/mutabili statistiche possiamo assegnare
un’etichetta numerica.
pf3
pf4
pf5
pf8
pf9
pfa

Anteprima parziale del testo

Scarica Principi generali della STATISTICA e più Dispense in PDF di Statistica solo su Docsity!

PRINCIPI GENERALI DELLA STATISTICA

La statistica studia i fenomeni collettivi da un punto di vista quantitativo. Un fenomeno collettivo riguarda più soggetti, che chiamiamo unità statistiche (è un termine generico, non riguarda per forza le persone. La statistica potrebbe studiare un fenomeno che riguarda animali o oggetti, come i beni culturali e i musei). Da questi studi che conduciamo, vogliamo tirare fuori una quantità, una valutazione numerica (perciò analisi quantitativa). La statistica è la disciplina che elabora i principi e le metodologie che presiedono al processo di rilevazione e raccolta dati. Le analisi qualitative non fanno parte della statistica, ma della sociologia. Una qualità, però, posso analizzarla quantitativamente: analizzo, ad esempio, tutti i numeri delle persone che hanno una determinata caratteristica (come il colore dei capelli).

1. UNITA’ STATISTICHE E COLLETTIVI STATISTICI La generica unità statistica la indichiamo con “n” e la identifichiamo con “i” che assume il numero che specifica una data unità statistica: ni – i = 1 (u indica l’insieme generico, come la classe, mentre la “i” quella specifica, come lo specifico studente.) Le unità statistiche si differenziano in:

  • unità statistiche semplici (una sola unità)
  • unità statistiche composte (come la famiglia) Abbiamo poi l’idea di collettivo statistico , o popolazione, che è composto da N unità statistiche che indica la numerosità del collettivo (volendo studiare l’età della clientela degli alberghi nel lazio, il collettivo (o la popolazione) è costituito dall’insieme di clienti arrivati negli alberghi in un determinato prefisso temporale. I collettivi possono essere:
  • finiti , costituiti da un numero finito di unità statistiche; i collettivi finiti sono concreti (come il numero delle persone);
  • infiniti , costituiti da un numero infinito di unità statistiche (come i visitatori del museo nel corso degli anni e nell’avvenire, non sai quanti ce ne saranno). Si dice anche virtualmente infinito (come il numero di salmoni nel mare). I collettivi infiniti sono ipotetici (perché sono il risultato di un esperimento, come nel campo della medicina o nel controllo qualità). 2. CARATTERI E MODALITA’ I caratteri sono le caratteristiche che voglio studiare nelle mie unità statistiche (come il colore dei capelli, l’età, il titolo di studio). Devo distinguere poi le manifestazioni del carattere : ad esempio, il colore dei capelli ha diverse manifestazioni (biondi, scuri, rossi) e in abito statistico le manifestazioni rappresentano le modalità : è un numero se la caratteristica è numerica (come il peso), è una stringa di testo o un attributo se il carattere è di tipo qualitativo (il sesso, il titolo di studio e l’attività). Per comodità, a queste caratteristiche/modalità/variabili statistiche/mutabili statistiche possiamo assegnare un’etichetta numerica.

Giorgio u1; Camilla u Tutti insieme formano la popolazione e il collettivo di riferimento. Tutte le informazioni sono un carattere statistico. Le modalità sono le differenze dei caratteri tra le persone, come Giorgio pesa 79kg mentre Camilla 53kg e così via. Quando sto valutando dei dati, è fondamentale fare in modo che le manifestazioni del carattere statistico siano esaustive , ossia devono rappresentare tutti i possibili modi di essere del carattere. Inoltre, devono essere anche non sovrapposte , nel senso che ogni unità statistica deve potersi associare ad una sola manifestazione del carattere. In caso diverso, metto “altro”.

3. TIPI DI CARATTERI E MISURAZIONE DEI CARATTERI (le cosiddette VARIABILI STATISTICHE )QUALITATIVI/E : hanno come modalità le espressioni verbali. Possono essere a loro volta:

  • Sconnessi. Sono ad esempio il titolo di studio o il diploma. Non esiste una relazione di ordine tra le modalità, perciò si chiamano sconnessi. Gli sconnessi possono essere dicotomici (assumono due modalità, come il sesso) oppure politomici (assumono più di due modalità, come il diploma);
  • Ordinali o ordinati. Esiste una relazione di ordine tra le modalità. Significa che posso ordinare le modalità dal più piccolo al più grande, o viceversa. Quando l’ordine esiste, dal punto di vista statistico possiamo fare di più rispetto ai caratteri sconnessi. L’ordine può essere rettilineo o ciclico (che si ripetono ciclicamente come i giorni della settimana).  QUANTITATIVI/E : hanno come modalità di espressione i numeri. Possiamo fare dei calcoli, a differenza dei caratteri qualitativi dove non si possono fare. Questi si distinguono in:
  • Discreti****. Assumono un insieme finito o numerabile di modalità. Ad esempio, il numero di fratelli o sorelle. Assumono un certo insieme di modalità numeriche distinte e tipicamente sono numeri interi.
  • Continui****. Assumono una infinità non numerabile di valori (non posso contarli). Ad esempio, l’età, il peso o l’altezza che rileviamo nei questionari sono caratteri discreti, ma legati al tempo ed hanno una continuità. La continuità è qualcosa di legato all’infinito e non numerabile. Le variabili statistiche qualitative possono essere chiamate anche MUTABILI STATISTICHE. Può capitare che durante le analisi non voglio scrivere tutte le variabili, posso decidere di assegnare una etichetta numerica ad ogni variabile qualitativa. Ad esempio, assegno 0 alle donne e 1 agli uomini. Non sono numeri come li concepiamo normalmente, non si possono fare calcoli statistici, devo ricordarmi semplicemente che sono etichette numeriche di qualcosa che non è numerico. Quei numeri mi servono solo per una questione di convenienza. Un’altra importante distinzione delle variabili statistiche è la trasferibilità. Possono essere:  Trasferibili. Posso ipotizzare di cedere tutto o parte di questo carattere ad un’altra unità statistica. Ad esempio, il denaro piò essere un carattere trasferibile. Posso trasferire anche l’ammontare delle ore di lavoro, oppure il numero di addetti da un servizio ad un altro.

n 9 LL n 10 LS Dalle frequenze assolute (6+4=10) che vengono indicate con “n1”, posso trarre le frequenze relative , andando a dividere le frequenze assolute per la numerosità del collettivo (6/10=0.6; 4/10=0.4). In questo caso, la somma N delle frequenze relative è

  1. Dalle frequenze relative posso trarre anche la percentuale (0.6 x 100 = 60%; 0. x 100 = 40%), dove la somma N è 100. Come si esprime la tabella in notazione? Quando elenco la distribuzione delle frequenze arriverò a K, non N, poiché K è un numero molto più piccolo di N. x1 non indica più il valore della variabile x per l’unità statistica 1, ma indica la prima delle K modalità in elenco. Nella prima colonna metto le modalità distinte, nella seconda tabella metto le frequenze assolute, nella terza le frequenze relative, nella quarta inserisco le frequenze relative percentuali. La sommatoria si indica con il simbolo di sommatoria e viene indicata con N. 5. SUDDIVISIONE IN CLASSI DEL CARATTERE/VALORE/MODALITA’ Alcune variabili statistiche hanno un numero troppo alto di modalità. Quando sono qualitative, si vanno ad accorpare le modalità per semplificarle. Non ha senso e non è gestibile avere un numero troppo alto di modalità qualitative. Quando il carattere è quantitativo, come l’età degli intervistati, in questo caso vengono suddivise in classi che sono sotto intervalli del valore (es. persone che vanno dai 15 ai 70 e le divido, ad esempio in sotto intervalli che vanno da 15 a 25, 30 a 50 ecc.). Gli estremi delle classi vengono indicate con “ci”). La prima classe c1, la seconda c e così via. Gli intervalli di valore vengono indicati con il simbolo “ |---| ” in cui le linee indicano il valore estremo più basso e quello più alto. Il valore più basso da cui parto è sempre incluso. Quando abbiamo le classi, vi è il valore centrale delle classi, che rappresenta la media dell’intervallo di valore di riferimento, la semisomma degli estremi. È la somma dell’estremo superiore e dell’estremo inferiore diviso due. Se 15 |---| 25 

ci + ci − 1

= 20 che rappresenta il valore centrale delle classi

Possiamo raggruppare anche le intensità di frequenza. È data dalla frequenza della classe diviso l’ampiezza della classe. Apparentemente la classe 3 sembra che abbia la classe maggiore in termini di frequenze (se le guardo, 10, 10 e 15), ma se vado a calcolare il risultato sarà diverso in termini di densità, cioè l’intervallo quanto è La DENSITA’ DI FREQUENZA si indica con il simbolo “ hi ”. La FORMULA PER CALCOLARE L’INTENSITA’ DI FREQUENZA è: hi =

ci − ci − 1

AD ESEMPIO. Se: X frequenz a Classe 1 15 |---|25 10 Classe 2

Classe 3 40 ---| 55 15

ampio, verifico che la classe 1 e la classe 3 hanno lol stesso risultato e in termini di densità hanno la stessa cosa nel momento in cui calcolo le frequenze assolute. Il prezzo di 1kg di pane in euro è una variabile quantitativa continua (teoricamente i prezzi cambiano). Il reddito familiare è quantitativo continuo. Se prendo il reddito e lo suddivido in classi, che tipo di variabile ottengo? Diventa qualitativa ordinale. Le ore di studio al giorno sono quantitative discrete (ore compiute) è diverso dal tempo di studio dedicato al giorno è quantitativa continua. L’attività lavorativa è qualitativa disconnessa. Il grado di soddisfazione del cliente è qualitativo ordinale (va da per niente a estremamente soddisfatto). Colore degli occhi qualitativa disconnessa.

6. SPIEGAZIONE E PROPRIETA’ DELLA MEDIA ARITMETICA (è un indice statistico di posizione – o di tendenza centrale, insieme alla MODA e alla MEDIANA) La media aritmetica è un indice di centralità, che sintetizza i dati efficacemente. Si calcola con la somma dei valori delle frequenze associate. La media è sempre compresa tra il minimo e il massimo dei valori. (proprietà della media aritmetica). Se vado a fare la somma degli scarti della media (l’età di ciascuno meno la media generale. lo scarto è la differenza tra la media e la mia età effettiva , la modalità della variabile della singola unità statistica. La somma degli scarti è sempre 0.). lo scarto può avere sia valore positivo che negativo. Se li vado a sommare, si compensano tra loro e fa 0. Si dice che la media è il baricentro , punto di bilanciamento dei valori. Se abbiamo la media di X, basta che sappiamo quanto valgono a e b (valore che abbiamo sommato). Si chiama trasformazione lineare, poiché rappresenta l’equazione di una retta. la media è il valore più vicino alla somma degli scarti al quadrato. Il vero DIFETTO della media aritmetica sono i dati anomali , valori estremamente bassi o estremamente alti. Nel momento in cui li troviamo nel calcolo della media, la influenzano. Quindi la media non resiste alla presenza di dati anomali. Questi dati anomali spesso sono frutto di errori di calcolo (valori errati); altre volte invece certi dati di loro natura presentano valori tra loro differenti. In presenza di dati anomali, la media aritmetica perde la sua caratteristica principale di essere un valore sintetico che rappresenta l’insieme dei dati e perde di efficacia rispetto al suo scopo per cui viene calcolata. RIMEDI ALLA SCARSA ROBUSTEZZA DELLA MEDIA: si può calcolare la media troncata , cioè nell’ordinare i dati dal più piccolo al più grande, successivamente elimino una percentuale dei valori più bassi e una percentuale dei valori più alti. Un’altra possibilità è calcolare la media secondo Winsor , in cui dice che, per avere lo stesso 40 osservazioni e non scendere a 36 nella media troncata (eliminando valori più bassi e più alti), sostituisco le prime due con la prima utile (invece di 120 e 200, metto 74). Con questo metodo, c’è una certa differenza rispetto a quella originale. Tuttavia, è irrilevante usare l’una o l’altra. La MODA è la tendenza più popolare, che si presenta più frequentemente. Identifica l’intera CLASSE (vedere foto). È la modalità della variabile X a cui corrisponde la massima frequenza, assoluta o relativa. Si calcola, quindi, a partire dalle frequenze.

  • È sempre maggiore o uguale a 0 ; non può variare negativamente l’indice di variabilità. O sarà nullo (nel senso che i soggetti analizzati avranno tutti le stesse caratteristiche), oppure sarà positivo (poiché i soggetti analizzati avranno caratteristiche diverse tra loro);
  • Se è calcolato per una distribuzione costante è sempre uguale a 0 (i soggetti analizzati hanno tutti le stesse caratteristiche, quindi l’indice di variabilità è costante. Il fenomeno assume per ogni unità statistica sempre lo stesso valore);
  • Se aggiungo una costante alla variabile (ad esempio aggiungo 1 ad ogni variabile), l’indice di variabilità non cambia. CONFUSIONE TRA POSIZIONE E VARIABILITA’  Gli indici che usiamo per calcolare la variabilità ci danno un’informazione diversa rispetto agli indici di posizione (media, moda e mediana). Se voglio valutare l’indice di gradimento medio di un evento, ad esempio, utilizzo gli indici di posizione, perché la media mi dirà il valore che valuterà l’efficacia del criterio analizzato comparando il prima con il dopo. Al contrario, se si parla di redistribuzione, si fa riferimento all’indice di variabilità. Quindi, posizione e variabilità sono due indici differenti ma che possono essere calcolati insieme. Possiamo misurare la variabilità di una variabile x da diversi punti di vista:
  • Andare a vedere quanto le singole osservazioni si discostano dalla media aritmetica, quindi da un indice di posizione;
  • La variabilità delle modalità ordinate ottenuta dopo aver ordinato le singole modalità;
  • La variabilità reciproca o detta mutua variabilità. Invece di calcolare ogni singolo valore, confronta un valore con tutti gli altri valori considerati. Quanto i valori singoli differiscono gli uni dagli altri. VARIABILITA’ E INDICI DI POSIZIONE (introduzione del concetto di scarto dalla media)  Cosa vuol dire confrontare i valori con la media aritmetica, quindi valutare la variabilità rispetto a un indice di posizione? Significa andare a fare la differenza tra i valori che posseggo e quello che è il valore medio. Per costruire l’indice di posizione dobbiamo introdurre il concetto di scarto dalla media (cioè, le differenze), che viene definito così:

x1 - x ; x2 - x ; … xn - x

Potremmo pensare di andare a sommare gli scarti e dividerli per il loro numero. Purtroppo, però, la somma degli scarti “semplici” dalla media aritmetica è 0. Questo dipende dal fatto che la media ha una natura di balance point. È quel valore, sostituito a tutti i valori, che lascia invariato il totale. Ad esempio, se io ho 100 euro e ne cedo 50 alla persona a me a fianco, mi restano 50. Se li vado a sommare, avrò sempre 100 euro. Quindi, in questo caso, la media è quel valore che sostituito a tutti i valori, il totale rimane invariato. Quando vado a fare questi scarti, succede che avrò sia valori positivi che negativi e facendo la media, questi valori tra loro si compensano e andranno a fare 0. LA VARIANZA (la media degli scarti al quadrato)  Non possiamo considerare, per andare a effettuare questa sintesi, gli scarti semplici. Allora, per eliminare il fatto che la somma degli scarti faccia 0, si va ad elevarli al quadrato. Si fa la somma di ogni valore, meno la media aritmetica al quadrato e li divido per n. Nel momento in cui si elevano al quadrato, gli scarti negativi diventano tutti positivi ed elimino il

problema che la loro somma fa zero. Questo procedimento si chiama varianza e viene calcolata con la media aritmetica. Qual è il problema di questo indicatore? Cm al quadrato non misurano la caratteristica di una persona, bensì di una superficie, quindi dell’area. Il quadrato non ha niente a che vedere con la variabilità del fenomeno. Si fa la radice quadrata della varianza: il sigma si chiama scarto quadratico medio (mi dice quanto mi discosto in media dalla media). Questo è espresso nella stessa unità di misura della variabile x. Cosa succede quando abbiamo una distribuzione di frequenze? Cioè, abbiamo modalità distinte (k). Se devo calcolare la varianza, vado a considerare gli scarti al quadrato e devo moltiplicare per la frequenza. (esempio foto screenshot) ESEMPIO DI COME SI CALCOLA LA VARIANZA  immaginiamo che: 1/5 (1+2+3+4+5) = 1/5 x 15 = 15/5 = 3 Calcolare gli scarti semplici  1/5 (1-3) ;(2-3) ;(3-3) ;(4-3) ;(5-3) = 0 Elevarli al quadrato  1/5 (1-3)2 + (2-3)2 + (3-3)2 + (4-3)2 + (5-3)2 = 4+1+0+1+ = 10/5 = 2 Lo scarto quadratico medio è la radice della varianza, quindi di 2 Calcolare la varianza nello scarto quadratico medio nella distribuzione unitaria in cui abbiamo singoli valori assunti dalle unità statistica è un’operazione abbastanza semplice. Non bisogna dimenticarsi delle frequenze nel calcolo della media e quando andiamo a considerare gli scarti quadratici. Più è grande la varianza, più è variabile il fenomeno. Il valore più piccolo che può assumere è zero, ma quello più grande non ha limite: non esiste l’estremo superiore. Non so quanto vale fino a quando non la calcolo. CONFRONTARE LA VARIABILITA’ DI DUE FENOMENI ESPRESSI IN DIVERSE UNITA’ DI MISURA  Se prendo in considerazione due variabili, qual è la più grande? Quando devo fare un confronto, devo usare un coefficiente di variazione  C.V. = è dato dallo scarto quadratico medio diviso il valore assoluto (due barrette laterali) della media aritmetica che rende qualunque unità positiva. Il coefficiente di variazione prende il nome di NUMERO PURO O ADIMENSIONALE (privo di unità di misura, cioè numero puro). Siccome rapporta la variabilità del fenomeno, alla fine diventa un numero puro privo di unità di misura e lo posso confrontare con un altro numero puro. Ad esempio, se volessi calcolare la variabilità dell’altezza con la variabilità del peso, dovrei andare a confrontare non le varianze o gli scarti quadratici medi, ma dovrei andare ad utilizzare il coefficiente di variazione.

Che vuol dire legame? Che al muoversi di una, si muove anche l’altra variabile. Quindi vanno congiuntamente. Per studiarle insieme, devo vedere come co- variano, cioè come si muovono insieme. COME SI CALCOLA IL COEFFICIENTE DI CORRELAZIONE? Anche in questo caso si tratta di un indice puro e adimensionale, cioè privo di unità di misura. Devo calcolare gli scarti della variabile x dalla sua media, la stessa cosa con y, poi Andiamola a scomporre: Numeratore della formula (prende il nome di COVARIANZA)  è frutto del prodotto degli scarti della x dalla sua media moltiplicato per lo scarto della y dalla sua media, poi li vado a sommare. Ci dice come ogni variabile si comporta rispetto alla sua media. Ci fa capire anche se gli scarti sono negativi o positivi dal segno , perciò ci dice come co-variano. Il legame è positivo se il numeratore è positivo, viceversa è negativo. Se variano nella stessa direzione, il prodotto degli scostamenti è positivo. Il coefficiente di correlazione è:

  • Simmetrico
  • Risulta uno quando è calcolato tra una variabile e sé stessa
  • Varia tra -1 e 1 (DEVE USCIRE PER FORZA TRA -1 E 1 NEI CALCOLI, sennò abbiamo sbagliato)
  • È 0 quando non c’è nessun tipo di legame Il valore CI DICE QUANTO È FORTE IL LEGAME, più si avvicina ai due estremi, più ci dice quanto è forte il legame. Il quadrato del coefficiente di correlazione ci dice quanto la nube dei punti aderisce a questa retta lineare. L’aderenza dei punti è importante (dice quanto i punti sono vicini tra loro in cui passa la retta, possono essere vicinissimi o distanziati tra loro). Maggiore è il valore del coefficiente, maggiore sarà la possibilità di utilizzare la variabile x per prevedere la variabile y. 8. TABELLE A DOPPIA ENTRATA E LEGAME TRA DUE VARIABILI Quando le variabili sono quantitative, difficilmente vengono organizzate in queste tabelle e con questi indici. Sono gli unici che possiamo usare quando le variabili sono qualitative (dal momento che non si può avere media, varianza, scarto) e ci accontentiamo delle frequenze che abbiamo nella tabella. nij: è il numero di unità statistiche che rappresenta congiuntamente il valore x e y nella tabella. Quando abbiamo una distribuzione doppia, possiamo derivare le distribuzioni marginali e condizionate di x e y. Andiamo a vedere le distribuzioni CONDIZIONATE RELATIVE.