Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica di base 1, Dispense di Statistica

riassunto del libro di statistica di base

Tipologia: Dispense

2023/2024

Caricato il 20/01/2026

odioillatino
odioillatino 🇮🇹

3 documenti

1 / 69

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DEFINIZIONI E NOTAZIONE DI BASE
Fenomeni di interesse per la statistica = fenomeni statistici —> si presentano con una molteplicità di
manifestazioni !
"che determina la necessità di metodi statistici per il trattamento quantitativo dei fenomeni !
Si studia la tendenza del fenomeno a variare
Unità statistiche = supporti delle diverse manifestazioni del fenomeno statistico !
Insieme delle unità statistiche su cui studiare il fenomeno —> U = popolazione statistica o universo di
riferimento (target) !
N = numerosità o dimensione della popolazione statistica (U)!
X, Y, W, A… = fenomeni statistici !
x, y, w, a… = per indicare ogni singola manifestazione del fenomeno statistico —> indicato con la
corrispondente lettera maiuscola = modalità / valori del fenomeno
N —> numero intero e positivo (perché i fenomeni di interesse delle scienze sociali si manifestano in genere
su popolazioni umane finite)!
"su U di numerosità N sono presenti le manifestazioni x del fenomeno X
U = insieme !
N = numero (o infinito) !
X = fenomeno !
x = attributi, categoria, numero !
k = numero delle diverse modalità previste dalla scala utilizzata per la rilevazione di X su U!
i: indice per distinguere le diverse modalità x del fenomeno X (la rilevazione di X su U avviene con la
scala di modalit`a x1, x2, . . . , xk o xi, i = 1,…,k)!
FENOMENI:
Qualitativi = si manifestano nella popolazione osservata attraverso attributi o categorie (a parole) $
es. —> X: genere !
"Y: squadra di calcio tifata $
"S: titolo di studio !
Questi possono essere:!
Ordinali = fenomeni che si manifestano con attributi o categorie che si possono ordinare secondo
qualche criterio oggettivo e convenzionalmente accettato (ordine di elevazione, importanza)
Categoriali = fenomeni he non hanno un criterio oggettivo con cui essere ordinati (es. città di
residenza)
Quantitativi = si manifestano nella popolazione osservata attraverso numeri e misure !
Es. —> A: peso !
"T: chilometri percorsi in un giorno !
"D: altezza !
Possono essere:!
Discreti = fenomeni che possiamo contare ed enumerare (es. numero di esami svolti in un anno;
numero di furti avvenuti a Milano)
Continui = fenomeni che si possono misurare con un opportuno strumento (es. peso corporeo di
mattina, temperatura massima raggiunta a Roma) $
le manifestazioni di un fenomeno quantitativo continuo sono intervalli in cui si presenta la
caratteristica della continuità !
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45

Anteprima parziale del testo

Scarica statistica di base 1 e più Dispense in PDF di Statistica solo su Docsity!

DEFINIZIONI E NOTAZIONE DI BASE

Fenomeni di interesse per la statistica = fenomeni statistici —> si presentano con una molteplicità di manifestazioni che determina la necessità di metodi statistici per il trattamento quantitativo dei fenomeni Si studia la tendenza del fenomeno a variare Unità statistiche = supporti delle diverse manifestazioni del fenomeno statistico Insieme delle unità statistiche su cui studiare il fenomeno —> U = popolazione statistica o universo di riferimento (target) N = numerosità o dimensione della popolazione statistica (U) X, Y, W, A… = fenomeni statistici x, y, w, a… = per indicare ogni singola manifestazione del fenomeno statistico —> indicato con la corrispondente lettera maiuscola = modalità / valori del fenomeno N —> numero intero e positivo (perché i fenomeni di interesse delle scienze sociali si manifestano in genere su popolazioni umane finite ) su U di numerosità N sono presenti le manifestazioni x del fenomeno X

  • U = insieme
  • N = numero (o infinito)
  • X = fenomeno
  • x = attributi, categoria, numero
  • k = numero delle diverse modalità previste dalla scala utilizzata per la rilevazione di X su U
  • i: indice per distinguere le diverse modalità x del fenomeno X (la rilevazione di X su U avviene con la scala di modalit`a x1, x2,... , xk o xi, i = 1,…,k)

FENOMENI:

- (^) Qualitativi = si manifestano nella popolazione osservata attraverso attributi o categorie (a parole) es. —> X: genere Y: squadra di calcio tifata S: titolo di studio Questi possono essere: - Ordinali^ = fenomeni che si manifestano con attributi o categorie che si possono ordinare secondo qualche criterio oggettivo e convenzionalmente accettato (ordine di elevazione, importanza) - Categoriali^ = fenomeni he non hanno un criterio oggettivo con cui essere ordinati (es. città di residenza) - Quantitativi = si manifestano nella popolazione osservata attraverso numeri e misure Es. —> A: peso T: chilometri percorsi in un giorno D: altezza Possono essere: - Discreti^ = fenomeni che possiamo contare ed enumerare (es. numero di esami svolti in un anno; numero di furti avvenuti a Milano) - Continui^ = fenomeni che si possono misurare con un opportuno strumento (es. peso corporeo di mattina, temperatura massima raggiunta a Roma) le manifestazioni di un fenomeno quantitativo continuo sono intervalli in cui si presenta la caratteristica della continuità

Rilevazione —> come si creano i dati per l’esplorazione statistica

Processo di creazione dei dati = rilevazione di X su U questionario = tipico strumento di rilevazione —> azione congiunta di osservazione e registrazione dei dati Scala delle modalità/ scala di rilevazione = insieme di caselline previste per ogni domanda/fenomeno = insieme di tutte le diverse manifestazioni di X osservabili su U Principi generali per la costruzione di un questionario; proprietà:

- Esaustività = la scala deve prevedere tutte le possibili manifestazioni di X che potenzialmente si possono osservare su U possibilità per U di trovare la propria scelta tra le caselline proposte - Mutua esclusività = la scala deve prevedere solo modalità che si escludono a vicenda —> senza il rischio di creare confusione o sovrapposizioni evitare a U qualunque ambiguità nella scelta della casellina in cui classificarsi SCALE DI MODALITA’:

  • Qualitativa
    • Ordinale ammette relazioni di uguaglianza, differenza, maggiore o minore
    • Categorica
      • Non ordinale/ sconnessa^ = gli attributi o le categorie non ammettono un ordinamento oggettivo, ma solo un ordinamento casuale o personale (soggettivo) ammette solo relazioni di uguaglianza o differenza - Scala^ dicotomica/binaria^ = solo due modalità di risposta esaustive ed esclusive - Quantitativa I fenomeni si manifestano nella realtà attraverso numeri che possono essere: - (^) Discreti = Le modalità xi di un fenomeno X discreto sono di solito numeri interi. Il numero k di modalità può essere finito (es: il numero di esami) oppure infinito (es: il numero di accessi al sito). - (^) Continui = si rilevano mediante misurazione. La rilevazione dei fenomeni continui richiede la scelta di una opportuna unità di misura e la disponibilità di un opportuno strumento di misurazione le modalità xi sono degli intervalli in cui xl è l’estremo inferiore e xL è l’estremo superiore k = numero di intervalli xi con cui si rileva il fenomeno X - Scala^ rapporto^ = l’origine della scala è il numero 0 con significato assoluto (quando 0=assenza del fenomeno) - Scala^ non^ rapporto^ = l’origine del fenomeno (che può essere ancora 0) non è assoluta ma convenzionale, scelta secondo qualche criterio (i gradi centigradi, quando sono a 0, non significa che la temperatura è assente)

FASI DELL’ANALISI STATISTICA

= strumenti di base per elaborare i dati che si raccolgono Per estrarne tutta l’informazione contenuta

1. Osservare le manifestazioni = recarsi presso U per registrare le diverse manifestazioni del fenomeno oggetto di studio si creano così i dati grezzi (data set) —> talvolta sono già disponibili e provengono da fonti ufficiali => fase di rilevazione 2. Organizzare il risultato della rilevazione = dopo aver ottenuto un insieme confuso di N (manifestazioni x di X), bisogna ordinare i dati in tabelle o grafici per renderli più leggibili => fase di strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza 3. Elaborare i dati strutturati = far emergere più chiaramente dai dati le informazioni che rispondano all’interrogativo iniziale di ricerca e comprendere i meccanismi del variare delle diverse manifestazioni su quel fenomeno => sintetizzare i dati attraverso la costruzione di indici e valori sintetici e di studiarne le eventuali relazioni statistiche con altri fenomeni 4. Comunicare i risultati = momento conclusivo dell’analisi statistica che coinvolge competenze e interessi diversi —> interdisciplinarità e utilizzo di strumenti come infografica e data visualization

Le frequenze relative sono quantità adimensionali, dunque sono sempre confrontabili Le frequenze pi sono rapporti particolari totale del numeratore —> risultano quindi sempre comprese tra 0 e 1 e la loro somma è sempre 1 Moltiplicando la frequenza relativa per 100 si ottengono le percentuali —> sono sempre comprese tra 1 e 100 e la loro somma è pari a 100 Vantaggio nell’utilizzo della frequenza percentuale = mera comodità I dati che otteniamo con la distribuzione di frequenza relativa sono maggiormente informativi riguardo al peso che ciascuna modalità xi ha in U La distribuzione di frequenze relative è confrontabile tra popolazioni con dimensioni diverse Poiché le frequenze assolute non sono confrontabili, servono le frequenze relative e non essendo neanche valutabili sono utili le percentuali

Indici relativi e normalizzazione:

Le quantità assolute non sono mai né confrontabili né valutabili Normalizzazione = procedimento di trasformazione di una quantità statistica assoluta in una percentuale I = una qualsiasi misura statistica assoluta di una qualche caratteristica del comportamento di X su U Imin = valore minimo che assume l'indice in assenza di ciò che stiamo misurando di X Imax = valore massimo che assume l'indice nel caso in cui X presenti a livello massimo ciò che stiamo misurando Si trasforma quindi I in percentuale normalizzandolo con la formula: Il risultato della normalizzazione è un numero sempre compreso tra 0 e 1 che moltiplicato percento è interpretabile come percentuale di ciò che I misura di X

- La normalizzazione di I fornisce 0 se è soltanto se I = Imin —> quindi in caso di assenza di ciò che I misura di X (in una divisione risulta 0 soltanto se il numeratore è 0) - La normalizzazione di I fornisce 1 se soltanto se I = Imax —> quindi nel caso in cui X presenti a livello massimo ciò che I misura di X (perché un rapporto è uguale a uno soltanto se il numeratore è il denominatore sono uguali tra loro) Dato che conosciamo il significato dei valori estremi (0 e 1), siamo in grado di valutare tutti i possibili valori intermedi dell'indice normalizzato —> quindi dire se ciò che I misura di X è tanto o poco => è poco se è vicino a 0 ed è tanto se è vicino all’

Frequenze cumulate:

Quando X è almeno ordinale, è una buona pratica costruire la variabile statistica ordinando in senso crescente le modalità osservate (da xi a xk) Se si vuole rispondere alle domande prendendo in considerazione delle modalità che vanno dalla più piccola fino ad una richiesta, è utile cumulare le frequenze associate alle modalità inferiori di xi = costruendo le frequenze cumulate Fi = frequenze cumulate assolute Φi = frequenze cumulate relative Le frequenze cumulate si calcolano semplicemente sommando all’indietro Bisogna fare molta attenzione agli indici delle sommatorie Proprietà delle frequenze cumulate:

  • Le frequenze cumulate assolute sono numeri interi compresi fra zero e N, mentre quelle relative sono sempre comprese tra zero e uno

La prima frequenza accumulata coincide con la frequenza della modalità più piccola e l'ultima frequenza accumulata coincide con la numerosità N di U per quanto riguarda le frequenze cumulate assolute Coincide invece con uno se parliamo di frequenze cumulate relative

  • Tra le frequenze e le corrispondenti frequenze cumulate esiste una corrispondenza biunivoca —> data una distribuzione è possibile passare all'altra e viceversa Se conosciamo le frequenze possiamo ottenere le cumulate se conosciamo le cumulate possiamo riottenere le frequenze => formule ricorsive

Fenomeni continui e densità di frequenza :

Quando X continuo, le modalità xi sono intervalli La variabile statistica si limita a informarci che in un generico intervallo xi: xl xL appartengono fi unità statistiche Quindi non possiamo sapere esattamente in quale tra gli infiniti punti che appartengono a quell'intervallo si posiziona a ciascuna delle fi unità statistiche che cadono nell’intervallo => la distribuzione di frequenza all'interno degli intervalli è ignota Nessuna sofisticazione matematica ci può assicurare che quello che decidiamo di ipotizzare in mancanza di dati sia vero o vicino alla realtà, però si può richiedere che l'ipotesi adottata sia ragionevole Un'assunzione iniziale significa proporre un modo per riportare la fi tra gli infiniti valori dell’intervallo ipotesi emesse:

  • Assunto^ del^ valore^ centrale^ —> con l'obiettivo di assegnare a ciascuna delle^ fi^ unità statistiche che cadono nell’intervallo un unico punto interno all'intervallo Il metodo consiste nell'associare tutte le fi al valore centrale dell’intervallo Con l'ipotesi del valore centrale si attua una sostanziale discretizzazione della variabile statistica —> si supera il problema dell'ignota distribuzione di frequenza all'interno degli intervalli, ma se ne perde di vista la natura continua Viene adottata per la sua semplicità - Assunto^ di^ distribuzione^ uniforme^ —> in mancanza di informazioni che portino a propendere per un caso o per un altro, un principio logico e intuitivo è quello di considerare alla pari ogni possibilità Se non sappiamo di preciso dove si posizionano esattamente le fi unità statistica all'interno dell’intervallo , allora le distribuiamo in modo uniforme ed equidistante lungo tutto l'intervallo Usando l’ipotesi di distribuzione uniforme all’interno dell’intervallo si può calcolare la densità di frequenza di un intervallo che `e la frequenza depurata dell’influenza dell’ampiezza Ampiezza dell’intervallo: È la differenza tra l'estremo superiore e l'estremo inferiore xL - xl L'ampiezza dell'intervallo influenza fortemente le frequenze associate —> quanto più un intervallo è ampio tanto più è facile che contenga più casi di un intervallo meno ampio Bisogna quindi capire quanto è denso un intervallo al proprio interno A parità di frequenza è un intervallo più ampio sarà meno denso di uno o più stretto La densità di frequenza di un intervallo è la frequenza depurata dall'influenza dell’ampiezza 1

Con l'assunto del valore centrale, si ottiene la discretizzazione della variabile statistica attraverso i valori centrali xi degli intervalli Una volta ricondotti al caso discreto, si può procedere alla rappresentazione grafica Se però si assume la distribuzione uniforme , si può conservare la natura continua del fenomeno Obiettivo = associare la frequenza a tutti gli infiniti punti dell'intervallo in modo che sia uniformemente distribuita => rappresentiamo quindi la frequenza come un’area = istogramma o diagramma areale Sull'intervallo rappresentato sulle ascisse da un segmento, si innalza un rettangolo di area pari a fi oppure a pi In questo caso l'area che si verrà rappresentare, sarà uguale alla densità di frequenza L'area totale sottesa all'istogramma è:

  • Pari a N se si rappresentano le frequenze assolute fi (phi piccolo sulle ordinate)
  • Pari a 1 se si rappresentano le frequenze relative pi (phi piccolo/N sulle ordinate) Sull’istogramma sono automaticamente rappresentate come aree anche le frequenze cumulate Dunque le frequenze cumulate si possono calcolare geometricamente come somma di aree, direttamente sull’istogramma Per qualunque valore di X, non solo riferite agli estremi superiori degli intervalli I grafici hanno un impatto visivo maggiore rispetto alla tabella Carattere qualitativo su scala nominale o sconnessa = barre o torta Carattere qualitativo su scala ordinale = barre —> le categorie devono essere ordinate secondo l’ordine naturale confronti = usare sempre le frequenze relative Asse x = categorie di risposta Asse y = frequenze assolute o relative Carattere quantitativo discreto = bastoncini Carattere qualitativo continuo in classi = istogrammi (asse x classi e asse y densità di frequenza) base = ampiezza dell’intervallo; altezza = frequenza

VALORI MEDI

=> passare da un’intera distribuzione di frequenza ad un singolo valore, il valore medio

Tramite questo, non sappiamo più quante sono e quali sono le differenti modalità con cui X si manifesta su U, ma disponiamo di un unico valore medio che le sintetizza tutte

- MODA = modalità a cui è associata la frequenza più elevata fra le k osservate, cioè la modalità più osservata. è quella che in U si manifesta più delle altre, la più frequente fra le k Notazione = x 0 La moda è tanto più informativa quanto più elevata è la frequenza corrispondente —> cioè il numero di unità statistiche che rappresenta Si può affiancare alla moda la corrispondente frequenza (relativa o percentuale) —> ne aiuta l’interpretazione - (^) Quando al variabile statistica è in forma tabellare basta scorrere la colonna delle frequenze e individuare la più elevata —> la modalità corrispondente è la moda - (^) Quando la variabile statistica è rappresentata graficamente, la frequenza più elevata è quella con la barra più alta o più lunga in un diagramma a barre o è lo spicchio più grande nel diagramma a torta o il bastoncino più elevato nel diagramma a bastoncini Nel caso di X continuo con modalità che sono intervalli : - (^) Se gli intervalli sono di ampiezza differente la frequenza è influenzata dall’ampiezza degli intervalli più e ampio l’intervallo più è facile che vi cadano dentro dei casi => è necessario quindi usare la densità di frequenza INTERVALLO MODALE = quello a cui è associata la densità più elevata fra le k osservate —> è convenzione diffusa far coincidere la moda x0 con il valore centrale dell’intervallo modale Talvolta la variabile statistica si presenta con più di una moda => si parla in tal caso di fenomeno bi-modale - MEDIANA (sui fenomeni qualitativi ordinari oppure quantitativi) = si tratta di un'ulteriore sintesi che consiste nell'ordinare le unità di U dalla modalità più piccola x1 alla più grande xk e poi individuare quella che occupa la posizione centrale La mediana di X è la modalità che, nell'ordinamento, occupa la posizione centrale Mediana = x0. La mediana offre un'informazione più raffinata della moda —> il 50% di U manifesta modalità xi ≤ x0.5 e l’altro 50% modalità xi ≥ x0. Si parla di ordinamento e modalità minori di e maggiori di, la mediana x0.5 ha senso ed è calcolabile solo se le modalità xi possono essere ordinate, quindi solo se X è ordinale La mediana x0.5 di X occupa la posizione centrale dividendo U in due gruppi ugualmente numerosi —> in un gruppo stanno le unità che manifestano le modalità non superiori, nell'altro gruppo quelle che manifestano le modalità non inferiori => informazione che x0.5 è in grado di darci circa X Calcolo della mediana : Un metodo generale, che vale qualunque sia la dimensione N della popolazione, si basa sulle frequenze cumulate relative —> su una variabile statistica in forma di tabella, la mediana si calcola in due passi: 1. Si costruisce la distribuzione delle frequenze cumulate relative Φi per tutte le righe della variabile statistica

A questo punto, mettendo insieme tutti i pezzi abbiamo la formula che utilizza le frequenze assolute X0.5 = xl + (0.5 - Φi-1) (xL -xl)/pi Formula alternativa con frequenze relative

- MEDIA ARITMETICA (solo su fenomeni quantitativi) = possiamo costruire il valore medio di sintesi manipolando algebricamente l'intera variabile statistica —> sia le frequenze che le modalità Notazione della media aritmetica —> x sopra segnato / x medio La media è il risultato di una manipolazione algebrica dell'intera variabile statistica Si tratta di moltiplicare ciascuna delle k modalità osservate xi per il numero di volte in cui sono state osservate in U —> ovvero per la loro frequenza Bisogna poi sommare il tutto e infine dividere per il numero N di unità statistiche osservate Se invece delle frequenze assolute, usiamo le frequenze relative pi (che sono già divise per N) si ottiene la media aritmetica direttamente senza dover dividere ulteriormente Proprietà generali della media aritmetica:

  • La media aritmetica è calcolabile per qualunque fenomeno X quantitativo
  • È espressa nella stessa unità di misura con cui X si manifesta su U
  • Ci dà un'informazione sintetica dell'ordine di grandezza di X su U Media ponderata = formula in cui appaiono le modalità xi ponderate con le frequenze e divise per la somma dei pesi della ponderazione (N se si pondera con le fi oppure 1 se si pondera con le pi) A volte il risultato ottenuto applicando una formula di quelle che definiscono la media aritmetica, non è neanche uno dei possibili valori di X osservati Se X è quantitativo continuo e le sue modalità sono intervalli, la media. è in genere calcolata con l'assunto del valore centrale Si costruisce un valore medio di sintesi con lo scopo di sintetizzare in un unico valore un'intera variabile statistica Ci sono tre diverse modalità di sintesi Dobbiamo capire quale è più opportuna Sicuramente basta avere un po' di buon senso —> ci sono casi in cui moda, mediana e media coincidono o sono molto vicine, dando quindi la stessa informazione In altri casi possono dare indicazioni diverse Quando la variabile statistica è varia e complessa un solo valore medio di sintesi in genere non basta La media aritmetica è certamente la sintesi più nota, semplice e naturale, ma non sempre è la migliore per descrivere l'ordine di grandezza e la tendenza del comportamento di X su U

, x0 e x0.5 sono sintesi complementari che descrivono aspetti differenti dei dati Quando moda, mediana e media aritmetica sono differenti fra loro, quindi offrendo ciascuna una propria differente informazione, allora conviene calcolarle e commentarle tutte e tre

APPROFONDIMENTI SUI VALORI MEDI —> come usare le medie più

consapevolmente

Tre criteri noti che possono guidare nella scelta e nella costruzione del valore medio opportuno per sintetizzare una variabile statistica quando X è quantitativo:

- Proprietà formali —> si sceglie il valore medio di sintesi in base alle proprietà di cui esso gode - Ottimizzazione —> sintetizzando la variabile statistica in un unico valore medio si incorre in una perdita di informazioni Quando è possibile esprimere questa perdita con un'opportuna funzione di dati, si può scegliere il valore medio che rende minima questa funzione, quindi il più piccolo possibile Per cui si minimizza la perdita di informazioni e si ottimizza il valore medio - Invariante —> tra le informazioni che vanno perse nel passaggio dalla variabile statistica al valore medio, può sussistere un particolare aspetto di X che è importante mantenere inalterato nella sintesi —> esprimiamo allora questo aspetto con una funzione dei dati scegliendo il valore medio che sintetizza la variabile statistica lasciando invariata questa funzione => media alla Chisini PROPRIETA’ FORMALI Se ciò che interessa del valore medio di sintesi sono le sue proprietà algebrico matematiche, si deve scegliere la media in un insieme chiamato = classe delle medie di potenza —> serie di proprietà per la sintesi statistica di un fenomeno quantitativo di cui solo la media aritmetica fa parte La media aritmetica gode di molte proprietà utili che rappresentano la traduzione in formule di corrispondenti considerazioni di opportunità pratica: - PROPRIETÀ DI INTERNALITÀ = il valore della media aritmetica è sempre compreso fra la più piccola e la più grande delle modalità osservate di X L’internalità è il minimo che si possa richiedere a un valore medio calcolato con lo scopo sintetizzare una variabile statistica La proprietà dell'esternalità è stata per lungo tempo considerata la definizione di valori medio - PROPRIETÀ DI OMOGENEITÀ = se X e Y sono due fenomeni diversi ma collegati fra loro dalla formula Y=aX —> dove a è un numero diverso da 0, si dice che Y è una trasformazione di scala X La media aritmetica di Y si ottiene dalla media aritmetica di X con la stessa identica trasformazione Le trasformazioni di scala sono molto frequenti Quindi l'omogeneità è una proprietà molto utile e non è necessario ricalcolare la media della trasformazione di Y, ma basta applicare la stessa trasformazione alla media di X - PROPRIETÀ ASSOCIATIVA = la media generale di X su U è sempre raggiungibile dai dati aggregati (sulle sottopopolazioni Uj) basta calcolare la media delle medie delle sottopopolazioni Si tratta quindi di usare le medie parziali j al posto delle modalità xi e le numerosità parziali Nj al posto delle frequenze assolute fi - PROPRIETÀ DI LINEARITÀ = se XY sono due fenomeni diversi ma legati dalla formula Y = a + bX con a e b numeri reali qualunque B diverso da zero, si dice che Y è una trasformazione lineare di X La media aritmetica di Y si ottiene dalla media aritmetica di X con la stessa identica trasformazione La media aritmetica è dunque lineare

  • Assume valori postivi quando X si manifesta su U con modalità molteplici e differenti, cioè in caso di variabilità
  • Assume valori positivi e via via più grandi all’aumentare della variabilità => proprietà di un indice di variabilità Costruire un indice con queste proprietà = confrontare fra loro le modalità con cui X si manifesta su U = si ottiene il range —> confrontando la più piccola e la più grande fra le modalità osservate range di X: xmax - xmin Range = misura assoluta di variabilità
  • (^) Vale 0 se la variabile statistica è degenere —> cioè quando X si manifesta con un’unica modalità (sempre la stessa) —> xmax = xmin
  • (^) Assume valori positivi quando X si manifesta con più modalità diverse —> xmax > xmin il valore assunto dal range cresce all’aumentare della differenza fra xmax e xmin —> cioè all’aumentare della variabile di X Il range però è una misura di variabilità grossolana È basato su 2 fra le k modalità osservate ed è molto sensibile alla presenza di valori anomali (quando xmin è estremamente piccola o xmax è troppo grande) Possiamo migliorare la situazione prendendo la differenza fra i due quartili di X —> otteniamo un’altra misura di variabilità = differenza interquartile IQR = x0.75 - x0. Una misura di variabilità più raffinata e meno sensibile agli eventuali valori anomali e che utilizza tutta la variabile statistica (tutte le k coppie di xi e fi) = deviazione standard di X (scarto quadratico medio) => misura di variabilità che si indica con sigma 𝜎 = misura la variabilità di X seguendo un’altra logica —> si confronta ciascuna delle k modalità osservate xi con un unico valore fisso scelto come polo di confronto Ogni modalità osservata xi è confrontata con la media aritmetica che (essendo un valore medio di sintesi dell’intera variabile statistica) funziona bene come polo di confronto La differenza (scarto/deviazione) può risultare positiva o negativa —> però noi abbiamo bisogno che lo scarto sia sempre positivo perché ci interessa la distanza di xi da Per eliminare l’influenza del segno, si considerano gli scarti quadratici —> quindi elevati al quadrato (così che risultino sempre positivi) Gli scarti quadratici vengono poi ponderati con le frequenze (moltiplicati per fi) sommiamo quindi tutti gli scarti ottenuti e ne facciamo una media, dividendo per N Infine si ristabilisce l’ordine di grandezza e l’unità di misura grazie alla radice quadrata 𝜎 misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo valore medio È espressa nella stessa unità di misura con cui rilevato X e in cui è espressa la media Ci dice che X si manifesta su U con valori che in media distano da associando al avalore medio la misura di variabilità riusciamo a dare una descrizione sintetica del comportamento di X su U completa sia dell’ordine di grandezza sia della variabilità Descrizione sintetica di X quantitativo = Il valore di 𝜎 si può ottenere anche da una formula alternativa più veloce:

Utilizzando al definizione o la formula alternativa per calcolare 𝜎 si ottiene lo stesso risultato Il valore di 𝜎 non è confrontabile su diverse variabili statistiche A partire da 𝜎, con trasformazioni algebriche, si definiscono altre due misure di variabilità di X su U:

- Varianza In questo caso l’ordine di grandezza e l’unità di misura sono alterati dall’esponente al quadrato - Devianza => varianza moltiplicata per N Anch’essa non è una buona misura descrittiva della variabilità Inoltre rappresenta un totale e non una media —> non essendo divisa per N, non è mediata su tutta U

Valutazione e confronti di variabilità:

La deviazione standard e la varianza sono misure assolute di variabilità —> influenzate dall’ordine di grandezza e dall’unità di misura con cui X si manifesta su U Di conseguenza non sono né valutabili né confrontabili non può indicare di quanto X sia variabile, né tantomeno se X è più o meno variabile di un altro fenomeno su U o su un’altra popolazione = non è confrontabile Per confrontare la variabilità di X in due diverse popolazioni per stabilire se e dove varia di più e dove meno, o per confrontare la variabilità di X con quella di un altro diverso fenomeno sulla stessa popolazione, stabilendo quale è più variabile, occorre costruire una misura di variabilità relativa => coefficiente di variazione Si costruisce ponendo la deviazione standard 𝜎 a rapporto con la media aritmetica Il cv è un indice puro —> depurato da unità di misura e quindi confrontabile fra fenomeni con diverso ordine di grandezza e diversa unità di misura e fra fenomeni rilevati su popolazioni diverse è inoltre valutabile come percentuale della media Valutare la variabilità di un fenomeno quantitativo serve anche valutare la capacità di sintesi della media aritmetica —> più alta è la variabilità del fenomeno, meno informativa risulta

- Margini della tabella = si trovano frequenze che riguardano i fenomeni X e Y considerati singolarmente e separatamente Frequenze marginali che assumeranno l'indice del fenomeno a cui si riferiscono aggiungendo un punto in sostituzione dell'altro indice riferito all'altro fenomeno —> quindi il punto sostituisce l'indice del fenomeno che marginalmente non è considerato - (^) fi. = frequenze marginali di X - (^) f.j = frequenze marginali di Y => le frequenze marginali si ottengono sommando le frequenze congiunte che stanno sulla stessa riga (per fi.) o sulla stessa colonna (per f.j) Se conosciamo la distribuzione delle frequenze congiunte (quindi all'interno della tabella) conosciamo anche le marginali di entrambi i fenomeni tramite le somme di righe e le somme di colonne Non è possibile però il passaggio contrario Le k coppie xi, fi e le h coppie yj, fj sono due variabili statistiche monovariate => variabili statistiche marginali Quindi è possibile rilevare le conseguenti frequenze marginali relative: DISTRIBUZIONI E FREQUENZE CONDIZIONATE Nella descrizione del comportamento congiunto di una coppia di fenomeni rilevati sulla stessa popolazione, bisogna analizzare il comportamento dell'uno condizionatamente all’altro Fissando l'attenzione sulle singole righe o sulle singole colonne separatamente si costituiscono le variabili statistiche condizionate Y xi —> (Y dato xi) X yj —> (X dato yj) Considerare le righe separatamente significa ridurre l’attenzione dall'intera U di N unità alla sotto- popolazione di fi. Unità che manifestano la modalità xi di X —> in questa sotto-popolazione si guarda il comportamento di Y La variabile statistica condizionata Y xi (che si legge sulla i-esima riga della tabella) descrive il comportamento di Y sulle sole fi. Unità statistiche (omogenee rispetto a X perché manifestano tutta la medesima modalità xi) xi = modalità condizionante Allo stesso modo, considerare le colonne separatamente significa concentrarsi sulla sotto- popolazione di unità statistiche che manifestano la modalità yj di Y e guardare quindi il comportamento di X La variabile statistica condizionata X yj (che si legge sulla j-esima colonna) descrive il comportamento di X sulle sole unità statistiche omogenee rispetto a Y perché manifestano tutte la medesima modalità condizionante yj Avremo tante variabili statistiche condizionate quante sono le possibili modalità condizionanti k variabili condizionate di tipo Y xi (quindi tante quante sono le righe della tabella)

h variabili condizionate di tipo X yj (quindi tante quante sono le colonne della tabella) Sulle variabili statistiche condizionate si costruiscono le frequenze condizionate che vengono chiamate percentuali di riga e percentuali di colonna Le frequenze condizionate sono frequenze relative ottenute dal rapporto fra le frequenze congiunte e la frequenza marginale della modalità con cui si condiziona (quindi quella che sta margine della riga o della colonna su cui si fissa l’attenzione) Le frequenze condizionate (o le percentuali di riga e di colonna) informano sul comportamento di un fenomeno condizionatamente all’altro

- Frequenze condizionate di Y xi (x 100 danno le percentuali di riga) - Frequenze condizionate di X yj (x 100 danno le percentuali di colonna) Le frequenze condizionate servono per analizzare il comportamento dell'esito X o Y condizionatamente al fenomeno Y o X Quando parliamo di variabile statistica o frequenze condizionate o di percentuali di riga di colonna assegniamo un ruolo preciso a ciascuno dei due fenomeni

  • Un fenomeno è condizionante —> anche detto variabile esplicativa (che quindi spiega) Oppure variabile indipendente Oppure è chiamato regressore / predittore
  • L'altro fenomeno è condizionato —> anche detto variabile risposta (perché è la risposta che si ottiene facendo variare la variabile esplicativa) Oppure chiamato variabile dipendente Le variabili statistiche marginali considerano i due fenomeni separatamente —> concentrando l'attenzione su un solo fenomeno senza tener conto del comportamento dell’altro Informando quindi indipendentemente del comportamento di un fenomeno

INDIPENDENZA, CONNESSIONE E ASSOCIAZIONE

Indipendenza: Se fra X e Y non esiste alcuna relazione statistica, si dice che queste sono statisticamente indipendenti Il metodo per stabilire quindi la loro indipendenza consiste nel confrontare le frequenze condizionate (che informano sul comportamento di un fenomeno condizionatamente alle modalità dell’altro) con le frequenze marginali (che invece informano sul comportamento dei due fenomeni indipendentemente l'uno dall'altro, in modo separato) Bisogna tenere conto che le frequenze marginali si riferiscono all'intera U di numerosità N, mentre le frequenze condizionate si riferiscono a sotto-popolazioni di numerosità fi. Il confronto è possibile solo tra frequenze relative Le frequenze condizionate sono già relative, ma quelle marginali relative si devono ottenere da quelle assolute dividendole per N fi./N per X e f.j per Y Se per esempio ci concentriamo sulle righe, quindi sulle k v.s. Condizionate Y xi e tutte le k serie di frequenze condizionate fij/fi. Sono uguali fra loro È uguale alla marginale relativa, significa che Y si comporta alla stessa maniera Quindi il condizionamento delle modalità xi non ha effetto su Y X e Y sono statisticamente indipendenti —> non c'è nessuna relazione statisticamente rilevabile tra X e Y

  • Vicine a 0 = la connessione è bassa —> esiste una relazione debole tra X e Y quindi i due fenomeni sono connessi ma si influenzano poco l’un l’altro
  • All’aumentare di tali differenze si ha connessione sempre più alta —> indica quindi una relazione sempre più forte tra X e Y Si hanno differenze elevate quanto più la tabella teorica si distanzia da quella osservata Quanto più e ampia questa distanza, tanto più i due fenomeni si influenzano sensibilmente e hanno statisticamente molto a che fare tra di loro In una tabella a doppia entrata con k righe e h colonne sono calcolabili k x h differenze (tante quante sono le celle) —> le differenze possono essere positive o negative (però non interessa il segno) —> si eleva al quadrato INDICE DI CONNESSIONE: Nella definizione di chi quadrato appaiono le frequenze teoriche Esiste però una formula alternative che non prevede la costruzione di una tabella apposta per le frequenze teoriche —> quindi calcolabile solo attraverso la tabella osservata: => computazionalmente conveniente INDICE DI CONNESSIONE NORMALIZZATO Bisogna capire l’intensità del valore di chi osservato Il valore assoluto dell’indice non consente la valutazione —> non è interpretabile Il valore di chi quadrato cresce:
    • All’aumentare delle righe e delle colonne della tabella
    • E al crescere di N Quindi in una grande popolazione il valore di chi quadrato è più elevato senza che necessariamente sia più elevata la connessione Serve quindi l’operazione di normalizzazione Normalizzare un indice = trasformarlo in un numero compreso nell’intervallo (0,1), in modo tale che, moltiplicato per 100, diventa una percentuale e diventa facilmente interpretabile L’indie di chi quadrato assume come valore minimo lo 0, si normalizza rapportandolo (quindi dividendo per) al suo valore massimo Il valore massimo di chi quadrato è il valore che l’indice assumerebbe in caso di massima connessione tra i due fenomeni —> in caso di una relazione statistica perfetta in cui è sufficiente conoscere il comportamento di un fenomeno per sapere già tutto del comportamento dell’altro VALORE MASSIMO DEL CHI QUADRATO —> valore pari a N moltiplicato per il più piccolo fra il numero delle righe (k) e il numero delle colonne (h) meno 1 N x min {k-1, h-1}

DIMOSTRAZIONE

Partiamo dalla formula alternativa N e 1 sono costanti, cioè non variano al variare della connessione fra X e Y Concentriamoci sul solo termine Esprimiamo il quadrato al numeratore come prodotto: L’obiettivo `e maggiorare (trovare il massimo). Il massimo delle frequenze congiunte sono le frequenze marginali, per esempio di riga. Allora, sostituendo una fij con fi· si ottiene qualcosa di maggiore. Il denominatore dipende solo da j, dunque portiamo fuori dalla somma: Conclusione: Quindi: Una volta determinato il valore massimo di chi quadrato, siamo pronti per normalizzarlo e interpretarlo INDICE DI CONNESSIONE NORMALIZZATO: