Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


STATISTICA DISPENSA COMPLETA, Dispense di Statistica

STATISTICA DISPENSA COMPLETA CAP. 1 INTRODUZIONE ALLA STATISTICA CAP. 2 L’INDAGINE STATISTICA CAP.3 I CARATTERI STATISTICI E LA LORO DISTRIBUZIONE CAP. 4 LA DISTRIBUZIONE DI FREQUENZA CAP. 5 LA STATISTICA UNIVARIATA CAP. 6 I CARATTERI QUANTITATIVI CAP. 7 LA SINTESI DEI CARATTERI QUANTITATIVI: IL CONCETTO DI MEDIA E LA MEDIA ARITMETICA CAP. 8 LA SINTESI DEI CARATTERI QUANTITATIVI: LE PROPRIETA’ DELLA MEDIA ARITMETICA CAP. 9 LA SINTESI DEI CARATTERI QUANTITATIVI: LA MEDIA GEOMETRICA CAP. 10 LA SINTESI DEI CARATTERI QUANTITATIVI: LE PROPRIETA’ ED IL CALCOLO DELLA MEDIA GEOMETRICA E DELLE ALTRE MEDIE ANALITICHE CAP. 11 LA SINTESI DEI CARATTERI QUANTITATIVI E QUALITATIVI ORDINABILI: LA MEDIANA CAP. 12 LA SINTESI DEI CARATTERI QUANTITATIVI E QUALITATIVI ORDINABILI: LA MEDIANA PER LE DISTRIBUZIONI IN CLASSI, I QUANTILI E LA MODA PER TUTTI I TIPI DI CARATTERE CAP. 13 LA VARIABILITA’ ASSOLUTA E RELATIVA DEI CARATTERI QUANTITATIVI E GLI INTERVALLI DI VARIAZIONE + capitoli fino al capitolo 42

Tipologia: Dispense

2024/2025

In vendita dal 11/02/2025

jessica-dunder
jessica-dunder 🇮🇹

4.6

(8)

17 documenti

1 / 286

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
CAP.1 INTRODUZIONE ALLA STATISTICA
Indice
1. DEFINIZIONE DI “STATISTICA”
2. GLI OBIETTIVI DELLA STATISTICA
3. L’UTILITÀ DELLA STATISTICA COME STRUMENTO DI SUPPORTO ALLE ALTRE DISCIPLINE
4. I CONCETTI FONDAMENTALI ED IL LINGUAGGIO TECNICO NEL MONDO DELLA STATISTICA - IL FENOMENO REALE
1. DEFINIZIONE DI STATISTICA
Prima di addentrarci nei dettagli tecnici della materia, la prima domanda che dovremmo porci riguarda
l'etimologia della parola “statistica”. L'etimologia di questo termine deriva dal vocabolo italiano “stato” perché
le prime informazioni sui fenomeni reali sono state originariamente raccolte ed organizzate ad opera degli
organismi statali, i quali erano anche i principali utilizzatori di queste informazioni. Esistono anche altre opinioni
riguardo l’origine della parola “statistica” ma quella sopraindicata risulta essere sicuramente la più accreditata.
Un altro aspetto fondamentale che bisogna cercare di chiarire prima di avventurarci in questa materia, è quello
di cercare di comprendere che cosa sia esattamente la “statistica”. Come vedremo in questo paragrafo, la
stessa definizione di statistica” non è affatto banale perché questa materia ha molteplici facce e di
conseguenza risulta molto difficile circoscrivere la stessa in una semplice definizione, per sua natura, sintetica.
Sfogliando i libri di testo o effettuando una semplice ricerca su internet, sarà subito evidente che non esiste una
definizione univoca. Qualunque definizione volessimo prendere come riferimento, sarebbe sempre molto riduttiva
o generale. La ragione di questa difficoltà nel trovare una definizione onnicomprensiva di questa materia è che
essa opera, a diversi livelli, in tutti i settori della società odierna. La cosa più banale che potremmo fare potrebbe
essere cercare una definizione di “statistica” nel World Wide Web (WWW) e prendere, ad esempio, quella che
appare su Wikipedia. Possiamo leggere sul sito web che «la statistica è una disciplina che ha come fine lo studio
quantitativo e qualitativo di un particolare fenomeno collettivo in condizioni di incertezza o non determinismo,
cioè di non completa conosce nza di esso o di una sua parte». Da un lato, è sicuramente da apprezzare l’uso di
alcuni elementi, quali l’utilizzo di un linguaggio tecnico tipico della materia; infatti, si parla di “fenomeno
collettivo” e si cerca anche di essere il più possibile dettagliati nell'evidenziare che i dati a disposizione possono
essere sia “quantitativi” che “qualitativi”. Ad ogni modo, questa definizione non può essere condivisibile per il
semplice fatto che sembrerebbe che il requisito di «…incertezza o non determinismo…» sia condizione necessaria
per utilizzare la statistica.
In realtà, sebbene la statistica si possa utilizzare in molti contesti in cui si è in presenza di condizioni di incertezza o
di non determinismo, vi sono anche moltissimi casi in cui i metodi statistici si utilizzano semplicemente per
analizzare dei fenomeni in un gruppo limitato di unità statistiche e non si ravvisa nessuna incertezza a riguardo.
Basti pensare al caso in cui ci concentriamo sugli indicatori delle performance di un gruppo di aziende ben
definito, analizzate in un preciso intervallo di tempo, senza l’obiettivo di generalizzare i risultati. Oppure, basti
pensare alle statistiche elaborate al termine di una partita di calcio o di tennis. Le cosiddette “statistiche
vengono calcolate utilizzando metodi statistici, ma non si ravvisa alcuna incertezza a riguardo.
Dunque, tralasciando le definizioni che possiamo trovare agevolmente online, proviamo a focalizzarci sulle
definizioni contenute in alcuni libri di testo. Ad esempio, la statistica può essere definita come «…una scienza che,
basandosi su un metodo rigoroso, raccoglie informazioni, le elabora, le analizza e guida alla presa di decisioni…».
La definizione introdotta è sicuramente corretta ed inattaccabile, nel senso che non si ravvisano inesattezze
come nella definizione introdotta in precedenza. In realtà però quest’ultima definizione risulta essere molto
generica. Che si intende per «metodo rigoroso»? Quando si parla di «informazioni», a che tipo di informazioni ci si
riferisce?
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica STATISTICA DISPENSA COMPLETA e più Dispense in PDF di Statistica solo su Docsity!

STATISTICA

CAP.1 INTRODUZIONE ALLA STATISTICA

Indice

  1. DEFINIZIONE DI “STATISTICA”
  2. GLI OBIETTIVI DELLA STATISTICA
  3. L’UTILITÀ DELLA STATISTICA COME STRUMENTO DI SUPPORTO ALLE ALTRE DISCIPLINE
  4. I CONCETTI FONDAMENTALI ED IL LINGUAGGIO TECNICO NEL MONDO DELLA STATISTICA - IL FENOMENO REALE 1. DEFINIZIONE DI STATISTICA Prima di addentrarci nei dettagli tecnici della materia, la prima domanda che dovremmo porci riguarda l'etimologia della parola “statistica”. L'etimologia di questo termine deriva dal vocabolo italiano “stato” perché le prime informazioni sui fenomeni reali sono state originariamente raccolte ed organizzate ad opera degli organismi statali, i quali erano anche i principali utilizzatori di queste informazioni. Esistono anche altre opinioni riguardo l’origine della parola “statistica” ma quella sopraindicata risulta essere sicuramente la più accreditata. Un altro aspetto fondamentale che bisogna cercare di chiarire prima di avventurarci in questa materia, è quello di cercare di comprendere che cosa sia esattamente la “statistica”. Come vedremo in questo paragrafo, la stessa definizione di “statistica” non è affatto banale perché questa materia ha molteplici facce e di conseguenza risulta molto difficile circoscrivere la stessa in una semplice definizione, per sua natura, sintetica. Sfogliando i libri di testo o effettuando una semplice ricerca su internet, sarà subito evidente che non esiste una definizione univoca. Qualunque definizione volessimo prendere come riferimento, sarebbe sempre molto riduttiva o generale. La ragione di questa difficoltà nel trovare una definizione onnicomprensiva di questa materia è che essa opera, a diversi livelli, in tutti i settori della società odierna. La cosa più banale che potremmo fare potrebbe essere cercare una definizione di “statistica” nel World Wide Web (WWW) e prendere, ad esempio, quella che appare su Wikipedia. Possiamo leggere sul sito web che « la statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno collettivo in condizioni di incertezza o non determinismo, cioè di non completa conoscenza di esso o di una sua parte ». Da un lato, è sicuramente da apprezzare l’uso di alcuni elementi, quali l’utilizzo di un linguaggio tecnico tipico della materia; infatti, si parla di “fenomeno collettivo” e si cerca anche di essere il più possibile dettagliati nell'evidenziare che i dati a disposizione possono essere sia “quantitativi” che “qualitativi”. Ad ogni modo, questa definizione non può essere condivisibile per il semplice fatto che sembrerebbe che il requisito di « …incertezza o non determinismo… » sia condizione necessaria per utilizzare la statistica. In realtà, sebbene la statistica si possa utilizzare in molti contesti in cui si è in presenza di condizioni di incertezza o di non determinismo, vi sono anche moltissimi casi in cui i metodi statistici si utilizzano semplicemente per analizzare dei fenomeni in un gruppo limitato di unità statistiche e non si ravvisa nessuna incertezza a riguardo. Basti pensare al caso in cui ci concentriamo sugli indicatori delle performance di un gruppo di aziende ben definito, analizzate in un preciso intervallo di tempo, senza l’obiettivo di generalizzare i risultati. Oppure, basti pensare alle statistiche elaborate al termine di una partita di calcio o di tennis. Le cosiddette “statistiche” vengono calcolate utilizzando metodi statistici, ma non si ravvisa alcuna incertezza a riguardo. Dunque, tralasciando le definizioni che possiamo trovare agevolmente online, proviamo a focalizzarci sulle definizioni contenute in alcuni libri di testo. Ad esempio, la statistica può essere definita come « …una scienza che, basandosi su un metodo rigoroso, raccoglie informazioni, le elabora, le analizza e guida alla presa di decisioni…». La definizione introdotta è sicuramente corretta ed inattaccabile, nel senso che non si ravvisano inesattezze come nella definizione introdotta in precedenza. In realtà però quest’ultima definizione risulta essere molto generica. Che si intende per «metodo rigoroso»? Quando si parla di «informazioni», a che tipo di informazioni ci si riferisce?

La seguente definizione risulta essere molto ben concepita: « La statistica è una metodologia strumentale per l'analisi della realtà allo scopo di trarne leggi e regole generali per obiettivi predefiniti, tutti rientranti nel desiderio della specie umana di razionalizzare le sue conoscenze e le connesse esigenze di sopravvivenza collettiva ». Tale definizione è molto interessante ma anch’essa risulta essere generica. Probabilmente uno statistico potrebbe apprezzare tale definizione nella sua interezza ma uno studente alle prime armi potrebbe avere difficoltà nel cogliere a pieno il suo significato pratico. Una persona a digiuno di statistica potrebbe chiedersi: in che senso «l’analisi della realtà»? Come si analizza la “realtà”? Tentando nella difficile impresa di fornire una definizione il più possibile completa, potremmo dire che « La statistica è una scienza che, attraverso l’uso di metodi matematici, probabilistici e computazionali, cerca di comprendere un fenomeno reale all’interno di un collettivo, attraverso la mera descrizione, quando il collettivo di riferimento può essere analizzato nella sua interezza, o attraverso il metodo induttivo, nel caso in cui si cerchi di trarre conclusioni su un collettivo che può essere analizzato solo in parte ». La definizione appena introdotta cerca di mettere in risalto il fatto che la statistica è composta da due differenti aspetti: la descrizione di un fenomeno riguardante un collettivo osservato completamente e la comprensione di un fenomeno riguardante un collettivo osservato solo in parte. Ma anche in questo caso, uno studente potrebbe chiedersi: “cos’è un fenomeno reale?”, oppure, “cos’è un collettivo? A questo punto risulta evidente che trovare una definizione univoca e onnicomprensiva della statistica è arduo perché nessuna definizione riesce a cogliere, in poche parole, le molteplici facce di questa materia che, da un lato, ha una propria anima teorico-metodologica e, dall'altro, risulta essere strumentale a tutte le altre discipline in svariati settori applicativi.

2. GLI OBIETTIVI DELLA STATISTICA Fermo restando ciò che abbiamo evidenziato nel precedente paragrafo, riguardo alla difficoltà nel provare a circoscrivere la definizione di statistica, lo stesso ragionamento può essere esteso anche ai suoi obiettivi. Volendo cercare di semplificare al massimo il problema, potremmo affermare che l’obiettivo primario della statistica è quello di comprendere i fenomeni reali su determinati collettivi di riferimento. Inoltre, potremmo sicuramente identificare come sub-obiettivo principale quello di permetterci di prendere decisioni migliori e consapevoli in presenza di condizioni di incertezza. In realtà però la statistica non è solo una scienza applicata. Gli aspetti teorici della statistica e lo sviluppo di nuovi metodi, strumenti ed algoritmi sono in continua evoluzione in letteratura e negli istituti di ricerca privati e pubblici. Spesso i non addetti ai lavori confondono la statistica con l’analisi dei dati. Sebbene tra le due discipline ci sia un'ampia intersezione, la seconda presenta connotati molto più tecnici e si focalizza soprattutto sui processi di ispezione, pulizia, trasformazione e modellazione delle informazioni. Altrettanto spesso si confonde la statistica con le “statistiche”. Mentre la statistica è la scienza che abbiamo tentato di definire nel precedente paragrafo, le “statistiche”, nel linguaggio comune, sono i risultati numerici di un processo di sintesi delle informazioni raccolte (ad esempio quando parliamo di “statistiche” riguardanti la popolazione, il reddito, le performance di un'azienda, il mercato azionario, ecc.). La statistica consente, attraverso un metodo di studio scientifico rigoroso, di sintetizzare le informazioni che si rilevano tramite l’osservazione di un fenomeno reale e di estendere induttivamente i risultati a casi più generali. Volendo cercare di enucleare gli obiettivi della statistica in un’ottica tradizionale, dunque, potremmo sicuramente affermare che gli scopi principali sono la sintesi e la generalizzazione. La sintesi consente di semplificare e rendere di più immediata comprensione le informazioni che, in caso contrario, risulterebbero di per sé troppo complesse. La generalizzazione consente, invece, di estendere il risultato dell’analisi effettuata su un gruppo limitato di unità statistiche (campione) ad un’intera collettività di appartenenza (universo di riferimento, collettivo o popolazione). Dunque, la statistica si può idealmente suddividere in un due rami: la statistica descrittiva e l’inferenza statistica. La statistica descrittiva è l’insieme dei metodi orientati a descrivere dettagliatamente un fenomeno attraverso indici di sintesi, di variabilità e di forma, predisponendo i dati raccolti in tabelle e grafici che consentano di

  • Settore Bancario (es. la cosiddetta « Fraud detection » delle transazioni fatte con carta di credito);
  • Settore giuridico (es. la statistica forense e i relativi test statistici per confermare che le tracce di DNA trovate sulla scena di un crimine appartengano ad un soggetto specifico “oltre ogni ragionevole dubbio”). I campi di applicazione della statistica sono pressoché infiniti in tutte le aree della nostra vita quotidiana. 4. I CONCETTI FONDAMENTALI ED IL LINGUAGGIO TECNICO NEL MONDO DELLA STATISTICA – IL FENOMENO REALE Il fenomeno reale Tutto ciò che ci circonda può essere catalogato come un fenomeno reale: il livello delle vendite di un determinato settore, il livello di soddisfazione degli studenti di un istituto, lo stato di salute di una popolazione, il livello di apprendimento di un gruppo di studenti, ecc. Ogni fenomeno è, infatti, un evento che si manifesta attraverso una serie di caratteristiche specifiche che possono essere “misurate”. Dovendo, tuttavia, valutare un fenomeno reale, si può pensare che il fenomeno sia replicabile sotto determinate condizioni ad un insieme di unità. Un fenomeno reale è quindi un qualunque fenomeno che possa essere indagato e conosciuto su un collettivo statistico. Il collettivo statistico (o popolazione) Un collettivo statistico (o popolazione) è costituito da un insieme di unità aggregabili per una o più caratteristiche. La popolazione statistica può essere sia finita che infinita. Ad esempio, una popolazione è finita se è costituita da un numero finito di unità statistiche, che convenzionalmente si indica con N. Indicheremo, invece, con X un qualsiasi carattere osservato sulle N unità statistiche, mentre con x 1 , x 2 , x 3 ,….,xN denoteremo genericamente il valore assunto dal carattere per le unità 1, 2, 3, …, N. Un esempio di popolazione finita può essere dato da tutte le aziende appartenenti ad un particolare settore produttivo, o da tutti gli studenti iscritti presso una determinata università, o da tutte le famiglie della popolazione italiana, e così via. Invece, una popolazione può essere infinita se è formata da un numero potenzialmente infinito di unità statistiche che in un certo istante possono anche non esistere fisicamente. La popolazione infinita, quindi, è una popolazione ipotetica perché non se ne conosce l'esatta dimensione e dunque non è possibile sapere quali siano tutte le unità statistiche disponibili. Un esempio potrebbe essere quello della popolazione di tutti i pezzi prodotti da un'azienda che comprende sia i pezzi che sono già stati prodotti sia quelli che devono essere realizzati e che quindi non sono attualmente esistenti. Un altro esempio potrebbe essere dato dalle cosiddette popolazioni elusive, come la popolazione degli evasori fiscali che, purtroppo per l'agenzia delle entrate, non è mai completamente nota e sfugge al suo controllo. Si possono fare tantissimi altri esempi come la popolazione delle persone senza fissa dimora oppure la popolazione di mammiferi di una particolare razza in via d’estinzione (in questo caso è più corretto parlare di popolazioni rare). Un elemento che accomuna questi tipi di popolazione è la difficoltà nel creare delle liste con tutte le unità statistiche; infatti, in questi casi, si hanno sempre a disposizione liste parzialmente incomplete o sovrapposte che rendono difficile selezionare dei sottoinsiemi della popolazione che siano rappresentativi della stessa. L’unità statistica Un’unità statistica può essere un oggetto, un soggetto, una famiglia, un territorio, un’azienda, un animale, o un qualsiasi elemento di cui si vogliano acquisire informazioni. Ad esempio, se si decide di indagare sull’altezza degli studenti di un determinato istituto, allora l’unità statistica sarà lo studente, mentre la popolazione di riferimento saranno tutti gli studenti dell’istituto; in questo caso il carattere oggetto di osservazione sarà l’altezza. Se invece si decide di analizzare il reddito delle famiglie italiane, allora l’unità statistica sarà la famiglia, mentre la popolazione sarà l’insieme di tutte le famiglie italiane ed il carattere oggetto di studio sarà il reddito. Ogni unità statistica è identificabile da una serie di caratteristiche utili al fine della valutazione del fenomeno reale che si sta

analizzando. In sostanza, l’unità statistica è un’unità elementare sulla quale si vuole rilevare e misurare un certo carattere in relazione ad uno specifico fenomeno reale. Carattere In statistica, le diverse caratteristiche, che sono osservabili su ciascuna unità del collettivo preso in esame, vengono chiamate “caratteri”. A ciascun carattere viene assegnato un criterio di misura che sarà associato ad ogni unità del collettivo. Il modo con cui tale misura si manifesta sull’unità si chiama “modalità”. Dunque, se il carattere preso in considerazione è, ad esempio, il colore dei capelli allora le possibili modalità saranno biondo, moro, rosso, calvo, ecc. Se il carattere, invece, è il voto in italiano allora le possibili modalità saranno espresse da un numero appartenente alla scala dei numeri naturali compresi tra uno e dieci. E, ancora, se il carattere è il giudizio dato ad un professore, allora la modalità saranno, ad esempio, insufficiente, mediocre, sufficiente, discreto, buono, ecc. Da questi esempi appare chiaro che i caratteri possono essere quantitativi e qualitativi. Il campione Il campione è un sottoinsieme della popolazione contenente un certo numero di unità statistiche. Affinché il campione sia utile all’analisi statistica deve essere “rappresentativo” della popolazione di riferimento. Un campione è rappresentativo quando rispecchia la popolazione di riferimento per quanto riguarda la sua composizione. Se ad esempio abbiamo una popolazione con 500 uomini e 500 donne ed estraiamo un campione di 30 unità statistiche che comprende solamente donne, è evidente che il campione non è rappresentativo della popolazione di riferimento perché non comprende alcun uomo. La possibilità di svolgere un’indagine su base campionaria comporta grossi vantaggi sia in termini di costi che in termini di tempi di raccolta ed elaborazione; inoltre consente di raccogliere le informazioni con maggior accuratezza grazie all’uso di personale qualificato. Infatti meno unità statistiche bisogna analizzare e, generalmente, meno personale è necessario per raccogliere i dati. Sul piano teorico-metodologico invece bisogna considerare due notevoli svantaggi: il primo, legato al modo in cui deve essere scelto il campione; il secondo, relativo ai procedimenti da adottare per estendere l’evidenza campionaria alla popolazione. Il primo problema si affronta nella cosiddetta teoria del campionamento mentre il secondo dilemma concerne la cosiddetta inferenza statistica. In contrapposizione alla cosiddetta indagine campionaria vi è la cosiddetta indagine censuaria (o censimento). Quest'ultima rileva i caratteri oggetto di studio su tutta la popolazione di riferimento e non soltanto su un campione. L'indagine censuaria presenta notevoli svantaggi benché possa sembrare una soluzione migliore per l’ottenimento di risultati più accurati. Infatti, oltre ad avere costi molto più elevati e tempi molto lunghi per raccogliere i dati rispetto all’indagine campionaria, molto spesso evidenzia anche una certa imprecisione dovuta all'utilizzo di personale non sempre qualificato, che agisce in maniera spesso non uniforme e spesso presenta molti dati mancanti. Statistica descrittiva La statistica descrittiva è l’insieme dei metodi statistici che hanno l’obiettivo di descrivere un fenomeno reale attraverso le informazioni raccolte su un determinato collettivo. Generalmente, le informazioni vengono opportunamente sintetizzate con tabelle, grafici ed indici di sintesi, variabilità e forma. Statistica inferenziale La statistica inferenziale è l’insieme dei metodi statistici che hanno l’obiettivo di estendere il risultato dell’analisi effettuata su un campione all’intera popolazione. L’estensione avviene secondo metodi induttivi e di conseguenze ha forti basi probabilistiche. In sostanza, è evidente che quando si cerca di trarre conclusioni sull'intera popolazione basandosi semplicemente sull'osservazione di un campione, le conclusioni a cui arriviamo non possono mai essere certe al 100% ma, attraverso metodi probabilistici e sotto determinate condizioni, possiamo stimare la probabilità che i nostri risultati siano corretti.

potremmo mai avere la certezza assoluta che, estendendo il risultato all'intera popolazione, questo sia sicuramente corretto. Il ragionamento che viene comunemente effettuato, quando si estendono i risultati all'intera popolazione, contiene sempre un certo margine di errore e dunque deve essere svolto sempre in termini di probabilistici. L'indagine campionaria non è di certo esente da limiti e comporta dei benefici solo quando è effettuata in modo appropriato. Proprio per questa ragione, esiste una branca della statistica chiamata “teoria del campionamento” che si occupa degli studi metodologici e applicativi sugli aspetti già menzionati. Un campione è un sottoinsieme della popolazione contenente un certo numero di unità statistiche. Affinché il campione sia utile all’analisi statistica deve essere “rappresentativo” della popolazione, cioè deve “riprodurre” tutte le caratteristiche della popolazione, assomigliando il più possibile alla popolazione di riferimento. Questo requisito della “rappresentatività” è determinante al fine di ottenere risultati soddisfacenti da un'indagine statistica. Se un campione non è rappresentativo perché, ad esempio, non contiene tutti gli strati della popolazione di riferimento, l'indagine statistica non sarà accurata (se non per effetto del caso). Se, ad esempio, si conduce un'indagine all'interno di una grande azienda per valutare la soddisfazione dei dipendenti sul luogo di lavoro, e la popolazione è composta da persone di diverse etnie, un campione che non contenga tutte le etnie presenti nella popolazione, rispettandone in buona parte le proporzioni presenti nella popolazione, risulterà essere poco rappresentativo della popolazione di riferimento. La possibilità di svolgere un’indagine su base campionaria comporta grossi vantaggi sia in termini di costi che in termini di tempi di raccolta ed elaborazione dei dati; inoltre consente di raccogliere le informazioni con maggior accuratezza grazie all’uso di personale più qualificato (è più facile “addestrare” poche persone alla raccolta dati) e/o di tecniche specialistiche. Mentre in alcuni casi possiamo discutere i vantaggi e gli svantaggi di utilizzare il censimento o l'indagine campionaria, in alcune circostanze specifiche, l'indagine campionaria è indispensabile. Infatti, la popolazione di riferimento può essere sia finita che infinita. Una popolazione statistica si dice finita quando è composta da un numero finito di unità statistiche e dunque, tecnicamente, possiamo costruire una lista con tutte le unità statistiche presenti, dalla quale possiamo estrarre un campione. Una popolazione statistica, invece, si dice infinita quando è composta da un numero potenzialmente infinito di unità statistiche che, in un determinato istante di tempo, potrebbero anche non esistere (del tutto o in parte) fisicamente. Si pensi, ad esempio, allo svolgimento di un'indagine statistica sul lavoro “nero” (sommerso o irregolare) in Italia. A prescindere dal fatto che si conoscano o meno le unità statistiche che attualmente lavorino in nero, la popolazione delle persone che lavorano in maniera irregolare in Italia è in continua evoluzione, e se anche creassimo una lista oggi, domani potrebbe essere differente. In questi casi la scelta di svolgere un'indagine campionaria è decisamente più razionale rispetto all’ipotesi di cercare di individuare tutte le unità statistiche presenti nella popolazione e svolgere un censimento. Un'altra classificazione dell’indagine statistica può basarsi sulla frequenza e la ripetizione nel tempo della raccolta dati. Fondamentalmente si possono distinguere quattro tipologie di indagine statistica: le indagini occasionali, le indagini ripetute, le indagini longitudinali senza rotazione, ed infine, le indagini longitudinali con rotazione:

  1. Le indagini occasionali hanno lo scopo di ottenere stime riferite a caratteristiche possedute da una specifica popolazione in un preciso istante di tempo o ad un periodo;
  2. Le indagini ripetute o periodiche sono invece effettuate ad intervalli di tempo predefiniti e dunque non si limitano ad un solo istante di tempo;
  3. Le indagini longitudinali senza rotazione hanno l'obiettivo di seguire un particolare gruppo di unità statistiche nel tempo, in modo da creare un record longitudinale per ogni unità osservata. L’obiettivo è quello di analizzare i cambiamenti intervenuti nel collettivo nel tempo e la popolazione che partecipa all’indagine deve rimanere stabile nel tempo;
  4. Le indagini longitudinali con rotazione sono invece disegnate per seguire un gruppo di unità per un periodo di tempo, con la differenza rispetto alle indagini senza rotazione, che nuove unità possono essere incluse nel

campione in occasioni specifiche. In questo modo è anche possibile mantenere il campione stesso rappresentativo della popolazione perché si tiene conto che, nel corso del tempo, il collettivo di interesse si potrebbe modificare con l’ingresso di nuove unità.

2. LE FASI DELL’INDAGINE STATISTICA Dall'analisi di diversi testi di statistica di base si può facilmente notare come ognuno fornisca un elenco più o meno diverso di quale sia il numero totale delle fasi di un'indagine statistica. Tuttavia, nella sostanza, tutti gli studiosi concordano sul contenuto tipico delle fasi salienti di un'indagine statistica [1, 2].

  1. La prima fase di un’indagine statistica è la “ progettazione. La progettazione di un'indagine statistica è probabilmente la fase più importante perché si definiscono:
    • gli obiettivi della ricerca;
    • le informazioni da ricercare per evitare equivoci definitori;
    • il disegno di indagine;
    • le metodologie e le strategie da utilizzare;
    • i tempi per effettuarla;
    • il territorio di riferimento;
    • il periodo di riferimento dell'indagine. Eventuali errori nella fase di progettazione dell'indagine statistica potrebbero diventare irreparabili nelle fasi successive. Per questa ragione è fondamentale che alla progettazione di un'indagine partecipi un gruppo di esperti di vari domini inerenti al fenomeno oggetto di studio. Sottostimare l'importanza della progettazione è un errore molto comune ed è difficile da sanare successivamente. Per questa ragione è sempre fondamentale la presenza dello statistico che dovrà analizzare i dati ma anche di altri esperti di dominio, come ad esempio medici, infermieri, informatici, biologi, bioinformatici, ecologisti, aziendalisti, economisti, giuristi, ingegneri, imprenditori, ecc. Individuare quale siano le informazioni da ricercare non è affatto banale ed è str ettamente collegato agli obiettivi dell'indagine statistica. Iniziare un'indagine statistica senza aver chiari gli obiettivi specifici può condurre alla raccolta di informazioni irrilevanti o errate rispetto a ciò che si vuole cercare. Inoltre, si corre anche il rischio di non raccogliere informazioni su caratteristiche utili in funzione di possibili obiettivi secondari dell’indagine. Supponiamo, ad esempio, che una casa farmaceutica sia interessata a svolgere un'indagine statistica sull'incidenza dell'Alzheimer negli uomini adulti per sviluppare un nuovo farmaco. Durante l'indagine statistica, di certo, non ci si limiterà a chiedere alle persone se siano malate o meno. Nella fase di progettazione diventa fondamentale capire a priori quale siano le informazioni da raccogliere, come ad esempio età, sesso, etnia, presenza di altre malattie, tipo di alimentazione, abitudine e intensità nel fare attività sportiva, presenza di familiari con la stessa malattia, ecc. Per quanto questo elenco di caratteristiche possa sembrare esaustivo, se dovessimo decidere successivamente che un obiettivo secondario dell'indagine potrebbe essere di capire come cambi l’incidenza della malattia negli adulti a seconda del consumo di caffè, e non avessimo avuto ben chiari questi obiettivi fin dall'inizio, sarebbe troppo per raccogliere i dati necessari da analizzare per poter dare una risposta a tal proposito. Se da un lato è fondamentale che lo statistico partecipi alla progettazione dell'indagine per capire a priori il tipo di dato che andrà ad analizzare, dall'altro è indispensabile la presenza di un medico esperto di Alzheimer per evitare che lo statistico faccia domande errate da un punto di vista medico. Allo stesso tempo bisognerà prestare attenzione ad evitare equivoci definitori. Tenendo presente l’esempio precedente, bisognerebbe chiarire cosa si intenda per “adulto”? Bisognerebbe circoscrivere la popolazione di riferimento e capire chi siano le unità statistiche dell’indagine. Una persona poco esperta potrebbe pensare che le unità statistiche siano sempre gli individui ma, in realtà, le unità statistiche, a seconda del tipo di indagine, potrebbero essere persone, famiglie, aziende, città, mammiferi, ecc. Allo stesso tempo bisognerebbe prestare attenzione alla definizione della malattia. Si dovrà tener conto dello stadio della malattia oppure i dati verranno raccolti semplicemente come dicotomici? Un lavoro congiunto che coinvolga statistici e altri esperti di settore diventa fondamentale per non sprecare tempo e denaro accorgendosi, soltanto in una fase successiva, che la progettazione contiene errari e non considera elementi importanti e necessari per lo studio, come, ad esempio, lo stadio della malattia o i sintomi dettagliati.

elementari. Gli errori non campionari possono essere “sistematici” quando sono dovuti a difetti strutturali del processo di produzione dell'informazione. Gli errori non campionari vengono invece chiamati “casuali” quando la loro origine è da attribuirsi a fattori non direttamente individuabili.

  1. La quarta fase è quella dell’” elaborazione” dei dati, ossia la fase in cui i dati raccolti vengono elaborati con metodi statistici per ricavare da essi le informazioni sul fenomeno oggetto di studio. Vengono ricondotte in questa fase anche le applicazioni degli schemi formali di tipo logico-deduttivo ed inferenziale-induttivo tipici dell'inferenza statistica, per cercare di estendere i risultati osservati a livello campionario all'intera popolazione attraverso ragionamenti probabilistici.
  2. La quinta ed ultima fase dell'indagine statistica è l’“ interpretazione e presentazione ”, ossia la fase in cui, dai risultati ottenuti e sulla base di conoscenze teoriche, viene data risposta e/o giustificazione alle assunzioni fatte sul problema che si sta esaminando e si provvede alla spiegazione ed illustrazione dei risultati ottenuti. Alla luce delle fasi summenzionate per la conduzione di un'indagine statistica, risulta ancor più evidente come un’indagine corretta, dal punto di vista epistemologico e dal punto di vista scientifico, necessita spesso di un pluralità di competenze. Dunque è essenziale, a seconda degli obiettivi dell’indagine, un lavoro coordinato di esperti con diversi background. 3. ALCUNI CENNI SUI TIPI DI CAMPIONAMENTO Affinché un'indagine campionaria sia affidabile ed efficace è necessario che il campione estratto sia “rappresentativo” della popolazione di riferimento. La strategia che viene utilizzata per selezionare una porzione della popolazione da analizzare è denominata “campionamento”. Quando si parla di campionamento la prima distinzione che bisogna effettuare è quella tra campioni “probabilistici” e campioni “non probabilistici”. Quando la procedura di scelta della porzione di popolazione da analizzare per lo studio del fenomeno reale avviene mediante meccanismi di natura aleatoria allora si parla di campioni probabilistici perché possiamo determinare la probabilità di estrarre ogni unità statistica. Questa probabilità può essere sia costante che variabile, a seconda del tipo di campionamento. Quando invece il campione selezionato non è aleatorio, allora si parla di campioni non probabilistici. Per questi ultimi risulta molto difficile esprimere valutazioni inferenziali e quindi estendere i risultati all'intera popolazione. I campionamenti probabilistici più noti e più utilizzati sono il campionamento casuale semplice (con o senza ripetizione), il campionamento stratificato, il campionamento a grappoli, il campionamento sistematico, ed il campionamento a due stadi.
  3. Il campionamento casuale semplice è il naturale punto di partenza per lo studio di tutti gli altri disegni campionari. Data una popolazione di dimensione N , viene estratto un campione di dimensione n in maniera casuale e tutte le unità statistiche della popolazione hanno la stessa probabilità di essere estratte. L'inconveniente principale di questo tipo di campionamento e che si rende necessaria una lista completa ed aggiornata delle unità statistiche presenti nella popolazione. A seconda che un'unità statistica possa essere considerata più volte nel campione o al massimo una volta, allora si parlerà di campionamento “con ripetizione” o campionamento “senza ripetizione”. Naturalmente, in questi due casi, le cosiddette “probabilità di inclusione” delle unità statistiche nel campione saranno diverse.
  4. Il campionamento casuale stratificato invece è un disegno campionario che si utilizza quando la popolazione di riferimento può essere suddivisa in “strati”. Il procedimento è molto semplice perché in ogni strato si effettuerà un campionamento casuale semplice senza ripetizione in modo tale che la somma delle unità estratte in ogni singolo strato sia esattamente uguale ad n. L'obiettivo di utilizzare un piano di campionamento specifico è sempre quello di ottenere un campione più rappresentativo. Quando la popolazione, per sua natura, si può dividere in strati, c'è da aspettarsi che il livello medio del fenomeno di interesse sia molto diverso fra gli strati. Per questa ragione, la ratio di questo tipo di campionamento è estrarre un numero sufficiente di unità statistiche per

ogni strato di riferimento. Si pensi, ad esempio, ad un'indagine condotta per studiare i voti dei ragazzi iscritti all'università. È possibile pensare che la popolazione dei ragazzi debba essere stratificata in base all'anno di iscrizione. Si procederà dunque ad estrarre un certo numero di individui iscritti al primo anno, al secondo anno, ed infine il terzo anno. Alla fine, otterremo un campione rappresentativo perché questo comprende ragazzi iscritti a tutti gli anni di corso. Naturalmente questo è un esempio molto semplice per facilitare la comprensione ma, in casi concreti, potrebbe essere necessario anche considerare altre caratteristiche come sesso, estrazione sociale, ecc. Quando le estrazioni all'interno di ogni strato vengono effettuate in modo da r ispettare il più possibile le proporzioni all'interno della popolazione, si parla di “campionamento stratificato proporzionale”.

  1. Un altro disegno campionario molto utilizzato è il cosiddetto campionamento casuale a grappoli. Quest'ultimo può essere utilizzato quando un insieme di unità statistiche sono contigue rispetto a un criterio logico o naturale in modo tale da poter formare dei gruppi. Una volta che la popolazione è stata suddivisa in grappoli (gruppi) omogenei al loro interno e diversi tra loro, allora si procede ad un campionamento casuale semplice di un numero di gruppi dal totale di tutti i gruppi disponibili. All'interno di ogni gruppo estratto poi si analizzano le unità statistiche presenti. Se si pensa, ad esempio, ad un'indagine statistica svolta all'interno di una scuola, le singole classi potrebbero essere i grappoli. Benché a prima vista questo tipo di disegno campionario possa sembrare simile al campionamento casuale stratificato, vi è un'enorme differenza perché, nel caso del campionamento a grappoli, ciò che viene estratto casualmente è il grappolo e non l'unità statistica, come invece avviene nel campionamento casuale stratificato.
  2. Una variante del campionamento a grappoli è il cosiddetto campionamento a due stadi , nel quale, dopo aver estratto i grappoli, viene utilizzato uno dei campionamenti casuali già menzionati per selezionare soltanto alcune unità statistiche nei grappoli estratti.
  3. Per concludere la rassegna dei campionamenti probabilistici più utilizzati, menzioniamo anche il campionamento casuale sistematico. Il funzionamento è molto semplice perché viene definito un numero intero k , chiamato passo di campionamento, per poi estrarre casualmente la prima unità statistica. Il campione finale sarà composto selezionando dalla popolazione di partenza un’unità statistica ogni k unità presenti nella lista. I campionamenti non probabilistici , a differenza di campionamenti probabilistici dove ogni unità statistica ha una probabilità maggiore di zero di essere inclusa nel campione, sono caratterizzati dal fatto che ammettono la possibilità che alcune unità statistiche abbiano una probabilità pari a zero di essere incluse e quindi non verranno mai sondate. I campionamenti non probabilistici più conosciuti possono dar luogo al “ campione a scelta ragionata ” quando le unità statistiche vengono individuate con criteri logici di autorevolezza o conoscenze specialistiche. Un caso particolare è, ad esempio, il “ campione per testimoni privilegiati ”. Un altro esempio sono i cosiddetti “ campionamenti per quota ” che si hanno quando le unità statistiche vengono scelte dal rilevatore in modo che il campione rispetti delle proporzioni predefinite nella fase di progettazione dell'indagine. Vi sono poi i “ campionamenti volontari ” caratterizzati dal fatto che le unità statistiche decidono autonomamente se far parte del campione oppure no. Quest'ultimo tipo di campionamento è affetto da una forte distorsione nota con come “ self selection bias ”, cioè una circostanza secondo la quale, quelli che si rendono disponibili per far parte dell'indagine, potrebbero avere delle caratteristiche simili e dunque il campione potrebbe non essere rappresentativo dell'intera popolazione. Vi sono, infine, i “ campionamenti a valanga ” caratterizzati dalla peculiarità che si fornisce la possibilità ad alcune unità statistiche dotate di una certa caratteristica di individuare a catena altre unità con la medesima caratteristica.

CAP.3 I CARATTERI STATISTICI E LA LORO DISTRIBUZIONE

Indice

  1. IL CARATTERE STATISTICO
  2. LA DISTRIBUZIONE DI UN CARATTERE STATISTICO E LA SIMBOLOGIA UTILIZZATA
  3. LA DISTRIBUZIONE CONGIUNTA E LA STATISTICA MULTIVARIATA

trovare un'infinità di possibili modalità intermedie perché il numero di cifre decimali è potenzialmente infinito. Ad ogni modo, nella vita di tutti i giorni, non osserveremo mai al telegiornale o su un sito web una temperatura con tre o più cifre decimali. Per convenzione, generalmente, la temperatura viene espressa sempre con sola una cifra decimale. Ne consegue che questo tipo di variabile, benché per natura, sia una variabile continua, viene trattata come una variabile discreta. Quando uno studente vuole capire se una variabile è discreta o continua deve sempre far riferimento alla natura intrinseca del carattere. Anche i caratteri qualitativi (mutabili) si dividono in due tipologie:

  • I caratteri qualitativi sconnessi (o caratteri nominali) sono le mutabili le cui modalità non sono ordinabili (ad esempio religione: cattolica, protestante, ecc..). Naturalmente qualunque carattere binario, cioè dicotomico, che può assumere soltanto due modalità, come ad esempio il superamento di un test le cui modalità possono essere “sì” o “no”, è un particolare tipo di carattere nominale.
  • I caratteri qualitativi ordinabili sono le mutabili le cui modalità possono essere naturalmente ordinate (ad esempio il giudizio su uno studente: insufficiente, mediocre, sufficiente, buono, ottimo). I caratteri qualitativi ordinabili possono essere ulteriormente suddivisi in rettilinei e ciclici. Quelli rettilinei sono caratterizzati dal fatto che l'ordine delle modalità ha una naturale gerarchia, mentre quelli ciclici sono dei caratteri le cui modalità possono essere ordinate ma l’ordine è solo il frutto di una convenzione e non di una gerarchia naturale perché le modalità si ripetono in modo ciclico, come ad esempio i giorni della settimana o i mesi dell'anno. Anche in questo caso vale la pena fare una precisazione sulla terminologia inglese relativa a questi tipi di caratteri. Generalmente, come detto in precedenza, il carattere qualitativo, in inglese, si indica con la locuzione “ categorical variable ”. Bisogna precisare che però quando trattasi di caratteri qualitativi sconnessi, si utilizzano semplicemente le locuzioni “ nominal variable ” quando il carattere ha più di due modalità e “ binary variable ” quando il carattere ha solo due modalità possibili. Quando invece si ha a che fare con caratteri qualitativi ordinabili, questi si indicano semplicemente con il termine “ ordinal variables ”. 2. LA DISTRIBUZIONE DI UN CARATTERE STATISTICO E LA SIMBOLOGIA UTILIZZATA Il punto di partenza di qualsiasi elaborazione statistica è la cosiddetta matrice dei dati. I dati che vengono raccolti durante l'indagine statistica vengono sistemati in una tabella a doppia entrata in cui le righe indicano le unità statistiche e le colonne indicano i diversi caratteri osservati. Supponiamo di avere una popolazione P che è composta da N unità statistiche che indichiamo con U 1 , U 2 , …, Ui,…, UN. La generica unità statistica è l’ i - esima. Supponiamo di osservare C caratteri. Indichiamo con X 1 , X 2 , …, Xj,…, XC i C differenti caratteri osservati. Il generico carattere è il j - esimo. I pedici i e j sono molto importanti e devono indicare rispettivamente le generiche unità ed i generici caratteri osservati perché, come vedremo, tutti gli indici statistici che usano sommatorie e produttorie fanno uso di questi pedici. Avendo definito il significato dei pedici, quando verrà osservato un valore del carattere j su una unità statistica i , questo verrà genericamente indicato con xij. Naturalmente, xij sarà un numero oppure un attributo, nei casi concreti, a seconda che Xj sia una variabile o una mutabile. Bisogna notare che il carattere viene sempre indicato con la lettera maiuscola mentre, per convenzione, le modalità di quel carattere vengono indicate con la lettera minuscola. Naturalmente, al variare di i da 1 ad N , e di j da 1 a C si ottiene il quadro di tutta l’indagine statistica. Esso può essere presentato per mezzo della Tabella 1, detta tabella oggetti-caratteri o anche individui- caratteri. Se i caratteri sono tutti quantitativi la tabella è anche detta oggetti-intensità. Per comodità chiameremo questo “dataset” generico la “Tabella generica”.

X 1 X 2 X 3XjXC U 1 x11 x12 x13 x1j x1C U 2 x21 x22 x23 x2j x2C U 3 x31 x33 x33 x3j x3C Ui xi1 xi2 xi3 xij xiC UN xN1 xN2 xN3 xNj xNC Tabella 1. Tabella generica ( i indica l’ i - esima riga e j indica la j - esima colonna). Per facilitare la comprensione, affiancheremo alla tabella generica, un’altra tabella con un esempio pratico. La Tabella 2, di seguito, sarà indicata come la “tabella dei dati”. Sesso Titolo di Studio Peso Altezza Età Fabrizio MASCHIO DOTTORATO 80 185 30 Alessandro MASCHIO LAUREA 80 180 26 Anna FEMMINA LAUREA 60 165 25 Paola FEMMINA SCUOLA SECONDARIA DI II GRADO 62 170 19 Aurora FEMMINA SCUOLA SECONDARIA DI II GRADO 55 163 18 Carlo MASCHIO SCUOLA SECONDARIA DI II GRADO 71 174 18 Antonio MASCHIO SCUOLA SECONDARIA DI I GRADO 65 171 14

Bisogna notare che il numero delle modalità può essere diverso dal numero di unità statistiche che invece, in questo caso, è N =7. Questo accade semplicemente perché due unità statistiche presentano la stessa modalità (18 anni). E’ importante distinguere il concetto di “modalità” da quello di “osservazione”. Nell’esempio dell’età, abbiamo K =6 modalità, ma ci sono N =7 osservazioni, una per ogni unità statistica. Le osservazioni del carattere età sono 14, 18, 18, 19, 25, 26 e 30. Bisogna notare che, in termini generici, le modalità sono x 1 , x 2 , …, xK (vanno da 1 a K ) mentre le osservazioni, sempre in termini generici, sono x 1 , x 2 , …, xN (vanno da 1 ad N ). Questa precisazione è importante per comprendere il significato dei pedici delle sommatorie e delle produttorie che verranno utilizzati nelle formule che verranno presentate in seguito. Una distribuzione di un carattere X che si presenta nella forma x 1 , x 2 ,…, xN, ovvero semplicemente come l’insieme delle osservazioni del carattere, viene comunemente chiamata distribuzione semplice o distribuzione unitaria [2]. Questa locuzione naturalmente richiama la circostanza che ogni osservazione si ripete solo una volta. Nel caso dell’esempio dell’età abbiamo 14, 18, 18, 19, 25, 26 e 30. Ogni valore si ripete una volta. Se volessimo accorpare le osservazioni identiche e rappresentare la distribuzione del carattere età in modo più sintetico e compatto, allora potremmo osservare che il 18 si ripete due volte. Lo strumento che viene utilizzato a tal fine è la distribuzione di frequenza che è una semplice tabella che ha sulle righe le modalità del carattere X e sulle colonne le cosiddette frequenze. Ci sono diverse tipologie di frequenze. Le più semplici sono sicuramente le frequenze assolute che si indicano con ni. La presenza del pedice i sta ad indicare che ad ogni modalità xi del carattere X, corrisponde una frequenza assoluta ni. La frequenza assoluta ni indica il numero di unità statistiche la cui misura del carattere X è data dalla modalità xi. Nel nostro esempio, la modalità 18 del carattere età, ha una frequenza assoluta pari a 2 perché ci sono 2 unità statistiche che hanno 18 anni. Volendo rappresentare la distribuzione di frequenza del carattere età, otterremmo la Tabella 3. Naturalmente, la somma delle frequenze assolute di tutte le modalità del carattere X è pari ad N, perché abbiamo un’osservazione per ciascuna unità statistica. Tabella 3. Distribuzione di frequenza del carattere età. Normalmente, nelle colonne si inseriscono soltanto i numeri o attributi corrispondenti alle specifiche modalità e frequenze assolute. In questa tabella, invece, sono visibili anche le modalità e le frequenze con i rispettivi pedici X (età) ni x 1 =14 n 1 = x 2 =18 n 2 = x 3 =19 n 3 = x 4 =25 n 4 = x 6 =26 n 5 = x 7 =30 n 6 = N=

per far comprendere al lettore che c’è una precisa corrispondenza. In questo caso, ad esempio, la modalità 18 è la seconda modalità del carattere X, per questa ragione è indicata con x 2 e la frequenza assoluta corrispondente n 2 è pari a 2 unità statistiche. Naturalmente, la Tabella 3 ha solo uno scopo didattico; infatti, nelle applicazioni reali, osserveremo solamente una tabella come segue: Tabella 4. Distribuzione di frequenza del carattere età.

3. LA DISTRIBUZIONE CONGIUNTA E LA STATISTICA MULTIVARIATA Quando siamo interessati ad osservare due colonne della tabella dei dati, cioè due caratteri, ad esempio l'età e l’altezza, e ci concentriamo sulla cosiddetta distribuzione congiunta di queste due variabili all'interno del collettivo, siamo nel contesto della cosiddetta statistica bivariata. Di conseguenza, possiamo definire la statistica bivariata come la branca della statistica che si occupa di studiare la distribuzione congiunta di due caratteri statistici all'interno della popolazione. Quando siamo interessati alla distribuzione di due caratteri, che siano quantitativi o qualitativi, l'interesse cade su due concetti fondamentali della statistica applicata, cioè associazione e dipendenza. Quando lavoriamo nel contesto della statistica bivariata generalmente i due caratteri vengono indicati con X e Y e, sostanzialmente, vogliamo cercare di capire se questi sono direttamente o inversamente proporzionali, oppure indipendenti. Inoltre, quando tra i due caratteri esiste un nesso di causalità, è sempre opportuno e interessante scoprirlo per capire quale dei due caratteri sia la causa e quale sia l'effetto. Sebbene nella statistica tradizionale la seguente locuzione sia stata raramente utilizzata, possiamo dire che si parla di statistica trivariata quando ci concentriamo sullo studio di tre variabili contemporaneamente. In genere, l’obiettivo è cercare di comprendere le relazioni complesse che ci sono tra queste perché, soprattutto da un punto di vista applicativo, in particolare nei campi medico ed aziendale, è sempre molto interessante scoprire delle relazioni particolari tra tre variabili, come ad esempio, capire che una variabile è in grado di modificare la relazione causa effetto tra altre due variabili. In genere, le tre variabili vengono indicate con X, Y, e Z, dove Z molto spesso viene chiamata variabile di mediazione o di moderazione a seconda del ruolo che ricopre. C'è da evidenziare che questa è una terminologia tipica dell'economia aziendale mentre, per studiare questo tipo di relazioni in altri ambiti, molto spesso si utilizza una terminologia differente (in campo medico infatti ad esempio si parla di modificatore di effetto, di confondenti, ecc.). Tornando ad una terminologia più consona alla statistica classica, possiamo certamente affermare che, quando prendiamo in considerazione più di due variabili in contemporanea e quindi più di due colonne del dataset mostrato in Tabella 2, siamo nell'ambito della cosiddetta statistica multivariata. Naturalmente, l'oggetto di interesse saranno le relazioni complesse che esistono tra tutte le variabili quantitative e qualitative, considerando le distribuzioni congiunte di più variabili in contemporanea. La statistica multivariata, generalmente, è argomento dei corsi di statistica avanzata in quanto richiede delle solide conoscenze di statistica di base e probabilità.

CAP. 4 LA DISTRIBUZIONE DI FREQUENZA

Indice

  1. LA DISTRIBUZIONE DI FREQUENZA DI UN CARATTERE QUANTITATIVO Età ni 14 1 18 2 19 1 25 1 26 1 30 1 7

Tabella 1. Distribuzione di frequenza di un generico carattere X. Nella prima colonna abbiamo le modalità di un generico carattere X. È possibile osservare che le modalità vanno da 1 a K , e non da 1 ad N , perché il numero delle modalità di un carattere può anche essere diverso dal numero di unità statistiche. L'unico caso in cui K coincide con N , è quando ogni unità statistica della popolazione possiede una misura diversa del carattere. La seconda colonna della Tabella 1 è composta dalle frequenze assolute , cioè il numero esatto di unita statistiche che possiede quella specifica modalità del carattere X. La generica frequenza assoluta viene indicata con ni , perché come per tutti gli altri tipi di frequenze, ogni i - esima frequenza è associata all’ i esima modalità del caratte. La terza colonna contiene le cosiddette frequenze relative. La generica frequenza relativa è data dal rapporto tra la generica frequenza assoluta ed il numero degli elementi che compongono il collettivo: . Siccome sappiamo che , cioè che la somma di tutte le frequenze assolute associate a tutte le modalità di carattere è uguale al totale del collettivo, allora è evidente che ogni frequenza assoluta è sicuramente un numero inferiore o al massimo uguale ad N Per questa ragione ogni frequenza relativa sarà sicuramente un numero compreso tra zero ed uno, estremi inclusi, cioè: . Di conseguenza, la somma di tutte le frequenze relative sarà sicuramente pari ad uno perché ognuna è semplicemente una porzione dell'unità^1 : . La quarta colonna della Tabella 1 è composta dalle cosiddette frequenze percentuali pi. Le frequenze percentuali sono molto più intuitive delle frequenze relative perché siamo abituati fin da piccoli a ragionare in termini di percentuali. La generica frequenza percentuale della modalità del carattere X è semplicemente data: 𝑝𝑖. Valgono gli stessi ragionamenti fatti per le frequenze relative e di conseguenza avremo che: ed inoltre, 𝐾𝑖 𝑝𝑖 00.

La quinta, la sesta, e la settima colonna della Tabella 1 contengono le cosiddette frequenze cumulate. In particolare, osserviamo rispettivamente le cosiddette frequenze assolute cumulate, frequenze relative cumulate, ed infine le frequenze percentuali cumulate. La generica frequenza assoluta cumulata si indica con Ni ed è semplicemente data dalla somma delle frequenze assolute fino ad arrivare all’ i - esima, compresa. Di conseguenza, avremo che: N 1 =n 1 N 2 =n 1 +n 2 N 3 =n 1 + n 2 +n 3 … Ni=n 1 + n 2 +…+ni … Nk=n 1 + n 2 +…+ni +…+nk=N Il significato della frequenza assoluta cumulata è molto semplice. Esso rappresenta il numero di unità statistiche che posseggono un valore del carattere minore o uguale a quello della modalità i - esima. Ad esempio, la frequenza assoluta cumulata della terza modalità del carattere X, che indicheremo con N 3 , ci fornisce semplicemente il numero totale di unità statistiche che hanno come modalità del carattere un valore che sia minore o uguale a x 3. Le frequenze relative cumulate Fi sono invece le cumulate delle frequenze relative fi. Di conseguenza, si calcolano semplicemente facendo la somma delle frequenze relative fino alla modalità i : F 1 =f 1 F 2 =f 1 +f 2 F 3 =f 1 + f 2 +f 3 … Fi=f 1 + f 2 +…+fi … Fk=f 1 + f 2 +…+fi +…+fk= Lo stesso discorso vale per le frequenze percentuali cumulate , infatti avremo che: P 1 =p 1 P 2 =p 1 +p 2 P 3 =p 1 + p 2 +p 3 … Pi=p 1 + p 2 +…+pi … Pk=p 1 + p 2 +…+pi +…+pk= Il significato delle percentuali cumulate è molto interessante e di immediata applicazione. Infatti, se prendiamo, ad esempio, la percentuale cumulata della terza modalità P 3 , avremo esattamente la percentuale della popolazione che possiede un valore del carattere minore o uguale alla terza modalità del carattere. Questo tipo