




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
STATISTICA DISPENSA COMPLETA CAP. 1 INTRODUZIONE ALLA STATISTICA CAP. 2 L’INDAGINE STATISTICA CAP.3 I CARATTERI STATISTICI E LA LORO DISTRIBUZIONE CAP. 4 LA DISTRIBUZIONE DI FREQUENZA CAP. 5 LA STATISTICA UNIVARIATA CAP. 6 I CARATTERI QUANTITATIVI CAP. 7 LA SINTESI DEI CARATTERI QUANTITATIVI: IL CONCETTO DI MEDIA E LA MEDIA ARITMETICA CAP. 8 LA SINTESI DEI CARATTERI QUANTITATIVI: LE PROPRIETA’ DELLA MEDIA ARITMETICA CAP. 9 LA SINTESI DEI CARATTERI QUANTITATIVI: LA MEDIA GEOMETRICA CAP. 10 LA SINTESI DEI CARATTERI QUANTITATIVI: LE PROPRIETA’ ED IL CALCOLO DELLA MEDIA GEOMETRICA E DELLE ALTRE MEDIE ANALITICHE CAP. 11 LA SINTESI DEI CARATTERI QUANTITATIVI E QUALITATIVI ORDINABILI: LA MEDIANA CAP. 12 LA SINTESI DEI CARATTERI QUANTITATIVI E QUALITATIVI ORDINABILI: LA MEDIANA PER LE DISTRIBUZIONI IN CLASSI, I QUANTILI E LA MODA PER TUTTI I TIPI DI CARATTERE CAP. 13 LA VARIABILITA’ ASSOLUTA E RELATIVA DEI CARATTERI QUANTITATIVI E GLI INTERVALLI DI VARIAZIONE + capitoli fino al capitolo 42
Tipologia: Dispense
1 / 286
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Indice
La seguente definizione risulta essere molto ben concepita: « La statistica è una metodologia strumentale per l'analisi della realtà allo scopo di trarne leggi e regole generali per obiettivi predefiniti, tutti rientranti nel desiderio della specie umana di razionalizzare le sue conoscenze e le connesse esigenze di sopravvivenza collettiva ». Tale definizione è molto interessante ma anch’essa risulta essere generica. Probabilmente uno statistico potrebbe apprezzare tale definizione nella sua interezza ma uno studente alle prime armi potrebbe avere difficoltà nel cogliere a pieno il suo significato pratico. Una persona a digiuno di statistica potrebbe chiedersi: in che senso «l’analisi della realtà»? Come si analizza la “realtà”? Tentando nella difficile impresa di fornire una definizione il più possibile completa, potremmo dire che « La statistica è una scienza che, attraverso l’uso di metodi matematici, probabilistici e computazionali, cerca di comprendere un fenomeno reale all’interno di un collettivo, attraverso la mera descrizione, quando il collettivo di riferimento può essere analizzato nella sua interezza, o attraverso il metodo induttivo, nel caso in cui si cerchi di trarre conclusioni su un collettivo che può essere analizzato solo in parte ». La definizione appena introdotta cerca di mettere in risalto il fatto che la statistica è composta da due differenti aspetti: la descrizione di un fenomeno riguardante un collettivo osservato completamente e la comprensione di un fenomeno riguardante un collettivo osservato solo in parte. Ma anche in questo caso, uno studente potrebbe chiedersi: “cos’è un fenomeno reale?”, oppure, “cos’è un collettivo? A questo punto risulta evidente che trovare una definizione univoca e onnicomprensiva della statistica è arduo perché nessuna definizione riesce a cogliere, in poche parole, le molteplici facce di questa materia che, da un lato, ha una propria anima teorico-metodologica e, dall'altro, risulta essere strumentale a tutte le altre discipline in svariati settori applicativi.
2. GLI OBIETTIVI DELLA STATISTICA Fermo restando ciò che abbiamo evidenziato nel precedente paragrafo, riguardo alla difficoltà nel provare a circoscrivere la definizione di statistica, lo stesso ragionamento può essere esteso anche ai suoi obiettivi. Volendo cercare di semplificare al massimo il problema, potremmo affermare che l’obiettivo primario della statistica è quello di comprendere i fenomeni reali su determinati collettivi di riferimento. Inoltre, potremmo sicuramente identificare come sub-obiettivo principale quello di permetterci di prendere decisioni migliori e consapevoli in presenza di condizioni di incertezza. In realtà però la statistica non è solo una scienza applicata. Gli aspetti teorici della statistica e lo sviluppo di nuovi metodi, strumenti ed algoritmi sono in continua evoluzione in letteratura e negli istituti di ricerca privati e pubblici. Spesso i non addetti ai lavori confondono la statistica con l’analisi dei dati. Sebbene tra le due discipline ci sia un'ampia intersezione, la seconda presenta connotati molto più tecnici e si focalizza soprattutto sui processi di ispezione, pulizia, trasformazione e modellazione delle informazioni. Altrettanto spesso si confonde la statistica con le “statistiche”. Mentre la statistica è la scienza che abbiamo tentato di definire nel precedente paragrafo, le “statistiche”, nel linguaggio comune, sono i risultati numerici di un processo di sintesi delle informazioni raccolte (ad esempio quando parliamo di “statistiche” riguardanti la popolazione, il reddito, le performance di un'azienda, il mercato azionario, ecc.). La statistica consente, attraverso un metodo di studio scientifico rigoroso, di sintetizzare le informazioni che si rilevano tramite l’osservazione di un fenomeno reale e di estendere induttivamente i risultati a casi più generali. Volendo cercare di enucleare gli obiettivi della statistica in un’ottica tradizionale, dunque, potremmo sicuramente affermare che gli scopi principali sono la sintesi e la generalizzazione. La sintesi consente di semplificare e rendere di più immediata comprensione le informazioni che, in caso contrario, risulterebbero di per sé troppo complesse. La generalizzazione consente, invece, di estendere il risultato dell’analisi effettuata su un gruppo limitato di unità statistiche (campione) ad un’intera collettività di appartenenza (universo di riferimento, collettivo o popolazione). Dunque, la statistica si può idealmente suddividere in un due rami: la statistica descrittiva e l’inferenza statistica. La statistica descrittiva è l’insieme dei metodi orientati a descrivere dettagliatamente un fenomeno attraverso indici di sintesi, di variabilità e di forma, predisponendo i dati raccolti in tabelle e grafici che consentano di
analizzando. In sostanza, l’unità statistica è un’unità elementare sulla quale si vuole rilevare e misurare un certo carattere in relazione ad uno specifico fenomeno reale. Carattere In statistica, le diverse caratteristiche, che sono osservabili su ciascuna unità del collettivo preso in esame, vengono chiamate “caratteri”. A ciascun carattere viene assegnato un criterio di misura che sarà associato ad ogni unità del collettivo. Il modo con cui tale misura si manifesta sull’unità si chiama “modalità”. Dunque, se il carattere preso in considerazione è, ad esempio, il colore dei capelli allora le possibili modalità saranno biondo, moro, rosso, calvo, ecc. Se il carattere, invece, è il voto in italiano allora le possibili modalità saranno espresse da un numero appartenente alla scala dei numeri naturali compresi tra uno e dieci. E, ancora, se il carattere è il giudizio dato ad un professore, allora la modalità saranno, ad esempio, insufficiente, mediocre, sufficiente, discreto, buono, ecc. Da questi esempi appare chiaro che i caratteri possono essere quantitativi e qualitativi. Il campione Il campione è un sottoinsieme della popolazione contenente un certo numero di unità statistiche. Affinché il campione sia utile all’analisi statistica deve essere “rappresentativo” della popolazione di riferimento. Un campione è rappresentativo quando rispecchia la popolazione di riferimento per quanto riguarda la sua composizione. Se ad esempio abbiamo una popolazione con 500 uomini e 500 donne ed estraiamo un campione di 30 unità statistiche che comprende solamente donne, è evidente che il campione non è rappresentativo della popolazione di riferimento perché non comprende alcun uomo. La possibilità di svolgere un’indagine su base campionaria comporta grossi vantaggi sia in termini di costi che in termini di tempi di raccolta ed elaborazione; inoltre consente di raccogliere le informazioni con maggior accuratezza grazie all’uso di personale qualificato. Infatti meno unità statistiche bisogna analizzare e, generalmente, meno personale è necessario per raccogliere i dati. Sul piano teorico-metodologico invece bisogna considerare due notevoli svantaggi: il primo, legato al modo in cui deve essere scelto il campione; il secondo, relativo ai procedimenti da adottare per estendere l’evidenza campionaria alla popolazione. Il primo problema si affronta nella cosiddetta teoria del campionamento mentre il secondo dilemma concerne la cosiddetta inferenza statistica. In contrapposizione alla cosiddetta indagine campionaria vi è la cosiddetta indagine censuaria (o censimento). Quest'ultima rileva i caratteri oggetto di studio su tutta la popolazione di riferimento e non soltanto su un campione. L'indagine censuaria presenta notevoli svantaggi benché possa sembrare una soluzione migliore per l’ottenimento di risultati più accurati. Infatti, oltre ad avere costi molto più elevati e tempi molto lunghi per raccogliere i dati rispetto all’indagine campionaria, molto spesso evidenzia anche una certa imprecisione dovuta all'utilizzo di personale non sempre qualificato, che agisce in maniera spesso non uniforme e spesso presenta molti dati mancanti. Statistica descrittiva La statistica descrittiva è l’insieme dei metodi statistici che hanno l’obiettivo di descrivere un fenomeno reale attraverso le informazioni raccolte su un determinato collettivo. Generalmente, le informazioni vengono opportunamente sintetizzate con tabelle, grafici ed indici di sintesi, variabilità e forma. Statistica inferenziale La statistica inferenziale è l’insieme dei metodi statistici che hanno l’obiettivo di estendere il risultato dell’analisi effettuata su un campione all’intera popolazione. L’estensione avviene secondo metodi induttivi e di conseguenze ha forti basi probabilistiche. In sostanza, è evidente che quando si cerca di trarre conclusioni sull'intera popolazione basandosi semplicemente sull'osservazione di un campione, le conclusioni a cui arriviamo non possono mai essere certe al 100% ma, attraverso metodi probabilistici e sotto determinate condizioni, possiamo stimare la probabilità che i nostri risultati siano corretti.
potremmo mai avere la certezza assoluta che, estendendo il risultato all'intera popolazione, questo sia sicuramente corretto. Il ragionamento che viene comunemente effettuato, quando si estendono i risultati all'intera popolazione, contiene sempre un certo margine di errore e dunque deve essere svolto sempre in termini di probabilistici. L'indagine campionaria non è di certo esente da limiti e comporta dei benefici solo quando è effettuata in modo appropriato. Proprio per questa ragione, esiste una branca della statistica chiamata “teoria del campionamento” che si occupa degli studi metodologici e applicativi sugli aspetti già menzionati. Un campione è un sottoinsieme della popolazione contenente un certo numero di unità statistiche. Affinché il campione sia utile all’analisi statistica deve essere “rappresentativo” della popolazione, cioè deve “riprodurre” tutte le caratteristiche della popolazione, assomigliando il più possibile alla popolazione di riferimento. Questo requisito della “rappresentatività” è determinante al fine di ottenere risultati soddisfacenti da un'indagine statistica. Se un campione non è rappresentativo perché, ad esempio, non contiene tutti gli strati della popolazione di riferimento, l'indagine statistica non sarà accurata (se non per effetto del caso). Se, ad esempio, si conduce un'indagine all'interno di una grande azienda per valutare la soddisfazione dei dipendenti sul luogo di lavoro, e la popolazione è composta da persone di diverse etnie, un campione che non contenga tutte le etnie presenti nella popolazione, rispettandone in buona parte le proporzioni presenti nella popolazione, risulterà essere poco rappresentativo della popolazione di riferimento. La possibilità di svolgere un’indagine su base campionaria comporta grossi vantaggi sia in termini di costi che in termini di tempi di raccolta ed elaborazione dei dati; inoltre consente di raccogliere le informazioni con maggior accuratezza grazie all’uso di personale più qualificato (è più facile “addestrare” poche persone alla raccolta dati) e/o di tecniche specialistiche. Mentre in alcuni casi possiamo discutere i vantaggi e gli svantaggi di utilizzare il censimento o l'indagine campionaria, in alcune circostanze specifiche, l'indagine campionaria è indispensabile. Infatti, la popolazione di riferimento può essere sia finita che infinita. Una popolazione statistica si dice finita quando è composta da un numero finito di unità statistiche e dunque, tecnicamente, possiamo costruire una lista con tutte le unità statistiche presenti, dalla quale possiamo estrarre un campione. Una popolazione statistica, invece, si dice infinita quando è composta da un numero potenzialmente infinito di unità statistiche che, in un determinato istante di tempo, potrebbero anche non esistere (del tutto o in parte) fisicamente. Si pensi, ad esempio, allo svolgimento di un'indagine statistica sul lavoro “nero” (sommerso o irregolare) in Italia. A prescindere dal fatto che si conoscano o meno le unità statistiche che attualmente lavorino in nero, la popolazione delle persone che lavorano in maniera irregolare in Italia è in continua evoluzione, e se anche creassimo una lista oggi, domani potrebbe essere differente. In questi casi la scelta di svolgere un'indagine campionaria è decisamente più razionale rispetto all’ipotesi di cercare di individuare tutte le unità statistiche presenti nella popolazione e svolgere un censimento. Un'altra classificazione dell’indagine statistica può basarsi sulla frequenza e la ripetizione nel tempo della raccolta dati. Fondamentalmente si possono distinguere quattro tipologie di indagine statistica: le indagini occasionali, le indagini ripetute, le indagini longitudinali senza rotazione, ed infine, le indagini longitudinali con rotazione:
campione in occasioni specifiche. In questo modo è anche possibile mantenere il campione stesso rappresentativo della popolazione perché si tiene conto che, nel corso del tempo, il collettivo di interesse si potrebbe modificare con l’ingresso di nuove unità.
2. LE FASI DELL’INDAGINE STATISTICA Dall'analisi di diversi testi di statistica di base si può facilmente notare come ognuno fornisca un elenco più o meno diverso di quale sia il numero totale delle fasi di un'indagine statistica. Tuttavia, nella sostanza, tutti gli studiosi concordano sul contenuto tipico delle fasi salienti di un'indagine statistica [1, 2].
elementari. Gli errori non campionari possono essere “sistematici” quando sono dovuti a difetti strutturali del processo di produzione dell'informazione. Gli errori non campionari vengono invece chiamati “casuali” quando la loro origine è da attribuirsi a fattori non direttamente individuabili.
ogni strato di riferimento. Si pensi, ad esempio, ad un'indagine condotta per studiare i voti dei ragazzi iscritti all'università. È possibile pensare che la popolazione dei ragazzi debba essere stratificata in base all'anno di iscrizione. Si procederà dunque ad estrarre un certo numero di individui iscritti al primo anno, al secondo anno, ed infine il terzo anno. Alla fine, otterremo un campione rappresentativo perché questo comprende ragazzi iscritti a tutti gli anni di corso. Naturalmente questo è un esempio molto semplice per facilitare la comprensione ma, in casi concreti, potrebbe essere necessario anche considerare altre caratteristiche come sesso, estrazione sociale, ecc. Quando le estrazioni all'interno di ogni strato vengono effettuate in modo da r ispettare il più possibile le proporzioni all'interno della popolazione, si parla di “campionamento stratificato proporzionale”.
Indice
trovare un'infinità di possibili modalità intermedie perché il numero di cifre decimali è potenzialmente infinito. Ad ogni modo, nella vita di tutti i giorni, non osserveremo mai al telegiornale o su un sito web una temperatura con tre o più cifre decimali. Per convenzione, generalmente, la temperatura viene espressa sempre con sola una cifra decimale. Ne consegue che questo tipo di variabile, benché per natura, sia una variabile continua, viene trattata come una variabile discreta. Quando uno studente vuole capire se una variabile è discreta o continua deve sempre far riferimento alla natura intrinseca del carattere. Anche i caratteri qualitativi (mutabili) si dividono in due tipologie:
X 1 X 2 X 3 … Xj … XC U 1 x11 x12 x13 x1j x1C U 2 x21 x22 x23 x2j x2C U 3 x31 x33 x33 x3j x3C Ui xi1 xi2 xi3 xij xiC UN xN1 xN2 xN3 xNj xNC Tabella 1. Tabella generica ( i indica l’ i - esima riga e j indica la j - esima colonna). Per facilitare la comprensione, affiancheremo alla tabella generica, un’altra tabella con un esempio pratico. La Tabella 2, di seguito, sarà indicata come la “tabella dei dati”. Sesso Titolo di Studio Peso Altezza Età Fabrizio MASCHIO DOTTORATO 80 185 30 Alessandro MASCHIO LAUREA 80 180 26 Anna FEMMINA LAUREA 60 165 25 Paola FEMMINA SCUOLA SECONDARIA DI II GRADO 62 170 19 Aurora FEMMINA SCUOLA SECONDARIA DI II GRADO 55 163 18 Carlo MASCHIO SCUOLA SECONDARIA DI II GRADO 71 174 18 Antonio MASCHIO SCUOLA SECONDARIA DI I GRADO 65 171 14
Bisogna notare che il numero delle modalità può essere diverso dal numero di unità statistiche che invece, in questo caso, è N =7. Questo accade semplicemente perché due unità statistiche presentano la stessa modalità (18 anni). E’ importante distinguere il concetto di “modalità” da quello di “osservazione”. Nell’esempio dell’età, abbiamo K =6 modalità, ma ci sono N =7 osservazioni, una per ogni unità statistica. Le osservazioni del carattere età sono 14, 18, 18, 19, 25, 26 e 30. Bisogna notare che, in termini generici, le modalità sono x 1 , x 2 , …, xK (vanno da 1 a K ) mentre le osservazioni, sempre in termini generici, sono x 1 , x 2 , …, xN (vanno da 1 ad N ). Questa precisazione è importante per comprendere il significato dei pedici delle sommatorie e delle produttorie che verranno utilizzati nelle formule che verranno presentate in seguito. Una distribuzione di un carattere X che si presenta nella forma x 1 , x 2 ,…, xN, ovvero semplicemente come l’insieme delle osservazioni del carattere, viene comunemente chiamata distribuzione semplice o distribuzione unitaria [2]. Questa locuzione naturalmente richiama la circostanza che ogni osservazione si ripete solo una volta. Nel caso dell’esempio dell’età abbiamo 14, 18, 18, 19, 25, 26 e 30. Ogni valore si ripete una volta. Se volessimo accorpare le osservazioni identiche e rappresentare la distribuzione del carattere età in modo più sintetico e compatto, allora potremmo osservare che il 18 si ripete due volte. Lo strumento che viene utilizzato a tal fine è la distribuzione di frequenza che è una semplice tabella che ha sulle righe le modalità del carattere X e sulle colonne le cosiddette frequenze. Ci sono diverse tipologie di frequenze. Le più semplici sono sicuramente le frequenze assolute che si indicano con ni. La presenza del pedice i sta ad indicare che ad ogni modalità xi del carattere X, corrisponde una frequenza assoluta ni. La frequenza assoluta ni indica il numero di unità statistiche la cui misura del carattere X è data dalla modalità xi. Nel nostro esempio, la modalità 18 del carattere età, ha una frequenza assoluta pari a 2 perché ci sono 2 unità statistiche che hanno 18 anni. Volendo rappresentare la distribuzione di frequenza del carattere età, otterremmo la Tabella 3. Naturalmente, la somma delle frequenze assolute di tutte le modalità del carattere X è pari ad N, perché abbiamo un’osservazione per ciascuna unità statistica. Tabella 3. Distribuzione di frequenza del carattere età. Normalmente, nelle colonne si inseriscono soltanto i numeri o attributi corrispondenti alle specifiche modalità e frequenze assolute. In questa tabella, invece, sono visibili anche le modalità e le frequenze con i rispettivi pedici X (età) ni x 1 =14 n 1 = x 2 =18 n 2 = x 3 =19 n 3 = x 4 =25 n 4 = x 6 =26 n 5 = x 7 =30 n 6 = N=
per far comprendere al lettore che c’è una precisa corrispondenza. In questo caso, ad esempio, la modalità 18 è la seconda modalità del carattere X, per questa ragione è indicata con x 2 e la frequenza assoluta corrispondente n 2 è pari a 2 unità statistiche. Naturalmente, la Tabella 3 ha solo uno scopo didattico; infatti, nelle applicazioni reali, osserveremo solamente una tabella come segue: Tabella 4. Distribuzione di frequenza del carattere età.
3. LA DISTRIBUZIONE CONGIUNTA E LA STATISTICA MULTIVARIATA Quando siamo interessati ad osservare due colonne della tabella dei dati, cioè due caratteri, ad esempio l'età e l’altezza, e ci concentriamo sulla cosiddetta distribuzione congiunta di queste due variabili all'interno del collettivo, siamo nel contesto della cosiddetta statistica bivariata. Di conseguenza, possiamo definire la statistica bivariata come la branca della statistica che si occupa di studiare la distribuzione congiunta di due caratteri statistici all'interno della popolazione. Quando siamo interessati alla distribuzione di due caratteri, che siano quantitativi o qualitativi, l'interesse cade su due concetti fondamentali della statistica applicata, cioè associazione e dipendenza. Quando lavoriamo nel contesto della statistica bivariata generalmente i due caratteri vengono indicati con X e Y e, sostanzialmente, vogliamo cercare di capire se questi sono direttamente o inversamente proporzionali, oppure indipendenti. Inoltre, quando tra i due caratteri esiste un nesso di causalità, è sempre opportuno e interessante scoprirlo per capire quale dei due caratteri sia la causa e quale sia l'effetto. Sebbene nella statistica tradizionale la seguente locuzione sia stata raramente utilizzata, possiamo dire che si parla di statistica trivariata quando ci concentriamo sullo studio di tre variabili contemporaneamente. In genere, l’obiettivo è cercare di comprendere le relazioni complesse che ci sono tra queste perché, soprattutto da un punto di vista applicativo, in particolare nei campi medico ed aziendale, è sempre molto interessante scoprire delle relazioni particolari tra tre variabili, come ad esempio, capire che una variabile è in grado di modificare la relazione causa effetto tra altre due variabili. In genere, le tre variabili vengono indicate con X, Y, e Z, dove Z molto spesso viene chiamata variabile di mediazione o di moderazione a seconda del ruolo che ricopre. C'è da evidenziare che questa è una terminologia tipica dell'economia aziendale mentre, per studiare questo tipo di relazioni in altri ambiti, molto spesso si utilizza una terminologia differente (in campo medico infatti ad esempio si parla di modificatore di effetto, di confondenti, ecc.). Tornando ad una terminologia più consona alla statistica classica, possiamo certamente affermare che, quando prendiamo in considerazione più di due variabili in contemporanea e quindi più di due colonne del dataset mostrato in Tabella 2, siamo nell'ambito della cosiddetta statistica multivariata. Naturalmente, l'oggetto di interesse saranno le relazioni complesse che esistono tra tutte le variabili quantitative e qualitative, considerando le distribuzioni congiunte di più variabili in contemporanea. La statistica multivariata, generalmente, è argomento dei corsi di statistica avanzata in quanto richiede delle solide conoscenze di statistica di base e probabilità.
Indice
Tabella 1. Distribuzione di frequenza di un generico carattere X. Nella prima colonna abbiamo le modalità di un generico carattere X. È possibile osservare che le modalità vanno da 1 a K , e non da 1 ad N , perché il numero delle modalità di un carattere può anche essere diverso dal numero di unità statistiche. L'unico caso in cui K coincide con N , è quando ogni unità statistica della popolazione possiede una misura diversa del carattere. La seconda colonna della Tabella 1 è composta dalle frequenze assolute , cioè il numero esatto di unita statistiche che possiede quella specifica modalità del carattere X. La generica frequenza assoluta viene indicata con ni , perché come per tutti gli altri tipi di frequenze, ogni i - esima frequenza è associata all’ i esima modalità del caratte. La terza colonna contiene le cosiddette frequenze relative. La generica frequenza relativa è data dal rapporto tra la generica frequenza assoluta ed il numero degli elementi che compongono il collettivo: . Siccome sappiamo che , cioè che la somma di tutte le frequenze assolute associate a tutte le modalità di carattere è uguale al totale del collettivo, allora è evidente che ogni frequenza assoluta è sicuramente un numero inferiore o al massimo uguale ad N Per questa ragione ogni frequenza relativa sarà sicuramente un numero compreso tra zero ed uno, estremi inclusi, cioè: . Di conseguenza, la somma di tutte le frequenze relative sarà sicuramente pari ad uno perché ognuna è semplicemente una porzione dell'unità^1 : . La quarta colonna della Tabella 1 è composta dalle cosiddette frequenze percentuali pi. Le frequenze percentuali sono molto più intuitive delle frequenze relative perché siamo abituati fin da piccoli a ragionare in termini di percentuali. La generica frequenza percentuale della modalità del carattere X è semplicemente data: 𝑝𝑖. Valgono gli stessi ragionamenti fatti per le frequenze relative e di conseguenza avremo che: ed inoltre, 𝐾𝑖 𝑝𝑖 00.
La quinta, la sesta, e la settima colonna della Tabella 1 contengono le cosiddette frequenze cumulate. In particolare, osserviamo rispettivamente le cosiddette frequenze assolute cumulate, frequenze relative cumulate, ed infine le frequenze percentuali cumulate. La generica frequenza assoluta cumulata si indica con Ni ed è semplicemente data dalla somma delle frequenze assolute fino ad arrivare all’ i - esima, compresa. Di conseguenza, avremo che: N 1 =n 1 N 2 =n 1 +n 2 N 3 =n 1 + n 2 +n 3 … Ni=n 1 + n 2 +…+ni … Nk=n 1 + n 2 +…+ni +…+nk=N Il significato della frequenza assoluta cumulata è molto semplice. Esso rappresenta il numero di unità statistiche che posseggono un valore del carattere minore o uguale a quello della modalità i - esima. Ad esempio, la frequenza assoluta cumulata della terza modalità del carattere X, che indicheremo con N 3 , ci fornisce semplicemente il numero totale di unità statistiche che hanno come modalità del carattere un valore che sia minore o uguale a x 3. Le frequenze relative cumulate Fi sono invece le cumulate delle frequenze relative fi. Di conseguenza, si calcolano semplicemente facendo la somma delle frequenze relative fino alla modalità i : F 1 =f 1 F 2 =f 1 +f 2 F 3 =f 1 + f 2 +f 3 … Fi=f 1 + f 2 +…+fi … Fk=f 1 + f 2 +…+fi +…+fk= Lo stesso discorso vale per le frequenze percentuali cumulate , infatti avremo che: P 1 =p 1 P 2 =p 1 +p 2 P 3 =p 1 + p 2 +p 3 … Pi=p 1 + p 2 +…+pi … Pk=p 1 + p 2 +…+pi +…+pk= Il significato delle percentuali cumulate è molto interessante e di immediata applicazione. Infatti, se prendiamo, ad esempio, la percentuale cumulata della terza modalità P 3 , avremo esattamente la percentuale della popolazione che possiede un valore del carattere minore o uguale alla terza modalità del carattere. Questo tipo