Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Discretizzazione delle Variabili Statistiche per Classi: Un Approfondimento - Prof. Rivell, Appunti di Statistica

Appunti presi a lezione di statistica univariata.

Tipologia: Appunti

2020/2021

Caricato il 21/05/2021

martina.romagnoloo
martina.romagnoloo 🇮🇹

4.2

(18)

15 documenti

1 / 100

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DEFINIZIONE, BRANCHE ED ESERCIZI MENTALI
Obiettivi della lezione:!
Comprendere sinteticamente di cosa si occupa la statistica;!
Illustrare gli esercizi mentali da attivare per area di contenuto;!
Fare qualche esempio partendo da dati reali.!
DEFINIZIONE “OMNICOMPRENSIVA” DELLA STATISTICA !
La statistica è un insieme di strumenti di natura logica e matematica probabilistici, che servono a
trattare una grande quantità di dati.con trattare intendiamo il reperimento, la raccolta, l’analisi e
l’interpretazione. !
La “grande quantità di dati” è un punto importante, perché se io immaginassi di avere 30 unità
statistiche potrei costruire anche a mano delle operazioni di conteggio, ma se ne avessi molte di
più sarebbe molto più complicato. Quindi possiamo dire che il “grande” viene definito dal fatto
che le operazioni di conteggio e/o raggruppamento risultano dicili da realizzare a mano. Quindi
quando emerge questa dicolta allora possiamo anche guardare all’insieme degli strumenti
logistici matematici probabilistici per il trattamento dell’insieme di tali dati. !
PRIMA BRANCA !
La prima branca la possiamo individuare con la statistica descrittiva. In questa area rientrano
tutte quelle operazioni che consentono di fare una sintesi delle informazioni che, per esempio,
sono raccolte in un file, relative ad un particolare aggregato di dati. Quindi si fa proprio un’analisi
sintetica, utilizzando tabelle, grafici e indicatori. !
Il file che solitamente si utilizza, anche come primo approccio, è un file Excel. Il file presenta righe
e colonne; in righe ci saranno le informazioni codici relativi alle unita statistiche osservate, mentre
in colonne andremo a raccogliere delle informazioni legate alle variabili statistiche che si
osservano. Questo è il primo file usuale, poi si può procedere con dei software più adeguati a
svolgere analisi statistiche, anche perché excel ha dei limiti in termini di numero di righe e
colonne. Quindi se ci dovessimo trovare con dei numeri molto alti dovremmo utilizzare un altro
strumento, quindi un software più adeguato. !
In questa prima branca, gli esercii mentali sono due: !
L’OPERAZIONE DELL’ENUCLEARE: significa far emergere in modo sintetico la componente
“strutturale” , quindi la componente scheletrica di un fenomeno collettivo. Quindi la componente
che ci consente di avere le coordinate di riferimento più rilevanti nel studio di quel fenomeno
collettivo. Quindi è una componente portante, strutturale o “intrinseca” che è depurata da tutto
quello che è in più, quindi dalla componente accidentale (o residuale). Quindi l’esercizio
enucleare porta a far emergere la struttura, quindi a far emergere quali elementi che
costituiscono lo scheletro di un fenomeno che stiamo studiando. !
L’OPERAZIONE DELL’ASSOCIARE: si inizia ad essere interessati a, non solo trattare e
analizzare i dati, ma siamo interessati anche ad interpretare i risultati. Questo perché l’esercizio
dell’associare consiste nell’andare a spiegare, cioè descrivere, illustrare, come cambia un
fenomeno, provando ad individuare un associazione, un legame con altri fenomeni collettivi.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Discretizzazione delle Variabili Statistiche per Classi: Un Approfondimento - Prof. Rivell e più Appunti in PDF di Statistica solo su Docsity!

DEFINIZIONE, BRANCHE ED ESERCIZI MENTALI

Obiettivi della lezione:

  • Comprendere sinteticamente di cosa si occupa la statistica;
  • Illustrare gli esercizi mentali da attivare per area di contenuto;
  • Fare qualche esempio partendo da dati reali. DEFINIZIONE “OMNICOMPRENSIVA” DELLA STATISTICA La statistica è un insieme di strumenti di natura logica e matematica probabilistici, che servono a trattare una grande quantità di dati.con trattare intendiamo il reperimento, la raccolta, l’analisi e l’interpretazione. La “grande quantità di dati” è un punto importante, perché se io immaginassi di avere 30 unità statistiche potrei costruire anche a mano delle operazioni di conteggio, ma se ne avessi molte di più sarebbe molto più complicato. Quindi possiamo dire che il “grande” viene definito dal fatto che le operazioni di conteggio e/o raggruppamento risultano difficili da realizzare a mano. Quindi quando emerge questa difficolta allora possiamo anche guardare all’insieme degli strumenti logistici matematici probabilistici per il trattamento dell’insieme di tali dati. PRIMA BRANCA La prima branca la possiamo individuare con la statistica descrittiva. In questa area rientrano tutte quelle operazioni che consentono di fare una sintesi delle informazioni che, per esempio, sono raccolte in un file, relative ad un particolare aggregato di dati. Quindi si fa proprio un’analisi sintetica, utilizzando tabelle, grafici e indicatori. Il file che solitamente si utilizza, anche come primo approccio, è un file Excel. Il file presenta righe e colonne; in righe ci saranno le informazioni codici relativi alle unita statistiche osservate, mentre in colonne andremo a raccogliere delle informazioni legate alle variabili statistiche che si osservano. Questo è il primo file usuale, poi si può procedere con dei software più adeguati a svolgere analisi statistiche, anche perché excel ha dei limiti in termini di numero di righe e colonne. Quindi se ci dovessimo trovare con dei numeri molto alti dovremmo utilizzare un altro strumento, quindi un software più adeguato. In questa prima branca, gli esercii mentali sono due:
  • L’OPERAZIONE DELL’ ENUCLEARE : significa far emergere in modo sintetico la componente “strutturale” , quindi la componente scheletrica di un fenomeno collettivo. Quindi la componente che ci consente di avere le coordinate di riferimento più rilevanti nel studio di quel fenomeno collettivo. Quindi è una componente portante, strutturale o “intrinseca” che è depurata da tutto quello che è in più, quindi dalla componente accidentale (o residuale). Quindi l’esercizio enucleare porta a far emergere la struttura, quindi a far emergere quali elementi che costituiscono lo scheletro di un fenomeno che stiamo studiando.
  • L’OPERAZIONE DELL’ ASSOCIARE : si inizia ad essere interessati a, non solo trattare e analizzare i dati, ma siamo interessati anche ad interpretare i risultati. Questo perché l’esercizio dell’associare consiste nell’andare a spiegare, cioè descrivere, illustrare, come cambia un fenomeno, provando ad individuare un associazione, un legame con altri fenomeni collettivi.

Quindi potremmo tentare di individuare una relazione funzionale tra una variabile da spiegare (dipendente, Y) e una “esplicativa” (indipendente, X). Questa funzione identifica una relazione tra il fenomeno Y e il fenomeno X. Quindi se identifichiamo questa relazione, andiamo ad associare un fenomeno osservato sugli individui che chiameremo X, ad un immagine, che chiameremo Y. ESEMPIO DI FILE EXCEL File “Edizioni giro d’Italia”: elenco dei ciclisti che hanno completato l’edizione 2019 del giro d’Italia, per ordine di arrivo. Le informazioni raccolte all’interno di questo file sono:

  • Ordine d’arrivo
  • Nazionalità
  • Nome e cognome
  • Team
  • Tempo di completamento
  • Tempo di distacco da primo arrivato Osserviamo il file di dati. Abbiamo una colonna dedicata all’ordine di arrivo, quindi la posizione in graduatoria rispetto all’ordine con cui si sono collocati concluso i ciclisti. Qui abbiamo 142 ciclisti che hanno concluso il loro giro d’Italia. Poi abbiamo una colonna dedicata al nome e cognome del corridore, una colonna dedicata alla nazionalità del ciclista e una colonna nel quale si esplica il team di appartenenza. Altre colonna è quella del tempo di completamento, importante perché permette di declamare il vincitore. Ovviamente il distacco dal primo parte da un valore di 0.00” in corrispondenza del vincitore. Quest’ultima colonna riporterà valori via via maggiori, tanto più ci si allontana dal rimo classificato, quindi dal primo arrivato. In questo caso, per fare qualsiasi operazione di sintesi è necessario trasformare tutto in un unica unità di misura, in secondi. Faccio questo perché se voglio fare un indicatore sintetico in secondi è difficile farlo con i dati riportati in questa forma (ora, minuti e secondi). In media i corridori hanno completato il loro giro in 334.439,4 secondi, ossia in 92, 89 ore. I dati generali ci dicono che è stato svolto in 21 tappe, per un totale di 3578,8 Km, suddivisi in 3517 Km delle 18 tappe in linea e 59,8 Km delle tre tappe a cronometro individuali. La lunghezza media complessiva è stata di 170,3 Km (superiore a quella della precedente edizioni che è stata do 169,7 Km). Mentre la lunghezza media delle sole tappe in linea è stata di 185,1 Km. Possiamo, anche, interrogarci rispetto alla presenza di corridori di nazionalità extraeuropea. Quindi partendo dalle informazioni riportate sulla colonna “nazionalità”, attraverso un semplice esempio di Excel, vado a vedere quanti sono i corridori di nazionalità europea e quanti sono quelli di nazionalità non europea. Quindi in questo foglio abbiamo inserito una tabellina che mi consente di estrarre un’informazione di natura strutturale su questo collettivo di corridori. In totale di cono 33 ciclisti che hanno una nazionalità extraeuropea, quindi possiamo dire che la percentuale di ciclisti di nazionalità extraeuropea, in questa edizione, è stata pari al 23%, (dato da 33 : 142 x 100). In questo caso:
  • Enucleare: dati della tabella
  • Associare: la buona performance dei corridori dipende dal team di appartenenza??

caratteristiche sociali della famiglia in Italia. Nel 2016 (edizione più recente): campione di 32 mila 585 individui di 18 anni e più distribuiti in 852 comuni italiani di diversa ampiezza demografica. Le interviste sono state effettuate da rilevatori comunali presso l’abitazione dell’individuo campione, estratto casualmente dalle liste anagrafiche del comune. La popolazione di interesse dell’indagine in oggetto, ossia l’insieme delle unità statistiche intorno alle quali si intende investigare, è costituita dalle famiglie residenti in Italia e dagli individui ad esse appartenenti.

COSTRUZIONE DELLA VARIABILE STATISTICA

Obiettivi della lezione:

  • Comprendere come si costruisce una variabile statistica
  • Identificare le numerosità specifiche
  • Illustrare la condizione di normalità La statistica si basa principalmente sull’ osservazione della realtà fenomenica. Ovvero analizza quantitativamente i fenomeni collettivi, ossia i fenomeni il cui studio richiede l’osservazione di un insieme di manifestazioni individuali. L’osservazione riguarda unità di analisi differenti, coinvolte secondo modalità diverse, definite dalla forma della rivelazione scelta (questionario strutturato o non strutturato, tipo di intervista, etc.). Preliminare quindi all’analisi statistica è la rilevazione delle informazioni su ciascuna unità di analisi. Capiamo meglio cosa si intende per rilevazione delle informazioni attraverso un esempio: due classi di liceo, A e B, si ritrovano nella stessa sera e nella stessa trattoria a dieci anni dalla maturità. Ogni compagno di scuola si confronta con la trama di eventi biografici che hanno punteggiato e contraddistinto le vite di ciascuno. Ma gli altri clienti della trattoria vorrebbero identificare in modo distinto il ‘frame’ delle due classi (Da dove venite? Eravate bravi? E ora che fate? E in amore?), e raccolgono quattro informazioni per ogni individuo delle due classi, facendo girare e compilare foglietti fatti come questa scheda (il primo passo è la costruzione del protocollo di rilevazione): IL PROTOCOLLO DI RILEVAZIONE: PASSO NUMERO UNO G —> genere S —> studio E —> entrate mensili in migliaia di euro U —> unioni (carriera sentimentale) Dal protocollo di rilevazione dobbiamo ottenere delle informazioni semplici dal poterle tradurre in variabili statistiche. Il ‘protocollo di rilevazione’: passo numero uno Nome: ………………………………Classe > A @ > B @

G @ Sesso Maschio: Femmina: E @ Performance economica: Entrate mensili in migliaia di euro S @ Titolo di studio:^ _______,____ D : Solo diplomato L : Laureato P : Post-laurea U @ Carriera ‘sentimentale’: Quanti amori? _ 0 _ _ 1 _ _ 2 _ _ 3 _ _ 4+ _ Scheda per la rilevazione

OGNI SINTESI COMPORTA PERDITA DI INFORMAZIONI

Ovviamente ogni sistemi comporta una perdita di informazioni e quindi nella matrice dati, restano impigliati soltanto le informazioni relative ai caratteri da analizzare. Tutte le altre informazioni (nome) si perde. LA RICLASSIFICAZIONE DEI DATI: PASSO NUMERO TRE Ora si tratta di entrare nel “passo numero tre”. Già nel passo numero due avevamo oscurato alcune informazioni, come ad esempio i noi. Ora facciamo un passo avanti e oscuriamo tutte le colonne evidenziate in rosa, per contrarci su una sola colonna, quindi su un solo carattere, che viene osservato sulla popolazione della classe A. Il carattere su cui ci concentriamo è il carattere S, ossia sul titolo di studio. In questo primo modulo esaminiamo gli s t r u m e n t i d i A N A L I S I S TAT I S T I C A MONOVARIATA. Ovvero guardiamo in una popolazione ad un carattere per volta; non mettiamo insieme le osservazioni relative al titolo di studio e le osservazioni relative al genere. Non andiamo a vedere se c’è una prevalenza di ragazze tra coloro che hanno un titolo di studio più elevato rispetto alla laurea, o viceversa. Non mettiamo insieme due caratteri, ne guardiamo uno per volta. Ogni sintesi comporta perdita di informazioni Nella classe A ci sono dieci unità Nella classe B ci sono 15 unità Cognome Nome G S U E Cognome Nome G S U E Bassi Mario M D 3 4,5 Bonfedi Paolo M L 1 2, Campelli Guido M L 0 2,2 Di Polo Luca M P 0 1, Lucioni Fabio M P 2 3,7 Frediani Giulio M L 1 4, Parisi Paolo M D 0 6,8 Rosina Alex M P 1 3, Gatti Luisa F L 4 4,7 Vinci Roberto M L 3 7, Gennai Mara F L 1 4,2 Appiani Laura F D 2 3, Minoli Ester F P 3 1,5 Assaghi Linda F D 2 4, Premoli Sara F P 3 5,0 Fiori Anna F D 2 1, Tacchi Laura F L 2 5,2 Rivellini Giulia F P 1 5, Viesti Rosaria F L 2 7,2 Rizzi Ester F P 1 3, Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare. Ogni altra informazione (per esempio il nome, il cui posto può essere preso da un codice identificativo) si perde. Santi Miriam F L 0 6, Senisi Lucia F L 1 7, Stame Claudia F L 2 2, Tetti Pauline F L 3 3, Trionfi Nicole F L 1 2, Ogni sintesi comporta perdita di informazioni Nella classe A ci sono dieci unità Nella classe B ci sono 15 unità Cognome Nome G S U E Cognome Nome G S U E Bassi Mario M D 3 4,5 Bonfedi Paolo M L 1 2, Campelli Guido M L 0 2,2 Di Polo Luca M P 0 1, Lucioni Fabio M P 2 3,7 Frediani Giulio M L 1 4, Parisi Paolo M D 0 6,8 Rosina Alex M P 1 3, Gatti Luisa F L 4 4,7 Vinci Roberto M L 3 7, Gennai Mara F L 1 4,2 Appiani Laura F D 2 3, Minoli Ester F P 3 1,5 Assaghi Linda F D 2 4, Premoli Sara F P 3 5,0 Fiori Anna F D 2 1, Tacchi Laura F L 2 5,2 Rivellini Giulia F P 1 5, Viesti Rosaria F L 2 7,2 Rizzi Ester F P 1 3, Nella matrice dati restano impigliate solo le informazioni relative ai caratteri da analizzare. Ogni altra informazione (per esempio il nome, il cui posto può essere preso da un codice identificativo) si perde. Santi Miriam F L 0 6, Senisi Lucia F L 1 7, Stame Claudia F L 2 2, Tetti Pauline F L 3 3, Trionfi Nicole F L 1 2, La riclassificazione dei dati: passo numero tre Nella classe A ci sono dieci unità CognomeNome G S U E Bassi Mario M D 3 4, Campelli Guido M L 0 2, Lucioni Fabio M P 2 3, Parisi Paolo M D 0 6, Gatti Luisa F L 4 4, Gennai Mara F L 1 4, Minoli Ester F P 3 1, Premoli Sara F P 3 5, Tacchi Laura F L 2 5, Viesti Rosaria F L 2 7,

Già nel II° passo di sintesi ave-

vamo oscurato alcune informa-

zioni: per esempio i nomi

Ma ora facciamo un passo avanti e

concentriamoci su un solo carattere.

Per esempio il titolo di studio. Oscuriamo

tutte le altre colonne e concentriamo

l’analisi su una sola dimensione.

In questo primo modulo

esamineremo gli strumenti di

ANALISI STATISTICA MONOVARIATA

DALLA MATRICE DATI ALLA SERIE ORDINATA

Trascriviamo, allora, in orizzontale le informazione che sono riportate in quell’unica colonna non oscurata. Quindi passiamo dalla matrice dati alla cosiddetta serie ordinata S, ossia dei titoli di studio osservati sul nostro collettivo. La serie del carattere “titolo di studio”, osservata sulla classe, quindi sulla popolazione A, è rappresentata da: Quindi si scrivono una di seguito all’altro, le manifestazioni del carattere S, osservate sui 10 individui. Si rispetta in generale l’ordine di rilevazione, ecco perché si dice serie ordinata. Quindi avrò la manifestazione del carattere x sul soggetto uno, la manifestazione del carattere x sul soletto 2 fino ad arrivare alla manifestazione del carattere x sul soggetto ennesimo. Le informazioni adesso sono, però, ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. Non potremmo permetterci di scrivere la serie per esteso di mille unità. Quindi si deve fare un’ulteriore sintesi. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’ ) l’ordine (l’unità di tempo di rilevazione) è fondamentale. DALLA MATRICE DATI ALLA VARIABILE STATISTICA La formazione della Variabile Statistica a partire da una serie ordinata implica in sequenza le seguenti operazioni:

  • Individuare tutte le^ modalità (xi) con cui si presenta il carattere —> quindi ci chiediamo, in quanti modi diversi si presenta il “carattere titolo di studio”? C’è il modo D, il modo P e il modo L. Quindi ci sono tre modi con cui si manifesta il carattere S.
  • Elencazione in ordine crescente, se si tratta di misure ordinabili —> in questo caso esiste un ordinamento, prima ci sarà la D, solo diplomato; poi avremo la L, che rappresenta l’unità laureata e infine la P, che rappresenta la persona con un post-laurea.
  • Riclassificazione delle N occorrenze entro le possibili modalità. Quindi effetto il conteggio di quante volte ricorre il carattere “titolo di studio”.
  • Calcolo o conteggio del numero di occorrenze ripetute per ogni modalità (ni) —> osservo che il numero finale è 10, che corrisponde al numero iniziale di unità statistiche. La i identifica l’ordine della modalità. Quindi la x con uno identificherà la prima modalità che è D, la x con due identificherà la seconda modalità che è L ed infine la x con tre identificherà la terza

Dalla matrice dati alla serie ordinata Trascriviamo allora ‘in orizzontale’ le informazioni riportate nella colonna S dei titoli di studio: S = {D, L, P, D, L, L, P, P, L, L} In generale, la successione di modalità osservate di un carattere, rispettando l’ordine di rilevazione, si dice SERIE ORDINATA : X = {x 1 , x 2 , x 3 , .., xN- 2 , xN- 1 , xN} Le informazioni sono ancora esposte per esteso. Se la base-dati fosse fatta non di 10 individui ma di mille ‘unità’, avremmo bisogno di uno sforzo ulteriore di sintesi. E’ ciò che facciamo. Ma attenzione. Con la sintesi ulteriore perderemo l’informazione del- l’ordine della serie. E in certi casi (per es. le ‘serie storiche’ ) l’ordine (l’unità di tempo di rilevazione) è fondamentale. Esempio: serie storica dei tassi di disoccupazione. Invertire il valore del 1999 con quello del 2009 , cambierebbe di molto il trend della serie. Dalla matrice dati alla variabile statistica La formazione della Variabile Statistica a partire da una serie ordinata implica in sequenza le seguenti operazioni: ➢Individuazione di tutte le k modalità (xi) con cui si presenta il carattere ➢Loro elencazione in ordine crescente, se si tratta di misure ordinabili ➢Riclassificazione delle N occorrenze entro le k possibili modalità ➢ Infine, conteggio/calcolo del numero di occorrenze ripetute per ogni modalità (ni). Classificazione del carattere S: Modalità (xi) Occorrenze (ni) D XX 2 L XXXXX 5 P XXX 3 Classificazione del carattere U: Modalità (xi) Occorrenze (ni) 0 XX 2 1 X 1 2 XXX 3 3 XXX 3 4 X 1

Se Somma < N, le modalità potrebbero non essere esaustive (ovvero non coprire il ventaglio di tutte le possibilità). L’espressione “Somma delle numerosità specifiche ni per i che va da i a k”, dove k è il numero delle modalità , si può scrivere in modo più compatto come: Si legge: “somma delle n con i, per i che va da 1 a k, è pari a N” Se Somma < N le modalità potrebbero non essere esaustive (ovv entaglio di tutte le possibilità) L’espressione “Somma delle numerosità specifiche ni per i che (k=numero delle modalità) si può scrivere in modo più compa

=

k i i^

n N

1 Si scrive così e si legge: “somma per i che va da 1 a k, è pari a N”

LE VARIABILI STATISTICHE PER CLASSI

Obiettivi della lezione:

  • Comprendere come si costruisce una variabile statistica anche con esempi;
  • Dare delle indicazioni generali sulle modalità;
  • Illustrare le varie tipologie di caratteri statistici;
  • Passare dalle numerosità specifiche alle frequenze e da quelle semplici alle cumulate. CLASSIFICAZIONE PER INTERVALLI Esempio in cui avevamo i compagni di classi della classe A e B. L’informazione su cui ci concentriamo è l’informazione relativa alla dimensione economica, quindi in base al reddito. Riportiamo la serie ordinata (trascritta per comodità in ordine crescente) delle modalità assunte dal carattere E (entrate mensili in migliaia di euro) per i 10 ex-compagni: S sta per serie. Qui c’è poco da classificare. Ogni modalità si osserva una e una sola volta, per il dettaglio della misura e le poche osservazioni. Per poter sintetizzare le nostre informazioni, e renderle più leggibili, occorre individuare non le singole modalità, ma gli intervalli (classi) di modalità possibili, e catalogare le osservazioni entro di essi. Il primo punto è capire che nella variabile statistica per classi le modalità non sono dei valori singoli ma sono delle classi. Parleremo di intervalli chiusi a dentro o a sinistra, ricordando la simbologia ripresa con i richiami di matematica. Classificazione per intervalli Si riprenda l'esempio dei compagni di classe che si ritrovano in trattoria. Riportiamo la serie ordinata (trascritta per comodità in ordine cresc modalità assunte dal carattere E (entrate mensili in migliaia di euro) p compagni: S = { 1 , 5 ; 2 , 2 ; 3 , 7 ; 4 , 2 ; 4 , 5 ; 4 , 7 ; 5 , 0 ; 5 , 2 ; 6 , 8 ; 7 , 2 } Qui c’è poco da classificare!! Ogni modalità si osserva una e una sola v dettaglio della misura e le poche osservazioni. Per potere sintetizzare le nostre informazioni, e renderle più leggib individuare non le singole modalità, ma degli intervalli (classi) di modalit e catalogare le osservazioni entro di essi. Parleremo di intervalli chiusi a destra o a sinistra, ricordando la s ripresa con i richiami di matematica.

N.B: nella serie questa volta abbiamo usato il ; al posto della virgola, per evita

con la virgola del numero decimale.

ATTENZIONE ALLE CLASSI!

Bisogna fare attenzioni alla classi, perché non c’è un modo unico di costruire le classi di valori. La scelta degli estremi degli intervalli di dare alle classi è demandata, entro certi limiti, all’arbitrio del ricercatore che sta studiando il fenomeno. Sicuramente ci sono due modi per costruire le classi:

  • Il primo modo porta a costruire delle classi equivalenti , classi che hanno la stessa ampiezza.

Ma anche intervalli che hanno un ampiezza crescente, con il crescere delle modalità o in altri modi ancora, a fantasia del ricercatore.

  • Il secondo modo porta a costruire delle classi^ equifrequenti , ossia con la stessa numerosità al

loro interno. CLASSIFICAZIONE DI E IN 3 CLASSI EQUIVALENTI: creiamo 3 classi equivalenti. Prendiamo in riferimento il sottogruppo più semplice, quindi i 10 compagni. Decidiamo di riclassificare il nostro reddito in sole 3 classi. Queste 3 classi devono avere la stessa ampiezza. L’ampiezza di queste 3 classi è pari a 3. Per determinare l’ampiezza si fa l’estremo superiore meno l’estremo inferiore, della classe. Inoltre si è segnato il DELTA con I, ed è il simbolo che identifica l’ampiezza della classe. Il pedice I, identifica la modalità. Quindi l’indice I è associato alle modalità della variabile statistica. Qui abbiamo una variabile statistica che ha 3 classi, quindi 3 modalità. Per le occorrenze si è utilizzato delle barrette, per indicare le unità statistiche che ricadono entro le classi. Faccio la somma di n con i e scopro che la numerosità complessiva è pari a 10. CLASSIFICAZIONE DI E IN 4 CLASSI EQUIVALENTI: creiamo 4 classi equivalenti. le classi questa volta hanno ampiezza 2 e sono di più. Le ampiezze di queste classi è pari a 2. La distribuzione delle unità statiche dentro queste classi, cambierà rispetto a prima. la sommatoria delle n con i è sempre 10. Attenzione alle classi! li estremi degli intervalli erti limiti, demandata l ricercatore. ssono costruire intervalli (uguale ampiezza), ma alli di ampiezza crescente delle modalità, o in altri a fantasia. e classi equifrequenti ssa numerosità al loro successivo.

N.B.: Con riferimento ai 10 compagni della classe A

Modalità xi─|xi+1 Occorrenze (ni) 0─|3 Ampiezza classe (Di) = 3 \ = 2 3─|6 Ampiezza = 3 \\\ = 6 6─|9 Ampiezza = 3 \ = 2 N = 10

Classificazione di E in 3 classi equivalenti :

Modalità (xi─|xi+1) Occorrenze (ni) 0─|2 Ampiezza classe (Di) = 2 \ = 1 = n 1 2─|4 Ampiezza classe = 2 \ = 2 = n 2 4─|6 [Di = 2] \\\ = 5 = n 3 6─|8 [Di = 2] \ = 2 = n 4 N = 10

Classificazione di E in 4 classi equivalenti :

Attenzione alle classi! gli estremi degli intervalli erti limiti, demandata l ricercatore. ssono costruire intervalli (uguale ampiezza), ma alli di ampiezza crescente delle modalità, o in altri a fantasia. he classi equifrequenti ssa numerosità al loro successivo.

N.B.: Con riferimento ai 10 compagni della classe A

Modalità xi─|xi+1 Occorrenze (ni) 0─|3 Ampiezza classe (Di) = 3 \ = 2 3─|6 Ampiezza = 3 \\\ = 6 6─|9 Ampiezza = 3 \ = 2 N = 10

Classificazione di E in 3 classi equivalenti :

Modalità (xi─|xi+1) Occorrenze (ni) 0─|2 Ampiezza classe (Di) = 2 \ = 1 = n 1 2─|4 Ampiezza classe = 2 \ = 2 = n 2 4─|6 [Di = 2] \\\ = 5 = n 3 6─|8 [Di = 2] \ = 2 = n 4 N = 10

Classificazione di E in 4 classi equivalenti :

CLASSIFICAZIONE DI E IN 4 CLASSI EQUIFREQUENTI: creiamo classi con uguale numerosità. La numerosità specifica è data da N/numero delle classi. In questo caso 24/4 = 6 Prendo i miei valori e li ordino dal più piccolo al più grande e cambio colore una volta che ne ho scritti sei. La classe deve avere al suo interno 6 unità statistiche. Una volta fatto questo passaggio devo costruire bene le classi. Per non correre i rischi faccio partire la classe d aut valore precedente, tanto so che non c’è nessuno che percepisce quel valore. E chiudo subito dopo l’ultimo valore, in questo prima modalità 2,7. Non devo dimenticarmi di chiudere le classi negli estremi giusti, altrimenti poi mi perdo l’ultimo valore. Nella costruzione delle classi non ci devono essere buchi nelle classi, quindi nelle modalità delle variabili per classi. LA DISCRETIZZAZIONE DELLE VARIABILI PER CLASSI Quando abbiamo a che fare con le variabili statistiche per classi, è importante fare questa operazione di discretizzazione , ossia assegnare alla classe di valori un unico valore, che sarà il valore centrale della classe. Quindi discretizzare vuol dire passare da una modalità espressa in classi ad una modalità espressa con un singolo valore, il valore centrale della esima classe. Si prende l’estremo superiore della classe, l’estremo inferiore della classe, si sommano e divido questa somma per due. Al pedice di x ci sarà scritto v.c che indica il valore centrale della classe i esima. Accanto alle modalità rappresentate in classi, metterò una colonna che identifica i valori centrali di queste classi.

Classi equifrequenti Prova tu!

  • B) Costruendo 4 classi equifrequenti (uguale numerosità). La numerosità specifica è data da N/numero delle classi: 24/4 = 6 1,2; 1,5; 1, 2,2; 2,4; 2,6 (prime sei osservazioni); 2,9; 3,2; 3,4; 3,5; 3,6; 3, (seconde sei osservazioni) 4,2; 4,2; 4,5; 4,5; 4,7; 5, (terze sei osservazioni); 5,2; 5,2; 6,8; 6,8; 7,2; 7,4 (quarte sei osservazioni) Modalità (xi|─xi+1) Occorrenze (ni) 1,1 l- 2,7 n 1 = 6 2,7 l- 4,0 n 2 = 6 4,0 l- 5,2 n 3 = 6 5,2 l- 7,5 n 4 = 6 N = 24 Classificazione di E in 4 classi equifrequenti : La discretizzazione del variabili per classi In presenza di variabili statistiche per classi, è necessario ide valori centrali delle classi, attraverso l'operazione: Semi-somma dell'estremo inferiore (INF) e superiore (SUP) d xiv.c = [xi(INF) + xi+1(SUP)]/ Modalità xi─|xi+1 xiv.c Occorrenze 0─|3 1,5 = (0+3)/2 \ = 2 3─|6 4,5 \\\ = 6 6─|9 7,5 \ = 2 N = 10 La discretizzazione delle variabili per classi In presenza di variabili statistiche per classi, è necessario identificare i valori centrali delle classi, attraverso l'operazione: Semi-somma dell'estremo inferiore (INF) e superiore (SUP) della classe xiv.c = [xi(INF) + xi+1(SUP)]/ Modalità xi─|xi+1 xiv.c Occorrenze (ni) 0─|3 1,5 = (0+3)/2 \ = 2 3─|6 4,5 \\\ = 6 6─|9 7,5 \ = 2 N = 10

LE MODALITA’

Torniamo alle modalità, siano esse rappresentate da valori singoli o per classi. Esse devono possedere queste tre qualità:

  • Le modalità devono essere disgiunte, quindi non ci devono essere sovrapposizioni;
  • Le modalità devono essere esaustive, quindi devono coprire tutti il ventaglio delle possibilità connesse al fenomeno analizzato;
  • Inoltre^ accettiamo^ la^ convenzione^ di^ riportale^ sempre^ in^ ordine^ crescente^ (ovviamente^ se possibile riportarle secondo un ordine crescente) Le modalità

Torniamo alle modalità, siano esse rappresentate da valori singoli o per classi.

Esse devono possedere tre qualità:

➢Le modalità devono essere disgiunte (senza sovrapposizioni)

➢Le modalità devono essere esaustive (devono coprire tutto il ventaglio delle

possibilità connesse al fenomeno analizzato)

➢Inoltre accettiamo la convenzione di riportarle sempre in ordine crescente (se

possibile). Degli esempi, buoni e non:

ETA’ in anni

compiuti:

ETA’ in an-

ni compiuti:

ETA’ in anni

compiuti:

Ripartiz.

Geog.Italia

Nord

Centro

Sud

Ripartiz.

Geog.Italia

CentroNord

CentroSud

Sud+Isole

Non disgiunte (20 e 25enni) OK Non esaustive (19 e 24enni) Non esaustive (isole) Non disgiunte (es. Umbria?)

LE TIPOLOGIE DI CARATTERI STATISTICI

APPROFONDIAMO IL SIGNIFICATO DI CARATTERE…

Il carattere statistico è un particolare proprietà o caratteristica che viene rilevata sull’unità statistica, relativa al fenomeno oggetto di indagine. Una prima distinzione può essere:

  • Qualitativo /categorico —> quando è espresso attraverso un attributo o un nome;
  • Quantitativo / metrico —> quando è espresso attraverso un numero. Da questa distinzione dipendono poi tante scelte, sia in termini di rappresentazione grafica sia in termini di indici. I caratteri qualitativi si distinguono in:
  • Carattere^ sconnesso^ (o misurabile con una scala di misura nominale): se, date due modalità (espressioni del carattere), è possibile affermare saltato se queste sono uguali o diverse. Esempi di caratteri sconnessi: Sesso, attività, luogo di nascita, stato civile, religione, colore degli occhi. Tra le modalità di questi caratteri non è possibile stabilire un ordinamento e quindi le modalità possono essere elencate in modo del tutto arbitrario.
  • Carattere ordinato (o misurabile con una scala ordinale): se, date due modalità, è possibile anche dare un ordine, specificando che una precede l’altra. Esempi di caratteri ordinati: sono quelli che esprimono un grado di soddisfazione (poco, abbastanza, molto), la posizione in una graduatoria, il titolo di studio. I caratteri quantitativi si distinguono in:
  • Carattere quantitativo^ discreto : qui, l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri naturali. Le modalità assumibili da un carattere discreto sono in numero finito o al più un’infinità numerabile.
  • Carattere quantitativo continuo : qui, l’insieme delle modalità assumibili può essere messo in corrispondenza biunivoca con un sottoinsieme dei numeri reali. I quantitativi continui si studiano aggregandoli in classi, ma anche quelli discuti posso riaggregare in classi. Sui caratteri quantitativi posso, anche, distinguere le scale di misurazioni. E posso dire che un carattere quantitativo è:
  • Misurabile con “ scala ad intervalli ”: non esiste uno zero assoluto, naturale, reale e non arbitrario;
  • Misurabile con “ scala per rapport i”: esiste uno zero assoluto, naturale, reale e arbitrario.

Se il carattere è quantitativo si definisce suddivisione in classi del carattere l’operazione consistente nel suddividere l’insieme dei possibili valori in intervalli tra loro disgiunti (si vedano le variabili statistiche per classi). VARIABILI DICOTOMICHE Altro tipo di variabile statistica molto importante. Difficile pensare “Maschio / Femmina” come modalità quantitative. Nemmeno le si può ritenere ordinabili (In che senso M è più di F?). Eppure questa variabile come tutte quelle dicotomiche (composte da solo due modalità disgiunte ed esaustive) resta a cavallo tra qualitativo e quantitativo. Basta leggerla così:

  • Incentrando la variabile su una delle due modalità (per es. F) ed esprimendo le due modalità in questa forma: “è F?” o “non è F?”
  • Agganciando alle due modalità i numeri 1 (è F) e 0 (non è F). Il numero ora identifica un dato oggettivo: l’accadimento o successo (senza valutazione!!) (1) o il non accadimento (0) dell’evento ‘F’ Le variabili dicotomiche sono un tassello fondamentale della statistica, proprio perché tengono i piedi in due staffe. I CARATTERI TRASFERIBILI Tra i caratteri quantitativi è possibile fare un’ulteriore distinzione, tra caratteri trasferibili e non trasferibili. Un carattere è trasferibile se su di esso è possibile definire un’ intensità totale e se si può trasferire (anche solo idealmente) in parte o anche totalmente da un’unità statistica ad un’altra. ESEMPIO: reddito, numero di case possedute, numero di auto possedute.

LE FREQUENZE, LE FREQUENZE PERCENTUALI E LE FREQUENZE CUMULATE

E SE AVESSIMO BISOGNO DI FARE DEI CONFRONTI?

Ritiriamo al protocollo di rilevazione. Con la ricodifica, la matrice dati e la costruzione della variabile statistica, abbiamo via via sintetizzato le nostre informazioni, però ora abbiamo bisogno di fare un esercizio di lettura dei dati. Il primo esercizio è quello del confronto del ‘peso’ della stessa modalità in diverse popolazioni. Quindi abbiamo bisogno di realizzare una comparazione tra il peso che ha una determinata modalità in un popolazione A e in una popolazione B. ESEMPIO: nella classe A (composta di 10 individui) i maschi sono 4. Nella classe B (15 individui) sono 5. Quindi la modalità che adesso andiamo. Confrontare è la modalità maschio del carattere genere, rilevato sulle due popolazioni. La popolazione della classe A e la popolazione della classe B. In termini assoluti quindi, senza andare a fare un rapporto tra quanto pesano i maschi sull’intera popolazione in A e quanto pesano i maschi sull’intera popolazione in B, non v’è dubbio: ci sono più maschi in B. Ma nelle dinamiche di classe 5 maschi su 15 erano solo il 30%, 4 su 10 erano il 40%! Quindi se andiamo a fare dei confronti serve mettere a rapporto il valore assoluto sull’ammontare complessivo della popolazione. Perché una cosa è dire 4 su 10, un’altra cosa è dire 5 sull’ammontare complessivo di 15. Il confronto tra due variabili statistiche (relative allo stesso carattere) osservate in popolazioni di diversa dimensione è possibile solo tenendo sotto controllo la numerosità complessiva della popolazione (fattore di disturbo). Quindi le due variabili statistiche sono: la variabile statistica del carattere genere osservato in A e la variabile statistica del carattere genere osservato in B. Per tenere sotto controllo la numerosità complessiva della popolazione abbiamo bisogno di passare a queste frequenze. LE FREQUENZE Allora chiamiamo le frequenze relative o anche solo frequenze specifiche, i rapporti tra le corrispondenti numerosità specifiche (ni) e la numerosità totale (N). Quindi abbiamo che f con i, che è la frequenza specifica associata alla i esima modalità, è data dal rapporto tra n con i (numerosità specifica) e N (numerosità complessiva della popolazione). Le frequ Chiamiamo frequenze relative (o anch tra le corrispondenti numerosità specif f n N i i = da cui la^ condizion Scrivibile anc