Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


statistica bivariata, Slide di Statistica

slide statistica bivariata dalla lezione 1 alla 6

Tipologia: Slide

2024/2025

Caricato il 04/04/2025

rossellamonterisi05
rossellamonterisi05 🇮🇹

5

(2)

16 documenti

1 / 109

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lezione 1
1
Lezione 1
Nozioni introduttive
Esempi di rilevazioni statistiche si registrano fin dalle prime civiltà, per conoscere
la realtà circostante e trovare soluzioni a problemi di varia natura. Più in
particolare, le prime indagini statistiche avevano l’obiettivo di reperire
informazioni sul numero di uomini che potevano combattere, sull’estensione del
territorio e sulla ripartizione delle superfici coltivabili.
Nei tempi attuali siamo tempestati da informazioni ottenute mediante indagini
statistiche da parte dei mass media e queste informazioni riguardano campi molto
diversi fra loro. Solo per citare alcuni dei più frequenti campi di applicazione dei
metodi statistici si possono ricordare
- Studi sulla popolazione, sondaggi, indagini su atteggiamenti e preferenze
- Analisi finanziarie
- Controlli di qualità, marketing
- Sperimentazione farmacologica, agraria e zootecnica
- Analisi del DNA reperito sui luoghi di delitti
- Riconoscimento di autori di scritti apocrifi o di altre opere d’arte di
attribuzione incerta
I metodi statistici vengono utilizzati da ricercatori, governi, imprese, sindacati,
amministrazioni pubbliche, meteorologi, forze dell’ordine, agricoltori, chimici,
biologi, …
Per esempio:
- un amministratore pubblico necessita di informazioni sugli abitanti di una
certa zona per decidere interventi sui mezzi di trasporto oppure in campo
sanitario o scolastico
- una banca ha bisogno di conoscere le caratteristiche dei suoi clienti per
migliorare i servizi offerti
- un’azienda necessita di informazioni per produrre articoli che rispondano
alle aspettative dei potenziali consumatori
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica statistica bivariata e più Slide in PDF di Statistica solo su Docsity!

Lezione 1 Nozioni introduttive Esempi di rilevazioni statistiche si registrano fin dalle prime civiltà, per conoscere la realtà circostante e trovare soluzioni a problemi di varia natura. Più in particolare, le prime indagini statistiche avevano l’obiettivo di reperire informazioni sul numero di uomini che potevano combattere, sull’estensione del territorio e sulla ripartizione delle superfici coltivabili. Nei tempi attuali siamo tempestati da informazioni ottenute mediante indagini statistiche da parte dei mass media e queste informazioni riguardano campi molto diversi fra loro. Solo per citare alcuni dei più frequenti campi di applicazione dei metodi statistici si possono ricordare

  • Studi sulla popolazione, sondaggi, indagini su atteggiamenti e preferenze
  • Analisi finanziarie
  • Controlli di qualità, marketing
  • Sperimentazione farmacologica, agraria e zootecnica
  • Analisi del DNA reperito sui luoghi di delitti
  • Riconoscimento di autori di scritti apocrifi o di altre opere d’arte di attribuzione incerta I metodi statistici vengono utilizzati da ricercatori, governi, imprese, sindacati, amministrazioni pubbliche, meteorologi, forze dell’ordine, agricoltori, chimici, biologi, … Per esempio:
  • un amministratore pubblico necessita di informazioni sugli abitanti di una certa zona per decidere interventi sui mezzi di trasporto oppure in campo sanitario o scolastico
  • una banca ha bisogno di conoscere le caratteristiche dei suoi clienti per migliorare i servizi offerti
  • un’azienda necessita di informazioni per produrre articoli che rispondano alle aspettative dei potenziali consumatori

Esempi comuni di risultati che derivano da elaborazioni statistiche sono: il PIL, il tasso disoccupazione, il tasso di inflazione, l’indice della produzione industriale, il tasso di natalità, l’invecchiamento della popolazione Dietro quei dati ci sono le tecniche statistiche e queste tecniche sono utilizzate per stabilire i metodi di campionamento, la costruzione dei questionari e le modalità di somministrazione degli stessi, i diversi metodi con cui si possono analizzare i dati, le valutazioni a carattere probabilistico. Lo scopo di questo corso è chiarire cosa sia la statistica, a cosa serva e come vada usata per valutare, prevedere e decidere e tutto questo deve essere fatto in modo corretto, evitando di farsi imbrogliare da parte di chi non sa usare i metodi statistici in modo corretto o distorce volutamente i risultati. Il passaggio dai dati statistici a informazione e conoscenza non è infatti automatico: viviamo immersi nelle notizie, nelle immagini e nei numeri, ma è necessario porsi domande circa la loro attendibilità. Durante questo corso verranno perciò illustrate le analisi statistiche più comuni e il modo in cui devono essere interpretati i risultati ottenuti. Per esempio, nella fase di lettura dei risultati ottenuti da una qualsiasi indagine statitica è opportuno

  • analizzare le tabelle piuttosto che i grafici, chiedersi da quale fonte provengono i dati e come sono stati raccolti (sondaggi telefonici, questionari auto-compilati, interviste dirette), come sono state trattate le mancate risposte, quanto grande è il campione
  • leggere sempre le note e controllare se esistono indagini condotte da altri soggetti per confrontare i diversi risultati.
  • come regola generale è bene diffidare di statistiche che sostengono la promozione di un certo prodotto

TERMINI STATISTICI DI USO COMUNE

Con l’uso dei termini popolazione, collettività o collettivo statistico si fa riferimento a un insieme di unità omogenee rispetto a una o più caratteristiche. Occorre individuare con precisione le caratteristiche che deve avere un’unità per fare parte di una certa popolazione (per esempio: per individuare un collettivo di neonati occorre indicare luogo e data di nascita, se si tratta dei soli figli legittimi o anche di quelli naturali, se si intendono i soli nati vivi o anche i nati morti). Esempi di popolazioni sono:

  • i residenti a Siena il 31 dicembre del 2015
  • le aziende agricole operanti in Toscana nel mese scorso
  • gli immigrati clandestini arrivati in Italia nello scorso anno solare
  • i faggi presenti in un parco naturale l’autunno scorso
  • i lavoratori in nero del 2017 Ciascun elemento che costituisce la popolazione è detta unità statistica (o semplicemente unità) ma un’unità statistica può essere costituita da un gruppo di soggetti, come nel caso si rilevino i dati per famiglie, aziende, branchi di animali. La lista delle unità che compongono le popolazioni non è sempre disponibile (in alcuni casi si studiano popolazioni dette elusive, come nel caso di immigrati clandestini, lavoratori in nero, popolazioni biologiche costituite da alberi o animali). Per le popolazioni con lista è, in teoria, possibile rilevare i dati di interesse su ogni unità e in questi casi si parla di censimento o rilevazione totale. Per esempio, l’ISTAT (Istituto Nazionale di Statistica) effettua regolarmente il censimento generale della popolazione, il censimento delle abitazioni (abbinato al precedente), il censimento industriale e commerciale e il censimento dell’agricoltura. Queste rilevazioni totali hanno però diversi inconvienenti, quali
  • gli elevati costi dell’indagine
  • le difficoltà di reperimento delle unità statistiche e di rilevazione dei dati
  • l’impossibilità di terminare la rilevazione e l’analisi dei dati in tempi brevi Per questi motivi nella maggior parte dei casi la rilevazione non è totale, ma solo parziale, ossia viene effettuata su un numero limitato di unità statistiche. In numerose situazioni reali, inoltre, sono possibili solo rilevazioni di tipo parziale come accade nei controlli di qualità (per valutare la durata delle batterie di un telefono cellulare, la resistenza alla rottura dei fogli di carta prodotti con un macchinario, il tempo di ossidazione di una certa sostanza). In altre situazioni le indagini possono essere effettuate sulle sole unità effettivamente disponibili (come accade per ricerche paleontologiche o archeologiche), mentre nelle ricerche sperimentali l’interesse si rivolge a collettività virtuali ossia a unità potenziali (non si può pensare di somministrare un farmaco a tutti i malati, nè un fertilizzante a tutte le piante) L’insieme delle unità rilevate nelle indagini parziali viene detto campione. Le tecniche statistiche utilizzate nelle rilevazioni campionarie saranno l’argomento principale della seconda parte del corso e, come vedremo, il loro obiettivo è quello di fornire indicazioni circa il fenomeno di interesse su tutta la popolazione da cui il campione è stato estratto. Nella prima parte del corso si analizzeranno le tecniche utilizzate nella statistica descrittiva che si occupa della raccolta, della presentazione e della sintesi di un insieme di dati. Nella seconda parte si passerà alla statistica inferenziale che studia una caratteristica ignota della popolazione o consente di prendere decisioni in condizioni di incertezza

CLASSIFICAZIONE DELLE VARIABILI

Tutte le variabili possono essere suddivivise in:

  • qualitative (o categoriali)
  • quantitative È detta qualitativa una variabile le cui determinazioni (che vengono chiamate modalità o categorie) sono espresse mediante aggettivi o sostantivi. Esempi di variabili qualitative sono: sesso, gruppo sanguigno, colore occhi e capelli, titolo di studio, livello di soddisfazione per un prodotto o servizio. Le modalità sono incompatibili ed esaustive, nel senso che
    • ciascuna di esse non può coesistere con nessuna delle altre
    • la lista delle modalità comprende tutti i modi in cui la variabile può manifestarsi È detta quantitativa una variabile le cui determinazioni (che vengono chiamate valori o intensità) sono espresse mediante valori numerici Esempi di variabili quantitative sono: reddito, numero di figli, rendimento di un titolo azionario, voto conseguito all’esame di maturità)

Le variabili qualitative si suddividono in

  • ordinabili
    • non ordinabili (dette anche sconnesse o sparse) a seconda che si possa stabilire o meno un ordinamento naturale delle modalità. Nel primo caso le modalità possono essere elencate secondo un ordine naturale, nel secondo caso ogni ordinamento risulta arbitrario. Esempi di variabili non ordinabili sono: sesso, religione, colore degli occhi, stato civile, luogo di nascita. Esempi di variabili ordinabili sono: titolo di studio, anno del corso di studi, qualifica funzionale degli impiegati, grado nella gerarchia militare, la “dimensione” delle imprese (piccola, media e grande). Le variabili qualitative si suddividono in
  • discrete
    • continue Le variabili discrete derivano generalmente da operazioni di conteggio e possono assumere un insieme finito o numerabile di valori Le variabili continue derivano da una qualche misurazione, possono assumere tutti i valori compresi in un intervallo reale (ossia, possono assumere una infinità non numerabile di valori diversi). Esempi di variabili discrete sono: numero dei componenti delle famiglie, numero di veicoli circolanti, numero di dipendenti di un’azienda e degli sportelli bancari. Esempi di variabili continue sono: temperatura, statura, peso, altitudine, superficie coltivabile.

Lezione 2 Una delle fasi principali di un’indagine statistica consiste nel rilevare le

determinazioni assunte da una variabile X sulle n unità considerate (senza dover

specificare se si tratta dell’intera popolazione o del campione).

xi indica la determinazione della X rilevata sull’ i-esima unità (per i = 1, 2, …, n)

La sequenza delle n determinazioni 𝑥 1 , 𝑥 2 , … , 𝑥𝑛 rappresenta la sequenza delle

osservazioni secondo l’ordine di rilevazione. Se X è qualitativa ordinabile o quantitativa, si possono ordinare le sue determinazioni. Nelle pagine successive la sequenza considerata in ordine non decrescente verrà indicata con 𝑥( 1 ), 𝑥( 2 ), … , 𝑥(𝑛) Se la X è quantitativa questo ordinamento consente di individuare subito il suo intervallo di variazione (o range) che è l’intervallo delimitato dalla più piccola e dalla più grande intensità rilevata. In simboli, il campo di variazione si indica con x = [𝑥( 1 ), 𝑥(𝑛)] Esempio: Data la seguente sequenza di 7 valori della temperatura minima (T) rilevata in una determinata settimana 3 - 2 0 2 4 4 - 4 si determini la sequenza ordinata e l’intervallo di variazione della variabile T. La sequenza ordinata è la seguente

  • 4 - 2 0 2 3 4 4 e il campo di variazione è T = [- 4 , 4 ]

Quando le determinazioni della variabile non sono tutte uguali fra loro, le informazioni contenute nella sequenza possono essere organizzate in una tabella. In pratica si associa a ogni determinazione della X il numero di casi (frequenza assoluta) con cui la determinazione stessa si è manifestata. Esempio Data la seguente sequenza di valori relativa al numero componenti di 10 famiglie 1 1 2 3 4 5 2 2 3 3 si ottiene la tabella X Frequenza assoluta 1 2 2 3 3 3 4 1 5 1 10 Nelle pagine successive 𝑘 indicherà il numero delle determinazioni diverse 𝑐 1 , …, 𝑐𝑘 le 𝑘 determinazioni distinte della variabile X 𝑛 1 , …, 𝑛𝑘 le frequenze assolute corrispondenti. La generica frequenza 𝑛𝑗 corrisponde quindi al numero di unità statistiche che presentano la determinazione 𝑐𝑗 (𝑗 = 1, 2, …, 𝑘). L’intervallo di variazione (o range) è in questo caso x = [𝑐 1 , 𝑐𝑘] e nell’esempio precedente è dato da [1, 5]. Il totale 𝑛 (che nella tabella precedente è pari a 10) si calcola effettuando la somma di tutte le frequenze assolute. Utilizzando l’operatore sommatoria, si ha 𝑛 = ∑ 𝑛𝑗 𝑘 𝑗= 1

L’ordinamento delle modalità nella prima colonna di una distribuzione di frequenza è arbitrario se la variabile è qualitativa sconnessa, mentre deve seguire l’ordine naturale (in modo crescente o decrescente) se la variabile è qualitativa ordinabile. La struttura distributiva della variabile risulta però più chiara se le modalità di una variabile sconnessa sono elencate secondo il valore delle corrispondenti frequenze, seguendo l’ordine crescente o decrescente. Se X è quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori possono risultare anche tutti diversi fra loro, come nella sequenza successiva 1.2 1.8 2.6 3.0 3.1 3.6 3.9 4.2 4.6 5.0 5.7 7.2 7.6 8.1 8.2 9. In questo caso una distribuzione di frequenza costruita con il criterio seguito in precedenza darebbe origine a frequenze assolute tutte pari a 1 e la tabella sarebbe troppo lunga e priva di senso. In queste situazioni occorre sintetizzare i dati, suddividendo il campo di variazione della variabile in intervalli contigui, che vengono detti classi. Data la sequenza precedente, una possibile distribuzione di frequenza per classi è quella riportata di seguito Classi di valori Frequenza assoluta 1 - 3 4 3 - 5 6 5 - 10 6 16 In generale, una distribuzione in classi assume la forma seguente

Classi di valori Frequenza assoluta 𝑐 0 − 𝑐 1 𝑛 1 𝑐 1 − 𝑐 2 𝑛 2

.. 𝑐𝑗− 1 − 𝑐𝑗 𝑛𝑗 .. 𝑐𝑘− 1 − 𝑐𝑘 𝑛𝑘 𝑛 dove la generica classe 𝑐𝑗− 1 − 𝑐𝑗 corrisponde all’intervallo (𝑐𝑗− 1 , 𝑐𝑗] aperto a sinistra e chiuso a destra. Questo significa che la classe non contiene al suo interno l’estremo sinistro 𝑐𝑗− 1 , mentre contiene l’estremo destro 𝑐𝑗. Va sottolineato che una distribuzione in classi non contiene più tutte le

informazioni originarie in quanto non sono noti i valori esatti rilevati sulle n unità.

Si tratta quindi di un’operazione di sintesi che comporta una perdita di informazione, ma che ha il vantaggio di evidenziare la struttura distributiva della variabile. Qualsiasi elaborazione successiva andrebbe sempre effettuata sui dati originari, se ancora disponibili, per ottenere risultati esatti. Anche se non esistono regole rigide per costruire una distribuzione in classi, è sempre necessario che tutti i valori rilevati siano contenuti in una classe e che nessuno di essi compaia in due classi diverse. Inoltre, di solito si utilizzzano i seguenti accorgimenti:

  • evitare un’eccessiva concentrazione delle unità in poche classi o un’eccessiva dispersione in troppe, per cui le classi possono avere ampiezza variabile
  • come estremi delle classi è opportuno utilizzare valori di uso comune, come numeri interi o multipli di 5 o di 10.

Le proporzioni così ottenute vengono dette frequenze relative.

La frequenza relativa 𝑓𝑗 associata alla j-esima determinazione di X (o alla j-esima

classe) si ottiene dal rapporto 𝑓𝑗 =

per 𝑗 = 1, 2, …, 𝑘 Si dimostra facilmente che la somma di tutte le frequenze relative è sempre pari a 1, dato che ∑ 𝑓𝑗 𝑘 𝑗= 1

𝑘 𝑗= 1

𝑘 𝑗= 1

× 𝑛 = 1

Va notato come i diversi tipi di frequenza (assolute o relative) forniscono le stesse informazioni sulla struttura della distribuzione. Dalle frequenze assolute è sempre possibile ottenere quelle relative, mentre il passaggio inverso è possibile

solo se è nota la numerosità complessiva n. Dalla formula delle frequenze relative

si ottiene infatti 𝑛𝑗 = 𝑛 × 𝑓𝑗 per 𝑗 = 1, 2, …, 𝑘 Esercizio Data la seguente distribuzione espressa mediante le frequenze relative Classi Frequenze relative

  • 2  2 0. 10 2  5 0.^40 5  8 0.^50 1.

si vogliono ottenere le corrispondenti frequenze assolute sapendo che n=20.

La distribuzione risulta Classi Frequenze assolute

  • 2  2 2 2  5 8 5  8 10 20

indica che 68 istituti di credito hanno un numero di filiali inferiore o uguale a 20 e così via. Va sottolineato che le frequenze cumulate (assolute o relative che siano) hanno senso solo se la variabile è almeno ordinabile, in quanto negli altri casi i risultati dipenderebbero dall’ordinamento arbitrario delle modalità.

Utilizzando il simbolo di sommatoria e indicando con Nj la j-esima frequenza

assoluta cumulata si ha quindi Frequenza assoluta cumulata 𝑁𝑗 = ∑ 𝑛ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝑁 1 = 𝑛 1 𝑁𝑘 = 𝑛 Riprendendo l’esempio precedente è facile rendersi conto che se per una distribuzione sono note le frequenze assolute cumulate, è possibile ottenere le corrispondenti frequenze assolute, calcolando le differenze fra ciascuna frequenza assoluta cumulata e la precedente. In simboli risulta 𝑛𝑗 = 𝑁𝑗 – 𝑁𝑗− 1 Quanto detto a proposito delle frequenze assolute vale anche nel caso delle frequenze relative per cui, indicata con 𝐹𝑗 la 𝑗-esima frequenza relativa cumulata, risulta

Frequenza relativa cumulata 𝐹𝑗 = ∑ 𝑓ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝐹 1 = 𝑓 1 𝐹𝑘 = 1 Anche in questo caso le frequenze relative si ottengono dalle frequenze relative cumulate mediante la differenza 𝑓𝑗 = 𝐹𝑗 – 𝐹𝑗− 1 ESERCIZIO Considerata la seguente distribuzione X Frequenze assolute

  • 2 80
  • 1 65 0 25 1  20 2 10 200 si calcolino le frequenze relative cumulate e si indichi la proporzione di unità con un valore della variabile inferiore o uguale a zero. Risulta X Frequenze relative Frequenze relative cumulate
  • 2 0.400 0.
  • 1 0.325 0. 0 0.1 25 0. 1  0.100 0. 2 0.050 1.

La proporzione di unità con un valore della variabile inferiore o uguale a zero è