Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

statistica bivariata, Slide di Statistica

Università degli Studi di Siena (UNISI)Statistica

slide statistica bivariata dalla lezione 1 alla 6

Tipologia: Slide

2024/2025

Caricato il 04/04/2025

rossellamonterisi05 🇮🇹

5

(2)

16 documenti

1 / 109

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Lezione 1

1

Lezione 1

Nozioni introduttive

Esempi di rilevazioni statistiche si registrano fin dalle prime civiltà, per conoscere

la realtà circostante e trovare soluzioni a problemi di varia natura. Più in

particolare, le prime indagini statistiche avevano l’obiettivo di reperire

informazioni sul numero di uomini che potevano combattere, sull’estensione del

territorio e sulla ripartizione delle superfici coltivabili.

Nei tempi attuali siamo tempestati da informazioni ottenute mediante indagini

statistiche da parte dei mass media e queste informazioni riguardano campi molto

diversi fra loro. Solo per citare alcuni dei più frequenti campi di applicazione dei

metodi statistici si possono ricordare

- Studi sulla popolazione, sondaggi, indagini su atteggiamenti e preferenze

- Analisi finanziarie

- Controlli di qualità, marketing

- Sperimentazione farmacologica, agraria e zootecnica

- Analisi del DNA reperito sui luoghi di delitti

- Riconoscimento di autori di scritti apocrifi o di altre opere d’arte di

attribuzione incerta

I metodi statistici vengono utilizzati da ricercatori, governi, imprese, sindacati,

amministrazioni pubbliche, meteorologi, forze dell’ordine, agricoltori, chimici,

biologi, …

Per esempio:

- un amministratore pubblico necessita di informazioni sugli abitanti di una

certa zona per decidere interventi sui mezzi di trasporto oppure in campo

sanitario o scolastico

- una banca ha bisogno di conoscere le caratteristiche dei suoi clienti per

migliorare i servizi offerti

- un’azienda necessita di informazioni per produrre articoli che rispondano

alle aspettative dei potenziali consumatori

Scopri Slide di Statistica Università degli Studi di Siena (UNISI)

Documenti correlati

esercizi bivariata statistica

Slide statistica. Analisi Bivariata.

inizio statistica bivariata

STATISTICA DESCRITTIVA BIVARIATA

Riassunti statistica bivariata

Statistica Descritiiva Bivariata

APPUNTI: Statistica Bivariata

(1)

Statistica bivariata

Statistica bivariata formule

Dispensa statistica descrittiva bivariata

Bivariata statistica

Statistica descrittiva e bivariata

(1)

Anteprima parziale del testo

Scarica statistica bivariata e più Slide in PDF di Statistica solo su Docsity!

Lezione 1 Nozioni introduttive Esempi di rilevazioni statistiche si registrano fin dalle prime civiltà, per conoscere la realtà circostante e trovare soluzioni a problemi di varia natura. Più in particolare, le prime indagini statistiche avevano l’obiettivo di reperire informazioni sul numero di uomini che potevano combattere, sull’estensione del territorio e sulla ripartizione delle superfici coltivabili. Nei tempi attuali siamo tempestati da informazioni ottenute mediante indagini statistiche da parte dei mass media e queste informazioni riguardano campi molto diversi fra loro. Solo per citare alcuni dei più frequenti campi di applicazione dei metodi statistici si possono ricordare

Studi sulla popolazione, sondaggi, indagini su atteggiamenti e preferenze
Analisi finanziarie
Controlli di qualità, marketing
Sperimentazione farmacologica, agraria e zootecnica
Analisi del DNA reperito sui luoghi di delitti
Riconoscimento di autori di scritti apocrifi o di altre opere d’arte di attribuzione incerta I metodi statistici vengono utilizzati da ricercatori, governi, imprese, sindacati, amministrazioni pubbliche, meteorologi, forze dell’ordine, agricoltori, chimici, biologi, … Per esempio:
un amministratore pubblico necessita di informazioni sugli abitanti di una certa zona per decidere interventi sui mezzi di trasporto oppure in campo sanitario o scolastico
una banca ha bisogno di conoscere le caratteristiche dei suoi clienti per migliorare i servizi offerti
un’azienda necessita di informazioni per produrre articoli che rispondano alle aspettative dei potenziali consumatori

Esempi comuni di risultati che derivano da elaborazioni statistiche sono: il PIL, il tasso disoccupazione, il tasso di inflazione, l’indice della produzione industriale, il tasso di natalità, l’invecchiamento della popolazione Dietro quei dati ci sono le tecniche statistiche e queste tecniche sono utilizzate per stabilire i metodi di campionamento, la costruzione dei questionari e le modalità di somministrazione degli stessi, i diversi metodi con cui si possono analizzare i dati, le valutazioni a carattere probabilistico. Lo scopo di questo corso è chiarire cosa sia la statistica, a cosa serva e come vada usata per valutare, prevedere e decidere e tutto questo deve essere fatto in modo corretto, evitando di farsi imbrogliare da parte di chi non sa usare i metodi statistici in modo corretto o distorce volutamente i risultati. Il passaggio dai dati statistici a informazione e conoscenza non è infatti automatico: viviamo immersi nelle notizie, nelle immagini e nei numeri, ma è necessario porsi domande circa la loro attendibilità. Durante questo corso verranno perciò illustrate le analisi statistiche più comuni e il modo in cui devono essere interpretati i risultati ottenuti. Per esempio, nella fase di lettura dei risultati ottenuti da una qualsiasi indagine statitica è opportuno

analizzare le tabelle piuttosto che i grafici, chiedersi da quale fonte provengono i dati e come sono stati raccolti (sondaggi telefonici, questionari auto-compilati, interviste dirette), come sono state trattate le mancate risposte, quanto grande è il campione
leggere sempre le note e controllare se esistono indagini condotte da altri soggetti per confrontare i diversi risultati.
come regola generale è bene diffidare di statistiche che sostengono la promozione di un certo prodotto

TERMINI STATISTICI DI USO COMUNE

Con l’uso dei termini popolazione, collettività o collettivo statistico si fa riferimento a un insieme di unità omogenee rispetto a una o più caratteristiche. Occorre individuare con precisione le caratteristiche che deve avere un’unità per fare parte di una certa popolazione (per esempio: per individuare un collettivo di neonati occorre indicare luogo e data di nascita, se si tratta dei soli figli legittimi o anche di quelli naturali, se si intendono i soli nati vivi o anche i nati morti). Esempi di popolazioni sono:

i residenti a Siena il 31 dicembre del 2015
le aziende agricole operanti in Toscana nel mese scorso
gli immigrati clandestini arrivati in Italia nello scorso anno solare
i faggi presenti in un parco naturale l’autunno scorso
i lavoratori in nero del 2017 Ciascun elemento che costituisce la popolazione è detta unità statistica (o semplicemente unità) ma un’unità statistica può essere costituita da un gruppo di soggetti, come nel caso si rilevino i dati per famiglie, aziende, branchi di animali. La lista delle unità che compongono le popolazioni non è sempre disponibile (in alcuni casi si studiano popolazioni dette elusive, come nel caso di immigrati clandestini, lavoratori in nero, popolazioni biologiche costituite da alberi o animali). Per le popolazioni con lista è, in teoria, possibile rilevare i dati di interesse su ogni unità e in questi casi si parla di censimento o rilevazione totale. Per esempio, l’ISTAT (Istituto Nazionale di Statistica) effettua regolarmente il censimento generale della popolazione, il censimento delle abitazioni (abbinato al precedente), il censimento industriale e commerciale e il censimento dell’agricoltura. Queste rilevazioni totali hanno però diversi inconvienenti, quali

gli elevati costi dell’indagine
le difficoltà di reperimento delle unità statistiche e di rilevazione dei dati
l’impossibilità di terminare la rilevazione e l’analisi dei dati in tempi brevi Per questi motivi nella maggior parte dei casi la rilevazione non è totale, ma solo parziale, ossia viene effettuata su un numero limitato di unità statistiche. In numerose situazioni reali, inoltre, sono possibili solo rilevazioni di tipo parziale come accade nei controlli di qualità (per valutare la durata delle batterie di un telefono cellulare, la resistenza alla rottura dei fogli di carta prodotti con un macchinario, il tempo di ossidazione di una certa sostanza). In altre situazioni le indagini possono essere effettuate sulle sole unità effettivamente disponibili (come accade per ricerche paleontologiche o archeologiche), mentre nelle ricerche sperimentali l’interesse si rivolge a collettività virtuali ossia a unità potenziali (non si può pensare di somministrare un farmaco a tutti i malati, nè un fertilizzante a tutte le piante) L’insieme delle unità rilevate nelle indagini parziali viene detto campione. Le tecniche statistiche utilizzate nelle rilevazioni campionarie saranno l’argomento principale della seconda parte del corso e, come vedremo, il loro obiettivo è quello di fornire indicazioni circa il fenomeno di interesse su tutta la popolazione da cui il campione è stato estratto. Nella prima parte del corso si analizzeranno le tecniche utilizzate nella statistica descrittiva che si occupa della raccolta, della presentazione e della sintesi di un insieme di dati. Nella seconda parte si passerà alla statistica inferenziale che studia una caratteristica ignota della popolazione o consente di prendere decisioni in condizioni di incertezza

CLASSIFICAZIONE DELLE VARIABILI

Tutte le variabili possono essere suddivivise in:

qualitative (o categoriali)
quantitative È detta qualitativa una variabile le cui determinazioni (che vengono chiamate modalità o categorie) sono espresse mediante aggettivi o sostantivi. Esempi di variabili qualitative sono: sesso, gruppo sanguigno, colore occhi e capelli, titolo di studio, livello di soddisfazione per un prodotto o servizio. Le modalità sono incompatibili ed esaustive, nel senso che
- ciascuna di esse non può coesistere con nessuna delle altre
- la lista delle modalità comprende tutti i modi in cui la variabile può manifestarsi È detta quantitativa una variabile le cui determinazioni (che vengono chiamate valori o intensità) sono espresse mediante valori numerici Esempi di variabili quantitative sono: reddito, numero di figli, rendimento di un titolo azionario, voto conseguito all’esame di maturità)

Le variabili qualitative si suddividono in

ordinabili
- non ordinabili (dette anche sconnesse o sparse) a seconda che si possa stabilire o meno un ordinamento naturale delle modalità. Nel primo caso le modalità possono essere elencate secondo un ordine naturale, nel secondo caso ogni ordinamento risulta arbitrario. Esempi di variabili non ordinabili sono: sesso, religione, colore degli occhi, stato civile, luogo di nascita. Esempi di variabili ordinabili sono: titolo di studio, anno del corso di studi, qualifica funzionale degli impiegati, grado nella gerarchia militare, la “dimensione” delle imprese (piccola, media e grande). Le variabili qualitative si suddividono in
discrete
- continue Le variabili discrete derivano generalmente da operazioni di conteggio e possono assumere un insieme finito o numerabile di valori Le variabili continue derivano da una qualche misurazione, possono assumere tutti i valori compresi in un intervallo reale (ossia, possono assumere una infinità non numerabile di valori diversi). Esempi di variabili discrete sono: numero dei componenti delle famiglie, numero di veicoli circolanti, numero di dipendenti di un’azienda e degli sportelli bancari. Esempi di variabili continue sono: temperatura, statura, peso, altitudine, superficie coltivabile.

Lezione 2 Una delle fasi principali di un’indagine statistica consiste nel rilevare le

determinazioni assunte da una variabile X sulle n unità considerate (senza dover

specificare se si tratta dell’intera popolazione o del campione).

xi indica la determinazione della X rilevata sull’ i-esima unità (per i = 1, 2, …, n)

La sequenza delle n determinazioni 𝑥 1 , 𝑥 2 , … , 𝑥𝑛 rappresenta la sequenza delle

osservazioni secondo l’ordine di rilevazione. Se X è qualitativa ordinabile o quantitativa, si possono ordinare le sue determinazioni. Nelle pagine successive la sequenza considerata in ordine non decrescente verrà indicata con 𝑥( 1 ), 𝑥( 2 ), … , 𝑥(𝑛) Se la X è quantitativa questo ordinamento consente di individuare subito il suo intervallo di variazione (o range) che è l’intervallo delimitato dalla più piccola e dalla più grande intensità rilevata. In simboli, il campo di variazione si indica con x = [𝑥( 1 ), 𝑥(𝑛)] Esempio: Data la seguente sequenza di 7 valori della temperatura minima (T) rilevata in una determinata settimana 3 - 2 0 2 4 4 - 4 si determini la sequenza ordinata e l’intervallo di variazione della variabile T. La sequenza ordinata è la seguente

4 - 2 0 2 3 4 4 e il campo di variazione è T = [- 4 , 4 ]

Quando le determinazioni della variabile non sono tutte uguali fra loro, le informazioni contenute nella sequenza possono essere organizzate in una tabella. In pratica si associa a ogni determinazione della X il numero di casi (frequenza assoluta) con cui la determinazione stessa si è manifestata. Esempio Data la seguente sequenza di valori relativa al numero componenti di 10 famiglie 1 1 2 3 4 5 2 2 3 3 si ottiene la tabella X Frequenza assoluta 1 2 2 3 3 3 4 1 5 1 10 Nelle pagine successive 𝑘 indicherà il numero delle determinazioni diverse 𝑐 1 , …, 𝑐𝑘 le 𝑘 determinazioni distinte della variabile X 𝑛 1 , …, 𝑛𝑘 le frequenze assolute corrispondenti. La generica frequenza 𝑛𝑗 corrisponde quindi al numero di unità statistiche che presentano la determinazione 𝑐𝑗 (𝑗 = 1, 2, …, 𝑘). L’intervallo di variazione (o range) è in questo caso x = [𝑐 1 , 𝑐𝑘] e nell’esempio precedente è dato da [1, 5]. Il totale 𝑛 (che nella tabella precedente è pari a 10) si calcola effettuando la somma di tutte le frequenze assolute. Utilizzando l’operatore sommatoria, si ha 𝑛 = ∑ 𝑛𝑗 𝑘 𝑗= 1

L’ordinamento delle modalità nella prima colonna di una distribuzione di frequenza è arbitrario se la variabile è qualitativa sconnessa, mentre deve seguire l’ordine naturale (in modo crescente o decrescente) se la variabile è qualitativa ordinabile. La struttura distributiva della variabile risulta però più chiara se le modalità di una variabile sconnessa sono elencate secondo il valore delle corrispondenti frequenze, seguendo l’ordine crescente o decrescente. Se X è quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori possono risultare anche tutti diversi fra loro, come nella sequenza successiva 1.2 1.8 2.6 3.0 3.1 3.6 3.9 4.2 4.6 5.0 5.7 7.2 7.6 8.1 8.2 9. In questo caso una distribuzione di frequenza costruita con il criterio seguito in precedenza darebbe origine a frequenze assolute tutte pari a 1 e la tabella sarebbe troppo lunga e priva di senso. In queste situazioni occorre sintetizzare i dati, suddividendo il campo di variazione della variabile in intervalli contigui, che vengono detti classi. Data la sequenza precedente, una possibile distribuzione di frequenza per classi è quella riportata di seguito Classi di valori Frequenza assoluta 1 - 3 4 3 - 5 6 5 - 10 6 16 In generale, una distribuzione in classi assume la forma seguente

Classi di valori Frequenza assoluta 𝑐 0 − 𝑐 1 𝑛 1 𝑐 1 − 𝑐 2 𝑛 2

.. 𝑐𝑗− 1 − 𝑐𝑗 𝑛𝑗 .. 𝑐𝑘− 1 − 𝑐𝑘 𝑛𝑘 𝑛 dove la generica classe 𝑐𝑗− 1 − 𝑐𝑗 corrisponde all’intervallo (𝑐𝑗− 1 , 𝑐𝑗] aperto a sinistra e chiuso a destra. Questo significa che la classe non contiene al suo interno l’estremo sinistro 𝑐𝑗− 1 , mentre contiene l’estremo destro 𝑐𝑗. Va sottolineato che una distribuzione in classi non contiene più tutte le

informazioni originarie in quanto non sono noti i valori esatti rilevati sulle n unità.

Si tratta quindi di un’operazione di sintesi che comporta una perdita di informazione, ma che ha il vantaggio di evidenziare la struttura distributiva della variabile. Qualsiasi elaborazione successiva andrebbe sempre effettuata sui dati originari, se ancora disponibili, per ottenere risultati esatti. Anche se non esistono regole rigide per costruire una distribuzione in classi, è sempre necessario che tutti i valori rilevati siano contenuti in una classe e che nessuno di essi compaia in due classi diverse. Inoltre, di solito si utilizzzano i seguenti accorgimenti:

evitare un’eccessiva concentrazione delle unità in poche classi o un’eccessiva dispersione in troppe, per cui le classi possono avere ampiezza variabile
come estremi delle classi è opportuno utilizzare valori di uso comune, come numeri interi o multipli di 5 o di 10.

Le proporzioni così ottenute vengono dette frequenze relative.

La frequenza relativa 𝑓𝑗 associata alla j-esima determinazione di X (o alla j-esima

classe) si ottiene dal rapporto 𝑓𝑗 =

per 𝑗 = 1, 2, …, 𝑘 Si dimostra facilmente che la somma di tutte le frequenze relative è sempre pari a 1, dato che ∑ 𝑓𝑗 𝑘 𝑗= 1

𝑘 𝑗= 1

× 𝑛 = 1

Va notato come i diversi tipi di frequenza (assolute o relative) forniscono le stesse informazioni sulla struttura della distribuzione. Dalle frequenze assolute è sempre possibile ottenere quelle relative, mentre il passaggio inverso è possibile

solo se è nota la numerosità complessiva n. Dalla formula delle frequenze relative

si ottiene infatti 𝑛𝑗 = 𝑛 × 𝑓𝑗 per 𝑗 = 1, 2, …, 𝑘 Esercizio Data la seguente distribuzione espressa mediante le frequenze relative Classi Frequenze relative

2  2 0. 10 2  5 0.^40 5  8 0.^50 1.

si vogliono ottenere le corrispondenti frequenze assolute sapendo che n=20.

La distribuzione risulta Classi Frequenze assolute

2  2 2 2  5 8 5  8 10 20

indica che 68 istituti di credito hanno un numero di filiali inferiore o uguale a 20 e così via. Va sottolineato che le frequenze cumulate (assolute o relative che siano) hanno senso solo se la variabile è almeno ordinabile, in quanto negli altri casi i risultati dipenderebbero dall’ordinamento arbitrario delle modalità.

Utilizzando il simbolo di sommatoria e indicando con Nj la j-esima frequenza

assoluta cumulata si ha quindi Frequenza assoluta cumulata 𝑁𝑗 = ∑ 𝑛ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝑁 1 = 𝑛 1 𝑁𝑘 = 𝑛 Riprendendo l’esempio precedente è facile rendersi conto che se per una distribuzione sono note le frequenze assolute cumulate, è possibile ottenere le corrispondenti frequenze assolute, calcolando le differenze fra ciascuna frequenza assoluta cumulata e la precedente. In simboli risulta 𝑛𝑗 = 𝑁𝑗 – 𝑁𝑗− 1 Quanto detto a proposito delle frequenze assolute vale anche nel caso delle frequenze relative per cui, indicata con 𝐹𝑗 la 𝑗-esima frequenza relativa cumulata, risulta

Frequenza relativa cumulata 𝐹𝑗 = ∑ 𝑓ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝐹 1 = 𝑓 1 𝐹𝑘 = 1 Anche in questo caso le frequenze relative si ottengono dalle frequenze relative cumulate mediante la differenza 𝑓𝑗 = 𝐹𝑗 – 𝐹𝑗− 1 ESERCIZIO Considerata la seguente distribuzione X Frequenze assolute

2 80
1 65 0 25 1  20 2 10 200 si calcolino le frequenze relative cumulate e si indichi la proporzione di unità con un valore della variabile inferiore o uguale a zero. Risulta X Frequenze relative Frequenze relative cumulate
2 0.400 0.
1 0.325 0. 0 0.1 25 0. 1  0.100 0. 2 0.050 1.

La proporzione di unità con un valore della variabile inferiore o uguale a zero è