




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
slide statistica bivariata dalla lezione 1 alla 6
Tipologia: Slide
1 / 109
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Lezione 1 Nozioni introduttive Esempi di rilevazioni statistiche si registrano fin dalle prime civiltà, per conoscere la realtà circostante e trovare soluzioni a problemi di varia natura. Più in particolare, le prime indagini statistiche avevano l’obiettivo di reperire informazioni sul numero di uomini che potevano combattere, sull’estensione del territorio e sulla ripartizione delle superfici coltivabili. Nei tempi attuali siamo tempestati da informazioni ottenute mediante indagini statistiche da parte dei mass media e queste informazioni riguardano campi molto diversi fra loro. Solo per citare alcuni dei più frequenti campi di applicazione dei metodi statistici si possono ricordare
Esempi comuni di risultati che derivano da elaborazioni statistiche sono: il PIL, il tasso disoccupazione, il tasso di inflazione, l’indice della produzione industriale, il tasso di natalità, l’invecchiamento della popolazione Dietro quei dati ci sono le tecniche statistiche e queste tecniche sono utilizzate per stabilire i metodi di campionamento, la costruzione dei questionari e le modalità di somministrazione degli stessi, i diversi metodi con cui si possono analizzare i dati, le valutazioni a carattere probabilistico. Lo scopo di questo corso è chiarire cosa sia la statistica, a cosa serva e come vada usata per valutare, prevedere e decidere e tutto questo deve essere fatto in modo corretto, evitando di farsi imbrogliare da parte di chi non sa usare i metodi statistici in modo corretto o distorce volutamente i risultati. Il passaggio dai dati statistici a informazione e conoscenza non è infatti automatico: viviamo immersi nelle notizie, nelle immagini e nei numeri, ma è necessario porsi domande circa la loro attendibilità. Durante questo corso verranno perciò illustrate le analisi statistiche più comuni e il modo in cui devono essere interpretati i risultati ottenuti. Per esempio, nella fase di lettura dei risultati ottenuti da una qualsiasi indagine statitica è opportuno
Con l’uso dei termini popolazione, collettività o collettivo statistico si fa riferimento a un insieme di unità omogenee rispetto a una o più caratteristiche. Occorre individuare con precisione le caratteristiche che deve avere un’unità per fare parte di una certa popolazione (per esempio: per individuare un collettivo di neonati occorre indicare luogo e data di nascita, se si tratta dei soli figli legittimi o anche di quelli naturali, se si intendono i soli nati vivi o anche i nati morti). Esempi di popolazioni sono:
Tutte le variabili possono essere suddivivise in:
Le variabili qualitative si suddividono in
Lezione 2 Una delle fasi principali di un’indagine statistica consiste nel rilevare le
specificare se si tratta dell’intera popolazione o del campione).
osservazioni secondo l’ordine di rilevazione. Se X è qualitativa ordinabile o quantitativa, si possono ordinare le sue determinazioni. Nelle pagine successive la sequenza considerata in ordine non decrescente verrà indicata con 𝑥( 1 ), 𝑥( 2 ), … , 𝑥(𝑛) Se la X è quantitativa questo ordinamento consente di individuare subito il suo intervallo di variazione (o range) che è l’intervallo delimitato dalla più piccola e dalla più grande intensità rilevata. In simboli, il campo di variazione si indica con x = [𝑥( 1 ), 𝑥(𝑛)] Esempio: Data la seguente sequenza di 7 valori della temperatura minima (T) rilevata in una determinata settimana 3 - 2 0 2 4 4 - 4 si determini la sequenza ordinata e l’intervallo di variazione della variabile T. La sequenza ordinata è la seguente
Quando le determinazioni della variabile non sono tutte uguali fra loro, le informazioni contenute nella sequenza possono essere organizzate in una tabella. In pratica si associa a ogni determinazione della X il numero di casi (frequenza assoluta) con cui la determinazione stessa si è manifestata. Esempio Data la seguente sequenza di valori relativa al numero componenti di 10 famiglie 1 1 2 3 4 5 2 2 3 3 si ottiene la tabella X Frequenza assoluta 1 2 2 3 3 3 4 1 5 1 10 Nelle pagine successive 𝑘 indicherà il numero delle determinazioni diverse 𝑐 1 , …, 𝑐𝑘 le 𝑘 determinazioni distinte della variabile X 𝑛 1 , …, 𝑛𝑘 le frequenze assolute corrispondenti. La generica frequenza 𝑛𝑗 corrisponde quindi al numero di unità statistiche che presentano la determinazione 𝑐𝑗 (𝑗 = 1, 2, …, 𝑘). L’intervallo di variazione (o range) è in questo caso x = [𝑐 1 , 𝑐𝑘] e nell’esempio precedente è dato da [1, 5]. Il totale 𝑛 (che nella tabella precedente è pari a 10) si calcola effettuando la somma di tutte le frequenze assolute. Utilizzando l’operatore sommatoria, si ha 𝑛 = ∑ 𝑛𝑗 𝑘 𝑗= 1
L’ordinamento delle modalità nella prima colonna di una distribuzione di frequenza è arbitrario se la variabile è qualitativa sconnessa, mentre deve seguire l’ordine naturale (in modo crescente o decrescente) se la variabile è qualitativa ordinabile. La struttura distributiva della variabile risulta però più chiara se le modalità di una variabile sconnessa sono elencate secondo il valore delle corrispondenti frequenze, seguendo l’ordine crescente o decrescente. Se X è quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori possono risultare anche tutti diversi fra loro, come nella sequenza successiva 1.2 1.8 2.6 3.0 3.1 3.6 3.9 4.2 4.6 5.0 5.7 7.2 7.6 8.1 8.2 9. In questo caso una distribuzione di frequenza costruita con il criterio seguito in precedenza darebbe origine a frequenze assolute tutte pari a 1 e la tabella sarebbe troppo lunga e priva di senso. In queste situazioni occorre sintetizzare i dati, suddividendo il campo di variazione della variabile in intervalli contigui, che vengono detti classi. Data la sequenza precedente, una possibile distribuzione di frequenza per classi è quella riportata di seguito Classi di valori Frequenza assoluta 1 - 3 4 3 - 5 6 5 - 10 6 16 In generale, una distribuzione in classi assume la forma seguente
Classi di valori Frequenza assoluta 𝑐 0 − 𝑐 1 𝑛 1 𝑐 1 − 𝑐 2 𝑛 2
.. 𝑐𝑗− 1 − 𝑐𝑗 𝑛𝑗 .. 𝑐𝑘− 1 − 𝑐𝑘 𝑛𝑘 𝑛 dove la generica classe 𝑐𝑗− 1 − 𝑐𝑗 corrisponde all’intervallo (𝑐𝑗− 1 , 𝑐𝑗] aperto a sinistra e chiuso a destra. Questo significa che la classe non contiene al suo interno l’estremo sinistro 𝑐𝑗− 1 , mentre contiene l’estremo destro 𝑐𝑗. Va sottolineato che una distribuzione in classi non contiene più tutte le
Si tratta quindi di un’operazione di sintesi che comporta una perdita di informazione, ma che ha il vantaggio di evidenziare la struttura distributiva della variabile. Qualsiasi elaborazione successiva andrebbe sempre effettuata sui dati originari, se ancora disponibili, per ottenere risultati esatti. Anche se non esistono regole rigide per costruire una distribuzione in classi, è sempre necessario che tutti i valori rilevati siano contenuti in una classe e che nessuno di essi compaia in due classi diverse. Inoltre, di solito si utilizzzano i seguenti accorgimenti:
Le proporzioni così ottenute vengono dette frequenze relative.
classe) si ottiene dal rapporto 𝑓𝑗 =
per 𝑗 = 1, 2, …, 𝑘 Si dimostra facilmente che la somma di tutte le frequenze relative è sempre pari a 1, dato che ∑ 𝑓𝑗 𝑘 𝑗= 1
𝑘 𝑗= 1
𝑘 𝑗= 1
Va notato come i diversi tipi di frequenza (assolute o relative) forniscono le stesse informazioni sulla struttura della distribuzione. Dalle frequenze assolute è sempre possibile ottenere quelle relative, mentre il passaggio inverso è possibile
si ottiene infatti 𝑛𝑗 = 𝑛 × 𝑓𝑗 per 𝑗 = 1, 2, …, 𝑘 Esercizio Data la seguente distribuzione espressa mediante le frequenze relative Classi Frequenze relative
La distribuzione risulta Classi Frequenze assolute
indica che 68 istituti di credito hanno un numero di filiali inferiore o uguale a 20 e così via. Va sottolineato che le frequenze cumulate (assolute o relative che siano) hanno senso solo se la variabile è almeno ordinabile, in quanto negli altri casi i risultati dipenderebbero dall’ordinamento arbitrario delle modalità.
assoluta cumulata si ha quindi Frequenza assoluta cumulata 𝑁𝑗 = ∑ 𝑛ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝑁 1 = 𝑛 1 𝑁𝑘 = 𝑛 Riprendendo l’esempio precedente è facile rendersi conto che se per una distribuzione sono note le frequenze assolute cumulate, è possibile ottenere le corrispondenti frequenze assolute, calcolando le differenze fra ciascuna frequenza assoluta cumulata e la precedente. In simboli risulta 𝑛𝑗 = 𝑁𝑗 – 𝑁𝑗− 1 Quanto detto a proposito delle frequenze assolute vale anche nel caso delle frequenze relative per cui, indicata con 𝐹𝑗 la 𝑗-esima frequenza relativa cumulata, risulta
Frequenza relativa cumulata 𝐹𝑗 = ∑ 𝑓ℎ 𝑗 ℎ= 1 per 𝑗 = 1 , 2 , … , 𝑘 dove 𝐹 1 = 𝑓 1 𝐹𝑘 = 1 Anche in questo caso le frequenze relative si ottengono dalle frequenze relative cumulate mediante la differenza 𝑓𝑗 = 𝐹𝑗 – 𝐹𝑗− 1 ESERCIZIO Considerata la seguente distribuzione X Frequenze assolute
La proporzione di unità con un valore della variabile inferiore o uguale a zero è