




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Ottimo file per studiare statistica senza seguire le video lezione e prendere un ottimo risultato
Tipologia: Dispense
1 / 154
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Statistica
OBIETTIVI E PROGRAMMA DEL CORSO DI STATISTICA
Parte 1: elementi di statistica Descrittiva – Esplicativa
Si descrivono e sintetizzati popolazioni. Verranno forniti i concetti basi per costruire grafici, indici di locazione e indici di variabilità.
Vengono pure spiegati pure gli indici di orma, indici di omogeneità e concentrazione, la concentrazione dei redditi.
Vengono analizzati anche le rilevazioni doppie, le tabelle a doppia entrata, i grafici per le rilevazioni doppie, la misura della connessione fra due caratteri e il concetto di indipendenza.
Studiamo pure l’interpolazione lineare: y=A+bx , il calcolo dei coefficienti (a,b) e la proprietà dei coefficienti.
Tratteremo pure le fonti statistiche nazionali e internazionale, le rilevazione dell’ISTAT e le fonti territoriali e locali.
Parte 2: elementi di calcolo della probabilità
Studiamo gli eventi casuali ed algebra degli eventi; le variabili causale discrete e continue e i momenti delle variabili casuali.
Analizziamo pure alcune particolari variabili casuali come quella di Bernouilli, la binomiale, la normale o di Gauss e altre cariabili derivate dalla normale
Parte 3: elementi di inferenza statistica
Analizziamo cosa si intende per popolazione, per campioni e per campioni casuali.
Anche le stime come quelli della media, di una percentuale, della varianza e della correlazione lineare.
L’ultima parte riguarda la stima di ipotesi, test su una o più medie o percentuali o sulla correlazione, e anche gli intervalli di confidenza delle medie e delle percentuali.
Analizziamo anche l’interpolazione e regressione lineare, la stima dei parametri, test sui parametri, analisi dei residui del modello di regressione e la validazione del modello e bontà di adattamento.
Si selezione solo un insieme di unità statistiche all’interno della popolazione di riferimento.
La teoria dei campioni definisce i criteri di selezione di tali unità della popolazione al fine della formazione del campione.
L’indagine basata su campione viene detta indagine campionaria.
Dei vantaggi che possono derivare dal compiere un’analisi sulla popolazione sono: Esaustività, ricchezza di informazioni, maggior dettaglio (copertura). Invece, per quanto riguarda i svantaggi sono: costi elevati, lunghi tempi di elaborazione, difficoltà raggiungere tutti, qualità di informazioni(?).
I vantaggi che riguardano l’utilizzo del campione sono: economicità, possibilità ripetizione indagine, indagine mirate, tempestività. Gli svantaggi sono: errore campionari, minor livello di copertura, selezione campione.
Il dettaglio informativo è sicuramente maggiore nel caso delle indagini censuarie, con una copertura territoriale molto dettagliata. D’altro canto però, la costruzione di un campione rappresentativo con una corretta copertura, permette di ricavare più informazioni differenziate, per via dei costi e dei tempi ridotti.
La statistica descrittiva si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc) le informazioni (qualitative e quantitative) relative ad un certo gruppo di “soggetti” al fine di far emerge caratteristiche, andamenti ed eventuali relazioni che si verificano all’interno del fenomeno analizzato. Fanno parte della statistica descrittiva: la costruzione delle tabelle e dei grafici, il calcolo delle medie, l’analisi della variabilità, le tabelle doppie di contingenza e la retta di regressione.
La statistica inferenziale utilizza le informazioni raccolte da un’indagine campionaria e la “manipola” (grazie all’utilizzo di opportuni “modelli”) in modo da poter generalizzare le indicazioni tratte dal gruppo (analisi parziale) investigato a tutta la popolazione dalla quale tale gruppo è stato estratto. Argomenti tipici dell’inferenza sono: il calcolo della probabilità, le variabili casuali, il teorema del limite centrale, gli stimatori, la stima per intervallo e i test.
Gli strumenti della statistica descrittiva permettono di sintetizzare e rappresentare i dati osservati. L’inferenza è un processo induttivo che permette di passare dal particolare (l’indagine campionaria) al generale (la popolazione da cui è stato estratto il campione). Il passaggio dal campione alla popolazione avviene in condizioni di incertezza. L’inferenza usa strumenti probabilistici per estendere le informazioni campionarie alla popolazione.
I dati a disposizione dello statistico non hanno tutti la stessa natura, poiché i fenomeni statistici rilevati possono essere di diverso tipo. Spesso tale differenza è dovuta alla maniera in cui i dati sono stati raccolti.
Esiste un ordine nella tipologia dei caratteri rilevati, definito in base all’informazione che se ne può estrarre con il metodo statistico. Nell’ordine più basso sarà possibile effettuare poche operazioni sui dati rilevati e ricavare indicazioni di basso livello informativo, nella parte alta della graduatoria d’ordine ritroviamo invece caratteri a forte contenuto informativo che possono essere gestiti in diversi modi.
Il carattere è la caratteristica oggetto di studio rilevata e/o misurata sulle unità statistiche.
Il carattere osservato sull’unità statistica si può esprimere attraverso un attributo ( carattere qualitativo ) o attraverso un numero ( carattere quantitativo ).
ES. con l’unità statistica 27, chiediamo quanti esami ha sostenuto? 2 esami (carattere quantitativo); successivamente il voto (28), carattere quantitativo. Invece nella terza colonna viene indicato il grado di soddisfazione (ottimo) ed è un carattere qualitativo. Nella quarta colonna, viene indicato se è frequentante o meno…
I caratteri qualitativi sono divisi in:
I caratteri quantitativi sono divisi in:
Il modo in cui il carattere si manifesta sulla singola unità statistica è detto “modalità”.
A ciascun tipologia di carattere corrispondono diverse operazioni applicabili.
Abbiamo sempre un attributo e quindi un carattere qualitativo, la differenza è che si può notare un ordine, (carattere qualitativo ordinabile).
Su 4 studenti viene chiesto il voto dell’esame di statistica.
Analizziamo:
Esso è un carattere quantitativo, in modo da quantificare la differenza.
Le modalità del carattere è espressa con un numero intero: carattere quantitativo discreto. Possiamo utilizzare le operazioni: =; ≠; >; <; +; -; :
Su questi 4 studenti viene chiesto il peso.
È sempre un carattere quantitativo, ma continuo. In quanto i numeri sono decimali.
1. Le frequenze semplici
Riportare informazioni con questo tipo di tabella è molto discorsivo e facile.
I caratteri osservati sono di diversa tipologia: - Sesso e Laurea sono qualitativi sconnessi - Età, Voto, Componenti sono quantitativi discreti - Reddito è quantitativo continuo.
Bisogna compiere alcune operazioni di sintesi: calcolo delle frequenze.
Le frequenze semplici rappresentano il numero di volte in cui una determinata modalità del carattere si presenta sul totale delle unità osservate. Le frequenze si ricavano direttamente dal conteggio. Essi sono indicate con ni, dove i esprime la i-esima modalità. Il totale delle frequenze deve ridare il totale delle unità statistiche osservate.
Es. quanti si sono laureati in economia. riprendendo la tabella per il carattere “Sesso”:
Due modalità: M e F. Sulle 10 unità statistiche abbiamo osservato 5M e 5F. Indichiamo con x 1 la prima modalità del carattere (M) e con x 2 la seconda modalità del carattere (F).
N 1 = 5 è la frequenza associata ai M
N 2 = 5 è la frequenza associata alle F
N1+n 2 =n ossia 5+5=10 (verifica).
Il simbolo di sommatoria Σ. Inoltre, si deve specificare costa si sta sommando: ni e da dove parte la sommatoria: i=1 e fino a dove arriva la sommatoria: k.
Alcune proprietà sono:
A volte può accadere di rilevare dati quantitativi continui, che vengono raggruppati in classi, per rendere più semplice la lettura dei dati.
Esempio “Reddito”:
REDDITO FREQUENZA 14.000-20.000 5 20.000-30.000 3 30.000-40.000 2
L’obiettivo della costruzione della tabella di frequenze è quello di avere una percezione più immediata di come si distribuisce il carattere. Inoltre tale tabella è un modo più sintetico di rappresentare i dati osservati, soprattutto se questi sono di elevata numerosità.
Su 15 lavoratori di un supermercato è stato rilevato il carattere “mezzo di trasporto utilizzato per andare a lavoro”.
Le modalità del carattere sono: Mezzi pubblici (MP), Auto privata (AP), Moto (M), a Piedi (P).
Di seguito i dati osservati, elencati in sequenza: MP,M,P,M,AP,AP,AP,MP,M,AP,MP,AP,M,M,P
Raccogliamo i dati e costruiamo la distribuzione di frequenze:
Il carattere è qualitativo sconnesso e l’ordine con cui sono riportate le modalità è arbitrario.
Sulle stesse 15 persone precedenti viene chiesto anche “il tempo che impiega per arrivare a lavoro”: 65, 27, 32, 44, 51, 47, 38, 72, 18, 75, 81, 56, 45, 36, 21
Il carattere in considerazione è quantitativo continuo. È utili raccogliere i valori in classi:
L’ultima classe, per comodità, è lasciata aperta.
xi ni 0-30 3 30-60 8 >60 4 TOTALE 15
1. Le frequenze relative e percentuali
Le frequenze semplici che portano alla costruzione della distribuzione di frequenza si determinano semplicemente facendo il “conteggio” delle unità che presentano una particolare modalità
Abbiamo rilevato su 350 studenti il numero di esami sostenuti nell’anno in corso. I dati unitari sono ripotati di seguito:
3, 1, 3, 1, 3, 1, 1, 3, 2, 2, 1, 3, 2, 1, 1, 2, 0, 2, 1, 1, 1, 3, 2, 1, 1, 1, 1, 1, 0, 2, 0, 0, 1, 3, 2, 2, 2, 2, ....
L’utilizzo della distribuzione di frequenza ci permette una rappresentazione sintetica dell’insieme di dati.
Innanzitutto, dobbiamo individuare il tipo, le modalità di carattere.
Prima tabella di frequenza (semplice).
45 su 350 non hanno fatto esami.
36 su 350 hanno fatto tre esami 45/350=0.13= frequenza relativa (relativa al totale)
45/350*100=13= frequenza percentuale.
La frequenza relativa viene calcolata tramite il rapporto fra la frequenza e il totale. Ai fini interpretativi è tuttavia più immediato trasformare tale frequenza in percentuale, semplicemente moltiplicando per 100% il valore ottenuto precedentemente. In questo caso abbiamo la frequenza percentuale.
Notiamo tuttavia che benchè le frequenze relative e percentuali permettano di cogliere meglio il modo di distribuirsi del carattere, tali frequenze perdono una informazione fondamentale: la numerosità delle osservazioni.
Xi Ni 0 45 1 136 2 133 3 36 Totale N=
Quanti sono, in assoluto e in percentuale, i lavoratori che hanno preso al massimo 2 giorni di malattie? 35+51+113=199 (Fr. Assoluta cumulata)
14+21+46=81% (Freq. Percentuale cumulata).
Quanti sono i lavoratori che hanno preso più di 1 giorno di malattia?
246-86=
100-35=65%
1. Esercizio 1 sulle frequenze
In 500 aziende agricole situate in una provincia pugliese è stata rilevata la tipologia di piantagione prevalente.
Il carattere è qualitativo sconnesso, non è possibile fare un ordine. Ni sono le frequenze semplici.
Notiamo che la piantagione meno diffusa è quella di alberi di frutto con 40, mentre quella maggior diffusa e con 210 con gli ulivi.
Noi dobbiamo calcolare le frequenze relative e percentuali per i dati riportati in tabella. Dobbiamo vedere, inoltre, se ha senso calcolare le frequenze cumulate per la distribuzione data e vedere anche la percentuale di copertura della piantagione più diffusa sul territorio.
Per calcolare le frequenze relativi e percentuali usiamo due formule:
XI ni fi pi Ulivi 210 210/500=0.42 0.42100= Vigneti 80 80/500=0.16 0.16100= Alberi da frutto
Grano 170 170/500=0.34 0.34*100= Totale 500 1 100
Si aggiusta la frequenza relativa più elevata, in caso di scompensi.
Alla domanda se può avere senso calcolare le frequenze cumulate per la distribuzione data, la risposta è no. Questo perché il carattere qualitativo sconnesso e quindi l’ordine delle modalità è arbitrario.
Invece alla domanda che percentuale di copertura ha la piantagione più diffusa sul territorio è 42€, cioè gli Ulivi
Distribuzione delle aziende ICT nel comune ABC rispetto al numero di addetti:
Xi ni Ulivi 210 Vigneti 80 Alberi da frutto 40 Grano 170 Totale 500
Una volta raccolti questi dati, essi devono essere distribuiti.
Le distribuzioni di frequenza sono un ottimo strumento di sintesi di dati osservati, ma spesso la loro capacità “comunicativa” non è immediata.
Può essere anche utili presentare i dati anche in forma grafica. Il grafico esprime visivamente l’andamento dei dati, espressi con i valori della distribuzione di frequenza.
Non esistono regole fisse per la costruzione e perla scelta del grafico ma si possono dare semplici consigli, affinché la rappresentazione sia la più chiara ed intuitiva possibile. È buona regola che un grafico contenga:
Nel costruire i grafici si deve fare attenzione a non farsi abbandonare troppo dalla fantasia. Bisogna individuare il grafico adatto alla tipologia del carattere analizzato e cercare di evidenziare quanto più possibile le proprietà del fenomeno.
Un carattere qualitativo sconnesso può essere rappresentato graficamente in diversi modi:
Rappresentazione tramite rettangoli: in corrispondenza di ciascuna modalità si disegnano rettangoli di stessa base e altezza proporzionale alle frequenze.
Dalla parte orizzontale mettiamo le modalità di come si manifesta l’evento. Non c’è in questo caso un obbligo per mettere in ordine le modalità. L’unica difficoltà che si potrà incontrare e definire l’altezza per le frequenze.
Questo grafico ci permette di individuare direttamente cosa dice il grafico.
Grafico a torta: si costruisce un cerchio, i cui settori circolari (a) anno ampiezza proporzionale alle frequenze (a=fi*360°)
Grafici con figure: si sceglie una figura per rappresentare l’unità di misura e si rappresentano le modalità riportando un numero di figure proporzionale alle frequenze osservate.
Se il carattere è qualitativo ordinabile si possono usare comunque le rappresentazioni grafiche viste precedentemente, ma è necessario qualche accorgimento per evidenziare l’ordine.
Il grafico a torta è fuorviante, poiché non prevede la possibilità di ordinare le modalità. L’ordine delle modalità permette più correttamente di evidenziare l’andamento del fenomeno.
Y= livello di scolarità: si tratta di un carattere qualitativo misurabile su scala ordinale. Le modalità con cui si presenta il fenomeno sono k=4 (alfabeta, Obbligo, superiore, Laurea)
Il grafico più adatto a descrivere i caratteri quantitativi discreti è il “grafico a barre”. È simile al grafico a rettangoli, dove però le frequenze sono rappresentate soltanto da una barra lineare.
Il grafico è riportato su un piano cartesiano, dove sull’asse orizzontale si riportano le modalità – discrete – del carattere, e sull’asse verticale le rispettive frequenze.
Yi Ni A 2 O 6 S 8 L 4 Tot. 20
L’istogramma è un particolare grafico, che necessità di accortezze.
L’aspetto importante di tener in conto è l’ampiezza e la densità della classe.
L’istogramma è la rappresentazione grafica che si usa per i caratteri quantitativo continuo.
I caratteri quantitativi continui sono rappresentati tramite tabelle con modalità espresse in classi. Al fine della costruzione del grafico è fondamentale tener conto dell’ampiezza della classe (ai):
Dove con wi e wi+1 si sono indicati gli estremi dell’intervallo.
È prevedibile che se un intervallo ha ampiezza maggiore, avrà anche frequenza maggiore. Ossia le frequenze sono condizionate dalla diversa ampiezza degli intervalli. Per depurare le frequenze dalla diversa ampiezza si calcolano le densità di frequenza (li)
La frequenza maggiore è il 7, ma non si sa se è per l’ampiezza maggiore o se è per la caratteristica del settore.
Il grado di intensità è nell’ultima colonna.
Il significato della densità di frequenza è quello di dire quanto le mie osservazioni sono “addensate” all’interno della classe. E’ come si le osservazioni venissero distribuite equamente all’interno della classe.
Le densità di frequenza possono calcolarsi per qualsiasi tipologia di frequenza (semplice, relativa o percentuale). La densità di frequenza ci dice come si distribuiscono le frequenze all’interno dell’intervallo. L’ipotesi è quella di equi distribuzione.
Nella costruzione dell’istogramma è fondamentale che le aree dei rettangoli rispettino le proporzioni tra le frequenze osservate.
Se un intervallo ha una frequenza doppia rispetto ad un altro, anche la rispettiva area deve essere doppia. Al fine di rispettare tali proporzionalità è necessario calcolare le densità di frequenze e costruire l’istogramma rispetto a queste.
L’istogramma è simile al diagramma a rettangoli visto per caratteri qualitativi, solo che la base corrisponde all’intervallo osservato. Ogni rettangolo associato al rispettivo intervallo, deve avere
l’area uguale alla frequenza osservata. L’area del rettangolo è data da base x altezza , dove la base è l’ampiezza dell’intervallo.
Rappresentazione tramite istogrammi : quando abbiamo un fenomeno quantitativo continuo con dati raggruppati in classi si costruisce un istogramma procedendo come segue:
Se invece riportiamo sull’asse delle ordinate le frequenze direttamente osservate in corrispondenza delle classi, la rappresentazione sarebbe errata, come messo in evidenza dai seguenti due istogrammi, costruiti in corrispondenza dei dati riportati nella precedente tabella.
Il primo istogramma considera sulle ordinate le frequenze. Se prendiamo i primi due intervalli, abbiamo che il secondo presenta il doppio delle osservazioni del primo. Se andiamo a fare però il confronto in termini di rettangoli, il primo ha un’area pari a 30 (=10 × 3) e il secondo pari a 48 (=8 × 6).
Quando invece disegniamo l’istogramma in riferimento alle densità di frequenze, il primo rettangolo ha un’area pari a 3 (=10 × 0.3) e il secondo pari a 6 (=8 × 0.75). In questo secondo caso è rispettata la corrispondenza tra frequenze.