Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Calcoli statistici: misure di tendenza centrale e dispersione - Prof. Petrucci, Appunti di Statistica

Questo capitolo introduttivo alla statistica descrive le diverse misure utilizzate per descrivere la tendenza centrale e la dispersione dei dati. Vengono trattate le misure di tendenza centrale quali media aritmetica, mediana e moda, e le misure di dispersione quali intervallo di variazione, varianza e scarto quadratico medio. Vengono inoltre presentate le formule per calcolare queste misure sia per una popolazione che per un campione.

Tipologia: Appunti

2020/2021

Caricato il 09/03/2021

giuliaMo---------
giuliaMo--------- 🇮🇹

4.8

(5)

7 documenti

1 / 3

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
Capitolo 3
3.1 Misure di tendenza centrale
Una misura di tendenza centrale descrive numericamente la media o un valore tipico dei dati. Ogni volta
che si sente la parola media è sempre necessario essere consapevoli che non sempre si riferisce alla media
aritmetica. Una media potrebbe essere usata a supporto di una decisione, mentre un’altra media potrebbe
essere usata per supportarne una differente.
Calcolare la media aritmetica
Il calcolo della media aritmetica avviene solo su dati quantitativi. La media aritmetica di una variabile si
calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. La media aritmetica
di una popolazione μ &si legge “mu() si calcola utilizzando tutte le unità della popolazione. La media
campionaria x &con un trattino sopra) si calcola sulle osservazioni del campione.
Lettere greche – parametri
Lettere romane – statistiche
Pedici – unità che compongono la popolazione
N – rappresenta la dimensione della popolazione
n – rappresenta la dimensione del campione
Σ – devono essere sommati tutti i numeri
&pag.65 3.1)
Calcolare la mediana
La seconda misura di tendenza centrale è la mediana. Per poter calcolare la mediana di una distribuzione i
dati devono essere quantitativi. La mediana è il valore che occupa la posizione centrale di una distribuzione
ordinata in senso crescente, viene indicata con M. Per calcolare la mediana di un dataset nel caso di un
campione:
1. Ordinare i dati in ordine crescente
2. Determinare il numero di osservazioni n
3. Determinare l’osservazione che occupa la posizione centrale nei dati
Se il numero di osservazioni è dispari corrisponde al valore centrale – formula &n+1)/2
Se il numero di osservazioni è pari corrisponde alla media dei valori centrali – formula n/2 e n/2+1
= n/2+n/2+1 tutto diviso 2
[Una misura di sintesi di una distribuzione si dice robusta se non risulta particolarmente sensibile ai valori
estremi].
Calcolare la moda
La moda può essere calcolata per dati quantitativi e qualitativi. La moda di una variabile è l’osservazione
che si presenta con la frequenza più alta. Possono esserci più mode: bimodale o multimodale &non viene
riportata perché non è rappresentativa). Se nessuna osservazione si presenta più di una volta la
distribuzione non ha moda.
0,0,0,0,0,0,0,0,0,0,0,1,1,1,2
La moda è 0 &11 volte 0)
82,23,77,56,43
Non ha moda.
Una misura di sintesi di una distribuzione si dice robusta se non risulta particolarmente sensibile ai valori
estremi.
3.2 Misura di dispersione
La dispersione è il grado di variabilità dei dati.
Intervallo di variazione &R=Range)
È la differenza tra il valore più elevato e quello più basso.
Non è robusto perché è fortemente influenzato dai valori utilizzati.
pf3

Anteprima parziale del testo

Scarica Calcoli statistici: misure di tendenza centrale e dispersione - Prof. Petrucci e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

Capitolo 3 3.1 Misure di tendenza centrale Una misura di tendenza centrale descrive numericamente la media o un valore tipico dei dati. Ogni volta che si sente la parola media è sempre necessario essere consapevoli che non sempre si riferisce alla media aritmetica. Una media potrebbe essere usata a supporto di una decisione, mentre un’altra media potrebbe essere usata per supportarne una differente. Calcolare la media aritmetica Il calcolo della media aritmetica avviene solo su dati quantitativi. La media aritmetica di una variabile si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. La media aritmetica di una popolazione μ (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediasi legge “mu”) si calcola utilizzando tutte le unità della popolazione. La media) si calcola utilizzando tutte le unità della popolazione. La media campionaria x (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediacon un trattino sopra) si calcola sulle osservazioni del campione. Lettere greche – parametri Lettere romane – statistiche Pedici – unità che compongono la popolazione N – rappresenta la dimensione della popolazione n – rappresenta la dimensione del campione Σ – devono essere sommati tutti i numeri (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediapag.65 3.1) Calcolare la mediana La seconda misura di tendenza centrale è la mediana. Per poter calcolare la mediana di una distribuzione i dati devono essere quantitativi. La mediana è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente, viene indicata con M. Per calcolare la mediana di un dataset nel caso di un campione:

  1. Ordinare i dati in ordine crescente
  2. Determinare il numero di osservazioni n
  3. Determinare l’osservazione che occupa la posizione centrale nei dati Se il numero di osservazioni è dispari corrisponde al valore centrale – formula (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La median+1)/ Se il numero di osservazioni è pari corrisponde alla media dei valori centrali – formula n/2 e n/2+ = n/2+n/2+1 tutto diviso 2 [Una misura di sintesi di una distribuzione si dice robusta se non risulta particolarmente sensibile ai valori estremi]. Calcolare la moda La moda può essere calcolata per dati quantitativi e qualitativi. La moda di una variabile è l’osservazione che si presenta con la frequenza più alta. Possono esserci più mode: bimodale o multimodale (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La medianon viene riportata perché non è rappresentativa). Se nessuna osservazione si presenta più di una volta la distribuzione non ha moda. 0,0,0,0,0,0,0,0,0,0,0,1,1,1, La moda è 0 (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La media11 volte 0) 82,23,77,56, Non ha moda. Una misura di sintesi di una distribuzione si dice robusta se non risulta particolarmente sensibile ai valori estremi. 3.2 Misura di dispersione La dispersione è il grado di variabilità dei dati. Intervallo di variazione (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediaR=Range) È la differenza tra il valore più elevato e quello più basso. Non è robusto perché è fortemente influenzato dai valori utilizzati.

Varianza È la deviazione dalla media e proprio come la media si può calcolare sia della popolazione che del campione. Varianza della popolazione -> La varianza della popolazione si calcola sottraendo la media ai singoli valori della popolazione/osservazioni (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediax1, x2, x3…), elevando il risultato al quadrato e dividendo la somma dei risultati per N (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediail numero della popolazione totale) – guardare foglio. Varianza del campione -> stessa procedura della varianza della popolazione ma dividendo per n-1 il totale anziché N. (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediamedia – somma di tutti i valori diviso il totale di quante persone sono) Scarto quadratico medio (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La media deviazione standard ) -> esistono due tipi di deviazione standard: popolazione e campione. Per determinare entrambi dobbiamo porre sotto radice quadrata popolazione e campione. La deviazione standard è utilizzata insieme alla media per sintetizzare in termini numerici le distribuzioni a forma campanulare e simmetriche. La media fornisce una misura di tendenza centrale alla distribuzione, la deviazione misura la dispersione della distribuzione; quanto maggiore è la deviazione standard, tanto maggiore è la dispersione di una distribuzione. Intervalli tipici per descrivere una distribuzione campanulare Gli intervalli tipici servono per determinare la percentuale delle osservazioni che cadono tra la media e k deviazioni standard dalla media. Possono essere:

  1. 68% delle osservazioni cade tra media e deviazione standard
  2. 95% delle osservazioni cade tra media e 2 deviazioni
  3. 99.7% delle osservazioni cade tra media e 3 deviazioni Disuguaglianza di Chebyshev -> il matematico russo ha sviluppato questa disuguaglianza per determinare l’estremo inferiore nella percentuale delle osservazioni che cadono tra la mediana e deviazioni standard; si può determinare indipendentemente dalla forma della distribuzione. Il valore k può assumere qualsiasi valore maggiore di 1. 3.3Misure di tendenza centrale e di dispersione Approssimare la media per le distribuzioni in classi È possibile sia per la media della popolazione che per la media campionaria. Svolgimento -> Data la classe iniziale dobbiamo trovare il valore centrale che si calcola sommando gli estremi inferiori delle due classi adiacenti (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediasopra e sotto) e dividendo per 2. Scriviamo la frequenza nella colonna accanto e sommiamole. x1f1 lo calcoliamo con il valore centrale x la frequenza. Ora sommiamo i valori x1f1. Dividiamo infine la somma di x1f1 con il totale della frequenza. Le formule di calcolo della media aritmetica di una popolazione e della media campionaria sono identiche. Media pesata Esistono dati che hanno più importanza di altri e per questo di calcola la media pesata. Si trova moltiplicando ciascun valore della variabile per il corrispondente peso, sommando questi prodotti e dividendo il risultato per la somma dei pesi. Approssimare la varianza e la deviazione standard per una distribuzione in classi Anche in questo caso si può calcolare la varianza sia della popolazione che del campione. Svolgimento -> data la classe, il valore centrale, la frequenza e la media campionaria, ricaviamo x soprassegnato (si legge “mu”) si calcola utilizzando tutte le unità della popolazione. La mediatotale trovato dalla media). Dobbiamo sottrarre il valore centrale con il valore della media per trovare x1-x soprassegnato. Ora eleviamo al quadrato l’ultimo risultato e lo moltiplichiamo con la frequenza; sommiamo tutti i valori. Sostituiamo tutti i valori con la formula 10, quindi il totale di x1-x alla seconda diviso la frequenza -1 per ottenere una misura della varianza campionaria. Per ottenere una misura approssimata della deviazione standard campionaria si mette tutto sotto radice. 3.4 Misure di posizione e outlier Z-score (o punteggi standardizzati) Rappresenta la distanza di ciascun valore dalla media; si ottiene sottraendo la media del valore della variabile e dividendo il risultato per la deviazione standard. Esiste sia della popolazione che di un campione. Se il valore è maggiore lo z-score è positivo, se è minore è negativo, se è uguale alla media è zero. [esempio 3.19 – pag.88]