Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Caratteri statistici: tipi di dati, distribuzioni e operazioni, Appunti di Statistica

Una introduzione alla statistica descrivendo i tipi di dati utilizzati in un esperimento statistico, quali quantitativi e qualitativi, e le loro distribuzioni. Vengono inoltre introdotti concetti come istogramma, frequenza assoluta, frequenza relativa, frequenza cumulata e tabelle a doppia entrata. Inoltre, vengono presentate le notazioni sintetiche come operatore sommatoria e progressione aritmetica. Il documento conclude con la descrizione della media, proprietà delle medie e la moda.

Tipologia: Appunti

2020/2021

Caricato il 05/01/2021

verocancia
verocancia 🇮🇹

1 documento

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
carattere è il tipo di dato sul quale si basa un esperimento statistico, quindi può essere considerato come
una variabile; quantitativo esprime una quantità, ovvero dei valori numerici: discreto assume una quantità
finita o numerabile di valori, ovvero i suoi possibili valori possono essere elencati continuo assume una
quantità non numerabile ma continua di valori, che cioè può assumere tutti i valori intermedi di un
intervallo. Non essendo però possibile riportare tutti i valori assunti, questi sono raggruppati in classi. Nel
caso di dati continui un istogramma è costruito disegnando rettangoli adiacenti le cui basi definiscono le
classi, mentre le altezze sono date dalle frequenze assolute o relative. qualitativo esprime una qualità,
assume valori non numerici se rappresentate sotto forma di numeri esse rappresentano delle categorie. E’
ordinale se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte lungo una
scala. distribuzione è una rappresentazione del modo in cui le unità statistiche si dispongono nelle diverse
modalità di un carattere. di frequenza è un organizzazione di dati in forma tabellare tale che ad ogni
modalità corrisponde la rispettiva sequenza assoluta o relativa. Una tabella può essere semplice (nel caso si
consideri un solo carattere) o multipla (2 o più caratteri per ogni unità) Tabella multipla rappresentante le
osservazioni di: due caratteri qualitativi (genere, obiettivo per essere popolari) un carattere
quantitativo discreto (numero ore di musica ascoltate al giorno). Frequenza assoluta: numero di
volte in cui si presenta ogni dato. È un numero compreso tra 0 e il numero totale di osservazioni Frequenza
relativa: rapporto tra la frequenza assoluta e numero totale dei dati. È un numero reale compreso fra 0 e 1,
la somma delle frequenze relative è pari a 1. Frequenza assoluta cumulata: disponendo i dati in ordine
crescente, è la somma della frequenza assoluta e la frequenza cumulata dell'elemento precedente. È un
numero crescente compreso tra 0 ed il numero totale di osservazioni. frequenza cumulata relativa, è un
numero reale crescente compreso tra 0 ed 1 tabelle a doppia entrata Questo tipo di tabelle rappresentano
le distribuzioni di frequenza e sono dette: di contingenza, se i due caratteri sono entrambi qualitativi
(mutabili); di correlazione, se i due caratteri sono entrambi quantitativi (variabili); miste, se si hanno una
mutabile ed una variabile. operatore sommatoria (permette di scrivere in modo compatto la somma di un
numero finito o infinito di termini) è una notazione sintetica In particolare si ha: una lettera sigma
maiuscola Σ, che rappresenta il simbolo di sommatoria. una lettera minuscola che funge da indice della
sommatoria. un'espressione algebrica alla destra della sigma (addendo). un intervallo di valori (indicato
sopra e sotto Σ) fra cui può variare l'indice.
k=n
m
f(k)
produttoria è una notazione sintetica che rappresenta
la moltiplicazione di un certo numero di fattori. In particolare si ha: una lettera pi-greco maiuscola Π, che
rappresenta il simbolo, una lettera minuscola che funge da indice della produttoria. un'espressione
algebrica alla destra del pi-greco (fattore). un intervallo di valori (indicato sopra e sotto Π) fra cui può
variare l'indice.
progressione aritmetica è una successione di numeri tale che la differenza fra ciascun numero ed il suo
precedente sia una costante Tale costante è detta ragione della progressione aritmetica (d): 𝑎𝑛 𝑎𝑛−1 = 𝑑
per trovare l’ennesimo termine: 𝑎𝑛 = 𝑎1 +(𝑛 1 )𝑑 Una progressione geometrica è una successione di
numeri non nulli tale che il rapporto fra ciascun numero ed il suo precedente sia costante. Tale costante è
detta ragione della progressione geometrica (q) =
an
an1
l’ennesimo termine della progressione
an=a1qn1
In statistica la
media è un valore numerico che descrive sinteticamente un insieme di dati. Si può chiamare media di una
distribuzione 𝒙𝟏, . . . , 𝒙𝒏 quella quantità M che sostituita alle 𝒙𝒊 lascia invariato il risultato. di n valori è la
loro somma divisa per il numero dei termini:
1
n
1=1
n
xi
Se i valori delle 𝒙𝒊 hanno frequenze diverse, ossia
compaiono più volte nelle osservazioni, ad esempio il valore 𝒙𝟏 compare 𝒇𝟏, il valore 𝒙𝟐 compare 𝒇𝟐 volte
e così via, allora ogni valore è ponderato con la sua frequenza e la formula della media aritmetica
ponderata è:
i=1
n
xifi
i
n
fi
Proprietà 1 : La somma degli scarti positivi dalla media è uguale, in valore assoluto,
alla somma degli scarti negativi e quindi la somma di tutti gli scarti (positivi e negativi) dalla media è zero .
Proprietà 2 : La somma dei quadrati degli scarti dei valori dalla media è minore della somma dei quadrati
degli scarti da qualsiasi altro numero. Proprietà 3 : Aggiungendo o sottraendo a tutti i valori 𝒙𝒊 la stessa
quantità k, la media aritmetica viene incrementata o ridotta di tale quantità k. Proprietà 4 : Moltiplicando
o dividendo tutti i valori 𝒙𝒊 per la stessa quantità k diversa da zero, la media aritmetica risulta moltiplicata
o divisa per tale quantità k. la moda corrisponde al valore che si presenta con frequenza più elevata nella
distribuzione della variabile di interesse. Diversamente dalla Media e dalla Mediana non è una valore
unico. Se esiste più di una moda allora si dice che la distribuzione è multimodale. Nel caso si sospettino ci
siano più mode controllare anche l’istogramma dei dati della variabile che preventivamente è stata
ordinata in modo crescente la mediana è quel valore che bipartisce la distribuzione, ossia quel valore che
occupa la posizione centrale quando le osservazioni sono disposte in ordine crescente. Quando il numero
delle osservazioni è pari ci sono due valori centrali, pertanto la mediana risulta essere la media di questi
due valori. Rispetto alla media, la mediana è un indice di posizione più robusto. Può essere utile da usare al
posto della media quando c’è la presenza di outlier. La Media non è sufficiente a dare una
rappresentazione sintetica dell’insieme delle osservazioni. È necessario, quindi, affiancarle altri indici che
diano informazioni sulla dispersione dei valori della distribuzione. rappresenta la distanza delle
osservazioni dal valore medio che rappresenta il centro della distribuzione Tanto minore è la distanza (o
dispersione) delle osservazioni dal centro, tanto maggiore sarà la rappresentatività del valore medio. Uno
degli indicatori fondamentali della variabilità è la varianza. Questa è uguale alla differenza quadratica fra
le varie osservazioni ed il valore medio:
2
=1
n
i=1
n
(x
i
M)
2
La varianza ha lo svantaggio di essere una
grandezza quadratica e quindi non direttamente confrontabile con la media o con gli altri valori della
distribuzione. Per trovare una misura espressa nella stessa unità di misura della variabile di partenza è
sufficiente estrarre la radice quadrata della varianza. La deviazione standard o scarto quadratico medio
pf2

Anteprima parziale del testo

Scarica Caratteri statistici: tipi di dati, distribuzioni e operazioni e più Appunti in PDF di Statistica solo su Docsity!

carattere è il tipo di dato sul quale si basa un esperimento statistico, quindi può essere considerato come una variabile; quantitativo esprime una quantità, ovvero dei valori numerici: discreto assume una quantità finita o numerabile di valori, ovvero i suoi possibili valori possono essere elencati continuo assume una quantità non numerabile ma continua di valori, che cioè può assumere tutti i valori intermedi di un intervallo. Non essendo però possibile riportare tutti i valori assunti, questi sono raggruppati in classi. Nel caso di dati continui un istogramma è costruito disegnando rettangoli adiacenti le cui basi definiscono le classi, mentre le altezze sono date dalle frequenze assolute o relative. qualitativo esprime una qualità, assume valori non numerici se rappresentate sotto forma di numeri esse rappresentano delle categorie. E’ ordinale se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte lungo una scala. distribuzione è una rappresentazione del modo in cui le unità statistiche si dispongono nelle diverse modalità di un carattere. di frequenza è un organizzazione di dati in forma tabellare tale che ad ogni modalità corrisponde la rispettiva sequenza assoluta o relativa. Una tabella può essere semplice (nel caso si consideri un solo carattere) o multipla (2 o più caratteri per ogni unità) Tabella multipla rappresentante le osservazioni di: due caratteri qualitativi (genere, obiettivo per essere popolari) un carattere quantitativo discreto (numero ore di musica ascoltate al giorno). Frequenza assoluta: numero di volte in cui si presenta ogni dato. È un numero compreso tra 0 e il numero totale di osservazioni Frequenza relativa: rapporto tra la frequenza assoluta e numero totale dei dati. È un numero reale compreso fra 0 e 1, la somma delle frequenze relative è pari a 1. Frequenza assoluta cumulata: disponendo i dati in ordine crescente, è la somma della frequenza assoluta e la frequenza cumulata dell'elemento precedente. È un numero crescente compreso tra 0 ed il numero totale di osservazioni. frequenza cumulata relativa, è un numero reale crescente compreso tra 0 ed 1 tabelle a doppia entrata Questo tipo di tabelle rappresentano le distribuzioni di frequenza e sono dette: di contingenza, se i due caratteri sono entrambi qualitativi (mutabili); di correlazione, se i due caratteri sono entrambi quantitativi (variabili); miste, se si hanno una mutabile ed una variabile. operatore sommatoria (permette di scrivere in modo compatto la somma di un numero finito o infinito di termini) è una notazione sintetica In particolare si ha: una lettera sigma maiuscola Σ, che rappresenta il simbolo di sommatoria. una lettera minuscola che funge da indice della sommatoria. un'espressione algebrica alla destra della sigma ( addendo ). un intervallo di valori (indicato

sopra e sotto Σ) fra cui può variare l'indice. ∑

k = n m f ( k ) produttoria è una notazione sintetica che rappresenta la moltiplicazione di un certo numero di fattori. In particolare si ha: una lettera pi-greco maiuscola Π, che rappresenta il simbolo, una lettera minuscola che funge da indice della produttoria. un'espressione algebrica alla destra del pi-greco ( fattore ). un intervallo di valori (indicato sopra e sotto Π) fra cui può variare l'indice. progressione aritmetica è una successione di numeri tale che la differenza fra ciascun numero ed il suo precedente sia una costante Tale costante è detta ragione della progressione aritmetica (d): 𝑎𝑛 − 𝑎𝑛−1 = 𝑑 per trovare l’ennesimo termine: 𝑎𝑛 = 𝑎 1 +(𝑛 − 1 )𝑑 Una progressione geometrica è una successione di numeri non nulli tale che il rapporto fra ciascun numero ed il suo precedente sia costante. Tale costante è detta ragione della progressione geometrica (q) = an an − (^1) ❑ l’ennesimo termine della progressione an = a 1 qn −^1 In statistica la media è un valore numerico che descrive sinteticamente un insieme di dati. Si può chiamare media di una distribuzione 𝒙𝟏,... , 𝒙𝒏 quella quantità M che sostituita alle 𝒙𝒊 lascia invariato il risultato. di n valori è la loro somma divisa per il numero dei termini:

n

1 = 1 n xi Se i valori delle 𝒙𝒊 hanno frequenze diverse, ossia compaiono più volte nelle osservazioni, ad esempio il valore 𝒙𝟏 compare 𝒇𝟏, il valore 𝒙𝟐 compare 𝒇𝟐 volte e così via, allora ogni valore è ponderato con la sua frequenza e la formula della media aritmetica ponderata è:

i = 1 n xi f (^) i

i n f (^) i Proprietà 1 : La somma degli scarti positivi dalla media è uguale, in valore assoluto, alla somma degli scarti negativi e quindi la somma di tutti gli scarti (positivi e negativi) dalla media è zero. Proprietà 2 : La somma dei quadrati degli scarti dei valori dalla media è minore della somma dei quadrati degli scarti da qualsiasi altro numero. Proprietà 3 : Aggiungendo o sottraendo a tutti i valori 𝒙𝒊 la stessa quantità k, la media aritmetica viene incrementata o ridotta di tale quantità k. Proprietà 4 : Moltiplicando o dividendo tutti i valori 𝒙𝒊 per la stessa quantità k diversa da zero, la media aritmetica risulta moltiplicata o divisa per tale quantità k. la moda corrisponde al valore che si presenta con frequenza più elevata nella distribuzione della variabile di interesse. Diversamente dalla Media e dalla Mediana non è una valore unico. Se esiste più di una moda allora si dice che la distribuzione è multimodale. Nel caso si sospettino ci siano più mode controllare anche l’istogramma dei dati della variabile che preventivamente è stata ordinata in modo crescente la mediana è quel valore che bipartisce la distribuzione, ossia quel valore che occupa la posizione centrale quando le osservazioni sono disposte in ordine crescente. Quando il numero delle osservazioni è pari ci sono due valori centrali, pertanto la mediana risulta essere la media di questi due valori. Rispetto alla media, la mediana è un indice di posizione più robusto. Può essere utile da usare al posto della media quando c’è la presenza di outlier. La Media non è sufficiente a dare una rappresentazione sintetica dell’insieme delle osservazioni. È necessario, quindi, affiancarle altri indici che diano informazioni sulla dispersione dei valori della distribuzione. rappresenta la distanza delle osservazioni dal valore medio che rappresenta il centro della distribuzione Tanto minore è la distanza (o dispersione) delle osservazioni dal centro, tanto maggiore sarà la rappresentatività del valore medio. Uno degli indicatori fondamentali della variabilità è la varianza. Questa è uguale alla differenza quadratica fra le varie osservazioni ed il valore medio: 2 =

n

i = (^1) ❑ n ( xiM ) 2 La varianza ha lo svantaggio di essere una grandezza quadratica e quindi non direttamente confrontabile con la media o con gli altri valori della distribuzione. Per trovare una misura espressa nella stessa unità di misura della variabile di partenza è sufficiente estrarre la radice quadrata della varianza. La deviazione standard o scarto quadratico medio

(sqm) è una misura della distanza dalla media e quindi ha sempre un valore positivo. La formula dello sqm è: (^) =

n

i = (^1) ❑ n ( xiM ) 2 quantili indice di posizione si intende la suddivisione di una distribuzione in gruppi ordinati e tendenzialmente di eguale numerosità. in particolare: con percentili si intende la suddivisione in 100 parti uguali di una serie di valori continui. ad esempio, considerando le altezze, una persona che supera il 90° percentile avrà un’altezza superiore al 90% di tutte le persone.i quantili più usati sono i quartili. tali indici di posizione si fondano sempre sul concetto di divisione della distribuzione. i quartili dividono la serie ordinata di dati in quattro parti. campionamento un campione è un gruppo di unità elementari, sottoinsieme di una particolare popolazione, che consente di effettuare analisi i cui risultati sono estendibili all’intera popolazione.i principali vantaggi: richiede meno tempo di censimento e’ molto meno costoso di un censimento è più facile da gestire rispetto alla popolazione esistono due tipi di campioni: probabilistici (ciascuna unità della popolazione ha una probabilità predefinita ed uguale di entrare a far parte del campione , il metodo più noto è il campionamento casuale semplice ( senza ripetizione o con ripetizione) non probabilistici ( si cerca di fare in modo che la modalità del campione presentino le stesse caratteristiche del campione). riflettono l’orientamento di colui che li costruisce. campionamento casuale semplice: più semplice e meno costoso garantisce una scelta obbiettiva esclude distorsioni nei risultati ma se la popolazione è grande e sparsa geograficamente aumentano i costi potrebbe non essere rappresentativo di tutte le sezioni della popolazione. il coefficiente di correlazione r esprime la relazione tra due variabili tale che a ciascun valore della prima variabile corrisponda con una "certa regolarità" un valore della seconda. ad esempio, le relazioni tra la statura (x) ed il peso (y) di un individuo. correlazione diretta o positiva: si muovono entrambe nello stesso senso anche l'altra si muove nello stesso senso (alle stature alte dei padri corrispondono stature alte dei figli). correlazione indiretta o negativa: quando una variabile si muove in un senso, l'altra varia in senso inverso .il coefficiente di correlazione varia fra - 1 (quando le variabili considerate sono inversamente correlate) e + 1 (quando vi sia correlazione assoluta). un indice di correlazione pari a zero indica assenza di correlazione. il ciclo di deming è un metodo/filosofia ideato da edwards william deming considerato l’inventore del movimento della qualità e riferimento nel campo della statistica industriale. è detto anche ciclo pdca, acronimo di plan–do–check–act. obiettivo: migliorare la qualità del prodotto e la soddisfazione del cliente. è un modello ideato per promuovere la cultura della qualità per il miglioramento continuo della qualità stessa dei processi e dei prodotti e dell’ottimizzazione dell’uso delle risorse. le quattro fasi devono ruotare in modo continuo, focalizzandosi sulla qualità. la sequenza logica del ciclo di deming: p - plan. pianificazione: stabilire gli obiettivi (risultati attesi) di progetto ed i processi necessari per fornire risultati coerenti con i risultati attesi, attraverso la redazione di accurate specifiche. d - do. esecuzione del programma: eseguire il piano relativo al processo e creare il prodotto finale. nel mentre raccogliere dati destinati alle fasi "check" ed "act". c - check. test e controllo: studio e raccolta dei risultati e dei dati raccolti nella fase "do" confrontandoli con i risultati attesi (obiettivi del "plan«) per verificarne le eventuali differenze. capire, studiare e risolvere le derive rispetto ai risultati attesi. a - act. azione: rendere definitivo e/o migliorare il processo. è necessario implementare azioni correttive sulle differenze significative tra risultati effettivi e previsti ed applicare le modifiche per ottenere il miglioramento del processo o del prodotto.