Scarica Misure di posizione centrale e dispersione in statistica e più Sintesi del corso in PDF di Statistica solo su Docsity!
STATISTICA
- Statistica descrittiva: rappresentazioni grafiche, misure di posizioni e di variabilità, dipendenza ed indipendenza, correlazione.
- Calcolo delle probabilità: concetti di base e proprietà, teorema di Bayes, distribuzioni discrete e continue.
- Statistica inferenziale: campionamento statistico, stima puntuale, stima intervallare, verifica di ipotesi, regressione lineare semplice. La statistica descrittiva è la branca della statistica che studia i criteri di rivelazione, classificazione, sintesi e rappresentazione dei dati appresi dallo studio di una popolazione o di una parte di essa. (Diagramma a barre) COLORE DEGLI OCCHI FREQUENZE ASSOLUTE Marroni 25 Verdi 14 Azzurri 9 Il diagramma a barre appena presentato riguarda le frequenze assolute, ma si possono anche considerare, allo stesso modo, le frequenze relative o percentuali. In generale il diagramma a barre si utilizza per caratteri qualitativi.
(Diagramma a torta) 52% 29% 19% marroni verdi azzurri Il diagramma a torta è un'altra forma di rappresentazione grafica che si basa essenzialmente sulla stessa costruzione del diagramma a barre. In questo caso però tutte le diverse modalità del carattere sono riportate all’interno di un cerchio (la “torta”) e le frequenze corrispondenti sono rappresentate sottoforma di “fette” di diversa ampiezza. (Diagramma a dispersione) Ecco un grafico a dispersione costruito per rappresentare diversi valori di altezze registrati su un campione di 36 persone: Il diagramma a dispersione si costruisce per caratteri di tipo quantitativo: sull’asse orizzontale vengono riportati i diversi valori (rispettando le proporzioni) e si disegna un punto in
INDICI DI POSIZIONI E DI VARIABILITA
Gli indici di posizione, o misure della tendenza centrale o medie, sintetizzano la posizione di una distribuzione statistica sostituendo i dati rilevati con un solo valore (numero) reale tale da fornire una efficace rappresentazione del fenomeno nella sua globalità e da riassumerne gli aspetti ritenuti più importanti. Indici di posizione in statistica:
- Media: È il valore medio di un insieme di dati.
- Mediana: È il valore centrale in un insieme di dati ordinati.
- Moda: È il valore che appare più frequentemente in un insieme di dati. La (Media) in statistica, è una misura di posizione centrale che rappresenta il valore medio di un insieme di dati. Per calcolare la media, si sommano tutti i valori presenti nell'insieme e si dividono per il numero totale di valori. Se abbiamo un insieme di dati rappresentati da ( x1,x2,x3,x4,… ), la formula per calcolare la media è: x1,x2,x3,x4 / per il numero totale di valori in questo caso ad esempio (4)
- In conclusione (10/4 = 2,5) La media è una misura utile per ottenere un'idea generale del valore tipico o centrale all'interno dei dati. Tuttavia, è importante notare che la media può essere influenzata da valori estremi o outlier nell'insieme di dati. In alcuni casi, potrebbe essere più appropriato utilizzare altre misure di posizione centrale, come la mediana o la moda, che possono essere meno sensibili agli outlier. La (Mediana) un'altra misura di posizione centrale in statistica, che differisce dalla media nel modo in cui viene calcolata e nella sua interpretazione. La mediana è il valore centrale di un insieme di dati ordinati. Per calcolare la mediana, è necessario ordinare i dati in ordine crescente o decrescente e quindi individuare il valore che si trova esattamente nel mezzo dell'insieme di dati. Se abbiamo un numero dispari di dati, la mediana è semplicemente il valore centrale dell'insieme ordinato. Ad esempio, nell'insieme ( 2, 5, 7, 10, 12 ), la mediana è ( 7 ), perché si trova esattamente al centro dell'insieme. Se abbiamo un numero pari di dati, la mediana è la media dei due valori centrali dell'insieme ordinato. Ad esempio, nell'insieme ( 3, 6, 8, 11 ), la mediana è ( \frac{6 + 8}{2} = 7 ), perché i valori centrali sono ( 6 ) e ( 8 ), e la loro media è ( 7 ). La mediana è utile perché non è influenzata dagli outlier o dai valori estremi nell'insieme di dati, a differenza della media. Tuttavia, è sensibile alla distribuzione dei dati e può non essere rappresentativa se l'insieme di dati è fortemente asimmetrico. In tali casi, altre misure di posizione centrale, come la media, potrebbero essere più appropriate.
La (Moda) è un'altra misura di posizione centrale in statistica, che indica il valore che appare più frequentemente in un insieme di dati. È il dato che si verifica con la maggiore frequenza all'interno del dataset. Per trovare la moda, è necessario esaminare l'insieme di dati e individuare quale valore si ripete più spesso. Un insieme di dati può avere una moda (unimodale) o più di una moda (multimodale). Ad esempio, consideriamo l'insieme di dati: [ 3, 5, 5, 7, 8, 8, 8, 9, 9 ] In questo caso, il valore ( 8 ) appare più frequentemente, quindi ( 8 ) è la moda di questo insieme di dati. In alcuni casi, un insieme di dati può non avere una moda, se tutti i valori si verificano con la stessa frequenza o se non ci sono ripetizioni. Ad esempio, nell'insieme di dati: [ 2, 4, 6, 8, 10 ] Non c'è alcun valore che si ripete, quindi non c'è una moda. La moda è utile perché fornisce informazioni sulla tendenza centrale dei dati, concentrandosi sul valore più comune. Tuttavia, a differenza della media e della mediana, la moda non fornisce una rappresentazione numerica diretta del centro dell'insieme di dati e può non essere unica in insiemi di dati complessi o con distribuzioni uniformi.
INDICI DI VARIABILITA’ Gli indici di variabilità sono misure statistiche utilizzate per quantificare la dispersione o la variabilità dei dati all'interno di un insieme di osservazioni. Queste misure forniscono informazioni sulla distribuzione dei dati e sulla loro dispersione rispetto alla tendenza centrale. Alcuni degli indici di variabilità più comuni includono:
- (Deviazione standard): La deviazione standard è una misura della dispersione dei dati rispetto alla media. È calcolata come la radice quadrata della varianza e fornisce una stima della dispersione media dei dati dal valore medio. Maggiore è la deviazione standard, maggiore è la dispersione dei dati.
- (Varianza): La varianza è una misura della dispersione dei dati che indica quanto i dati si discostano dalla media. È calcolata come la media delle differenze quadrate tra ciascun dato e la media. Una varianza più grande indica una maggiore variabilità dei dati.
- (Gamma): La gamma rappresenta la differenza tra il valore massimo e il valore minimo all'interno dell'insieme di dati. Indica la distanza totale tra i valori più alti e più bassi nell'insieme di dati.
Ci sono diversi tipi di correlazione statistica, ma il più comune è il coefficiente di correlazione di Pearson, indicato spesso con il simbolo ( r ). Questo coefficiente assume valori compresi tra -1 e 1:
- Se ( r ) è vicino a 1, c'è una forte correlazione positiva: i valori di una variabile aumentano quando i valori dell'altra variabile aumentano.
- Se ( r ) è vicino a -1, c'è una forte correlazione negativa: i valori di una variabile diminuiscono quando i valori dell'altra variabile aumentano.
- Se ( r ) è vicino a 0, non c'è correlazione lineare tra le variabili. Tuttavia, è importante notare che la correlazione non implica causalità. Anche se due variabili sono correlate, non significa necessariamente che una causa l'altra. Potrebbe esserci una terza variabile che influisce su entrambe, o potrebbe trattarsi di una correlazione casuale. Esistono anche altri tipi di correlazione, come la correlazione di Spearman (utilizzata per dati ordinali o non normalmente distribuiti) e la correlazione di Kendall (utilizzata per misurare l'associazione tra variabili ordinali). L'analisi della correlazione è ampiamente utilizzata in molti campi, tra cui scienze sociali, economia, scienze naturali e medicina, per comprendere le relazioni tra variabili e identificare eventuali pattern o tendenze nei dati.
CALCOLO DELLA PROBABILITA’ Il calcolo delle probabilità è un campo fondamentale della matematica e della statistica che si occupa di quantificare la possibilità che un certo evento si verifichi. Ecco alcuni concetti di base e proprietà del calcolo delle probabilità:
- (Evento): Un evento è un possibile risultato di un esperimento o di un processo. Gli eventi possono essere semplici (come ottenere "testa" lanciando una moneta) o composti (come ottenere "testa" due volte di seguito).
- (Spazio campione): Lo spazio campione, indicato spesso con ( S ), è l'insieme di tutti i possibili risultati di un esperimento. Ogni elemento dello spazio campione è chiamato "punto campione".
- (Probabilità di un evento): La probabilità di un evento rappresenta la possibilità che quell'evento si verifichi. È un numero compreso tra 0 e 1. La probabilità di un evento ( A ) è indicata spesso come ( P(A) ).
- (Legge di probabilità): La somma delle probabilità di tutti gli eventi nell'insieme degli eventi possibili è uguale a 1. In simboli, se ( E_1, E_2, ..., E_n ) sono eventi mutuamente esclusivi (cioè non possono verificarsi contemporaneamente), allora: [ P(E_1) + P(E_2) + ... + P(E_n) = 1 ]
- (Eventi complementari): L'evento complementare di un evento ( A ), indicato spesso con
( A' ) o ( \bar{A} ), rappresenta l'insieme di tutti gli eventi nello spazio campione che non sono
( A ). La probabilità dell'evento complementare è data da ( P(A') = 1 - P(A) ).
- (Unione di eventi): L'unione di due eventi ( A ) e ( B ), indicata con ( A \cup B ), rappresenta l'evento che almeno uno dei due eventi si verifichi. La probabilità dell'unione di due eventi è data da ( P(A \cup B) = P(A) + P(B) - P(A \cap B) ), dove ( A \cap B ) rappresenta l'intersezione tra
( A ) e ( B ). - (Indipendenza degli eventi): Due eventi ( A ) e ( B ) sono indipendenti se l'occorrenza di uno non influenza la probabilità dell'altro. In altre parole, ( P(A \cap B) = P(A) \cdot P(B) ). Questi sono solo alcuni dei concetti fondamentali e delle proprietà del calcolo delle probabilità. Esistono altre relazioni e regole che possono essere applicate in contesti più complessi e per calcolare la probabilità di eventi più complicati.
Il TEOREMA di BAYES è un concetto fondamentale della teoria delle probabilità che fornisce un metodo per aggiornare le probabilità di un'ipotesi alla luce di nuove evidenze o informazioni. È stato formulato dal matematico inglese Thomas Bayes e si applica particolarmente bene nei casi in cui è necessario fare inferenze a partire da dati incompleti o incerti. Il teorema di Bayes si esprime come segue: [ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} ] Dove:
- ( P(A|B) ) è la probabilità condizionata dell'evento ( A ) dato l'evento ( B ), ossia la probabilità che ( A ) si verifichi sapendo che ( B ) si è verificato.
- ( P(B|A) ) è la probabilità condizionata dell'evento ( B ) dato l'evento ( A ), ossia la probabilità che ( B ) si verifichi sapendo che ( A ) si è verificato.
- ( P(A) ) e ( P(B) ) sono le probabilità marginali degli eventi ( A ) e ( B ), rispettivamente. Il teorema di Bayes è particolarmente utile quando si conoscono le probabilità condizionate di
( B ) dato ( A ), ma si desidera calcolare la probabilità condizionata di ( A ) dato ( B ), il che può essere più difficile da ottenere direttamente. Il teorema di Bayes è ampiamente utilizzato in diversi campi, tra cui statistica, machine learning, intelligenza artificiale, medicina e altre discipline scientifiche, per fare inferenze su dati incerti e prendere decisioni basate sulla probabilità.
DISTRIBUZIONI DISCRETE E CONTINUE Le distribuzioni statistiche possono essere suddivise in due categorie principali: distribuzioni discrete e distribuzioni continue. Questa distinzione è basata sulla natura dei valori che le variabili casuali associate a queste distribuzioni possono assumere. (Distribuzioni discrete):
- Le variabili casuali associate a distribuzioni discrete possono assumere solo valori discreti o separati. Questi valori sono contabili e spesso rappresentano conteggi o numeri interi.
La statistica inferenziale è ampiamente utilizzata in ambito scientifico, sociale, medico ed economico per trarre conclusioni sulla base di dati campionari, fornendo informazioni su popolazioni più vaste senza la necessità di esaminare tutti i membri della popolazione stessa. CAMPIONAMENTO STATICO Il campionamento statistico è una parte essenziale della statistica inferenziale, poiché coinvolge la selezione di un sottoinsieme rappresentativo della popolazione di interesse al fine di fare inferenze su tutta la popolazione. Il campionamento statico è uno dei principali approcci al campionamento statistico. Il campionamento statico, o campionamento casuale semplice, è un metodo di campionamento in cui ogni individuo della popolazione ha la stessa probabilità di essere selezionato per far parte del campione. Questo significa che ogni possibile campione ha la stessa probabilità di essere selezionato. Il processo di campionamento statico comporta i seguenti passaggi:
- (Definizione della popolazione): Identificare la popolazione di interesse per lo studio. La popolazione può essere definita in diversi modi a seconda dell'ambito dello studio.
- (Selezione del campione): Utilizzare un metodo casuale per selezionare un sottoinsieme rappresentativo della popolazione. Questo può essere fatto utilizzando tecniche come il campionamento casuale semplice, il campionamento stratificato, il campionamento per grappoli, ecc.
- (Raccolta dei dati): Raccogliere dati da ogni individuo all'interno del campione selezionato.
- (Analisi dei dati): Analizzare i dati raccolti per fare inferenze sulla popolazione di interesse. Questo può includere il calcolo di stime puntuali e intervalli di confidenza per i parametri di interesse, nonché la conduzione di test di ipotesi. Il campionamento statico è ampiamente utilizzato nella ricerca scientifica, nell'analisi dei sondaggi, nell'industria e in molti altri campi in cui è necessario fare inferenze su popolazioni basate su campioni rappresentativi. Uno dei principali vantaggi del campionamento statico è la sua semplicità concettuale e la sua applicabilità a una vasta gamma di situazioni. Tuttavia, può essere importante prestare attenzione ai potenziali bias di campionamento che potrebbero influenzare i risultati dello studio. LA STIMA PUNTUALE La stima puntuale è un concetto fondamentale della statistica inferenziale che consiste nel fornire una singola stima numerica per un parametro di interesse della popolazione sulla base dei dati raccolti da un campione. In altre parole, si tratta di ottenere un unico valore che rappresenta la nostra migliore congettura sul valore del parametro della popolazione. Per effettuare una stima puntuale, solitamente si utilizza un'estimatore, che è una funzione dei dati campionari. L'estimatore viene applicato ai dati per ottenere una stima del parametro di interesse.
Ad esempio, supponiamo di essere interessati a stimare la media di altezza della popolazione. Raccogliamo un campione casuale di individui e misuriamo le loro altezze. Per stimare la media di altezza della popolazione utilizziamo la media campionaria come stimatore puntuale della media della popolazione. Quindi, se ( \bar{x} ) rappresenta la media campionaria, allora ( \bar{x} ) è la nostra stima puntuale della media della popolazione. Alcuni stimatori puntuali comuni includono:
- Media campionaria (( \bar{x} )) per stimare la media della popolazione (( \mu )).
- Proporzione campionaria (( \hat{p} )) per stimare la proporzione della popolazione (( p )).
- Varianza campionaria (( s^2 )) per stimare la varianza della popolazione (( \sigma^2 )). È importante notare che una stima puntuale fornisce solo un singolo valore e non tiene conto della variabilità delle stime. Pertanto, è comune accompagnare una stima puntuale con un intervallo di confidenza, che fornisce un intervallo entro il quale si ritiene che il parametro della popolazione si trovi con un certo livello di confidenza. STIMA INTERVALLARE La stima intervallare è un metodo utilizzato nella statistica inferenziale per fornire un intervallo entro il quale ci si aspetta che si trovi un parametro di interesse della popolazione con una certa probabilità (livello di confidenza). Questo intervallo è chiamato intervallo di confidenza. L'intervallo di confidenza è costruito utilizzando un'estimatore puntuale del parametro di interesse e considerando la variabilità dei dati campionari. Il livello di confidenza rappresenta la probabilità che l'intervallo di confidenza contenga effettivamente il vero valore del parametro di popolazione. Ad esempio, se si desidera stimare la media di altezza della popolazione, si può utilizzare la media campionaria come stimatore puntuale. Successivamente, si calcola l'errore standard della media, che tiene conto della variabilità dei dati campionari. Utilizzando l'errore standard e un valore critico associato alla distribuzione campionaria (tipicamente una distribuzione t di Student o una distribuzione normale), si costruisce l'intervallo di confidenza. Un intervallo di confidenza del 95% per la media della popolazione significa che, se ripetiamo il processo di campionamento molte volte, il 95% degli intervalli di confidenza ottenuti includerà effettivamente la vera media della popolazione. L'intervallo di confidenza fornisce quindi un modo per quantificare l'incertezza associata alla stima del parametro di interesse e fornisce un intervallo entro il quale ci si aspetta che si trovi il vero valore del parametro con una certa probabilità. È importante notare che l'intervallo di confidenza dipende dal livello di confidenza scelto e dall'assunzione sulla distribuzione dei dati campionari. Inoltre, l'ampiezza dell'intervallo dipende dalla variabilità dei dati e dalle dimensioni del campione.
Il metodo dei minimi quadrati è comunemente utilizzato per stimare i parametri ( \beta_0 ) e (
beta_1 ) in modo che la somma dei quadrati delle differenze tra i valori osservati di ( y ) e i valori predetti dalla retta di regressione sia minimizzata. Una volta che i parametri della retta di regressione sono stimati, è possibile utilizzare la retta per fare previsioni su nuovi valori di ( x ) e stimare i corrispondenti valori di ( y ). La regressione lineare semplice è comunemente utilizzata per esplorare e comprendere le relazioni tra due variabili e per fare previsioni su nuovi dati. È importante notare che la regressione lineare semplice assume una relazione lineare tra le variabili e può non essere appropriata se questa assunzione non è soddisfatta. In tal caso, possono essere utilizzate tecniche di regressione non lineare o modelli più complessi.