Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica e Probabilità: Tipi di Variabili e Correlazione, Appunti di Statistica

La statistica e la probabilità, descrivendo i tipi di variabili quantitative discrete e continue, e il concetto di correlazione tra due variabili. Viene inoltre introdotto il data mining e la raccolta di dati, e la necessità di descrivere fenomeni aleatori attraverso densità di distribuzione di probabilità e i loro parametri di media e varianza.

Tipologia: Appunti

2019/2020

Caricato il 02/07/2020

_Martins_
_Martins_ 🇮🇹

3.3

(3)

5 documenti

1 / 14

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
La statistica è la formalizzazione matematica del metodo scientifico: in particolare sviluppa
metodi e modelli per lo studio quantitativo e qualitativo dei fenomeni; una volta ottenuto il
problema concettuale, lo faccio diventare matematico. Si distinguono più aree disciplinari:
Area matematica: si studiano le proprietà matematiche di un oggetto;
Metodologica: si sviluppa un metodo o modello per un tipo di problema;
Computazionale: implemento un algoritmo che risolva il problema;
Applicativa: applico soluzioni al problema tramite un modello statistico.
Queste aree sono legate al calcolo della probabilità, al data mining e al machine learning:
quando si applicano queste tecniche di analisi dei dati si fa statistica, ma non viceversa.
Questo perché:
La statistica studia un fenomeno e lo risolve attraverso correlazioni, raccolta di dati,
partendo da un’ipotesi iniziale che utilizzerò in fase applicativa;
Il data mining nasce in ambito computazionale, in quanto analizzo i dati e lo studio
finché non trovo nuove regolarità, senza un modello di riferimento; il problema oggi
è che i dati sono molteplici, quindi la raccolta ha senso solo se si tratta di big data;
Il machine learning nasce dall’intelligenza artificiale, costruendo un modello in grado
di imparare dai dati stessi per l’apprendimento e la capacità di prendere decisioni, ad
esempio nei giochi.
INTRODUZIONE
La scienza statistica è comunemente suddivisa in due branche principali:
statistica descrittiva;
statistica inferenziale.
La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti
grafici (diagrammi a barre, a torta, istogrammi) e indici (indicatori statistici, indicatori di
posizione come la media, di variazione come la varianza, ecc.) che descrivono gli aspetti
salienti dei dati osservati, formando così il contenuto statistico.
La statistica inferenziale ha come obiettivo, invece, quello di stabilire delle caratteristiche dei
dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di
errore predeterminata. Le inferenze possono riguardare la natura teorica del fenomeno che si
osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad
esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva
dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche
inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto
questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio
nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini
di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e
varianza. La statistica inferenziale si suddivide poi in altri capitoli, di cui i più importanti
sono la teoria della stima (stima puntuale e stima intervallare) e la verifica delle ipotesi.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Anteprima parziale del testo

Scarica Statistica e Probabilità: Tipi di Variabili e Correlazione e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

La statistica è la formalizzazione matematica del metodo scientifico: in particolare sviluppa metodi e modelli per lo studio quantitativo e qualitativo dei fenomeni; una volta ottenuto il problema concettuale, lo faccio diventare matematico. Si distinguono più aree disciplinari:  Area matematica: si studiano le proprietà matematiche di un oggetto;  Metodologica: si sviluppa un metodo o modello per un tipo di problema;  Computazionale: implemento un algoritmo che risolva il problema;  Applicativa: applico soluzioni al problema tramite un modello statistico. Queste aree sono legate al calcolo della probabilità, al data mining e al machine learning: quando si applicano queste tecniche di analisi dei dati si fa statistica, ma non viceversa. Questo perché:  La statistica studia un fenomeno e lo risolve attraverso correlazioni, raccolta di dati, partendo da un’ipotesi iniziale che utilizzerò in fase applicativa;  Il data mining nasce in ambito computazionale, in quanto analizzo i dati e lo studio finché non trovo nuove regolarità, senza un modello di riferimento; il problema oggi è che i dati sono molteplici, quindi la raccolta ha senso solo se si tratta di big data;  Il machine learning nasce dall’intelligenza artificiale, costruendo un modello in grado di imparare dai dati stessi per l’apprendimento e la capacità di prendere decisioni, ad esempio nei giochi.

INTRODUZIONE

La scienza statistica è comunemente suddivisa in due branche principali:  statistica descrittiva;  statistica inferenziale. La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi) e indici (indicatori statistici, indicatori di posizione come la media, di variazione come la varianza, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico. La statistica inferenziale ha come obiettivo, invece, quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e varianza. La statistica inferenziale si suddivide poi in altri capitoli, di cui i più importanti sono la teoria della stima (stima puntuale e stima intervallare) e la verifica delle ipotesi.

In statistica le variabili sono più generali in quanto non sono necessariamente dei numeri, ma vivono in insiemi di definizione, che definiscono tutti i valori che la variabile può assumere (anche se tutte le variabili possono essere trasformate in numeri attraverso una codifica numerica, ma mantenendo la loro natura). Si parla in particolare di:  Variabili qualitative : esprimono una qualità, ovvero le modalità sono dei valori non numerici (ad esempio: il genere o il credo religioso). o Un carattere qualitativo è ordinale (o ordinato o ordinabile ) se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte lungo una scala (ad esempio gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo" oppure i giorni della settimana [2] ). o Un carattere qualitativo è nominale (o sconnesso ) se le modalità non posseggono alcun ordine naturale (ad esempio: le malattie o il colore degli occhi).  Variabili quantitative (o semplicemente solo variabili ): esprimono una quantità, ovvero le modalità sono dei valori numerici (ad esempio: l'altezza o il numero di figli). o Variabili quantitative discrete : assumono una quantità finita o numerabile di valori, ovvero i suoi possibili valori possono essere elencati , cioè possono essere indicati con una successione ad esempio: il numero di figli, le pagine di un libro o i viaggi annuali). o Variabili quantitative continue : assumono una quantità non numerabile ma continua di valori, che cioè possono assumere tutti i valori intermedi di un intervallo (ad esempio: il peso o l'altezza). Questi due tipi di variabili possiedono chiaramente caratteristiche differenti e molte proprietà o peculiarità che valgono per le une (ossia per le quantitative) non valgono per le altre. Sul piano formale si può considerare una variabile statistica come una funzione che assegna ad ogni particolare modo di manifestarsi di una caratteristica del carattere in esame un determinato valore informativo. In generale il valore assunto da una variabile viene denominato modalità , tuttavia a volte tale termine viene preferito attribuirlo alle sole variabili qualitative e assegnare il solo termine valore ai caratteri quantitativi. Siano C un generico insieme dei possibili modi di manifestarsi di un carattere X, e M un generico insieme che attribuisce un determinato valore informativo agli elementi ci di C, allora si avrà: X: C → M con X(C) = mi o X(C) = xi che indica la i -esima modalità (o valore) assunta dal carattere X, con i=1,2,…,k ove k è la cardinalità di C, se C è un insieme finito, o in generale il numero di manifestazioni prese in considerazione del carattere (ovvero il numero di modalità) per scelta se C eventualmente fosse un insieme infinito. Ogni volta, però, che utilizzo il principio di sintesi attraverso la tabella delle frequenze, perdo parte dell’informazione. Il processo di sintesi va’ quindi di pari passo alla perdita di informazioni, ma da un punto di vista decisionale ho il vantaggio di saper prendere meglio le decisioni. Quando ho due grandezze diverse, A e B, in cui A è influenzata da B, per effettuare il confronto devo togliere l’influenza di B su A e quindi fare A/B: divido le unità per il totale calcolando la frequenza relativa (frequenza/totale) che così non dipenderà più dal totale. Se,

In generale la distanza deve rispettare delle regole:

  1. distanza tra due punti ≥ 0 d(x,y) ≥ 0 1a. distanza da un punto con sé stesso = 0 d(x,x) = 0
    1. distanza tra x e z è ≤ della distanza tra x,y + y,z d(x,z) ≤ d(x,y)+d(y,z)
  2. distanza simmetrica d(x,y) = d(y,x) In statistica però usiamo la distanza quadratica: dist(x 1 , x 2 ) = (x 2 - x 1 )^2 Se sostituiamo con la distanza quadratica: ((x 1 -ma)^2 + (x 2 -ma)^2 + (x 3 - ma)^2 + (x 4 - ma)^2 )/4 = varianza Questa è chiamata varianza, appunto misura di variabilità nel caso della dispersione con una variabile numerica. Però abbiamo un problema dimensionale, in quanto l’unità di misura non è sempre la stessa, quindi dovremo fare la radice quadrata della varianza ottenendo una deviazione standard. xj uj Nj xjuj (xj-ma) (xj-ma) 2 (xj-ma) 2 uj Se rappresentiamo la distribuzione di una variabile graficamente, ogni elemento è rappresentato attraverso le sue frequenze: quando la forma diventa piatta vuol dire che c’è molta variabilità perché osservo tanti elementi più o meno con le stesse frequenze, al contrario di quando si schiaccia. In generale la variabilità è l’attitudine della variabile X a presentare valori diversi nei dati osservati: più osservo dati diversi, più è variabile; essa è direttamente proporzionale alla varianza.

Simmetria

Per rappresentare la simmetria usiamo la curva di Gauss: se prendiamo un asse centrale la curva risulterà simmetrica, permettendoci di rappresentare la situazione ideale (ma=mo=me). La seconda curva sta perdendo la simmetria da un lato, diventando asimmetrica.

Quando passo da una situazione di simmetria ad una di asimmetria la mediana, che rappresenta la simmetria, resta tendenzialmente ferma, mentre la media rappresenta la situazione dei dati nella curva cambiata; se faccio ma-me posso controllare se:  la differenza è vicina a 0, i valori sono tutti intorno al centro, metà a sx e metà a dx;  ma>me, la curva si allunga a dx perché i suoi dati si sono spostati;  ma<me, la curva si allunga a sx. Tra gli indici di posizione, nell’asimmetria la mediana può rimanere ferma, la media è molto variabile e la moda raramente si sposta. Più mi avvicino allo 0, più la variabilità è forte, anche se la distribuzione è uguale. Quindi la variabilità è divisa così: Immaginando di avere due variabili asimmetriche: Quale delle due curve è più asimmetrica? Ci dà fastidio, in termini statistici, che una certa quantità B influisca su A, quindi devo togliere l’effetto attraverso il rapporto. In questo caso l’effetto è la variabilità, quindi:

Probabilità

Un evento è tutto ciò che osservo di mio interesse ed il risultato di una prova (osservazione), il cui esito è incerto. La probabilità è una misura dell’incertezza e può variare tra 0 e 1 rispetto all’evento: 0 ≤ P(E) ≤ 1

Se si interpreta P(E) come la frequenza relativa dell'evento E quando l'esperimento è ripetuto un gran numero di volte, questa definizione soddisfa i predetti assiomi. Infatti è certo che la frequenza relativa di un evento sia sempre compresa tra 0 e 1; è altrettanto sicuro che l'evento E si verifica ad ogni esperimento, e quindi ha una frequenza relativa sempre uguale a 1. Gli assiomi permettono di dedurre un gran numero di proprietà delle probabilità degli eventi: o -P(Ec) = 1 - P(E) → la probabilità che un evento qualsiasi non si verifichi è pari a uno meno la probabilità che si verifichi; o P(A U B) = P(A) + P(B) - P(A u al contrario B) → LEGGE DELLE PROBABILITÀ TOTALI → estensione dell'assioma 3; A u al contrario B DIVERSO DA 0; o A e B indipendenti → P(A u al contrario B) = P(A) x P(B); o A e B compatibili P(A|B) = P(A u al contrario B) / P(B) → PROBABILITÀ CONDIZIONATA (di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B è verificato. Questa probabilità esprime una "correzione" delle aspettative per A, dettata dall'osservazione di B). Da qui possiamo dedurre la:

  • P(A u al contrario B) = P(A|B) x P(B) → LEGGE DELLE PROBABILITÀ COMPOSTE;
  • A e B indipendenti → P(A|B) = P(A) perché P ( A ⋂ B ) P ( B )

P ( A )∗ P ( B ) P ( B ) Due prove sono INDIPENDENTI se il risultato di una NON dà alcuna informazione sull'altra (e viceversa). Se le prove sono INDIPENDENTI anche gli eventi saranno INDIPENDENTI. Ricorda → eventi: INDIPENDENTI → devono essere per forza COMPATIBILI; INCOMPATIBILI → solo DIPENDENTI.

Il Rischio

Se l’evento di interessa ha un chiaro significato negativo, la probabilità che quell’evento negativo si verifichi è vista come una misura del rischio. Nell’analisi del rischio intervengono due variabili:

o fattore di rischio: descrive le condizioni in cui avviene un esperimento o una prova (causa); o variabile di rischio: descrive l’evento negativo di interesse (effetto). Il rischio relativo ( risk rate , RR ) è la probabilità che un soggetto, appartenente ad un gruppo esposto a determinati fattori, sviluppi la “malattia”, rispetto alla probabilità che un soggetto appartenente ad un gruppo non esposto sviluppi la stessa “malattia”. La misura del Rischio Relativo è ottima ma non è utilizzabile sempre, per questo ne usiamo una simile più generale (nata dalle scommesse sui cavalli): Odds Ratio (OR): è la misura dell'associazione tra due fattori, per esempio tra un fattore di rischio e una malattia. Il calcolo dell'odds ratio prevede il confronto tra le frequenze di comparsa dell'evento (ad esempio, malattia) rispettivamente nei soggetti esposti e in quelli non esposti al fattore di rischio in studio.

Esempio: A e B sono due eventi condizionati:

P(A|B) =

P ( A ⋂ B ) P ( B )

P(B|A) =

P ( A ⋂ B ) P ( A ) B condiziona il comportamento A condiziona il comportamento di A di B P ( A ⋂ B ) = P(A|B)P(B) P ( B ⋂ A ) (^) = P(B|A)P(A) Da qui ricavo: P(A|B)P(B) = P(B|A)P(A) P(A|B) = P ( B | A )∗ P ( A ) P ( B )

INFERENZA STATISTICA

L’inferenza Statistica riguarda affermazioni circa I parametri di una popolazione sulla base della metodologia statistica e del calcolo delle probabilità; è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale (aleatorio). Gli argomenti ricompresi nell'inferenza statistica sono: -Stima, per punti o per intervalli; -Test di verifica d'ipotesi; La teoria della stima è un ramo della statistica e dell'elaborazione numerica dei segnali che ha come obiettivo la stima di parametri, scalari o vettoriali, a partire da dati misurati/empirici, la cui distribuzione è influenzata dai valori effettivi assunti da tali parametri. Uno stimatore è una funzione deterministica dei dati misurati, che, in relazione ad un determinato criterio di ottimalità, assume il valore del parametro stimato. Si suddivide in:

  • Stima puntuale Quando un parametro della popolazione incognito è valutato (stimato) da una sola statistica (parametro) tratto da un campione
  • Stima Intervallo Quando un parametro della popolazione incognito è valutato (stimato) mediante un intervallo di valori e alla valutazione è associato un giudizio di fiducia circa la possibilità di trovare in tale intervallo il valore incognito. La stima puntuale si suddivide in: -Bernoulli → Be(π) → π parametro che può assumere un valore compreso tra 0 e 1. Il miglior stimatore di bernoulli è la media campionaria: π^=sommatoria xi/ n -Gauss → (problema di misurazione) → N (μ, σ^2 ), dove μ è il valore atteso, σ^2 = dispersione o concentrazione. Operando sui dati campionari:  μ^ = media campionaria = sommatoria xi/ n  σ 2 = sommatoria (xi - Ẍ) 2 / n-1 → perché un grado di libertà lo brucio poiché ho approssimato la media vera a una stima.

CORRELAZIONE E REGRESSIONE

Ora voglio stimare se c’è una relazione tra le variabili.

Correlazione lineare: tra le variabili c’è un comportamento per cui vanno d’accordo e

nello specifico i valori di una variabile variano in maniera proporzionale al variare dell’altra variabile. Posso rappresentare questi dati in un plot grafico, una proiezione dei dati come se fossero punti, nello specifico delle coordinate su un piano. La nuvola dei punti, in questo caso, ci dice che è crescente, perché a valori crescenti di X si associano valori crescenti di Y. Quindi le variabili vanno d’accordo: Se la nuvola fosse al contrario, le variabili non andrebbero d’accordo perché all’aumentare di X, diminuisce Y. Inoltre, se la nuvola è molto grande, le variabili si dicono indipendenti, perché tra esse non c’è nessuna relazione. Le variabili vanno più d’accordo quando l’oscillazione è più stretta e la nuvola più sottile. Il valore di r può assumere 3 valori caratterizzanti, rxy :  -1 → correlazione negativa (massimo disaccordo)  0 → correlazione nulla (indipendenza)  1 → correlazione positiva (massimo accorso) Un altro aspetto della correlazione introduce l’idea di modello statistico, che cerca di descrivere i dati osservati semplificando la loro dipendenza con una forma matematica: se il

Obiettiva → la misurazione non dipende dal giudizio soggettivo del singolo esaminatore; Standardizzata → vi è uniformità di procedure sia nella somministrazione che nella valutazione; Di un campione di comportamento → il campione è una parte rappresentativa dell'universo della popolazione, per cui il test misura una parte del comportamento. Nella teoria dei test si ha un modello di riferimento, su cui si fanno due ipotesi, una di base e una alternativa, e successivamente si sceglie quale delle due è più valida. Invece, nella stima il parametro può assumere qualsiasi valore e si deve trovare il migliore attraverso i dati che lo approssimano; nel controllo di ipotesi si specificano due valori del parametro (o insiemi) e si deve decidere, tra queste, la migliore in base ai dati. Da un punto di vista applicativo ciò serve a caratterizzare due situazioni diverse: le ipotesi di base (va tutto bene) o alternativa (qualche problema). La teoria dei test serve per vedere se, dal punto di vista del controllo di qualità, la variabile di interesse è sotto controllo. Le osservazioni possono infatti oscillare sia per eventi rari che per perdita di controllo.

CONTROLLO DI IPOTESI

È presente un confronto tra due ipotesi, una di base (o nulla) che descrive i dati se non è successo nulla di nuovo infatti indicato H 0 , e una alternativa che descrive i dati in modo alternativo e la indichiamo con H 1. Ho un problema decisionale da formalizzare con un meccanismo attraverso la tavola delle decisioni: se l'ipotesi vera è H 0 e io ho scelto H 0 va tutto bene, altrimenti ho un errore. L'errore può essere di primo tipo, cioè quando H 0 è vera e scelgo H 1 ; oppure può essere di secondo tipo, cioè H 1 è vera e scelgo H 0. Tra i due è più grave l'errore di primo tipo: mentre il secondo può essere recuperato, il primo no perché metto sul mercato qualcosa che non serve. Quindi:

  • H 0 è l'ipotesi di base e descrive il sistema di interesse nella condizione di normalità (stato dell'arte);
  • H 1 è l'ipotesi alternativa e descrive l'innovazione nel sistema. La probabilità di errore di primo tipo → P (H 1 | H 0 è vera) è detta per definizione "significatività del test" ed è indicata con α. Lo strumento con cui facciamo il test è chiamato STATISTICA-TEST, che nel nostro caso è la media campionaria, inoltre c'è anche la definizione di due zone in cui opererò le decisioni, dette REGIONI CRITICHE:
    • Regione di Accettazione, A → in cui accetto H 0 ;
    • Regione di Rifiuto, R → rifiuto H 0 quindi accetto H 1. Si hanno diverse ipotesi per diversi problemi:

-semplici: quando il parametro si trova in un intervallo di valori (μ = 20); -composte: quando il parametro si trova in un intervallo di valori (μ < 20); I test inoltre, sono costituiti in modo analogo, ma hanno significati diversi.