








Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
La statistica e la probabilità, descrivendo i tipi di variabili quantitative discrete e continue, e il concetto di correlazione tra due variabili. Viene inoltre introdotto il data mining e la raccolta di dati, e la necessità di descrivere fenomeni aleatori attraverso densità di distribuzione di probabilità e i loro parametri di media e varianza.
Tipologia: Appunti
1 / 14
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!









La statistica è la formalizzazione matematica del metodo scientifico: in particolare sviluppa metodi e modelli per lo studio quantitativo e qualitativo dei fenomeni; una volta ottenuto il problema concettuale, lo faccio diventare matematico. Si distinguono più aree disciplinari: Area matematica: si studiano le proprietà matematiche di un oggetto; Metodologica: si sviluppa un metodo o modello per un tipo di problema; Computazionale: implemento un algoritmo che risolva il problema; Applicativa: applico soluzioni al problema tramite un modello statistico. Queste aree sono legate al calcolo della probabilità, al data mining e al machine learning: quando si applicano queste tecniche di analisi dei dati si fa statistica, ma non viceversa. Questo perché: La statistica studia un fenomeno e lo risolve attraverso correlazioni, raccolta di dati, partendo da un’ipotesi iniziale che utilizzerò in fase applicativa; Il data mining nasce in ambito computazionale, in quanto analizzo i dati e lo studio finché non trovo nuove regolarità, senza un modello di riferimento; il problema oggi è che i dati sono molteplici, quindi la raccolta ha senso solo se si tratta di big data; Il machine learning nasce dall’intelligenza artificiale, costruendo un modello in grado di imparare dai dati stessi per l’apprendimento e la capacità di prendere decisioni, ad esempio nei giochi.
La scienza statistica è comunemente suddivisa in due branche principali: statistica descrittiva; statistica inferenziale. La statistica descrittiva ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi) e indici (indicatori statistici, indicatori di posizione come la media, di variazione come la varianza, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico. La statistica inferenziale ha come obiettivo, invece, quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che "l'inflazione il prossimo anno avrà una certa entità" deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e varianza. La statistica inferenziale si suddivide poi in altri capitoli, di cui i più importanti sono la teoria della stima (stima puntuale e stima intervallare) e la verifica delle ipotesi.
In statistica le variabili sono più generali in quanto non sono necessariamente dei numeri, ma vivono in insiemi di definizione, che definiscono tutti i valori che la variabile può assumere (anche se tutte le variabili possono essere trasformate in numeri attraverso una codifica numerica, ma mantenendo la loro natura). Si parla in particolare di: Variabili qualitative : esprimono una qualità, ovvero le modalità sono dei valori non numerici (ad esempio: il genere o il credo religioso). o Un carattere qualitativo è ordinale (o ordinato o ordinabile ) se le modalità posseggono naturalmente un ordine, ovvero possono essere disposte lungo una scala (ad esempio gli attributi "pessimo", "cattivo", "mediocre", "buono" e "ottimo" oppure i giorni della settimana [2] ). o Un carattere qualitativo è nominale (o sconnesso ) se le modalità non posseggono alcun ordine naturale (ad esempio: le malattie o il colore degli occhi). Variabili quantitative (o semplicemente solo variabili ): esprimono una quantità, ovvero le modalità sono dei valori numerici (ad esempio: l'altezza o il numero di figli). o Variabili quantitative discrete : assumono una quantità finita o numerabile di valori, ovvero i suoi possibili valori possono essere elencati , cioè possono essere indicati con una successione ad esempio: il numero di figli, le pagine di un libro o i viaggi annuali). o Variabili quantitative continue : assumono una quantità non numerabile ma continua di valori, che cioè possono assumere tutti i valori intermedi di un intervallo (ad esempio: il peso o l'altezza). Questi due tipi di variabili possiedono chiaramente caratteristiche differenti e molte proprietà o peculiarità che valgono per le une (ossia per le quantitative) non valgono per le altre. Sul piano formale si può considerare una variabile statistica come una funzione che assegna ad ogni particolare modo di manifestarsi di una caratteristica del carattere in esame un determinato valore informativo. In generale il valore assunto da una variabile viene denominato modalità , tuttavia a volte tale termine viene preferito attribuirlo alle sole variabili qualitative e assegnare il solo termine valore ai caratteri quantitativi. Siano C un generico insieme dei possibili modi di manifestarsi di un carattere X, e M un generico insieme che attribuisce un determinato valore informativo agli elementi ci di C, allora si avrà: X: C → M con X(C) = mi o X(C) = xi che indica la i -esima modalità (o valore) assunta dal carattere X, con i=1,2,…,k ove k è la cardinalità di C, se C è un insieme finito, o in generale il numero di manifestazioni prese in considerazione del carattere (ovvero il numero di modalità) per scelta se C eventualmente fosse un insieme infinito. Ogni volta, però, che utilizzo il principio di sintesi attraverso la tabella delle frequenze, perdo parte dell’informazione. Il processo di sintesi va’ quindi di pari passo alla perdita di informazioni, ma da un punto di vista decisionale ho il vantaggio di saper prendere meglio le decisioni. Quando ho due grandezze diverse, A e B, in cui A è influenzata da B, per effettuare il confronto devo togliere l’influenza di B su A e quindi fare A/B: divido le unità per il totale calcolando la frequenza relativa (frequenza/totale) che così non dipenderà più dal totale. Se,
In generale la distanza deve rispettare delle regole:
Per rappresentare la simmetria usiamo la curva di Gauss: se prendiamo un asse centrale la curva risulterà simmetrica, permettendoci di rappresentare la situazione ideale (ma=mo=me). La seconda curva sta perdendo la simmetria da un lato, diventando asimmetrica.
Quando passo da una situazione di simmetria ad una di asimmetria la mediana, che rappresenta la simmetria, resta tendenzialmente ferma, mentre la media rappresenta la situazione dei dati nella curva cambiata; se faccio ma-me posso controllare se: la differenza è vicina a 0, i valori sono tutti intorno al centro, metà a sx e metà a dx; ma>me, la curva si allunga a dx perché i suoi dati si sono spostati; ma<me, la curva si allunga a sx. Tra gli indici di posizione, nell’asimmetria la mediana può rimanere ferma, la media è molto variabile e la moda raramente si sposta. Più mi avvicino allo 0, più la variabilità è forte, anche se la distribuzione è uguale. Quindi la variabilità è divisa così: Immaginando di avere due variabili asimmetriche: Quale delle due curve è più asimmetrica? Ci dà fastidio, in termini statistici, che una certa quantità B influisca su A, quindi devo togliere l’effetto attraverso il rapporto. In questo caso l’effetto è la variabilità, quindi:
Un evento è tutto ciò che osservo di mio interesse ed il risultato di una prova (osservazione), il cui esito è incerto. La probabilità è una misura dell’incertezza e può variare tra 0 e 1 rispetto all’evento: 0 ≤ P(E) ≤ 1
Se si interpreta P(E) come la frequenza relativa dell'evento E quando l'esperimento è ripetuto un gran numero di volte, questa definizione soddisfa i predetti assiomi. Infatti è certo che la frequenza relativa di un evento sia sempre compresa tra 0 e 1; è altrettanto sicuro che l'evento E si verifica ad ogni esperimento, e quindi ha una frequenza relativa sempre uguale a 1. Gli assiomi permettono di dedurre un gran numero di proprietà delle probabilità degli eventi: o -P(Ec) = 1 - P(E) → la probabilità che un evento qualsiasi non si verifichi è pari a uno meno la probabilità che si verifichi; o P(A U B) = P(A) + P(B) - P(A u al contrario B) → LEGGE DELLE PROBABILITÀ TOTALI → estensione dell'assioma 3; A u al contrario B DIVERSO DA 0; o A e B indipendenti → P(A u al contrario B) = P(A) x P(B); o A e B compatibili P(A|B) = P(A u al contrario B) / P(B) → PROBABILITÀ CONDIZIONATA (di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B è verificato. Questa probabilità esprime una "correzione" delle aspettative per A, dettata dall'osservazione di B). Da qui possiamo dedurre la:
P ( A )∗ P ( B ) P ( B ) Due prove sono INDIPENDENTI se il risultato di una NON dà alcuna informazione sull'altra (e viceversa). Se le prove sono INDIPENDENTI anche gli eventi saranno INDIPENDENTI. Ricorda → eventi: INDIPENDENTI → devono essere per forza COMPATIBILI; INCOMPATIBILI → solo DIPENDENTI.
Se l’evento di interessa ha un chiaro significato negativo, la probabilità che quell’evento negativo si verifichi è vista come una misura del rischio. Nell’analisi del rischio intervengono due variabili:
o fattore di rischio: descrive le condizioni in cui avviene un esperimento o una prova (causa); o variabile di rischio: descrive l’evento negativo di interesse (effetto). Il rischio relativo ( risk rate , RR ) è la probabilità che un soggetto, appartenente ad un gruppo esposto a determinati fattori, sviluppi la “malattia”, rispetto alla probabilità che un soggetto appartenente ad un gruppo non esposto sviluppi la stessa “malattia”. La misura del Rischio Relativo è ottima ma non è utilizzabile sempre, per questo ne usiamo una simile più generale (nata dalle scommesse sui cavalli): Odds Ratio (OR): è la misura dell'associazione tra due fattori, per esempio tra un fattore di rischio e una malattia. Il calcolo dell'odds ratio prevede il confronto tra le frequenze di comparsa dell'evento (ad esempio, malattia) rispettivamente nei soggetti esposti e in quelli non esposti al fattore di rischio in studio.
P ( A ⋂ B ) P ( B )
P ( A ⋂ B ) P ( A ) B condiziona il comportamento A condiziona il comportamento di A di B P ( A ⋂ B ) = P(A|B)P(B) P ( B ⋂ A ) (^) = P(B|A)P(A) Da qui ricavo: P(A|B)P(B) = P(B|A)P(A) P(A|B) = P ( B | A )∗ P ( A ) P ( B )
L’inferenza Statistica riguarda affermazioni circa I parametri di una popolazione sulla base della metodologia statistica e del calcolo delle probabilità; è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale (aleatorio). Gli argomenti ricompresi nell'inferenza statistica sono: -Stima, per punti o per intervalli; -Test di verifica d'ipotesi; La teoria della stima è un ramo della statistica e dell'elaborazione numerica dei segnali che ha come obiettivo la stima di parametri, scalari o vettoriali, a partire da dati misurati/empirici, la cui distribuzione è influenzata dai valori effettivi assunti da tali parametri. Uno stimatore è una funzione deterministica dei dati misurati, che, in relazione ad un determinato criterio di ottimalità, assume il valore del parametro stimato. Si suddivide in:
Ora voglio stimare se c’è una relazione tra le variabili.
nello specifico i valori di una variabile variano in maniera proporzionale al variare dell’altra variabile. Posso rappresentare questi dati in un plot grafico, una proiezione dei dati come se fossero punti, nello specifico delle coordinate su un piano. La nuvola dei punti, in questo caso, ci dice che è crescente, perché a valori crescenti di X si associano valori crescenti di Y. Quindi le variabili vanno d’accordo: Se la nuvola fosse al contrario, le variabili non andrebbero d’accordo perché all’aumentare di X, diminuisce Y. Inoltre, se la nuvola è molto grande, le variabili si dicono indipendenti, perché tra esse non c’è nessuna relazione. Le variabili vanno più d’accordo quando l’oscillazione è più stretta e la nuvola più sottile. Il valore di r può assumere 3 valori caratterizzanti, rxy : -1 → correlazione negativa (massimo disaccordo) 0 → correlazione nulla (indipendenza) 1 → correlazione positiva (massimo accorso) Un altro aspetto della correlazione introduce l’idea di modello statistico, che cerca di descrivere i dati osservati semplificando la loro dipendenza con una forma matematica: se il
Obiettiva → la misurazione non dipende dal giudizio soggettivo del singolo esaminatore; Standardizzata → vi è uniformità di procedure sia nella somministrazione che nella valutazione; Di un campione di comportamento → il campione è una parte rappresentativa dell'universo della popolazione, per cui il test misura una parte del comportamento. Nella teoria dei test si ha un modello di riferimento, su cui si fanno due ipotesi, una di base e una alternativa, e successivamente si sceglie quale delle due è più valida. Invece, nella stima il parametro può assumere qualsiasi valore e si deve trovare il migliore attraverso i dati che lo approssimano; nel controllo di ipotesi si specificano due valori del parametro (o insiemi) e si deve decidere, tra queste, la migliore in base ai dati. Da un punto di vista applicativo ciò serve a caratterizzare due situazioni diverse: le ipotesi di base (va tutto bene) o alternativa (qualche problema). La teoria dei test serve per vedere se, dal punto di vista del controllo di qualità, la variabile di interesse è sotto controllo. Le osservazioni possono infatti oscillare sia per eventi rari che per perdita di controllo.
È presente un confronto tra due ipotesi, una di base (o nulla) che descrive i dati se non è successo nulla di nuovo infatti indicato H 0 , e una alternativa che descrive i dati in modo alternativo e la indichiamo con H 1. Ho un problema decisionale da formalizzare con un meccanismo attraverso la tavola delle decisioni: se l'ipotesi vera è H 0 e io ho scelto H 0 va tutto bene, altrimenti ho un errore. L'errore può essere di primo tipo, cioè quando H 0 è vera e scelgo H 1 ; oppure può essere di secondo tipo, cioè H 1 è vera e scelgo H 0. Tra i due è più grave l'errore di primo tipo: mentre il secondo può essere recuperato, il primo no perché metto sul mercato qualcosa che non serve. Quindi:
-semplici: quando il parametro si trova in un intervallo di valori (μ = 20); -composte: quando il parametro si trova in un intervallo di valori (μ < 20); I test inoltre, sono costituiti in modo analogo, ma hanno significati diversi.