









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti dei libri Newbold e Piccolo primo modulo
Tipologia: Appunti
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










La statistica è una scienza relativamente giovane che spesso viene confusa con “le statistiche” (dati, tabelle ecc). In effetti essa si dimostra utile ed efficace in tutte le scienze perché rappresenta uno strumento essenziale per la scoperta e la conferma di leggi e relazioni. Soprattutto la statistica si rivela essenziale quando è necessario prendere delle decisioni in momenti di incertezza, come ad esempio nell’analisi economica o nel monitoraggio e nella valutazione di sistemi complessi: fornisce strumenti utili e rigorosi che si basano sull’utilizzo efficiente delle informazioni che si hanno a disposizione. Originariamente la statistica era divisibile in due approcci: il primo la vede strettamente unita all’essere umano che prende coscienza del mondo e dei suoi simili e che bella lotta per la sopravvivenza utilizza le conoscenze acquisite per eleab0rare comportamenti ottimali che gli consentono di nutrirsi, difendersi e riprodursi. A queste strategie possono rivelarsi delle sconfitte o dei successi ma grazie a queste prove sarà possibile fare delle approssimazioni che creeranno delle convinzioni comuni (leggi); il secondo nasce invece dal fatto che di fronte ad una realtà che cambia continuamente ci sono dei risultati che meritano più fiducia di altri perché si ripetono con maggiore regolarità (clima, malattie ecc). La mente umana infatti registra regolarità senza certezze e senza un esito univoco. Da una parte questo genera insicurezza e paura mentre dall’altra incoraggia la prevenzione e la predisposizione di cautele contro i rischi. L’unione di questi due approcci è avvenuta quando, davanti alla natura sempre più sperimentale della conoscenza, ci si è posti il problema della validità delle ipotesi e così il metodo statistico diviene nei fatti la metodologia della ricerca scientifica, diventa prassi sperimentale che ha un contenuto autonomo e strumenti rigorosi d’indagine. Oggi vediamo come la Statistica diviene uno strumento di convincimento per sostenere delle tesi predefinite. 1. La statistica utilizza alcuni paradigmi:
contorno; d’altra parte, spesso sono invece i problemi reali a suggerire lo sviluppo di nuovi metodi statistici che introducono soluzioni innovative per quei problemi. 1. L’analisi statistica è divisa in fasi:
La rilevazione statistica è il complesso delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio e possono essere classificate in modi diversi come, ad esempio, rispetto alla complessità delle operazioni (semplici e complesse), rispetto alla natura delle informazioni raccolte (risposte e misure), rispetto al gruppo di riferimento (globali e parziali). Le rilevazioni globali vedono la popolazione come collettivo statistico considerato unico e irripetibile. La popolazione (o universo) è qualsiasi insieme di elementi che formano oggetto di studio statistico e si distingue tra reale (esistente e visibile) e virtuale (non osservata né osservabile). Le rilevazioni parziali vedono il campione come collettivo statistico considerato omogeneo e ripetibile. Si parla di popolazione quando il collettivo di riferimento esaurisce tutte le informazioni che si ritengono utili per l’indagine statistica. Il campione è qualsiasi sottoinsieme derivato da una certa popolazione e finalizzato allo studio statistico. La metodologia statistica ha approfondito le modalità con cui si perviene all’individuazione del sottoinsieme campionario. La conoscenza umana infatti è sempre parziale e provvisoria e le informazioni di cui si dispone sono in tutti i casi un insieme limitato e circoscritto delle informazioni di cui si poteva disporre. La statistica, infatti, privilegia un approccio allo studio dei fenomeni che presuppone sempre una dimensione campionaria. Si parla di campione quando le informazioni sono derivate da un sottoinsieme proprio della popolazione di riferimento. L’unità statistica (soggetto) è l’elemento di base della popolazione sulla quale viene effettuata la rilevazione di uno o più fenomeni oggetto dell’indagine. Questa può essere ulteriormente suddivisa per le esigenze dell’indagine (famiglia). L’unità statistica deve essere definita nei termini di tempo, occasione, durata, territorio e essa spesso può cambiare durante la rilevazione. La variabile è il fenomeno oggetto di studio, rilevato o misurato sulle unità statistiche e si chiama così perché l’interesse per il suo studio nasce proprio dal fatto che assume valori
-coppie ordinate (x1, y1) … -triple ordinate (x1, y1, z1) … -m-ple ordinate (x1, y1, …, w1) … Una variabile multipla presenta un ordine ben preciso con cui ogni variabile compare nella coppia, tripla, ecc. La matrice di dati è una rappresentazione tabellare in cui vengono riordinate le informazioni raccolte su ciascuna unità statistica rispetto ad una molteplicità di variabili. Ogni colonna esprime una variabile rilevata sulle diverse unità statistiche mentre ogni riga esprime ordinatamente le rilevazioni su tutte le variabili ottenute per ogni singola unità statistica. La rilevazione statistica deve essere sempre il punto di partenza per un’analisi statistica completa. Individuata la popolazione o il campione, sarà poi necessario individuare le singole unità statistiche e i caratteri statistici o variabili che vengono studiati. Questi si esprimeranno secondo certe modalità e intensità di cui risulteranno delle frequenze assolute e relative. Tutte le frequenze saranno poi riordinate nel grafico della distribuzione di frequenze. In statistica i dati vengono si rilevati, ma per diventare utili devono essere anche rielaborati e interpretati. I dati si trasformano in informazioni utili con l’interpretazione, cioè dare un significato ad un certo dato raccolto con una rilevazione statistica: questa è detta statistica descrittiva e si basa ancora sulla logica a posteriori. L’informazione diventerà conoscenza tramite l’inferenza, cioè la trasformazione della prima in conoscenza tramite uno studio: questa è detta statistica inferenziale e si basa sulla logica a priori, è collegata a quella descrittiva tramite la teoria delle probabilità. La conoscenza mi dà la possibilità di prevedere qualcosa che non conosco. Ogni rilevazione statistica possiede un bisogno informativo, cioè identificare il problema.
Le distribuzioni di frequenza consentono di analizzare la gran parte dei fenomeni reali ai fini di sintesi, confronto e interpretazione e possono essere costruite sia per le variabili quantitativa che per quelle qualitative. Un insieme di dati viene riordinato in una rappresentazione tabellare per esplicitare in modo immediato ed essenziale ogni aspetto importante dei dati raccolti. La distribuzione di frequenza è quindi una organizzazione dei dati in forma tabellare che ad ogni modalità di una certa variabile fa corrispondere una rispettiva frequenza. Visto che lo studio coinvolge le frequenze, è sempre possibile prevenire ad una distribuzione di frequenza per qualsiasi fenomeno. Se si esamina il numero di volte con cui si manifestano le differenti modalità si parla di frequenza assoluta. Se la frequenza assoluta viene divisa per il numero di unità statistiche si parla di frequenza relativa. Infine, se la frequenza relativa è moltiplicata per 100 si parla di frequenza percentuale. I caratteri statistici qualitativi (numerali e ordinali) e quantitativi (discreti e continui) devono sottostare al criterio di misura di Stevens che prevede la divisione in 4 scale differenti, due per ogni carattere. Caratteri qualitativi:
a) 1: La media aritmetica è sempre compresa tra il minimo e il massimo delle modalità della variabile; b) 2: La media aritmetica è il valore centrale di una successione di ordine dispari; c) 3: La media aritmetica è il baricentro della successione di intensità; d) 4: La media aritmetica è quel valore che minimizza la somma degli scarti al quadrato (gli scarti della media sono le quantità (xi-mi) per ogni i); e) 5: La media aritmetica è un operatore lineare quindi se si aggiunge o si sottrae una costante variabile X, la rispettiva media sarà modificata dello stesso ammontare e se la variabile X è moltiplicata per un coefficiente costante, anche la media risulterà moltiplicata per lo stesso ammontare; f) 6: La media aritmetica è un operatore associativo; g) 7: La media aritmetica non è un indice robusto perché è sensibile ai valori anomali estremi o outliers, risente quindi di ogni cambiamento. 4.
resistente a valori estremi. La mediana è un indice per decisioni che implicano costi elevati nei casi estremi. La media si può calcolare solo per variabili quantitative. La media aritmetica è il baricentro dei dati e quindi propone un valore che equiripartisce il fenomeno tra le unità statistiche. La media aritmetica è un indice di equilibrio generale. I 5 NUMERI DI SINTESI : è una rappresentazione sintetica della distribuzione di valori e questi sono: il minimo, il massimo, il primo quartile, la mediana e il terzo quartile. Ci possono essere delle asimmetrie in base a dove si trova la mediana e perciò è necessario identificare i valori anomali o outliers.
un’asimmetria positiva; se è uguale a zero si avrà una simmetria; se è minore di zero si avrà un’asimmetria negativa. 6. INDICE DI CURTOSI: un altro aspetto della forma di una distribuzione riguarda il maggiore o minore accentramento su di una modalità e il peso più o meno accentuato delle code rispetto alla parte centrale della distribuzione. Si tratta di verificare se la distribuzione di frequenza sia più o meno appuntita per qualche modalità oppure se tenda ad essere piuttosto piatta. L’indice di Curtosi è definito come la media aritmetica delle potenze quarte della variabile standardizzata. Gode di alcune proprietà: è simmetrica; è unimodale; la media è uguale alla mediana e alla moda; ha forma campanulare.
Le relazioni tra variabili Lo studio di possibili relazioni tra variabili è un obiettivo fondamentale di qualsiasi ricerca empirica allo scopo di interpretare, prevedere, simulare, controllare i fenomeni reali. A tal fine non ci si può limitare allo studio delle singole distribuzioni ma diventa essenziale analizzare il contemporaneo presentarsi delle modalità di più variabili. Quando su ogni unità statistica appartenente ad una determinata popolazione si rilevano più variabili si parla di distribuzione multipla. Nel caso si disponga di una sola variabile X si parla di distribuzione univariata. Quando si hanno caratteri statistici multipli come nelle distribuzioni doppie si parla di statistica bivariata. È necessario determinare le relazioni di tipo causa-effetto tra X e Y. Lo studio del contemporaneo verificarsi di una o più modalità/intensità del carattere oggetto di studio può riguardare mutabili doppie (quando entrambe le variabili sono qualitative); variabili doppie (quando entrambe le variabili sono quantitative); variabili miste (quando una variabile è qualitativa e una variabile è quantitativa). Se la rilevazione di una variabile doppia sulle n unità statistiche consiste nella collezione delle coppie ordinate, ottenute registrando su una ciascuna delle n unità statistiche sia la variabile X che la variabile Y, si ha una serie. Se le informazioni sulla variabile doppia sono organizzate in modo che di ciascuna coppia di modalità sono disponibili le frequenze, si ha una distribuzione doppia di frequenze, cioè una seriazione. X si può presentare con k modalità/intensità; Y si può presentare con h modalità/intensità. Si indicherà con nij la frequenza assoluta con la quale la coppia di valori si presenta (la frequenza con la quale su di una unità statistica la variabile X assume il valore xi e contemporaneamente la variabile Y assume il valore yj). La frequenza relativa è la proporzione dei casi in cui su una popolazione di n unità statistiche, la coppia di valori si presenta (rapporto tra la frequenza assoluta e la numerosità della popolazione). Per organizzare e riassumere tali informazioni si costruisce la tabella a doppia entrata (tabella di contingenza) che esplicita sia le modalità delle due variabili che le corrispondenti frequenze assolute doppie; ciascun incrocio tra la modalità i- esima di X e la modalità j-esima di Y è detta cella. Le frequenze poste ai due margini della tabella doppia sono ottenute per addizione rispetto alle righe e rispetto alle colonne e sono definite frequenze marginali. Le frequenze marginali esplicitano la frequenza della modalità di una variabile senza tener conto della modalità dell’altra. Bisogna osservare che le frequenze doppie nij della variabile (X,Y) possiedono due indici di cui il primo riguarda la modalità della X e il secondo della Y. La frequenza marginale ni. Riguarda le frequenze della modalità i-esima della prima variabile e il punto ricorda che sono state sommate tutte le frequenze corrispondenti alla seconda componente, cioè la variabile Y; per la frequenza marginale n.j il discorso sarà analogo. Per esempio n2. È la frequenza della modalità x2 per la variabile X senza tenere conto dei valori assunti da Y: quindi n2. è il numero di unità statistiche che presentano la modalità x2 per la variabile X a prescindere dai valori assunti per la variabile Y. La tabella a doppia entrata delle frequenze relative di una variabile doppia (X,Y) si ottiene dalla tabella delle frequenze assolute dividendo ogni elemento di ciascuna cella per n. Il totale generato dalle frequenze relative è uguale a 1. Da una distribuzione doppia (X, Y) con k modalità distinte e h modalità distinte si ottengono due distribuzioni semplici univariate per le variabili componenti (distribuzioni marginali): h distribuzioni condizionate della X per ciascuno dei valori della Y, k distribuzioni condizionate della Y per ciascuno dei valori della X. Tuttavia, la conoscenza delle distribuzioni univariate non è sufficiente a ricostruire la distribuzione doppia. Ciò che è nuovo in una distribuzione doppia è l’informazione connessa al contemporaneo presentarsi delle modalità di una variabile con quelle di un’altra variabile. Questo aspetto si manifesta nel disporsi delle frequenze in una tabella multipla in modo che certe coppie di modalità si presentino più frequentemente di altre. Assume notevole
interesse studiare questo aspetto perché si manifesta una qualche associazione tra X e Y. In questo modo vengono introdotti indicatori che utilizzano le sole frequenze oppure indicatori che includono nella sintesi anche le modalità delle variabili: nel primo caso si parla di misure di associazione (qualitative), nel secondo di misure di correlazione (quantitative). DIPENDENZA / CONNESSIONE / ASSOCIAZIONE: tra le due variabili esiste una relazione di dipendenza di tipo causa-effetto. Tuttavia, per studiare questa relazione occorre chiedersi quale sia la situazione estrema caratterizzata dall’assenza di qualsiasi legame tra X e Y da cui si ha una condizione di indipendenza (indipendenza in distribuzione e indipendenza in media). L’indipendenza implica che la conoscenza del valore assunto da una delle due variabili non deve aggiungere alcuna informazione sulla distribuzione dell’altra. Quindi le componenti X e Y di una variabile doppia sono indipendenti se e solo se le distribuzioni delle frequenze relative condizionate sono costante. Bisogna quindi misurare il legame tra le variabili mediante una distanza tra le frequenze doppie realmente osservate e le frequenze doppie ipotetiche o attese che si sarebbero dovute osservare nel caso in cui ci fosse una perfetta indipendenza tra le variabili. Maggiore è tale distanza, più si è lontani dall’indipendenza e più forte sarà il legame tra le variabili. Osservata una tabella a doppia entrata per la variabile doppia (X, Y) le frequenze n^ij sono quelle che ci si dovrebbe attendere se tra X e Y sussistesse perfetta indipendenza. Allora se nij e n^ij sono poco distanti si deve presumere che si è vicini ad una situazione di quasi- indipendenza, mentre se esse sono molto distanti occorre supporre un qualche legame tra le variabili. Questi ragionamenti implicano che una misura di connessione fra X e Y sarà tanto più grande per quanto più grande sarà la differenza tra nij e n^ij. Queste differenze vengono definite contingenze (cij). L’indice quadratico di connessione (chi quadro) deve essere in grado di misurare il grado di associazione o connessione tra le modalità di X e quelle di Y. L’assenza di associazione e connessione implica l’indipendenza. Per ciascuna cella (i, j) di una tabella a doppia entrata, l’indice X2 confronta le frequenze osservate nij e le frequenze teoriche n^ij tramite la loro differenza al quadrato (che evita la compensazione tra valori positivi e negativi) divisa per le frequenze teoriche (in modo da tener conto dell’ampiezza relativa alle discrepanze): quindi l’indice si ottiene facendo la somme di queste quantità. Se X e Y sono indipendenti allora le frequenze relative congiunte sono uguali al prodotto delle frequenze relative marginali. Se X e Y sono statisticamente indipendenti allora tutte le frequenze osservate sono uguali a quelle teoriche. L’indice quadratico di connessione ha alcune proprietà:
_1. è sempre compreso tra o e + infinito;
si ha quando il coefficiente è uguale a +1 (tutte le coppie di osservazioni giacciono su una retta con pendenza positiva); o Quando il coefficiente di correlazione è maggiore di zero si avrà una correlazione lineare positiva con pendenza positiva; quando è minore di zero si avrà una correlazione lineare negativa con pendenza negativa; o Se l’indice quadratico di connessione è uguale a zero anche l’indice di correlazione sarà uguale a zero ma non viceversa; o Se il coefficiente di correlazione è uguale a -1 o a +1 allora c’è perfetta dipendenza lineare; o Se il coefficiente di correlazione è compreso tra -1 e +1 allora ci sarà una certa relazione tra X e Y. DIPENDENZA LINEARE: due variabili quantitative e ipotizziamo che esista una relazione causa-effetto di tipo lineare. La dipendenza lineare, al contrario dell’indice di correlazione, non è simmetrica. Si verifica nel diagramma di dispersione con la retta di regressione la cui equazione è composta da una dipendente endogena e una indipendente esogena. o (xi, yi) sono valori osservati sulla singola unità statistica; o mx ed my sono le medie di X e Y; o mx2 e my2 sono le medie di X e Y al quadrato (xi2, yi2); o mxy è la media dei prodotti di X e Y; o mx my è il prodotto delle medie di X e Y. REGRESSIONE LINEARE : è un tipo di relazione lineare causa-effetto in cui il legame funzionale tra X e Y è di tipo lineare. Si parla di regressione lineare di una variabile Y s una variabile X quando il valore medio della prima dipende dal valore medio della seconda come nel caso della retta dei minimi quadrati. In questo caso il coefficiente angolare della retta prende il nome di coefficiente di regressione lineare della Y sulla variabile X. METODO DEI MINIMI QUADRATI : è una tecnica di ottimizzazione o regressione che permette di trovare una funzione che si avvicini il più possibile ad un insieme di dati. La funzione trovata deve essere quella che minimizza la somma dei quadrati delle distanze tra i dati osservati e quelli della funzione stessa. Per interpolazione si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati, nell'ipotesi che tutti i punti si possano riferire ad una funzione di una data famiglia di funzioni di una variabile reale.
La teoria delle probabilità La variabilità presente nella vita quotidiana genera incertezza nell’assumere decisioni e induce l’uomo a ricercare comportamenti razionali, anche quando non è sicuro dei risultati delle azioni che intraprende; soprattutto rispetto al futuro: da questa insicurezza derivano il bisogno e l’utilità di studiare la probabilità. L’osservazione dei fenomeni naturali mostra che la previsione accurata di un risultato è resa difficile da meccanismi molto complessi e infatti più si approfondisce lo studio più aumenta l’indeterminatezza nella previsione del risultato. Motivi storici ed esigenze didattiche hanno spesso associato il calcolo della probabilità ai giochi di sorte in cui le situazioni sono ben schematizzabili e gli esiti sono elencabili con precisione, rendendo più semplice la valutazione secondo il buon senso. Ma l’utilità della teoria delle probabilità si dimostra maggiormente in situazioni più lontane dai giochi di sorte come nella ricerca scientifica. La teoria della probabilità unisce la statistica descrittiva, cioè l’osservazione di un fenomeno e la sintesi dei dati raccolti, e la statistica inferenziale, cioè il domandarsi quali siano i possibili risultati di un fenomeno. Permette di passare da una logica a posteriori a una logica a priori e viceversa. Il concetto di probabilità è molto complesso poiché nessuno sa esattamente cosa sia. Si deve fare la differenza tra concetto e misura:
- la probabilità è un concetto primitivo, cioè originario per l’essere umano perché innato e sempre presente nelle sue regole di comportamento. In quanto tale esso obbedisce a criteri logici coerenti traducibili in un sistema di assiomi dai quali si possono con deduzioni rigorose dimostrare i teoremi (il cervello è una macchina biologica che calcola probabilità);
- la probabilità è una misura perché associa al conetto primitivo una valutazione numerica. Tuttavia, dovrebbe essere sempre distinti il momento della percezione concettuale da quello della valutazione numerica. I fenomeni di cui si occupa il calcolo delle probabilità riguardano le scienze fisiche, naturali e umane e forniscono esiti così differenti tra loro che una elencazione esaustiva appare impossibile. Per questo riconosciamo 3 condizioni per cui può essere definita la probabilità:
evento B deve verificarsi A intersecato B perché non è più possibile che B si verifichi senza che si verifichi contemporaneamente anche A. Allora la probabilità di B dato A è uguale al rapporto tra la probabilità di A intersecato B e la probabilità di A (con il vincolo secondo cui la probabilità di A è maggiore di zero). L’effetto del verificarsi di A è quello di ridurre lo spazio degli eventi di B da omega ad A. o REGOLA MOLTIPLICATIVA: L’incompatibilità è una relazione tra eventi ed ha come conseguenza il fatto che la probabilità della unione di più eventi incompatibili è la somma delle singole probabilità. L’indipendenza è una relazione tra le probabilità degli eventi ed ha come conseguenza il fatto che la probabilità dell’intersezione di più eventi è il prodotto delle singole probabilità.