



















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Domande utili come riferimento per esame scritto di statistica
Tipologia: Schemi e mappe concettuali
1 / 27
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




















In offerta
Statistica: scienza che utilizza il metodo scientifico attraverso il quale indaghiamo fenomeni quantitativi e qualitativi, che riguardino una collettività di elementi e che presentano variabilità, utilizzando una strumentazione specifica con finalità:
preferisce utilizzare la mediana in quanto non è condizionata dagli estremi della distribuzione. RELAZIONE INDICI DI TENDENZA: Moda (Mo), mediana (Me) e la media (M). Se la distribuzione di frequenza è simmetrica unimodale allora Mo=Me=M; se la distribuzione di frequenza è simmetrica bimodale allora Me=M, Me≠Mo, M≠Mo, Mo1≠Mo2; se la distribuzione di frequenza è asimmetrica positiva e unimodale allora Mo≠Me≠M, M>Me, in quanto lo sbilanciamento dei valori alti si tira verso l’alto della media; se la distribuzione di frequenza è asimmetrica negativa e unimodale allora Mo≠Me≠M, M Nel grafico di una distribuzione si dice simmetrica quando i valori equi-distanti dalla mediana hanno la stessa frequenza; l’ascissa del punto di massimo corrisponde alla moda; la media aritmetica è un valore compreso tra il minimo e il massimo; la somma algebrica degli scarti dalla media, cioè della differenza di ogni modalità meno la media, è sempre =0; VARIABILITA’ è l’attitudine che ha un fenomeno a presentarsi con diverse modalità. In statistica ci poniamo il problema di capire se abbiamo osservato variabilità e di calcolare l’intensità mediante indici. Successivamente cerchiamo di spiegarci perché abbiamo osservato questa variabilità. Abbiamo rilevato delle informazioni relative a caratteri di interesse e ci preoccupiamo di capire se il carattere di interesse nel collettivo manifesta o meno variabilità. Se presenta variabilità ci preoccupiamo di coglierne l’intensità. Il valore si può esprimere calcolando indici o misure di variabilità. INDICE DI VARIABILITA’ : è una funzione dei dati che deve soddisfare due requisiti:
Per caratteri qualitativi utilizzeremo degli indici di omogeneità (assenza di variabilità) o eterogeneità ( si manifesta una diversità tra le modalità). Il massimo di eterogeneità si presenta quando abbiamo una equi-distribuzione delle unità tra tutte le modalità del carattere, si calcola dividendo 1 per k (numero di una modalità della variabile) e poi sottraendo il risultato ad 1 → Emax=1-(1/k).
La statistica bivariata si occupa dello studio di due fenomeni contemporaneamente, di ricercare quale sia la relazione tra questi fenomeni e di misurare l’intensità della loro relazione. Esistono 3 tipi di relazione entro le quali possono essere messe a confronto due variabili. Legame di interdipendenza quando si assume che i caratteri hanno tutti la stessa importanza e che il legame tra di essi sia di interdipendenza perfetta bidirezionale,
ad ogni modalità di uno dei due caratteri corrisponde a una e una sola modalità dell’altro carattere. In questo caso si misurano le associazioni statistiche tra le due variabili attraverso gli indici di esistenza e intensità del legame, diverse per variabili: entrambe qualitative (vedere tabella doppia; esistenza Chi Quadro (X), intensità V di Cramer (V)); entrambe quantitative (vedere diagramma dispersione; esistenza covarianza (covxy), intensità coefficiente di regressione lineare o r di Pearson); graduatorie (esistenza e intensità Rho di Spearman (ρ)); Legame di indipendenza quando tra due variabili non esiste alcun legame, presi due caratteri, la conoscenza delle modalità di uno non migliora la previsione delle modalità dell’altro. Può essere osservato: se l’indice di esistenza del legame risulta pari a 0; variabili quantitative inesistenza legame attraverso il grafico di dispersione; altre variabili inesistenza del legame attraverso le tabelle di indipendenza, distribuzioni di frequenza condizionate tra X e Y, non vi è legame se le distribuzioni della X o della Y sono uguali per riga o per colonna. Legame di dipendenza si ha quando le modalità di un carattere dipendono da quelle di un altro carattere secondo un legame unidirezionale. Legame di dipendenza perfetta unidirezionale quando ad ogni modalità di X corrisponde sempre una sola modalità di Y, ma non il contrario. Dipendenza logica tra due caratteri quando sono note a priori le loro relazioni di causa ed effetto. Non viene misurata, si rintraccia un modello matematico che attraverso un’equazione esprime il legame funzionale tra la variabile indipendente (X) e la variabile dipendente (Y). Esempio due variabili quantitative: la dipendenza si ipotizza attraverso l'osservazione dei dati all'interno di un grafico di dispersione, successivamente si trova la retta di regressione espressa da un'equazione della quale non si conoscono due parametri quali β0 e β1.
Non c’è legame quando al variare delle modalità di x le modalità di y non cambiano. Relazione spuria : l’associazione che è mediata da un’altra variabile (ho tre variabili x;y;z le prime due mi sembrano legate, perché le sto guardando, ma in realtà è z che le lega) Relazione/associazione statistica : può esserci una correlazione tra due variabili che però nella realtà non c’entrano nulla, difatti tutti gli indici vanno sempre applicati a variabili che ha senso associare. VARIABILI QUALITATIVE: Indice x quadro : Per verificare se esiste legame tra le due variabili entrambe qualitative. È dato dal quadrato della sommatoria delle frequenze osservate (congiunte) meno le frequenze teoriche / le frequenze teoriche. x^2= ∑ ( fo − ft ) 2 ft una volta calcolate tutte le differenze^2/ft faccio la sommatoria e quello sarà il valore di x^2. X^2=0 quando ft=fo; quindi, non c’è legame (indipendenza variabili) X^ diverso da 0 c’è legame; Valore massimo= prodotto della numerosità per il valore minimo tra le righe - 1 e le colonne -1 della tabella a doppia entrata; Xmax =Nm. Indice V di Kramer: Per definire l'intensità del legame tra le due variabili qualitative, che è dato dalla radice quadrata di x quadro/nm (valori minimi di riga e colonna - 1). VARIABILI QUANTITATIVE Diagramma di dispersione: rappresenta graficamente (su un piano cartesiano) la distribuzione doppia di due variabili quantitative (o qualitative ordinali) X e Y. I dati sono visualizzati tramite una collezione di punti, ciascuno con una posizione sull'asse orizzontale determinato da una variabile e sull'asse verticale determinato dall'altra, è possibile intuire: Esistenza o assenza di legame; Direzione o tendenza del legame; Intensità (maggiore è la dispersione, minore è l’intensità del legame; osservando il livello di pendenza della linea tracciata sul grafico)
Covarianza : esistenza del legame; esprime la variabilità congiunta di due caratteri; se due caratteri si muovono insieme oppure no; si indica con σ 2 ed è una misura di dispersione, si basa sugli scarti delle modalità di x dalla propria media e sugli scarti delle modalità di y dalla propria media diviso n (sommatoria degli scarti dalla media di x per gli scarti dalla media di y/n): 𝑐𝑜𝑣(𝑋, 𝑌) = ∑ ¿^ ¿^ excel: = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎. 𝑝 (𝑚𝑎𝑡𝑟𝑖𝑐𝑒1; 𝑚𝑎𝑡𝑟𝑖𝑐𝑒 2 ). È espressa con (unità di misura x*unità di misura y). Può assumere valori positivi, negativi o uguali a 0. È graficamente visualizzabile in un diagramma di dispersione: segnare sul diagramma il punto con coordinate corrispondenti alla media aritmetica della variabile X e quella della; costruire un nuovo sistema di assi cartesiani con origine il punto individuato; se il legame è lineare, osservando la posizione dei punti del diagramma rispetto ai quadranti del nuovo sistema di assi è possibile intuire se:
= 1 → E = Ω → evento certo.
Discrete Numero finito di risultati possibili. La loro distribuzione di probabilità viene descritta analiticamente da una funzione di probabilità P(X=x) , che associa ad ogni valore x dell’insieme Ω (spazio degli eventi possibili) la probabilità che la variabile X assuma esattamente quel valore; la somma dei valori di una distribuzione di probabilità è sempre uguale a uno. Si rappresentano graficamente con il grafico a barre (p(x) asse y; X asse delle x). Si possono calcolare: Valore medio → E(X) = μ e/o Varianza → VAR(X) = σ^2 e tutte le altre misure di sintesi. Funzioni di ripartizione f(x)=P(X ≤ x) → esprime una misura di probabilità cumulata, cioè la probabilità che la variabile casuale X assuma un valore non superiore a x:
campionario (affidabilità); se il carattere è molto variabile per avere un campione rappresentativo avrò bisogno di un certo numero di casi se invece la variabilità da riprodurre è circoscritta avrò bisogno di un numero di casi limitato. Questo dipende anche dal tipo di problema, per problemi più complessi dovremmo aumentare l'ampiezza campionaria. Le indagini di tipo campionario sono un tipo di indagine che studiano i fenomeni a partire dalle risultanze rilevate su un sottoinsieme della popolazione. Quando questi risultati vogliono essere generalizzati alla popolazione da cui il campione è stato estratto, la generalizzazione del risultato avviene utilizzando la probabilità che hanno certi eventi di manifestarsi. Quindi per prima cosa dobbiamo presupporre di estrarre dalla popolazione un campione di tipo probabilistico formato da unità statistiche estratte in maniera casuale, in seguito dobbiamo conoscere le regole fondamentali e la probabilità ovvero rilevare il grado di fiducia che si attribuisce al verificarsi di un evento possibile esito di un esperimento. Distribuzione di t Student ha come parametro il campione statistico n, cioè varia al variare del campione estratto dalla popolazione statistica. •La curva è detta platikurtica; l’area sottostante alla curva compresa entro l’intervallo (−σ , +σ) NON rimane costante al variare della media. •Gli estremi della curva non sono asintonici rispetto all’asse delle ascisse •Più il parametro n è alto (ampiezza collettivo) più la curva assume forma e le caratteristiche simili alla curva normale.
•Stimatore (t) funzione dei dati campionari utilizzata per stimare il valore del parametro, a partire dai dati raccolti su un campione della popolazione. Lo stimatore è assimilabile ad una variabile casuale, perché è descritto da una distribuzione di stima (o da una funzione di densità di stima) •Distribuzione di stima o distribuzione campionaria modello che associa a ciascuno dei valori assunti dallo stimatore al variare del campione estratto alla probabilità che lo stimatore assuma proprio quel valore Stima della media: devo estrarre alla popolazione un campione (n) e sui dati del campione estratto utilizzare una funzione di stima; Queste funzioni si chiamano statistiche campionarie. Per stimare la media utilizziamo la media campionaria che si indica con x sovrasegnato = sommatoria di xi/n riferita alla n upla campionaria; le statistiche campionarie sono funzioni dei dati campionari ovvero il loro valore cambia al variare dei dati campionari; la media campionaria è una variabile perché al variare del campione può variare il suo valore quindi da una parte abbiamo la media mi che è una costante, dall'altra abbiamo una moltitudine di valori di stima della media che sono pari a tutti i possibili campioni estraibili dalla popolazione. Il parametro incognito si stima con una funzione che si chiama stimatore il suo valore varia al variare della n upla campionaria estratta; lo stimatore è una variabile casuale! La media campionaria è una variabile casuale in quanto stimatore ed è variabile perché cambiando il campione nell'universo di tutti i possibili campioni di uguale numerosità il suo valore può cambiare. Stimatori che sono le statistiche campionarie, e al variare del campione nello spazio campionario assumono valori diversi che si chiamano stime. Lo stimatore, in quanto funzione dei dati campionari, è una variabile casuale quindi caratterizzata da una sua distribuzione di probabilità o da una funzione di densità a seconda che sia una variabile continua o discreta. La distribuzione delle stime è caratterizzata da alcuni elementi che la qualificano uno di questi è rappresentato dalla sua variabilità: la misura di variabilità nella distribuzione delle stime si chiama errore standard. L'errore standard esprime l'affidabilità di queste stime, più piccolo sarà il valore dell'errore standard più sarà affidabile il nostro risultato, perché attorno al valore vero c'è poca variabilità e il che significa che le stime sono molto vicine al valore vero.
funzione del campione che potrebbe essere estratto dalla popolazione. La distribuzione di uno stimatore viene rappresentata come una distribuzione di probabilità o funzione di densità secondo che lo spazio campionario sia costituito da un numero finito di elementi oppure no: quindi si rappresenta con una distribuzione di probabilità se la distribuzione di stime è discreta, oppure con una funzione di densità se la distribuzione di stime è continua. La funzione dei dati campionari è lo stimatore si indica con T e attraverso T stimiamo il parametro teta (media, proporzione, varianza). Una volta estratto il campione, lo stimatore dà origine al valore della stima. Dato che esistono diversi stimatori che si possono scegliere per la stessa grandezza caratteristica della popolazione, li scegliamo in funzione di correttezza, consistenza ed efficienza. Uno stimatore è corretto se il valore atteso è uguale al vero valore del parametro stimato. Uno stimatore è consistente se al crescere della numerosità campionaria la probabilità di scarti inferiori rispetto a teta aumenta, se lo stimatore è consistente per n che tende a infinito una distribuzione tende a diventare più appuntita e quindi ho un maggiore probabilità di trovare valori della stima in un intorno nella media molto piccoli mentre diminuisce la probabilità di scarti grandi, di stime distanti dal valore vero. Uno stimatore si dice efficiente se a parità di n, quindi distribuzione di stime relative a due stimatori, sceglierò quello più efficiente cioè quello in corrispondenza del quale l'errore standard della distribuzione delle stime è più piccolo. L’errore standard è una misura di variabilità intorno alla media secondo il quale se lo stimatore è corretto corrisponde al valore vero, quindi più piccola è meglio è, ed esprime l'affidabilità della distribuzione delle stime. (vedi formula sul quad.) Stimatori utilizzati: Mi Media campionaria (x sovrasegnato) E(x sovrasegnato) = mi Sigma quadro Varianza campionaria (S quadro) E(S quadro) diverso da sigma quadro = allora S quadro è uno stimatore distorto di sigma quadro per ottenere uno stimatore corretto stimiamo S quadro se è incognito = sommatoria di (xi – x sovrasegnato) al quadr./n-1; oppure se abbiamo S quadro sommatoria di (xi – x sovrasegnato) al quadr./n; quindi lo stimatore corretto della varianza è la varianza campionaria ottenuta per n-1 e non per n; =DEV.ST.C (calcolata su n-1); =DEV.ST.P (calcolata su n); P f (proporzione campionaria) E(f) = p; f è uno stimatore corretto per la proporzione: bisogna prima costruire la distribuzione di frequenza attraverso la tabella pivot e calcolare la frequenza relativa, che è la modalità di interesse, quindi la proporzione.
L’errore standard della distribuzione campionaria della media esprime in media campionaria quanto i valori delle stime si discostano dal valore vero, è una misura di affidabilità; le condizioni sono che x sia distribuita come una normale e la varianza di x (sigma quadro) sia nota. Altrimenti la distribuzione è distribuita come una t di Student (campanulare simmetrica unimodale) però è più bassa della curva normale per cui all'interno di uno scarto sigma dalla media non c'è compresa quella stessa percentuale di casi della normale; Se devo stimare il sigma attraverso il dato campionario utilizzo la distribuzione t di Student perché la probabilità di avere valori più vicini al valore vero è meno rilevante rispetto a come avvenga sulla curva normale; al crescere della numerosità campionaria, la t di Student e la normale tendono a coincidere. Conoscere la forma della distribuzione delle stime che sia normale o t di Student non è rilevante quando si deve risolvere il problema di stima puntuale, è invece necessario quando si determina una stima intervallare. Intervalli di confidenza intervallo che con una certa probabilità prefissata dal ricercatore, contiene il vero valore del parametro, è fissata solitamente al 95% (0,95), significa che l'intervallo di estremi da identificare con una probabilità pari a 0,95 contiene il vero valore del parametro, gli estremi dell'intervallo sono funzione del valore della stima calcolata. L'intervallo di confidenza è un intervallo i cui estremi variano al variare della stima che abbiamo calcolato e di alcune caratteristiche della distribuzione delle stime (la forma se è normale o no) e della sua variabilità (errore standard); se il sigma è noto calcolo l'errore standard; se devo stimare il sigma devo stimare anche l'errore standard. Per cui quando devo determinare gli estremi dell'intervallo di confidenza, se la variabile casuale si distribuisce normalmente perché il sigma è noto e perché x è una normale allora utilizzerò a = x sovrasegnato – z di alfa mezzisigma di x sovrasegnato b = x sovrasegnato + z di alfa mezzisigma di x sovrasegnato Gli estremi dipendono dalla media campionaria, dall'errore standard e dal valore della curva normale che contiene con una probabilità pari a 0,95 il vero valore del parametro. Per la t di Student utilizzerò a’ = x sovrasegnato – t di alfa mezzi/n-1(numerosità campionaria)*(sigma di x)l’errore standard stimato