Scarica Statistica teoria degli argomenti presenti in esame e più Appunti in PDF di Statistica solo su Docsity! -Tommaso Zeri. (i trattini “-” indicano la formula di riferimento da inserire) Cos'è la statistica la statistica è una branca della matematica costituita da un insieme di metodi finalizzati a trasformare i numeri in informazioni utili per prendere decisioni. Nel mondo degli “affari” la statistica ha 4 importanti applicazioni: -riassumere i dati «trarre conclusioni -fare previsioni attendibili riguardo alle attività aziendali -migliorare i processi aziendali Essa può essere suddivisa in due macrocomponenti: la statistica descrittiva e quella inferenziale 1) Statistica descrittiva: riguarda la raccolta, la sintesi, la presentazione e l'analisi di insiemi di dati. Per presentare in modo sintetico i dati, vengono utilizzate tabelle e grafici. Per la descrizione di alcune caratteristiche dei dati vengono utilizzati indici statistici(media, mediana, deviazione standard) 2) Statistica inferenziale: Ha come scopo quello di trarre conclusioni applicabili a popolazioni generali partendo dall’elaborazione dei dati relativi a piccoli gruppi scelti come campioni. Vocabolario base della statistica -Variabile: caratteristica di un individuo o di un oggetto. Esse sono l'oggetto delle analisi statistiche e sono la trasposizione matematica delle caratteristiche di persone(età, statura, reddito) e di insiemi di oggetti(confezioni di una bibita sullo scaffale). -Popolazione: insieme di tutti gli oggetti/individui, o più genericamente, di unità statistiche sulle quali si vogliono ottenere informazioni. -Campione: parte o proporzione della popolazione selezionata per condurre le analisi -Parametro: misura numerica che descrive una caratteristica di un campione Tipi di variabili Tipo di dati Tipo di domande Risposte Qualitativo > Attualmente possiedi titoli o obbligazioni? Lo. . A quante riviste Numero Quantitativo 7°ST9° sei abbonato? ieri Continuo —— Quanto sei alto? Metri Variabili qualitative: o categoriali (ordinali/ nominali) esse danno luogo a risposte che possono essere ricondotte a categorie qualitative o modalità NON numeriche come “si” o “no”. Le variabili categoriali possono avere anche più di due modalità di risposta Variabili quantitative: (o cardinali) esse assumono valori che indicano una quantità ad esempio xmetri e xsecondi. Esse si suddividono in discrete e continue. -Discrete: significa che assumono valori numerici che solitamente derivano da processi di conteggio (a quante riviste sei attualmente abbonato?) -Continue: significa che assumono valori che derivano solitamente da processi di misurazione. Il tempo di attesa allo sportello di una banca è un esempio di variabile quantitativa continua perché può assumere tutti gli infiniti valori in un certo intervallo. 1)PRESENTAZIONE DEI DATI: GRAFICI E TABELLE TABELLE E GRAFICI PER DATI QUALITATIVI Esso è utile nei casi in cui si verifica il principio di Pareto(Il 20% delle cause determina l'’80% degli effetti, ovvero quando la maggior parte delle unità statistiche si concentra in poche modalità con un'elevata frequenza e le altre si distribuiscono su un elevato numero di modalità con una bassa frequenza) Esso serve quando si vogliono distinguere le poche modalità rilevanti dalle tante modalità banali, in modo da concentrarsi sul 20% delle più importanti che determinano l'80% degli effetti. Analisi di Pareto [Azienda] [Descrizione del progetto] [Data] 100% 80% 60% Effetti % Cumulativa 40% 20% 8 5 3 £ è_ È 0% Fattori su Fattori Rilevanti Fattori Non Rilevanti — % Cumulativa ---- Soglia di esclusione | primi 4 fattori hanno una incidenza dello 081% sul totale degli effetti. -Tabelle di contingenza Una tabella di contingenza riporta le frequenze congiunte di due variabili qualitative in forma di una tabella a due vie che ha sulle righe le modalità di una variabile e sulle colonne le modalità dell'altra variabile. Le intersezioni tra righe e colonne sono chiamate celle e, in base al tipo di tabella di contingenza costruita, esse possono contenere le frequenze congiunte, le percentuali rispetto al totale complessivo, le percentuali rispetto al totale di ciascuna riga, o le percentuali rispetto al totale di ciascuna colonna. Livello di rischio Tipologia alto medio basso totale Growth 302 140 22 464 Value |] 53 171 180 404 totale 355 311 202 868 ORGANIZZAZIONE DEI DATI QUANTITATIVI -Ordinamento l'ordinamento consiste in una sequenza ordinata di dati, dal valore più piccolo a quello più grande -Diagramma ramo-foglia Il diagramma ramo foglia si costruisce dividendo ciascuna osservazione in due parti: una principale(ramo) a cui sono collegate, su ciascuna riga, le parti secondarie (foglie). Questo diagramma si caratterizza per la sua immediatezza visiva Diagramma ramo e foglia spalla a spalla % Occupati nell'industria Femmine Maschi 975| 0* 442110] 1* 5 le 241 è 87 6| 2e |677 431) 3* |00224 3e (67789 4* [1111 4 [58 5* |0 Tabelle e grafici per dati Quantitativi -Distribuzione di frequenza in classi Una distribuzione di frequenza in classi è una tabella in cui i dati sono divisi in opportune classi di modalità. Ad ogni classe è associato un numero di unità statistiche appartenenti a quella classe. Occorre prestare attenzione alla scelta del numero delle classi e all'’ampiezza di ciascuna di esse, determinando gli estremi di ogni classe in modo da evitare sovrapposizioni. Il numero di classi in cui vengono raggruppati i dati dipende, in primo luogo dalla numerosità dei dati stessi(all'aumentare della numerosità dei dati occorre aumentare il numero di classi) In generale, si può affermare che una distribuzione di frequenza in classi dovrebbe avere da un minimo di 5 ad un massimo di 15 classi. Se il numero di classi non è adeguato la quantità e la qualità delle informazioni che la distribuzione di frequenza riesce a restituire sarà minore. Per quanto riguarda l'ampiezza, se si decide di avere classi di eguale ampiezza, è agevole determinare la lunghezza di ciascun intervallo. è infatti sufficiente dividere il range dei dati, o campo di variazione(Vmax-Vmin), per il numero di classi desiderato. Per convenienza è possibile arrotondare il valore ottenuto.(5,80$-->5$) Infine è necessario stabilire quali siano gli estremi delle classi, in modo tale da evitare sovrapposizioni, cosicché ciascun valore appartenga ad una e una sola classe. Per ogni classe si può calcolare il valore centrale, ovvero il punto medio. (classe [15$-20$[ -->17.50$) frequenza relatiyfrequenza % |% cumulata di pasti con limite 80 0.02 2 0 0.04 4 2 0.06 6|6(2+4) 0.10 10|12(2+4+6) 0.16 16|22(2+4+6+10) 0.12 12|38(2+4+6+10+16) 0.18 18|50(2+4+6+10+16+12) 0.14 14|68(2+4+6+10+16+12+18) 0.06 6 82 0.02 2 88 0.06 6 90 0.04 4 96 1.00 100 100 «Istogramma Un istogramma è una specia di diagramma a barre in cui le frequenze o le percentuali di ciascuna classe sono rappresentate come singole barre verticali, fra cui però, diversamente da un diagramma a barre per dati qualitativi, non ci sono spazi vuoti. Frequenza rispetto a Prezzo to 175 226 275 325 ST5 425 475 S26 975 625 675 I26 Prezzo (no spazio tra le colonne) L'area dei rettangoli di un istogramma è proporzionata alla frequenza delle classi per quella data modalità. -Poligoni di frequenze Qualora si cercasse di rappresentare più istogrammi nello stesso grafico al fine di confrontare due o più insiemi di dati, si creerebbe una notevole confusione. Per questo motivo entrano in gioco i poligoni di frequenza, che favoriscono l'interpretazione dei dati, in quanto su ha la possibilità di confrontare due istogrammi senza fare confusione. Un poligono di frequenza si costruisce congiungendo in sequenza i punti le cui coordinate sono i valori centrali di ciascuna classe, che rappresenta tutte le osservazioni che appartengono a quella classe, e le loro rispettive percentuali. Tesi C 1200 1000 800 f E g 60 =-2001 È —2006 400 200 o+ O 3 8 9 12 15 18 21 24 27 30 33 36 39 42 45 4@ Classi di diametro [em] -Ogiva Il poligono di frequenze cumulate (ogiva) è un grafico in cui sull'asse delle ascisse si rappresenta la variabile di interesse e sull'asse delle ordinate la distribuzione delle percentuali cumulate . Tanto più il grafico cresce velocemente verso 1(100%) minore è la variabilità. 6+4+11+13+5=39 40 s 6+4+11+13=34 G+40t4=21 linea spezzata 0 finoa 14 4547 1822 23-27 Oltre 27 frequenza ] f cumulata fino a 14 6 6 1547 4 10 (18-22 11 21 (23-27 13 24 [Oltre 27 5 39 39 -Diagramma a dispersione Il diagramma a dispersione(scatter plot) viene usato per analizzare possibili relazioni fra 2 variabili quantitative. Per ogni osservazione viene assegnato un punto su un piano cartesiano che ha come coordinate i valori della variabile x posta sull'asse delle ascisse e di un'altra variabile y sull'asse delle ordinate. Per esempio un analista di marketing potrebbe voler studiare l'efficacia della pubblicità analizzando la relazione tra il volume delle vendite settimanali e le spese settimanali in pubblicità. Città Hamburgher [Biglietti cinema soliti i Tokyo E 5 2 | Hamburgher e Biglietti cinema Londra 7 7 10 © Hamburgher ®@ Biglietti cinema New York 9 3 8 . © e 2 e Sydney 4 8 6 ‘ 0 e ° ° Chicago 5 | 4 e ° ° ° è San Francisco 4 6, 2 0 Boston 9 9 Seo Atlanta 10 3 È È È È & È «È Toronto 8 9 . Rio 3 9 Città -Diagramma per le serie storiche Il diagramma per le serie storiche viene utilizzato per rappresentare graficamente l'andamento di una serie storica, data dall'osservazione ripetuta di una variabile quantitativa a intervalli regolari di tempo. anno incassi incassi rispetto a anno 1999 1.47 230 2000 1.42 2.00 130 2001 143 19 2002 2.03] È 030 0.00 2003 1.57 1999 2000 2001 2002 2003 2004 2004 1.53 2005 141 anno Utilizzare varianza e deviazione standard talvolta può risultare complicato a causa di numeri che possono essere difficili da gestire. Grazie ad una proprietà della varianza, esiste un modo alternativo più efficiente, che prevede un numero inferiore di passaggi. -Devianza è la somma dei quadrati delle osservazioni meno il quadrato della media moltiplicato per il numero di osservazioni. 1: elevare al quadrato ciascuna osservazione 2: sommare i dati al quadrato 3: sottrarre a questa somma la media elevata al quadrato moltiplicata per n 4: dividere questo totale per n-1 per ottenere la varianza campionaria 5: prendere la radice al quadrato della varianza campionaria per ottenere lo scarto quadratico medio campionario -Deviazione media assoluta (MAD) Misura di dispersione complessiva data dalla media delle differenze assolute tra i dati e la media fratto N o n-1(MAD campionaria) Caratteristiche campo di variazione, varianza e dev. standard 1): più i dati sono sparpagliati o dispersi, più ampi sono il campo di variazione, la varianza e lo scarto quadratico medio 2): più i dati sono concentrati ed omogenei, più piccoli sono il campo di variazione, la varianza e lo scarto quad. medio 3); se i valori sono tutti uguali(ovvero vi è assenza di variabilità nei dati), il campo di variazione, la varianza e lo scarto quad. medio saranno uguali a 0 4). nessun indice di variabilità (campo di variazione, dev standard e varianza) può essere negativo -Coefficiente di variazione A differenza delle precedenti misure di variazione presentate, il coefficiente di variazione è una misura di variabilità relativa, ovvero è espressa in % e non nell'unità di misura dei dati. Il coefficiente di variazione è indicato con il simbolo CV, misura la dispersione dei dati in relazione all'entità della media. Esso è molto più utile quando si confrontano due o più serie di dati che vengono misurate in diverse unità -Punteggi Z Il punteggio z o zscore è la differenza tra il valore e la media, divisa per lo scarto quadratico medio e rappresenta quanto un dato valore è distante dalla media rispetto alla variabilità della distribuzione. Poiché un valore estremo è un valore posizionato molto lontano dalla media, i punteggi z sono utili per la loro identificazione: più grandi, in valore assoluto, sono i punteggi z, più è grande la distanza tra il valore e la media. INDICI DI FORMA La forma di una distribuzione riguarda l'andamento dei dati nell'intero range. Per quel che riguarda la forma, una distribuzione può essere sia simmetrica che asimmetrica; in una distribuzione simmetrica, i valori al di sotto della media sono distribuiti esattamente come i valori sopra la media(in questo caso i dati a destra e a sinistra sono simmetrici; in una distribuzione asimmetrica, i valori non sono simmetrici attorno alla media. Questa asimmetria è originata da uno squilibrio tra valori bassi e alti. Se la distribuzione è simmetrica, media, moda e mediana sono pressoché uguali, mentre forme diverse della distribuzione modificano le posizioni relative della media e della mediana nelle modalità seguenti: -media<mediana: asimmetria di sinistra(negativa) -media=mediana: simmetria -media>mediana: asimmetria di destra(positiva) Misure di Forma della Distribuzione * Descrive come i dati sono distribuiti *_ Misure della forma — Simmetrica o asimmetrica Obliqua a sinistra Simmetrica Obliqua a destra Media < Mediana Media = Mediana Mediana < Media Statistica descrittiva per la popolazione -Media della popolazione è la somma dei valori nella popolazione divisa per la dimensione della popolazione N -Varianza e scarto quadratico medio della popolazione La varianza della popolazione e la deviazione standard della popolazione misurano la variabilità della popolazione. La varianza della popolazione è data dalla somma degli scarti al quadrato rispetto alla media della popolazione divisa per la dimensione della popolazione N. La deviazione standard della popolazione si ottiene dalla radice quadrata della varianza. Regola empirica In molti insiemi di dati una gran parte dei valori tende a raggrupparsi vicino alla mediana. Negli insiemi di dati caratterizzati da un'asimmetria positiva, questo raggruppamento si verifica a sinistra della media, cioè verso i valori inferiori alla media. Negli insiemi di dati caratterizzati da un'asimmetria Per calcolare i quartili si possono usare le seguenti regole pratiche dopo aver ordinato i dati -Regola 1: se la posizione del quartile è un numero intero, allora il quartile è uguale all'osservazione che corrisponde a quella posizione.(se la dimensione campionaria è n=7, il primo quartile Q1, è l'osservazione che occupa il posto (7+1)/4=2, ovvero il secondo dato nella sequenza ordinata. -Regola 2: se la posizione del quartile è un numero con una cifra decimale uguale a 5, allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni. (se la dimensione campionaria è n=9, la posizione del primo quartile Q1 è uguale a (9+1)/4=2.5, ovvero il primo quartile si colloca a metà strada tra la seconda e la terza osservazione nella sequenza ordinata . Quindi il primo quartile sarà la media aritmetica tra queste due osservazioni. -Regola 3: se la posizione del quartile è un numero con due cifre decimali uguali a 25 o 75, la posizione del quartile si può approssimare, per eccesso(75) o per difetto(25), all'intero più vicino. In questo caso il quartile sarà l'osservazione corrispondente a questa posizione. Per esempio, se la dimensione è la posizione del primo quartile , Q1, è uguale a (10+4)/4= 2.75. Approssimando tale valore all'intero più vicino 3, si ottiene che il primo quartile sarà la terza osservazione nella sequenza ordinata. -Range interquartile Misura la dispersione del 50% centrale dei dati. Esso è robusto ed è dato dalla differenza tra Q3 e Q1 -Sintesi a 5 la sintesi a 5 è uno strumento per poter riassumere l’intera distribuzione, analizzare la variabilità e la forma attraverso solo 5 numeri, ovvero attraverso gli estremi, i quartili e la mediana. Xmin--Q1--mediana--Q3--Xmax Per esempio, dati i valori 29 35 39.5 44 52 la distanza tra Xmin e la mediana (39.5-29=10.5) è di poco inferiore della distanza tra la mediana e Xmax (52-39.5=12.5). La distanza tra Xmin e Q1 (35-29=6) è di poco inferiore alla distanza tra Q3 e Xmax (52-44=8). Quindi dato che le distanze a destra della mediana sono più grandi di quelle a sinistra, si può affermare che la distribuzione è leggermente asimmetrica a destra. -Boxplot Il boxplot, o diagramma a scatola e baffi, fornisce una rappresentazione grafica dei dati sulla base della sintesi a 5. La scatola rappresenta graficamente il 50% centrale delle osservazioni della distribuzione. o «— OQutlier = Maximum ù «= 314 Quartile £ 9 ce 2 E g è F ® Median £ . £ <- 1 Quartile + Minimum Boxplot: un grafico per distribuzioni continue basato sui quartili Cistrizuzione Gisiebuzione Dtnibuzione amimmetrico a sin simmetrica asmmetrica a cda \ AN |] 1 | 2 n n #| Sa # n GL qa Quo uo HH HH HO Il diagramma a dispersione può essere utilizzato per esaminare visivamente la relazione tra due variabili quantitative. Covarianza e coefficiente di correlazione invece, sono utili per misurare l'intensità e il verso della relazione tra due variabili. -Covarianza La covarianza misura l'intensità e il verso della relazione lineare tra due variabili quantitative(x e y). Il termine covarianza rimanda all'idea di una misura di quanto due variabili quantitative variano insieme. La covarianza, pur essendo una misura della relazione lineare fra 2 variabili quantitative, ha un grande difetto, in quanto può assumere qualsiasi valore che dipende sia dalla grandezza dei fenomeni considerati che dalle unità di misura delle variabili. Pertanto, tramite la covarianza, non si è in grado di determinare la forza del legame tra le 2 variabili. -Coefficiente di correlazione Il coefficiente di correlazione si ottiene dividendo la covarianza di x e y peri relativi scarti quadratici medi. In questo modo si eliminano sia le due unità di misura delle due variabili, sia le grandezze relative. Il numero così ottenuto è un numero puro, privo di unità di misura e con un campo di variazione ben specificato. Il coefficiente di correlazione misura la forza relativa di un legame lineare tra due variabili quantitative, oltre alla direzione e al verso. Esso è un valore compreso tra -1 e 1. Quando si avvicina agli estremi del suo range(-1 o 1), il legame lineare tra le due variabili è più forte. Quando il coefficiente di correlazione è vicino a 0, vi è poca o nessuna relazione lineare tra le due variabili. Il segno del coefficiente di correlazione indica il verso della relazione. L'esistenza di un legame forte non implica un effetto di causalità, ma solamente la tendenza ad associarsi. -Tabelle di contingenza e diagrammi di Venn Per rappresentare lo spazio campionario è utile utilizzare una tabella di contingenza per incasellare gli eventi. In alternativa si può utilizzare il diagramma di Eulero-Venn, che rappresenta graficamente gli eventi come unioni e intersezioni di cerchi. hd A0B E Alberi decisionali Un albero decisionale è un'alternativa alla tabella di contingenza. macchina Bocceta TBM exc. ; scavo con TBM s piena sezione D&B axc. : scavo convenzionale pemee È de n macerie posse 310 macchie boccale pate of mo" xt mecchna passe pri 20 \ neccina boccata / TRMe mo pae e ess n reracchna persa ua mo presenza dela 210 neces pesta \ pese /— 0 > E srmescina prese ao d macchine occ pri / perte og vttmenmeeere _ _______q ini zio metodi di scavo secca boccia perno ________q pese T__20 È ici pas a 110 scsron | TBMe= dichia esse \ rrtanvesionioni orta o o ino = pena tcp cen 1010 Vaso eq. Voce (uu ron ma ToMex ta macchina prse rr —T o_o —__ \ po pres. 10n0 DERE ta macchina passa 4 dle srt _c tono PROBABILITÀ SEMPLICE Come già detto, la probabilità è un numero che varia da 0 a 1, dove 0 è la probabilità dell'evento impossibile e 1 quella dell'evento certo. La probabilità semplice è la probabilità che si verifichi un evento semplice P(A) (pianificare l'acquisto oppure effettuare l'acquisto) PROBABILITÀ CONGIUNTA O COMPOSTA Mentre la probabilità semplice è legata al verificarsi di un evento semplice, la probabilità congiunta o composta è legata al verificarsi di due o più eventi. (ottenerla testa al primo lancio e testa al secondo lancio, nel caso di un lancio di moneta) PROBABILITÀ MARGINALE La probabilità marginale di un evento si può calcolare sulla base di un insieme di probabilità congiunte. Se B è formato da due eventi B1 e B2 allora la probabilità dell'evento A, P(A), può ottenersi come somma delle probabilità congiunte dell'evento A con l'evento B1 e dell'evento A con l'evento B2. Due eventi sono mutualmente esclusivi o incompatibili se non possono verificarsi contemporaneamente. Un insieme di eventi è collettivamente esaustivo se almeno uno degli eventi deve verificarsi. Gli eventi si dicono in questo caso necessari. (Testa e croce in un lancio della moneta sono eventi incompatibili, inoltre testa e croce sono eventi necessari o collettivamente esaustivi, poiché uno di essi deve necessariamente verificarsi. PROBABILITÀ DELL'UNIONE DI 2 EVENTI Come si trova la probabilità dell'evento AoB? è necessario prendere in considerazione il verificarsi dell'evento A o dell'evento B o di entrambi gli eventi A e B. Per esempio, per determinare la probabilità che un capofamiglia pianifichi l'acquisto o realmente acquisti un televisore a schermo piatto, bisogna considerare che tale evento include tutti i capofamiglia che pianificano l'acquisto e tutti i capofamiglia che realmente acquistano. PROBABILITÀ CONDIZIONATA La probabilità condizionata è la probabilità di un evento A, data l'informazione sul verificarsi dell'evento B Siano P(A)=probabilità acquisto pianificato P(B1)=probabilità acquisto effettuato P(B3)=probabilità acquisto non effettuato la probabilità di un acquisto pianificato è P(A)=P(A|B1)P(B1)+P(A|B2)P(B2) =(200/300)(300/1000)+(50/700)(700/1000)=0.25 TEOREMA DI BAYES Il teorema di Bayes è usato per modificare e rivedere le probabilità precedentemente calcolate sulla base di una nuova informazione.(La M&R corp. considera la possibilità di introdurre un nuovo televisore sul mercato. In passato il 40% dei televisori introdotti nel mercato dall'azienda ha avuto successo nel mercato, l'ufficio marketing conduce uno studio e prepara un rapporto che esprime parere favorevole o non favorevole all'introduzione nel mercato del televisore. Nel passato, l'80% dei televisori che poi hanno avuto successo, aveva ricevuto un parere non favorevole da parte dell'ufficio marketing, mentre il 30% dei televisori che non ha avuto successo, aveva ricevuto un parere favorevole.) Per il nuovo modello di televisore in considerazione, l'ufficio marketing ha espresso parere favorevole. Qual è la probabilità che il televisore avrà successo sul mercato? 5)DISTRIBUZIONI DI PROBABILITÀ DI VARIABILI CASUALI DISCRETE Le variabili quantitative si possono dividere in discrete o continue a seconda che derivino da un processo di conteggio o di misurazione. Le variabili quantitative discrete producono dati che provengono da un processo di conteggio, come il numero di riviste a cui si è abbonati. Una distribuzione di probabilità di una variabile casuale discreta è un elenco mutualmente esclusivo di tutti i possibili risultati numerici che la variabile casuale può assumere unitamente alla probabilità del verificarsi di ciascun risultato. VALORE ATTESO DI UNA VARIABILE CASUALE DISCRETA Il valore medio y di una distribuzione di probabilità è il valore atteso della variabile casuale. Il valore atteso si ottiene moltiplicando ogni possibile risultato X per la sua corrispondente probabilità P(X), e quindi sommando questi prodotti. Esso rappresenta il numero medio di mutui, per esempio, approvati ogni settimana. (il concetto di valore atteso di una variabile casuale è equivalente a quello di media incontrato nella statistica descrittiva, ma in questo caso assume il significato di valore che ci si attende con maggiore probabilità.) VARIANZA E SCARTO QUADRATICO MEDIO La varianza di una distribuzione di probabilità si calcola moltiplicando ogni possibile differenza al quadrato[Xi-E(X)]"2 per la sua probabilità corrispondente P(Xi) e sommando i relativi prodotti. La distribuzione binomiale è uno dei modelli probabilistici più utili e diffusi. La distribuzione binomiale viene usata quando la variabile casuale discreta rappresenta il numero di eventi di interesse (successi) in un campione di n osservazioni (prove). La variabile casuale binomiale, quindi, serve come modello probabilistico in tutti quei casi in cui si è interessati al numero di volte in cui un certo evento (successo) si verifica in n prove fra loro Indipendenti. La distribuzione binomiale ha 4 caratteristiche: 1) il campione è composto da un numero dato di osservazioni(prove), n; 2) ogni osservazione è classificata in una delle 2 categorie incompatibili ed esaustive, successo e insuccesso; 3) la probabilità che si verifichi un successo, TT, è costante per ogni prova. Pertanto, anche la probabilità che si verifichi un insuccesso, 1-7, è costante; 4) il risultato di una qualsiasi prova è indipendente dal risultato di qualsiasi altra prova. Per garantire l'indipendenza, le osservazioni possono essere estratte da una popolazione infinita con o senza reinserimento o da una popolazione finita con reinserimento. COMBINAZIONI Per trovare il numero delle combinazioni, ovvero il numero di modi in cui è possibile disporre X oggetti in n prove senza tener conto dell'ordine, bisogna utilizzare la formula: 6)DISTRIBUZIONE NORMALE DISTRIBUZIONI CONTINUE DI PROBABILITÀ Una funzione di densità di probabilità è un'espressione matematica che descrive la distribuzione dei valori assunti da una variabile casuale continua. -A sx, distribuzione normale: è una distribuzione simmetrica con la forma a campana; la maggior parte dei valori si concentra intorno al valore medio che, proprio per la sua forma simmetrica, coincide con la mediana. Sebbene nella distribuzione normale i valori possano variare tra -® e +®, la forma della distribuzione indica che i valori estremamente piccoli o estremamente grandi sono molto improbabili. -Al centro, distribuzione uniforme: in cui ogni valore compreso tra il valore più piccolo a e il valore più grande b, ha la stessa probabilità di verificarsi. La distribuzione uniforme, o rettangolare, è simmetrica, quindi media e mediana coincidono. -A dx, distribuzione esponenziale: Questa distribuzione è asimmetrica con la coda a dx, per cui il valore medio è maggiore della mediana. La distribuzione esponenziale assume valori da 0 a +®, ma per la forma della distribuzione i valori estremamente grandi si verificano raramente. DISTRIBUZIONE NORMALE La distribuzione normale, o gaussiana, è la variabile casuale continua più utilizzata in statistica per 3 ragioni: 1) molti fenomeni descrivibili mediante variabili continue hanno una distribuzione pressoché normale 2) la distribuzione normale può essere utilizzata anche per approssimare una serie di variabili casuali discrete 3) la variabile casuale normale fornisce le basi per l'inferenza statistica classica attraverso il teorema del limite centrale. La distribuzione normale è rappresentata dalla classica curva a campana. Si può calcolare la probabilità di osservare dei valori in un dato intervallo, ma non la probabilità che si verifichi esattamente un particolare valore. Tale probabilità, infatti, nelle distribuzioni continue(come quella normale) è pari a O. Questa caratteristica distingue le variabili casuali continue, che attengono a operazioni di misurazione, della variabili casuali discrete che per lo più riguardano operazioni di conteggio. Il tempo, per esempio, può essere misurato (in secondi), ma non contato. Pertanto si può calcolare la probabilità che il tempo di caricamento di una homepage sia compresa tra 7 e 10 secondi. Tuttavia la probabilità che il tempo di caricamento sia esattamente uguale a 8 è zero. 88,27% 95,45% ‘ 99,73% » Proprietà variabile casuale normale 1) è simmetrica, dunque il suo valore medio coincide con la sua mediana 2) ha una forma a campana 3) il campi di variazione interquartile è pari a 1.33 volte lo scarto quadratico medio. Pertanto il 50% centrale dei valori è contenuto in un intervallo parti ai 74 dello scarto quadratico medio sopra e sotto il valore medio 4) ha un campo di variazione infinito (-0;+ 0) -Funzione normale di densità di probabilità Poiché sia “e” che TT sono costanti matematiche, la probabilità della variabile casuale X dipendono esclusivamente dai due parametri della distribuzione normale: il valore medio e yu e lo sqm sigma. Ogni volta che viene specificata una particolare combinazione di pu e di sigma, viene generata una distribuzione normale differente. Questa espressione matematica tuttavia, è complessa e per il calcolo delle probabilità sarebbe necessario l'uso degli integrali. Esiste però, la formula di standardizzazione, che serve a trasformare una variabile casuale normale X in una standardizzata Z. -Campionamento stratificato In uno schema di campionamento stratificato, la popolazione di N soggetti viene suddivisa in varie sottopopolazioni, dette strati. Uno strato è una sottopopolazione che viene definita sulla base di caratteristiche comuni(variabile di stratificazione), quale per esempio il sesso o l'età. Successivamente si estrae casuale semplice da ciascuno strato, per poi combinare i sottocampioni in un unico campione. Questo schema è più efficace di primi due perché garantisce che le varie sottopopolazioni siano adeguatamente rappresentate dal campione. -Campionamento a grappolo Nel campionamento a grappolo le N unità statistiche della popolazione sono divise in gruppi o grappoli, in cui ciascun gruppo è rappresentativo di per sè dell'intera popolazione. | gruppi solitamente sono insiti nel fenomeno sotto studio: alcuni esempi tipici sono i comuni, i distretti elettorali, i quartieri, le famiglie ecc. Errori campionari Quando si conduce un'indagine, anche se si utilizza un metodo di campionamento casuale, comunque si è soggetti a una serie di potenziale errori, qua sotto sintetizzati nelle 4 principali categorie -errori di copertura -errori dovuti alle mancate risposte -errori di campionamento -errori di misurazione DISTRIBUZIONI CAMPIONARIE Una distribuzione campionaria è la distribuzione di probabilità di una statistica campionaria, ovvero dei suoi possibili valori che si ottengono su tutti i possibili campioni di una data dimensione che si possono estrarre dalla popolazione in studio. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA La distribuzione campionaria della media X, o variabile casuale media campionaria, è la distribuzione di probabilità di tutte le possibili medie campionarie ottenibili se si selezionassero tutti i possibili campioni da una popolazione. -Proprietà La caratteristica più importante della distribuzione media campionaria è che essa è uno stimatore non distorto della media della popolazione p, in quanto la media di tutte le possibili medie campionarie è proprio uguale a p. Media della popolazione: è la somma dei valori di una certa variabile osservati nella popolazione diviso per la numerosità della popolazione N. Sqm della popolazione: Errore standard della media: é il valore dello scarto quadratico medio di tutte le possibili medie campionarie e indica quanto le medie campionarie variano da campione a campione. Formula della standardizzazione per la distribuzione media campionaria: Formula inversa per ricavare i valori di X: Campionamento da popolazioni non normalmente distribuite Finora sono stati affrontati casi in cui i campioni sono stati estratti da popolazioni in cui la variabile di interesse si distribuiva come una normale. Tuttavia, molto spesso si affronta il caso in cui non è possibile affermare che la distribuzione della popolazione sia normale. TEOREMA DEL LIMITE CENTRALE “Quando la numerosità campionaria(il numero di osservazioni che compongono il campione) è sufficientemente elevata, la distribuzione media campionaria assume una forma approssimativamente normale. Questo è sempre vero ed è indipendente dalla forma che la distribuzione della variabile di interesse ha nella popolazione.” Come regola empirica generale gli statistici hanno individuato che, per molte distribuzioni, un campione di 30 unità può essere considerato sufficiente per affermare che la distribuzione media campionaria assuma una forma approssimativamente normale. -Per numerose distribuzioni, indipendentemente dalla loro forma, la distribuzione media campionaria assume una forma approssimativamente normale se si considerano campioni di ampiezza almeno pari a 30 unità -Se la distribuzione nella popolazione è piuttosto simmetrica, la distribuzione media campionaria assume una forma approssimativamente normale già per numerosità campionarie almeno pari a 5. -Se la distribuzione della popolazione è normale, la distribuzione media campionaria e normalmente distribuita per qualunque numerosità del campione. INTERVALLO DI CONFIDENZA PER LA MEDIA(SQM NOTO) Le statistiche campionarie variano da campione a campione a causa dell'errore campionario. L'errore campionario è la variazione connessa alla selezione di un singolo campione della popolazione. La grandezza dell'errore campionario dipende essenzialmente da due fattori: dall'ammontare di variabilità presente nella popolazione e dalla dimensione campionaria. Campioni più numerosi hanno un errore campionario più basso rispetto a campioni piccoli. INTERVALLO DI CONFIDENZA PER LA MEDIA(SQM IGNOTO) -Proprietà della distribuzione t La distribuzione T appare molto simile alla distribuzione normale standardizzata. Entrambe le distribuzioni, sono simmetriche e campanulari con medie e mediane pari a 0. Tuttavia, la distribuzione t ha un'area più grande nelle code e più piccola nel centro rispetto alla distribuzione normale standardizzata. Poiché S è utilizzata per stimare sigma incognito, i valori di t sono più variabili di quelli di Z e, quindi, tale variabile casuale, rispetto alla normale standard, ammette maggiore probabilità nelle code e meno probabilità al centro. AI crescere della dimensione del campione e dei gradi di libertà, S diventa una stima migliore di sigma e la distribuzione t sia avvicina gradualmente alla distribuzione normale standardizzata sino a quando le due diventano praticamente identiche. (per una dimensione campionaria pari o superiore a 120, S stima sigma con una precisione tale che le distribuzioni t e Z sono praticamente uguali) INTERVALLO DI CONFIDENZA PER LA PROPORZIONE In questo paragrafo si estendono i concetti dell'intervallo di confidenza per la media ai dati qualitativi, In questo caso si è interessati alla stima della proporzione di elementi in una popolazione che hanno una certa caratteristica di interesse. La proporzione incognita della popolazione viene indicata con tm. La stima puntuale per tt è la proporzione campionaria, p=X/n, dove n è la dimensione del campione e X è il numero di elementi nel campione che hanno la caratteristica di interesse(il numero di successi) Determinare la numerosità campionaria Nella presentazione degli intervalli di confidenza sviluppata sin qui, la numerosità del campione è stata riportata come se fosse uno dei dati del problema, dando poca enfasi all'ampiezza dell'intervallo di confidenza ottenuto. Le dimensioni campionarie vengono determinate in modo da assicurare che l'intervallo di confidenza sia abbastanza accurato per essere utile nel prendere decisioni, ovvero si decide una certa numerosità campionaria in modo da ottenere un intervallo di confidenza non troppo ampio e che abbia un livello di confidenza desiderato. (si vuole stimare l'ammontare medio delle fatture di vendita, si deve determinare in anticipo quanto errore campionario si è disposti a commettere nello stimare la media della popolazione. bisogna inoltre determinare in anticipo il livello di confidenza da utilizzare nello stimare il parametro della popolazione NUMEROSITÀ CAMPIONARIA PER LA MEDIA Per calcolare la numerosità campionaria, si devono prendere decisioni circa i 3 fattori che intervengono nel calcolo: 1) livello di confidenza desiderato che determina Z alfa/2 2) l'ammontare di errore campionario, “e” disposti ad accettare 3) lo SQM della popolazione sigma NUMEROSITÀ CAMPIONARIA PER LA PROPORZIONE Si supponga di voler determinare la dimensione campionaria necessaria per la stima della proporzione della popolazione Per determinare la dimensione campionaria, bisogna considerare 3 fattori 1) livello di confidenza desiderato che determina Z alfa/2 2) l'ammontare di errore campionario, “e” disposti ad accettare 3) la proporzione della popolazione T Rischi del processo decisionale legato alla verifica delle ipotesi 1) Errore di tipo 1: quando si rifiuta l'ipotesi nulla HO, ma essa è vera. La probabilità che si verifichi un errore di tipo 1 è “alfa” 2) Errore di tipo 2: quando non si rifiuta l'ipotesi nulla HO, ma essa è falsa. La probabilità che si verifichi un errore di tipo 1 è “beta” -Livello di significatività (alfa): la probabilità di commettere un errore di tipo 1 è detta livello di significatività del test. L'ampiezza della regione di rifiuto è proprio pari alla probabilità alfa di rifiutare l'ipotesi nulla quando questa è vera. Coefficiente di confidenza (1-alfa): il complemento della probabilità di avere un errore di tipo 1, (1-alfa) è detto coefficiente di confidenza. è la probabilità di non rifiutare l'ipotesi nulla HO quando questa è vera. in % -Rischio (beta): la probabilità di commettere un errore di tipo 2 si indica con beta. Potenza di un test: il complemento a 1 della probabilità di commettere un errore di tipo 2 (1-beta) è detto potenza del test. La potenza di un test, (1-beta) è la probabilità che si rifiuti l'ipotesi nulla quando questa è effettivamente falsa. Se è possibile assumere che la popolazione sia distribuita normalmente e quando lo SQM sigma è noto, cosa che raramente avviene, si usa il test Z per la media. Se, invece non si può assumere che la popolazione sia distribuita normalmente si può utilizzare ugualmente il test Z, nel caso in cui, però, la numerosità campionaria sia sufficientemente grande affinché sia valido il teorema del limite centrale. TEST Z PER LA MEDIA(SIGMA NOTO) Iter per la verifica delle ipotesi 1 2 3 4 5 6 Formulare l'ipotesi nulla e quella alternativa Scegliere il livello di significatività e la numerosità campionaria Selezionare un'appropriata statistica del test Determinare la regione di rifiuto Raccogliere i dati campionari e calcolare il valore della statistica test Prendere la decisione statistica e trarre le relative conclusioni Verifica delle ipotesi con P-value Il P-value è definito come la probabilità di ottenere un valore della statistica test uguale o più estremo del risultato campionario, nell'ipotesi che HO sia vera. Il P-value è anche chiamato livello di significatività -Se il P-value = alfa, l'ipotesi nulla non si rifiuta -Se il P-value s alfa, l'ipotesi si rifiuta Dunque se il P-value è basso, HO è falsa. Iter per la verifica delle ipotesi con P-value 1) Formulare l'ipotesi nulla HO è l'ipotesi alternativa H1 2) Scegliere il livello di significatività alfa e la numerosità n del campione. La scelta del liv. di significatività è connessa all'importanza relativa di commettere un errore di tipo 1 o di tipo 2 ne problema assegnato 3) Determinare la statistica test appropriata e la sua distribuzione campionaria. 4) Raccogliere i dati, calcolare il valore campionario della statistica test e calcolare il p-value 5) Prendere una decisione statistica e descriverne le conseguenze. Se il P-value = alfa, l'ipotesi nulla non si rifiuta. Se il P-value < alfa, l'ipotesi si rifiuta Relazione tra intervalli di confidenza e verifica della ipotesi Gli intervalli di confidenza e la verifica delle ipotesi, benché si basino sugli stessi fondamenti teorici, essi sono stati introdotto e vengono utilizzati per scopi differenti. Nel capitolo 8 si è visto che gli intervalli di confidenza sono impiegati per la stima dei parametri, mentre, in questo capitolo, si è illustrato come i test delle ipotesi servono per prendere decisioni circa gli circa gli specifici valori dei parametri della popolazione. | test per la verifica delle ipotesi sono, quindi, utilizzati quando si cerca di provare che un parametro è minore, maggiore o diverso da uno specifico valore. TEST T PERLA MEDIA (SIGMA INCOGNITO) In quasi tutte le situazioni reali in cui si utilizza la verifica delle ipotesi per la media della popolazione u lo SQM sigma della popolazione non sarà noto e, quindi, sarà necessario stimarlo attraverso lo SMQ S campionario. Se si può assumere che la popolazione sia distribuita normalmente, allora la distribuzione di probabilità della statistica test utilizzata, basata sulla media campionaria e sullo SQM campionario, seguirà una distribuzione t con n-1 gradi di libertà e useremo il test t per la media. Se invece non si può assumere che la popolazione sia distribuita normalmente, ma la numerosità campionaria è sufficientemente grande da rendere validi i risultati del teorema del limite centrale, sarà anche possibile usare il test t. Verificare l'assunzione di normalità Il test t si usa quando lo SQM sigma della popolazione è incognito, ma viene stimato mediante lo SQM S campionario. Per poter usare il test t è comunque necessario assumere che i dati siano un campione casuale estratto da una popolazione che si distribuisca normalmente. In pratica, se la numerosità del campione non è molto piccola o la distribuzione nella popolazione non è decisamente asimmetrica, la distribuzione t rappresenta una buona approssimazione della distribuzione campionaria della statistica test nel caso di sigma incognito. Nei test per la verifica delle ipotesi sulla differenza tra medie si assume che le popolazioni da cui sono stati estratti i campioni siano normalmente distribuite e abbiano uguale varianza. Per tutti i casi in cui l'ipotesi che le varianze siano uguali è vera, la statistica test tstat per campioni indipendenti con con varianza combinata è robusta, anche quando le distribuzioni di dati non rispettano esattamente la condizione della normalità. Test t per il confronto tra due medie: il caso di popolazioni eteroschedastiche In questo caso si utilizza il test t con varianze separate. Questa procedura prevede il calcolo separato di due varianze campionarie per il computo della statistica test tstat. INTERVALLO DI CONFIDENZA PER LA DIFFERENZA TRA DUE MEDIE Insieme alla verifica delle ipotesi è possibile costruire un intervallo di confidenza per la differenza tra due medie VERIFICA DELLE IPOTESI PER IL CONFRONTO TRA LE MEDIE DI 2 POPOLAZIONI DIPENDENTI Esistono 2 situazioni nelle quali i dati delle due popolazioni possono risultare dipendenti. -Il 1° caso di dipendenza si verifica quando i due campioni sono composti dalle medesime unità statistiche sulle quali vengono effettuate misure ripetute(L'obiettivo in questo caso è mostrare che differenza tra due misurazioni è data dalle condizioni di trattamento piuttosto che delle caratteristiche individuali, si immagini di effettuare il test per il confronto di due cibi: il test avviene facendo assaggiare i prodotti allo stesso individuo e rilevando le differenze che egli avverte tra i 2 cibi) -il 2° caso si verifica quando si considerano campioni di unità statistiche collegate univocamente tra loro in base alla condivisione di una medesima caratteristica. (Campioni appaiati. Qui le unità statistiche sono appaiate sulla base di qualche caratteristica di interesse. per esempio si consideri una ricerca di mercato in cui si effettui un test sull'efficacia di due spot pubblicitari. Le unità che costituiscono i due campioni a cui vengono sottoposti i due spot possono essere collegate tra loro sulla base di qualche caratteristica socio-demografica comune. In entrambe le situazioni l’obiettivo dei test per campioni dipendenti è quello di verificare se esiste una differenza tra i due campioni tenendo il più possibile sotto controllo la variabilità individuale (quella dovuta alle caratteristiche della singola unità statistica che o è fisicamente la stessa, nel caso delle misure ripetute, o è idealmente la stessa, nel caso dei campioni appaiati). In particolare, piuttosto che concentrarsi sulle singole osservazioni, come avveniva per i campioni indipendenti, si considerano le differenze tra i valori ottenuti nei due campioni. -Test t per due campioni indipendenti Assumendo che le differenze tra gli elementi di due popolazioni dipendenti siano estratte in maniera casuale e indipendente da una popolazione normalmente distribuita, è possibile usare il cosiddetto “test t per la differenza media tra due popolazioni dipendenti” o semplicemente test t per campioni dipendenti o appaiati, utilizzato per verificare se le medie delle due popolazioni sono significativamente diverse. Come nel caso del test t a un solo campione, la statistica test che si utilizzerà per questo test segue anch'essa una distribuzione t con n-1 gradi di libertà. Anche nel caso in cui la popolazione non sia distribuita normalmente, è stato dimostrato che, se il campione è sufficientemente numeroso e la distribuzione della popolazione non è estremamente asimmetrica, è ancora possibile utilizzare il test t per due campioni dipendenti. Si vuole dunque testare l'ipotesi nulla: HO:ud=0 (dove ud=p1-12) contro quella alternativa: H1:ud#0 INTERVALLO DI CONFIDENZA PER LA DIFFERENZA MEDIA V.I PER IL CONFRONTO TRA PROPORZIONI DI POPOLAZIONI INDIPENDENTI Spesso, piuttosto che confrontare i valori medi di due popolazioni, quando la variabile di interesse è qualitativa, è necessario confrontare le proporzioni delle modalità della variabile di interesse nelle due popolazioni. Esistono due metodi per il confronto tra proporzioni, nel caso di popolazioni indipendenti. Test Z per il confronto tra proporzioni di popolazioni indipendenti La valutazione delle differenza tra due proporzioni si effettua mediante il cosiddetto test Z.., che è basato sulla differenza tra le proporzioni campionarie (p1-p2). Essa si distribuisce come una normale. L'ipotesi nulla stabilisce che le due proporzioni nelle popolazioni sono uguali(tr1=1r2). Per tale statistica è necessario calcolare una stima congiunta di entrambe le proporzioni nelle due popolazioni, indicata con p_. Questa stima è basata sull'assunzione che HO sia vera ed è ottenuta combinando le proporzioni campionarie. In pratica, si rapporta la somma del numero di successi nei due campioni (X1+X2), alla numerosità campionaria totale, (n1+n2). Come mostrato in tabella, il test Z per il confronto può essere impiegato per verificare se due proposizioni sono differenti(test bidirezionale) o se una di esse è maggiore o minore dell'altra(test unidirezionale) Test bidirezionale Test unidirezionale Test bidirezionale Ho: m1=m2 H1: m1#m2 Ho: m1=m2 HH: mi<m2 Ho: mism2 H1: m1>m2 dove: t1=proporzione di successi nella popolazione 1 1T2=proporzione di successi nella popolazione 2 Lo scopo è testare l'ipotesi nulla HO:771=772 contro quella alternativa H1:1#72 Determinazione dell'equazione del modello di regressione lineare semplice METODO DEI MINIMI QUADRATI Si è visto che la retta è un modello statistico probabilistico plausibile per la relazione tra le due variabili X e Y. Se determinate assunzioni sono verificate, allora risulta possibile utilizzare l'intercetta bO, calcolata sui dati campionari, e il coefficiente angolare b1, calcolato sempre sul campione, come stime di rispettivi parametri della retta della popolazione B0 e R1. Si usano queste stime per ottenere il modello di regressione lineare stimato. La retta ottenuta da tale equazione, viene detta retta di regressione RETTA DI REGRESSIONE yi=bO+bXi Dove bO e b1 sono rispettivamente intercetta campionaria e coefficiente angolare campionario. Il metodo dei minimi quadrati consiste nel minimizzare la somma dei quadrati degli scarti tra i valori osservati di Y(Yi) e quelli stimati (yi) della retta di regressione. La somma dei quadrati degli scarti è data dalla formula: Questa equazione contiene 2 incognite, bO e b1, per cui la somma dei quadrati degli scarti dipende dal valore attribuito all'intercetta campionaria,b0, e al coefficiente angolare campionario, b1. Il metodo dei minimi quadrati consiste proprio nel determinare quei valori di bO e b1 che minimizzano la somma dei quadrati degli scarti dei valori osservati da quelli stimati dalla retta di regressione. -Esempio per interpretare bO e b1 Un professore di statistica vuole utilizzare il numero di ore di studio (X) impiegate dagli studenti per preparare l'esame di statistica per prevedere il voto finale dell'esame (Y) ottenuto. Si raccolgono i dati sugli studenti del corso di statistica e su questi viene calcolato il modello di regressione prevedendo i seguenti risultati: y=35.0+3Xi Qual'è l'interpetazione dell'intercetta bO e del coefficiente angolare b1? Il valore dell'intercetta b0=35.0 indica che, quando uno studente non studia, (0 ore di studio), si stima che il punteggio finale all'esame sia pari a 35/100. Il coefficiente angolare è b1=+3.0 e indica che per un'ora di studio il cambiamento medio stimato nella variabile Y è pari a +3.0. In altre parole, per ogni ora aggiuntiva di studio si stima che il punteggio finale ottenuto all'esame aumenti di 3 punti.(rapporto incrementale) Interpolazione vs estrapolazione Quando si utilizza un modello di regressione per scopi predittivi è necessario considerare solo un'intervallo rilevante di valori per la variabile indipendente al fine di effettuare previsioni. Questo intervallo include tutti i valori della variabile X, dal più piccolo al più grande, che sono impiegati per stimare i parametri del modello di regressione. Pertanto, quando si stima Y a partire da un dato valore della X è consentito interpolare all'interno dell'intervallo rilevante per la X ma non estrapolare al di fuori di esso. In pratica, quando si vogliono prevedere le vendite annuali di un negozio in base alle sue dimensioni, occorre tenere in considerazione che i valori osservati per la variabile X(dimensioni in 100m2) variano da un minimo di 1.1 ad un massimo di 5.8. Ogni previsione della variabile Y che viene effettuata a partire da valori della X esterni a tale intervallo assume che la relazione tra le due variabili individuata dal modello di regressione sia valida per qualunque valore della X. Tuttavia, il modello di regressione viene stimato da sui dati della X relamente osservati e può valere solo per quelli che variano tra il minimo e il massimo di tali valori. Per esempio, non sarà possibile estrapolare il valore Y delle vendite per valori della X superiori a 580 metri quadrati (in quanto il massimo valore osservato della X è 5.8). In definitiva, non è possibile estrapolare la relazione lineare oltre il range fornito dai valori osservati in quanto tale relazione, a un certo punto, potrebbe cambiare al variare della X. CALCOLO DEL COEFFICIENTE ANGOLARE B1(rapporto incrementale AylAx) Scomposizione della devianza totale Quando si utilizza il metodo dei minimi quadrati per stimare i coefficienti di regressione su un insieme di dati, al fine di valutare quanto il modello si adatti ai dati, è necessario calcolare tre importanti indici di variabilità. Il primo di questi indici è la devianza totale SST(somma complessiva degli scarti) che è una misura della variabilità complessiva delle Yi rispetto alla media generale y. La devianza totale si suddivide in devianza spiegata SSR(o di regressione) e devianza residua SSE (o devianza della regressione/residuo). La devianza di regressione SSR è quella parte di variabilità dovuta alla presenza di una relazione tra le variabili X e Y, mentre la devianza residua SSE è dovuta ad altri fattori che non sono relativi alla relazione tra X e Y ed è la parte erratica del modello. CALCOLO DELLE DEVIANZE La devianza di regressione SSR si ottiene dalla differenza tra yi e la media della Y. La devianza residua SSE rappresenta la parte di variabilità di Y che non è spiegata dal modello di regressione e si calcola sulla base delle differenze tra Yiey. -Scomposizione della devianza di regressione SST=SSR+SSE (dev. totale=dev. di regressione+ dev. residua) Verificare la validità delle assunzioni Attraverso l'analisi dei residui è possibile verificare le quattro assunzioni della regressione. 1) Linearità: per verificare che l'ipotesi di linearità sia soddisfatta occorre rappresentare graficamente i residui sull'asse verticale e i corrispondenti valori Xi della variabile indipendente sull'asse orizzontale mediante un diagramma di dispersione. Se il modello lineare è appropriato per i dati, si vedrà che non vi è nessun tipo di relazione (pattern) tra i residui e la variabile indipendente. Se il modello lineare non risulta adatto ai dati in analisi, si vedrà dal grafico un qualche tipo di pattern. 2) Indipendenza dei residui: questa assunzione può essere verificata attraverso un grafico in cui i residui vengono posti seguendo l'ordine in cui sono stati raccolti i dati. Se i valori di Y sono il risultato di qualche serie storica, potrebbe talvolta verificarsi che i valori correnti di Y siano correlati a qualche valore di Y precedente. Se esiste una correlazione tra osservazioni consecutive della Y, esisterà anche una correlazione tra i valori consecutivi dei residui. Se esiste un tale tipo di relazione si osserverà un andamento ciclico dei residui nel grafico costruito con i valori di ei contro le osservazioni disposte secondo l'ordine di rilevazione(in senso temporale). 3) Normalità dei residui: l'assunzione di normalità dei residui può essere verificata attraverso un istogramma dei residui.(normal probability plot asse X: valori z, asse y:residui 4) Omoschedasticità: l'assunzione di omoschedasticità può essere valutata attraverso il grafico che riporta i residui contro i valori Xi. Se la distribuzione è simmetrica rispetto ad una retta Y=k non vi è violazione di questa assunzione, ovvero quando vi è omogeneità nella varianza delle Yi per ogni livello della X. INFERENZA SU RO E B1 -TEST T PER R1(m Per verificare che la relazione lineare tra le variabili X e Y nella popolazione sia significativa è necessario verificare l'ipotesi che il parametro B1(m popolazione) sia=0. HO: R1=0--->non c'è relazione lineare m=0 H1: R1#0--->c'è relazione lineare m#0 Se si rifiuta l'ipotesi nulla allora è possibile concludere che vi è sufficiente evidenza empirica per affermare che esiste una relazione lineare tra X e Y. «INTERVALLO DI CONFIDENZA PER 81 Data la relazione tra intervalli di confidenza e verifica della ipotesi, l'esistenza di una significativa relazione lineare tra le variabili X e Y può essere anche verificata attraverso la costruzione di un intervallo di confidenza per B1. -TEST T PER IL COEFFICIENTE DI CORRELAZIONE L'intensità della relazione tra due variabili quantitative è misurata attraverso il coefficiente di correlazione, r. Il valore del coefficiente di correlazione varia da -1, che indica una perfetta correlazione negativa a +1, che, invece, indica una perfetta correlazione positiva. Si può utilizzare il coefficiente di correlazione anche per valutare l'esistenza di una relazione lineare statisticamente significativa tra le variabili XeY. Per fare questo si sottopone a verifica l'ipotesi che il coefficiente di correlazione nella popolazione, p, sia uguale a 0. HO: p=0---> nessuna correlazione H1: p#0--->correlazione +++FORMULARIO+++ https://drive.google.com/drive/folders/1juNeM8P_hRrwVKHUYZNrIldR10AW84 Al?usp=sharing