Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Regressione lineare semplice, Schemi e mappe concettuali di Statistica

Come utilizzare la regressione lineare semplice per analizzare una relazione bivariata tra due variabili quantitative o qualitative. Viene descritto come costruire un modello ipotetico, come calcolare l'intensità dell'effetto esercitato da una variabile su un'altra e come interpretare gli errori di previsione. Anche una formula per calcolare il coefficiente di determinazione r^2, che misura la parte di variabilità di una variabile dipendente spiegata da una variabile indipendente nel modello di regressione.

Tipologia: Schemi e mappe concettuali

2021/2022

Caricato il 07/04/2024

neneeeeee
neneeeeee 🇮🇹

8 documenti

1 / 9

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
RIASSUNTO STATISTICA
L’ANALISI BIVARIATA
L’obiettivo è di determinare la
- forma
- strettezza
- intensità
della relazione tra le due variabili.
Regressione lineare semplice
Tecnica di analisi utilizzata per una relazione bivariata in cui c’è una
- variabile quantitativa = variabile dipendente Y, asse delle ordinate
- variabile quantitativa\qualitativa = variabile indipendente, asse delle ascisse
per capire la FORMA della relazione. Per farlo:
PREVEDE SPIEGA
come cambia Y al variare di X
costruzione di un modello ipotetico
effetti che i cambiamenti nella variabile
indipendente hanno sulla variabile dipendente
I passaggi da seguire sono
1. Rappresentare graficamente la relazione con lo SCATTERPLOT così da capire se ci sono
relazioni tra le variabili X e Y e, di conseguenza, covariano in maniera sistematica
2. Faccio il COEFFICIENTE DELLA CORRELAZIONE LINEARE DI PEARSON per capire se
c’è un andamento lineare che può essere riassunto in una linea retta.
La correlazione è perfetta quando ha una pendenza (+1\-1) e il segno della relazione è
positivo quando all’aumentare di X aumenta anche Y, mentre è negativo quando
all’aumento di X diminuisce Y.
Per conoscere l’INTENSITà, ossia di quanto varia la variabile dipendente Y al variare della
variabile indipendente X, usiamo la formula
[]
in cui
- alfa: intercetta, segna la distanza dall’asse X e, perciò, ha lo stesso valore assunto da Y
quando X=0.
pf3
pf4
pf5
pf8
pf9

Anteprima parziale del testo

Scarica Regressione lineare semplice e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

RIASSUNTO STATISTICA

L’ANALISI BIVARIATA

L’obiettivo è di determinare la

  • forma
  • strettezza
  • intensità della relazione tra le due variabili. Regressione lineare semplice Tecnica di analisi utilizzata per una relazione bivariata in cui c’è una
  • variabile quantitativa = variabile dipendente Y, asse delle ordinate
  • variabile quantitativa\qualitativa = variabile indipendente, asse delle ascisse per capire la FORMA della relazione. Per farlo: PREVEDE SPIEGA come cambia Y al variare di X costruzione di un modello ipotetico effetti che i cambiamenti nella variabile indipendente hanno sulla variabile dipendente I passaggi da seguire sono
  1. Rappresentare graficamente la relazione con lo SCATTERPLOT così da capire se ci sono relazioni tra le variabili X e Y e, di conseguenza, covariano in maniera sistematica
  2. Faccio il COEFFICIENTE DELLA CORRELAZIONE LINEARE DI PEARSON per capire se c’è un andamento lineare che può essere riassunto in una linea retta. La correlazione è perfetta quando ha una pendenza (+1-1) e il segno della relazione è positivo quando all’aumentare di X aumenta anche Y, mentre è negativo quando all’aumento di X diminuisce Y. Per conoscere l’INTENSITà, ossia di quanto varia la variabile dipendente Y al variare della variabile indipendente X, usiamo la formula [] in cui
  • alfa: intercetta, segna la distanza dall’asse X e, perciò, ha lo stesso valore assunto da Y quando X=0.

Quindi, quando i punti sull’asse Y hanno X=0, la retta, in corrispondenza del suo punto di intersezione con l’asse y, ha un'altezza pari ad alfa.

  • beta: gradiente, pendenza\inclinazione della retta, esprime di quando varia il valore di Y per ogni variazione unitaria di X. Esprime quindi l’intensità dell’effetto esercitato da X su Y che è costante (quindi beta non cambia mai), caratteristica delle relazioni bivariate lineari. Quindi per due valori di X che differiscono di 1, i valori corrispondenti Y, variano di una quantità Beta. La mia equazione la devo sostituire con numeri e, se tutti i punti che io calcolo ricadono sulla retta, ho una perfetta associazione. Per cui se la pendenza è
  • negativa: il valore previsto di Y decresce all’aumentare di X
  • nulla: retta di regressione è orizzontale (parallela a X) vuol dire che X e Y non hanno relazione Equazione lineare (ossia la linea retta) É la base della regressione lineare semplice e rappresenta una SITUAZIONE IDEALE in cui la relazione/associazione tra X e Y é perfetta, quindi tutte le osservazioni si collocano sulla linea retta. Quindi conoscendo X, in questo caso posso predire esattamente il valore di Y. In realtà non è possibile fare ció perché la relazione tra X e Y è più complessa. Regressione lineare semplice: serve per stabilire in che misura una linea retta approssima la covariazione, quindi
  • se la linea retta riesce a sintetizzare: esiste un’associazione lineare
  • se la retta non sintetizza: assenza di relazione lineare Se abbiamo una relazione complessa è quindi impossibile rappresentarla esattamente con l’equazione lineare ma è utile individuare una linea retta\equazione lineare che semplifichi in modo imperfetto e semplificato, quindi approssimi la relazione se
  • la nuvola di punti possiede nel suo insieme una forma lineare
  • si vorrebbe avere un rappresentazione parsimonio della relazione bivariata La retta di regressione (detta anche predittiva) serve per stimare i valori dei parametri alfa e beta che meglio di ogni altra riesce ad approssimare la covariazione tra X e Y, quindi riesce a predire la variabile risposta. Quando scrivo Y(con accento circonflesso) sto indicando i valori predetti sulla base dei parametri alfa e beta stimati.

Lo stimatore è calcolato con la formula (slide pag 29) coefficiente a: valore atteso di Y quando X è uguale a 0 coefficiente b: cambiamento atteso in Y associato a un cambio di una unità in X. Nella formula numeratore somma dei prodotti delle deviazioni di X e Y dalle rispettive medie. Se questa somma è divisa per “n-1” si ottiene la covarianza denominatore scarto dalla media al quadrato. Se dividiamo per “n-1” otteniamo la varianza campionaria Però, dal momento che n-1 compare sia a numeratore che denominatore, si elimina perché non serve a un cazzo. Quindi, lo stimatore del coefficiente di regressione = rapporto tra la covarianza tra Y e X e la varianza di X. In base alla vicinanza o lontananza della linea di previsione dai punti nel diagramma, avremo grandezze dei residui differenti. Le grandezze dei residui si calcolano facendo la SSE (somme degli errori di previsione al quadrato). La quantità descrive la variazione dei dati attorno alla linea di previsione. Quando calcolo la retta di previsione prendo le stime con i più piccoli valori di SSE. Quindi, la retta di previsione è chiamata retta dei minimi quadrati e

  1. garantisce gli errori più piccoli complessivamente
  2. ha qualche residuo positivo e negativo ma la loro somma = 0, quindi le previsioni basse sono bilanciate da quelle alte
  3. passa attraverso il punto (x,y), quindi la retta passa attraverso il centro dei dati. RESIDUO POSITIVO valore osservato Y è maggiore del valore previsto RESIDUO NEGATIVO valore osservato Y è più piccolo del valore previsto ! Più piccolo è il valore assoluto del residuo, migliore è la previsione. ! La retta di regressione stimata che attraversa la nuvola di punti è quella che minimizza la somma degli errori di predizione al quadrato. Dopo che ho ottenuto con tutte le varie formule i residui di ogni singolo punto della mia retta di previsione
  • calcolo la devianza totale TTS (Somma Quadrati Totale) che indica la variabilità totale, ossia gli scarti di ogni valore osservato y dalla media. (formula) C’è anche la Somma dei quadrati degli errori (SQerrore - SSE) che è la parte di variabilità residua non spiegata dalla relazione lineare con X che indica gli scarti tra il valore predetto e il valore osservato. Il coefficiente B:
  1. Misura quanto aumenta Y al variare unitario di x
  2. La sua unità di misura è quella di Y
  3. Il segno + indica che tra le due variabili c’è concordanza (all’aumentare di X aumenta anche Y) Il segno - indica discordanza (all’aumentare di X diminuisce Y)
  4. La sua significatività è stata testata grazie ad un t-test con ipotesi nulla H 0 =0: la sua pendenza, essendo uguale a zero, coincide con la retta che esprime il valore medio di Y. Gli errori di previsione: i residui I valori della variabile dipendente sono interpretati utilizzando il concetto di media che mira a offrire una rappresentazione parsimoniosa e comprensibile (ma non esattissima) dei valori e mostrare una tendenza. QUINDI, RICAPITOLANDO Lo scopo della regressione lineare semplice è di
  5. stimare l’intensità dell’effetto di X su Y
  6. stabilire la strettezza della relazione tra X e Y, quindi la misura in cui la retta di regressione approssima la covariazione osservata tra variabile dipendente e indipendente. In questo modo si calcola il potere predittivo della retta di regressione stimata, quindi di conoscere i valori di X per poi indovinare Y. Il potere predittivo ha due misure
  7. ERRORE STANDARD DELLA REGRESSIONE : descrive la deviazione standard tra valori osservati e predetti, considerabile come misura dell’errore di predizione medio. (formula) Calcolo quindi la radice della somma degli errori al quadrato, divisa per il numero di casi meno 2.

In sostanza, l’errore standard della regressione si può considerare una misura dell’errore di predizione medio attribuibile alla retta di regressione. Perciò il valore R^2 dipende da tre elementi

  1. Beta: intensità dell’effetto esercitato da X su Y
  2. o (e): errore standard della retta di regressione
  3. la varianza di X Quindi due o + valori di R^2 uguali possono derivare da combinazioni diverse di questi 3 elementi. BONTà DI ADATTAMENTO INTENSITà DELL’EFFETTO

DISTRIBUZIONI DI PROBABILITà

Introduzione alla probabilità Dal momento che i fenomeni che analizziamo possono avere una natura incerta, è necessario il concetto di probabilità che consente di quantificare l’incertezza. Esperimento\prova casuale o aleatoria:

  • Certo: al 100% si verifica
  • Possibile
  • Impossibile EVENTI INCOMPATIBILI Quando il verificarsi dell’uno esclude il verificarsi dell’altro. Può accadere che nessuno dei due si verifichi.

EVENTI COMPATIBILI

E’ possibile che si verifichino entrambi contemporaneamente. EVENTI COMPLEMENTARI I due eventi sono incompatibili però uno dei due si verifica certamente.

EVENTI COMPOSTI

Formato da due eventi singoli, ossia il risultato di due eventi semplici; quindi quante probabilità ci sono che si verifichino i due eventi singoli contemporaneamente.

i due eventi semplici possono essere fra loro

  • indipendenti: se il risultato di uno non dipende assolutamente dal risultato dell’altro
    • dipendenti: il risultato di uno influenza necessariamente il risultato dell’altro (torniamo al concetto di probabilità) Probabilità (P): numero (compreso tra 0 e 1) che esprime il grado di aspettativa circa il suo verificarsi, in cui 0 = probabilità impossibile 1 = probabilità certa Il concetto di probabilità può essere interpretato da due orientamenti dottrinari differenti:
  • concezione oggettiva: in cui rientrano la a. definizione classica: se non vi sono differenze fondate per differenziare un evento possibile da un altro, essi devono trattarsi come ugualmente probabili. Si usa quando c’è un n° finito di alternative che possono essere considerate ugualmente probabili. L’equazione usata vede come
  • numeratore: n° casi favorevoli ossia i casi in cui un certo evento si può verificare