Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Analisi di Regressione e Logit: Esercitazioni e Applicazioni, Appunti di Statistica Medica

appunti presi a lezione per il supporto di statistica

Tipologia: Appunti

2019/2020

Caricato il 17/02/2023

chiara-mazzotti-2
chiara-mazzotti-2 🇮🇹

8 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
SUPPORTO STATA
Dati disaggregati: permettono di analizzare meglio i fenomeni, in quanto più si entra nel dettaglio
più otteniamo dati significativi e attendibili.
Prima cosa guardo istat e vado su consulta dati.
Per scaricarli non vado più su consulta dati ma su esporta dati. Poi vado in esporta grafico in PDF.
Ma oggi mi interessa esportare la tabella. Esporta tabella formato excel.
Ora dobbiamo portare i dati su stata.
Il p-value mi indica quali variabili hanno un effetto significativo. Dopo il 10% si dice che la variabile
non ha un effetto significativo, cioè non c’è nessuna relazione tra quella variabile e la variabile
dipendente.
La costante per ora non ci interessa, quindi guardo i primi 3. Possiamo dire che le variabili moto e
bus hanno un coefficiente significativo al primo livello di 0,1. A parte la prima che non possiamo
rifiutare l’ipotesi nulla, quindi non ha un effetto statisticamente significativo e quindi non
possiamo rifiutare l’ipotesi nulla.
Dopo il p-value si osserva il coefficiente. L’auto probabilmente non ha una relazione con gli
incidenti. Mentre per quanto riguarda le moto c’è una relazione positiva, quindi le moto sono
collegate a un maggior numero di incidenti per capita. Mentre ai bus che anche questo hanno una
relazione negativa ci dice che c’è un minor numero di incidenti per capital. Auto invece non è
statisticamente significativa perché il p-value è più alto.
Dobbiamo interpretare la magnitudine dei coefficienti, cioè quanto è grande la relazione. Quindi
dobbiamo osservare quanto è grande il coeff. Nella tabella. Per le moto abbiamo 0,008. Ciò vuol
dire che per ogni moto in più ci sarà un aumento di incidenti dello 0,08. Per quanto riguarda i bus
abbiamo 0,01 è maggiore, quindi per un aumento di ogni bus abbiamo una diminuzione per capital
dello 0,019 a livello di incidenti.
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Analisi di Regressione e Logit: Esercitazioni e Applicazioni e più Appunti in PDF di Statistica Medica solo su Docsity!

SUPPORTO STATA

Dati disaggregati: permettono di analizzare meglio i fenomeni, in quanto più si entra nel dettaglio più otteniamo dati significativi e attendibili. Prima cosa guardo istat e vado su consulta dati. Per scaricarli non vado più su consulta dati ma su esporta dati. Poi vado in esporta grafico in PDF. Ma oggi mi interessa esportare la tabella. Esporta tabella formato excel. Ora dobbiamo portare i dati su stata. Il p-value mi indica quali variabili hanno un effetto significativo. Dopo il 10% si dice che la variabile non ha un effetto significativo, cioè non c’è nessuna relazione tra quella variabile e la variabile dipendente. La costante per ora non ci interessa, quindi guardo i primi 3. Possiamo dire che le variabili moto e bus hanno un coefficiente significativo al primo livello di 0,1. A parte la prima che non possiamo rifiutare l’ipotesi nulla, quindi non ha un effetto statisticamente significativo e quindi non possiamo rifiutare l’ipotesi nulla. Dopo il p-value si osserva il coefficiente. L’auto probabilmente non ha una relazione con gli incidenti. Mentre per quanto riguarda le moto c’è una relazione positiva, quindi le moto sono collegate a un maggior numero di incidenti per capita. Mentre ai bus che anche questo hanno una relazione negativa ci dice che c’è un minor numero di incidenti per capital. Auto invece non è statisticamente significativa perché il p-value è più alto. Dobbiamo interpretare la magnitudine dei coefficienti, cioè quanto è grande la relazione. Quindi dobbiamo osservare quanto è grande il coeff. Nella tabella. Per le moto abbiamo 0,008. Ciò vuol dire che per ogni moto in più ci sarà un aumento di incidenti dello 0,08. Per quanto riguarda i bus abbiamo 0,01 è maggiore, quindi per un aumento di ogni bus abbiamo una diminuzione per capital dello 0,019 a livello di incidenti.

Queste non sono relazioni causali ma correlazioni. Quindi è sbagliato dire che una moto aggiuntiva causa un aumento degli incidenti, in quanto ci sono dati che non abbiamo ancora considerato. Per definire le relazioni causali è ancora presto ora guardiamo solo le correlazioni. Possono comunque suggerire interazioni interessanti. Mai usare il verbo causale, ma dire c’è una relazione significativa. Per stabilirlo servono analisi più complesse. Una relazione interessante potrebbe essere, dove ci sono più bus potrebbero esserci meno incidenti per capital. L’intervallo di confidenza è l’intervallo all’interno del quale al 95% delle probabilità si trova il vero valore del coefficiente. Guardando quello delle auto, possiamo dire che il valore 0 è compreso all’interno quindi non rifiutiamo l’ipotesi nulla che il coeff. sia uguale a 0. Mentre per gli altri due rifiutiamo l’ipotesi nulla in quanto nessuno dei due includere 0. Osservando l’r quadro. Esso è un numero compreso tra 0 e 1 o percentuale tra 0 e 100% e dice quanta percentuale della variabile dipendente è spiegata dalle variabili indipendenti. La prima, cioè la variabile dipendete, è incidenti per capital e la stiamo spiegando con le indipendenti che sono auto, moto e bus. Ovviamente gli incidenti dipendo anche da strade, pioggia ecc. quindi questo ci dice quanta percentuale di incidenti sono spiegati dal tipo di veicoli. La percentuale in questo caso è 0,05. Quindi c’è un 95% che dipende da altri fattori come la vigilanza urbana. Quindi quando la mia analisi sia onnicomprensiva. F statistic è il test di significatività comprensiva del modello, in questo caso è 117,29. Questo testa l’ipotesi nulla che il modello complessivamente sia significativo. Per testare l’ipotesi h0 si guarda il suo p-value (F) in questo caso 0,00. Quindi possiamo dire che il modello, cioè le variabili che stiamo inserendo hanno senso? In questo caso rifiutando l’ipotesi nulla che dice che non abbiano un senso la stiamo rifiutando quindi le variabili in questo caso probabilmente hanno senso. Avendo un valore 0,000 rifiutiamo l’ipotesi nulla. Essendo il p-value di F molto basso possiamo rifiutare l’ipotesi nulla che esso non sia significativo. Pulizia dei dati: come rendere presentabile un dato, ad esempio convertendoli in numeri, opure generare le variabili per capita. Se facciamo la stessa regressione con le variabili assolute ovviamente ottengo dati sballati. LEZIONE 2 Hanno creato curriculum finti diversi. Il loro obiettivo era capire quanto valga o meno per essere assunti una laurea rispetto ad un’altra. Oltre a questa si possono fare molte altre domande. Apriamo do file Any call vale 0 o 1. Questa ci dice che 1 quando quel curriculum ha ricevuto una risposta. Ci sono annunci in 5 città diverse. Con mean possiamo vedere la media della variabile any call che ha ricevuto risposta. Quindi a LA any call ha più probabilità di ricevere risposta rispetto alle altre. Che tipo di lauree ci sono: fp = laura privato pub = pubblico ba = business amministration ns = ente pubblico

ESERCITAZIONE 21 OTTOBRE

Veriabile fittizia: dummy. Alla domanda 1 si risponde con una regressione. La variabile dipendente è sales. Mentre le esplicative sono dimensione e luogo del negozio. Usiamo un modello di regressione lineare multipla. Scriviamo regg. Avendo pvalue pari a 0 tutte le variabili sono significative. I pvalue li abbiamo già ma sotto viene scritta. Si fa attraverso scalar Il primo lo chiamiamo df e indica i gradi di libertà, cioè il numero di osservazioni meno 1. E(N) sono il numero delle osservazioni. Possiamo dire che sono tutte variabili esplicative. Abbiamo però city che è una variabile dummy quindi se si trova in città a parità delle altre due variabili le sue vendite annuali sono più alte di 261 mila euro annuali. Quindi in media vendono di più a parità di formato. (lo diciamo perché è positiva). Per la dimesione anche questa è dummy ed è continua, anche questo è positivo se guardiamo il coefficiente. E aumenta di 1 metro quadro a parità delle altre due vairabili e corrisponde ad un aumento delle vendite annuali di 1,36 migliaia di euro. Domanda numero 2. Variabile esplicative: dimensioni, formato, città e highs cioè se i clienti dichiarano di essere soddisfatti Notiamo che tutti sono soddisfatti. La costante dice: le vendite annuali nel caso tutte le variabili esplicative siano 0. Ma ovviamente non ha senso perché non è possibile che le dimensioni siano 0. Quindi è il valore della variabile Y quando tutte le variabili sono 0. Abbiamo solo dati positivi ma vediamo ad esempio che la dimensione diminuisce da 1.36 a 1.08. il coefficiente cambia perché stiamo considerando anche il livello di soddisfazione dei clienti. Quindi guardiamo la dimensione tenendo costante tutte le altre compresa la soddisfazione dei clienti. Ora vediamo quando la soddisfazione influenzi le vendite annuali. Il coefficiente è 93.35 e dice che l’effetto di soddisfazione dei clienti a parità delle altre variabili in media è di 93 mila euro annuali. Quindi è un fattore che aumenta le vendite. I coefficienti sono minori rispetto a prima e questo perché abbiamo inserito una variabile che cattura un po' dell’effetto di queste variabili. Inserendo variabili aggiuntive. Domanda 3 Ora inseriamo nelle variabili dove si trovano i negozi per catturare l’effetto di dove si trovano. Non insieriamo nord, sud e centro o ci troveremmo nella trappola del dummy. Non possiamo inserirle tutti e 3 o avremmo un problma di multicollinearità. In questo caso l’effetto della variabile sud lo troviamo quando le altre due vairabili nord e centro sono uguali a 0. Solitamente quando sono dummy anche se abbiamo un numero maggiore di variabili dummy le inseriamo tutte meno 1. Fatta la regressione vediamo che l’effetto è significativo. In media l’effetto di essere al nord tenendo costanti le altre vediamo avere un pvalue 0,000. Quindi essere al nord è significativo e provoca un aumento di 190 mila vendite annuali.

Anche essere al centro ha un effetto significativo per le vendite 0, L’effetto di stare al sud si deduce dall’interpretazione della variabili dummy. Si trova facendo una diminuzione di stare al nord o al sud quindi è l’opposto. Quindi 190 è ala differenza dei negozi nel nord rispetto ai negozi del sud con differenza di 190 mila euro. Stessa cosa quasi 70 mila euro rispetto che stare al sud. Quindi è un paragone. R quadro indica la bontà di adattamento del modello. Cioè le variabili incluse nella regressione quanto riescono a spiegare la variabile dipendente. Più è grande l’r quadro più riusciamo a spiegare il modello. Ovviamente non inseriremo tutte le variabili per arrivare al numero massimo o sarebbe troppo grande. Se infatti aggiungiamo variabili r quadro aumenta e possiamo confrontarlo con i dati di prima per vedere il suo effetto. Analizzando gli altri coefficienti vediamo che il formato è quello che ha una variazione minor. Format ha sempre lo stesso perché l’effetto della conformità delle politiche del negozio rispetto alle politiche aziendali è ROBUSTO rispetto alle politiche aziendali di collocazione del negozio a prescindere che si trovi al sud o al nord. Domanda 4 Ora guadiamo l’effetto di soddisfazione dei clienti se sia. Siamo in una caso non lineare. Quindi generiamo una variabile diversa composta da highs x city. Y è sempre sales Ma alfa 5 è l’interazione tra high e city S = soddisfatti Dobbiamo interpretare il parametro 5 che è la differenza tra il valore medio delle vendite date le variabili esplicative meno il valore delle vendite di un negozio non ubicato in città. Su stata si usa in questo caso gen E poi tutte le variabili. La regressione ci dice c’è una variabile che non ha un effetto significativo e si fa osservando la colonna dei pvalue. 0,773. Questo per capirlo dobbiamo guardare se il pvalue è minore di 0,1. Se è maggiore di 0,1 la variabile non è significativa cioè non ha un effetto statisticamente significato sulla variabile dipendente. 0,773 è maggiore quindi la variabile non è statististicamente significativa. Non diversa statisticamente da 0. Stiamo testando che l’effetto della variabile sulla variabile dipendente sia diverso da 0. Per decidere se rifiutare o meno l’ipotesi si guadara pvalue. Se è basso abbiamo una bassa probabilità di commettere un’errore rifiutando l’ipotesi. Cioè errore di primo tipo. Rifiutare l’ipotesi che l’effetto sia significativo quando l’effetto è significativo. L’effetto è statisticamente diverso da 0 se è piccola quindi la variabile ha un effetto cioè un collegamento con la variabile dipendente. In questo caso avendo un pvalue molto alto non rifiutiamo l’ipotesi che l’effetto della variabile sia diverso da 0 (cioè uguale a 0). L’effetto in media potrebbe essere 0, dunque che la variabile non ha alcun effetto sulle vendite annuali. Dovrebbe dare l’effetto della soddisfazione dei clienti in un negozio in città. Cioè quando city è uguale a 1. Quindi l’effetto della soddisfazione dei clienti in città o in periferia non cambia sulle vendite.

Devo calcolare il prezzo medio dato da xbeta. Si trova quindi l’esponenziale. Il prob hat a è la probabilità che un consumatore dati i prezzi a livello medio scelga il nostro brand. La probabilità è 0,95 quindi è molto probabile che un consumatore scelga il nostro brand. Ma dobbiamo considerare l’effetto marginale, cioè la variazione della variabile dipendente data la variazione di un unità in una variabile quindi se aumenta di 1 come varia la probabilità che il consumatore scelga il nostro brand? Scalar = probabilità appena stimata meno la probabilità che ho appena stimato per il coefficiente della variabile che ho appena stimato. Quindi -5,7 preso dalla tabella classica. Per calcolare l’effetto marginale di un aumento marginale nella formula logaritmica utilizzo la formula dello step 3. Si ottiene 0,25 quindi au aumento diminuisce la probabilità che il consumatore scelga il nostro brand. Ma ci sono due modi equivalenti per calcolare l’effetto marginale. L’effetto marginale nel logit è diverso dalla regressione lineare ed è la variazione della variabile dipendente dovuta alla variazione di un’unità nella variabile esplicativa. Valutare l’effetto marginale nel caso non ci siano promozioni sono quelli valutati fino ad ora. Quindi se aumento di un unità il livello logaritmico del prezzo del ketchup la probabilità che il consumatore scelga il ketchup scende di 0,25. Per quanto riguarda il caso b secondo cui ci sono due promozioni sul brand 1 e i prezzi sono impostati sul valore medio dobbiamo fare gli stessi step visti in precedenza. Abbiamo in questo caso due promozioni. Ossrvandone solo 1 perché Righetto siè sbagliato la consideriamo solo in F 1. Prendiamo sempre la costante + livello medio dei prezzi per il suo coefficiente + livello medio dei prezzi del brand2 x il suo coefficiente + 1 che è la dummy per il suo coefficiente. Perché sto considerando quella promozione. Quindi la probabilità che il consumatore scelga brand1 quando i prezzi brand1 e brand2 sono a livello medio e sul nostro brand c’è una promozione. La probabilità è data dall’esponenziale e ottengo 0,97 quindi se faccio una promozione è più probabile che il consumatore scelga il nostro brand. Ora calcolo l’effetto marginale come già detto l’aumento del prezzo di 1. Ottengo -0,16 come cambia la probabilità che il consumatore scelga il brand1 e la probabilità scende di 0,16. Il terzo caso non prevede nessuna promozione nel nostro brand o in quello degli avversari ma c’è una doppia promozione sul brand2. In questo caso otteniamo come effetto marginale -1.04. quindi la probabilità che il consumatore acquisti il nostro ketchup diminuisce ancora. Valutare l’effetto dei prezzi relativi, cioè guardando anche quello della marca avversaria. Facciamo riferimento alla quasi elasticità. Dobbiamo stimare gli effetti su due casi. Per il caso A significa che tutte le variabili a parte i prezzi sono uguali a 0. Per prima cosa creamo la variabile realprice che è uguale a pricebrand1 diviso pricebrand2 e poi stimiamo il logit che ha come variabile dipendenre brand1. Poi ha il realprice e le variabili nel caso non ci siano le promozioni. Ottengo così i risultati con la variabile realeprice. Sono tutte significative a parte quelle maggiori di 0,1. L’effetto di realprice è negativo. Se faccio una promozione il consumatore è più portato a

scegliere il nostro brand. Se invece fa promozioni l’avversario il consumatore è meno portato a scegliere il nostro brand. La procedura è uguale a prima cioè dobbiamo calcolare l’indice previsto osservando la costante + il coeff. Della variabile dummy real price. Consideriamo solo quella perché le altre sono uguali a 0 in quanto non ci sono promozioni. Moltiplicato per il caso in cui il prezzo sia 0,5. Poi stimo la probabilità. In questo caso 0,99 quindi se il nostro prezzo è la metà di quello dell’avversario nel 90% dei casi se non ci sono promozioni il consumatore sceglie il nostro prezzo. Ora lo facciamo per capire l’effetto marginale e troviamo -0,01. In questo caso vuol dire che se aumento di 1 il livello dei prezzi relativi date circostanze in cui non ci sono promozioni sui brand la probabilità che il consumatore scelga il ketchup diminuisce di 0,019. Questa è la quasi-elasticità che è simile all’effetto marginale ma è l’effetto che abbiamo sulla varaibile dipendente quando aumenta la variabile esplicativa dell’1%. Mentre per l’effetto marginale la variabile esplicativa aumenta di 1 unità. Otteniamo -0,009. Quindi la probabilità di acquisto diminuisce ancora. Per il caso B ULTIMA LEZIONE DI RIGHETTO LOGIT E PROBIT Dati sui candidati alle elezioni politiche nel 2013. Campione non rappresentativo in quanto prendiamo solo una parte. Abbiamo la dummy 1 o 0 se il candidato è stato eletto. Abbiamo informazioni sul partito, sugli anni di istuzione, il sesso (1 se donna). Dobbiamo stimare degli effetti marginali e stimare la probabilità che essi vengano eletti date le loro caratteristiche.