Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Parte pratica Data Analysis secondo ciclo IULM (prima parte), Appunti di Statistica

Appunti dettagliati della parte pratica svolta alle lezioni di Data Analysis con il professore Della Beffa. Contiene la prima parte delle lezioni frontali del secondo ciclo (Excel e JMP) con esercizi, interpretazione dati e consigli. Molto utile per sostenere l'esame e soprattutto per lo svolgimento del progetto.

Tipologia: Appunti

2020/2021

Caricato il 31/03/2022

Chivon
Chivon 🇮🇹

4.5

(40)

15 documenti

1 / 22

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
16 NOVEMBRE
ESEMPIO JUMP FILE: BANKLOAN
Una delle operazioni standard che dobbiamo fare sempre è cercare di vedere cosa c’è dentro.
Facciamo quindi le distribuzioni delle variabili con cui abbiamo a che fare.
Bisogna fare la matrice di correlazione
-Analizza
-Metodi di analisi multivariata
-Multivariato
Vado sul triangolino “multivariato” e clicco su “componenti principali”
Vado poi sul triangolino delle componenti principali e clicco “rotazione fattori”. A questo punto
dobbiamo selezionare le voci “componenti principali”
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Anteprima parziale del testo

Scarica Parte pratica Data Analysis secondo ciclo IULM (prima parte) e più Appunti in PDF di Statistica solo su Docsity!

16 NOVEMBRE

ESEMPIO JUMP FILE: BANKLOAN

Una delle operazioni standard che dobbiamo fare sempre è cercare di vedere cosa c’è dentro. Facciamo quindi le distribuzioni delle variabili con cui abbiamo a che fare. Bisogna fare la matrice di correlazione

  • Analizza
  • Metodi di analisi multivariata
  • Multivariato Vado sul triangolino “multivariato” e clicco su “componenti principali” Vado poi sul triangolino delle componenti principali e clicco “rotazione fattori”. A questo punto dobbiamo selezionare le voci “componenti principali”

Questi saranno i nostri output: Mettendoli a confronto: notiamo che cambia la varianza spiegata per ciascun fattore  Il totale è sempre 69,874: quindi la varianza totale non cambia  MA cambia il peso di ciascun fattore. Quindi i fattori ruotati non solo hanno cambiato senso, ma hanno cambiato anche il peso relativo.

La varianza dei singoli fattori cambia, il totale rimane uguale. Fino a questo punto abbiamo dato tanta enfasi all’aspetto interpretativo. Abbiamo però messo da parte l’obiettivo della riduzione della dimensionalità, che abbiamo visto solo teoricamente. Noi ora abbiamo visto la soluzione a 3 fattori ruotati. Ora dobbiamo cliccare sul triangolino di “componenti principali/analisi fattoriale” rosso e fare “salva componenti ruotate”. Ora andiamo a dare un nome alle nostre 3 colonne fattore 1,2,3.

Ora andiamo a guardare con attenzione i vari dati facendo le distribuzioni  hanno media 0 e varianza 1  le correlazioni tra i fattori sono 0 FILE MOZZARELLA JUMP Vogliamo fare un’analisi fattoriale per aggregare questi attributi di marca “analizza, metodi di analisi multivariata e multivariata” e poi sul triangolo multivariato, componenti principali Facciamo la rotazione e mettiamo 3 fattori

Facciamo anche qui una rotazione; Notiamo che il primo fattore è uguale e anche il fattore 3 è rimasto sostanzialmente lo stesso. Quindi 1 e 3 hanno le stesse correlazioni di prima. Ciò che è cambiato è il fattore 2, che si è spezzato in altri 2 fattori “fa molta pubblicità” e “con una distribuzione nazionale”. Il fattore 4 è solo “fa offerte promozionali”. Quindi passare da 3 a 4 fattori ha portato alla distinzione tra il fare offerte promozionali e il fare pubblicità Ora ci troviamo di fronte alla scelta: ci piace di più la soluzione a 3 o 4 variabili? CREIAMO ALTRI 3 FATTORI: ANALISI A 5 FATTORI Il procedimento è sempre lo stesso : in “rotazione dei fattori” ora metto 5 fattori Il secondo fattore è lo stesso del fattore 2 precedente. Il quinto fattore è l’equivalente del quarto di prima. Quelli che prima erano 1,2,4 ora sono 1,2,5. Quindi è successo qualcosa al fattore 3: il concetto di mozzarella di bufala si è separato dal concetto denominazione di origine protetta. Per andare avanti con l’esercizio: scegliamo la soluzione a 4 fattori e denominiamo bene i 4 fattori.

Variabili standardizzate e non correlate tra di loro Ora proviamo a fare una cosa nuova: abbiamo già visto che le 4 variabili generate /fattore 1,2,3,4) sono variabili standard con media 0 e varianza 1. Come possiamo guardare dalla distribuzione che creiamo, notiamo che hanno una distribuzione abbastanza normale. Ci chiediamo: la qualità media è diversa per tipologia di marca? quindi voglio vedere se c’è una relazione tra marca e qualità. Bisogna vedere se le medie sono diverse Facciamo allora analizza stima y rispetto ad x, poi sul triangolino rosso clicchiamo media/ANOVA.

Ora terza variabile

19 NOVEMBRE

Partendo da 5 fattori, guardiamo subito il fattore n°5. Al di la delle varianze per ciascun fattore, possiamo vedere che fondamentalmente tale fattore è composto da “sono care” e “hanno un gusto intenso e forte”. Cosa fanno insieme queste due variabili? Sembrano molto diverse tra loro e sembrano quindi non aver senso. Mi dichiaro quindi insoddisfatto e vado avanti (aggiungo altri fattori). Interpretiamo il nostro output: il fattore 1 il fattore 2 sembrano ancora troppo sovrapposti (“sono sostanziose” e “sono digeribili”); sono a cavallo dei due item, quindi dobbiamo fare pulizia eseguendo una rotazione con 8 fattori. Analisi fattoriale:

  • analizza
  • metodi di analisi multivariata
  • multivariato
  • selezioni le variabili di interesse

Tutte le marche sono ugualmente alte/o basse (difficile in quanto dovrebbero essere tutte 0) o qualcuna vince/perde rispetto alle diverse variabili? Per rispondere a questa domanda faccio un’analisi ANOVA. Prendiamo le componenti ruotate appena generate (fattori di prodotto) e confrontiamole rispetto alle marche.

  • Analizza
  • Stima X rispetto ad X
  • Marca 100 come fattore X
  • Da FP1 a FP8 come risposta Y
  • Clicco sul quadratino rosso “analisi a una via…”
  • Analisi ANOVA Nel primo test, “gusto per marca”, vediamo che con netta maggioranza vincono i prodotti locali. Così anche nel caso della variabile “aspetto per marca”. Nel caso della confezione le cose cambiano: Granarolo e Vallelata vincono (tenere a mente che per confezione non intendiamo solo il packaging bello da vedere, consideriamo anche la sua comodità).

24 NOVEMBRE

  • Analizza
  • Stima modello
  • Variabile y (variabile risposta)= box office
  • Variabile predittore= promotion
  • Enfasi= report minimale

Se guardo la correlazione tra production e promotion (0,79) noto che a valori di produzione più alta, corrispondono valori di produzione più alta= forte correlazione (la loro varianza è relativamente sovrapposta). VIF:

  • Clic destro in un punto casuale della matrice
  • Colonne
  • VIF REGRESSIONE MOZZARELLA
  • Variabile risposta (y)= preferenza
  • Variabili esplicative= più scelta; attributi di prodotto o di marca? Per AP: item originali (sono care… gusto intenso e forte) o fattori di prodotto (FP1…FP9).
  1. Anova? Ok (significativa)
  2. R-quadro? Ok (non ci aspettavamo valori troppo alti)
  3. Coefficienti= colpo d’occhio disincentivante. La prima impressione è che l’analisi in questo caso sia complicata in quanto i valori sono tanti.
  4. Quali sono i problemi interpretativi? Quello di scala che in questo caso non ci tocca e quello delle correlazioni: dobbiamo sospettare e in realtà lo sappiamo, che all’interno le ritroviamo. Quindi, aggiungiamo il VIF (alcuni sono al limite ma non tanto da escluderli). Ci fermiamo a quelli significativi (evidenziati da jmp in rosso) e guardiamo per prima cosa il segno, per vedere se influenzano positivamente o negativamente la nostra variabile y, ovvero la preferenza.  Sono care= negativo (influenza negativa)  Prezzo adeguato= positivo  Consumatori esigenti e gusto ricco e pieno= positivo (valori più grandi visti per il momento)  Sapore di latte appena munto e fermenti lattici selezionati non sono significative; quindi, non le considero  …  Adatte per il consumo a cotto= negativo Soffermandomi su quelle positive, vado a guardare i valori assoluti (potremmo cancellare le variabili non significative). Clic triangolo rosso risposta preferenza = Filtro sui dati locali Es. limitiamoci a Pettinicchio (doppio clic su marca 100, seleziono la marca che mi interessa).

VIF= 1 ci dice che la sovrapposizione tra queste variabili è nulla; nessuna di queste ha della varianza in comune con gli altri. Ci dice quindi che non sono correlate queste variabili, ma sono ortogonali. Quindi ora posso davvero dire che posso aumentare il guasto senza aumentare gli altri, perché le variabili non sono correlate. Per la regressione questo è importantissimo perché pulisce l’interpretazione. Analizzo quindi la preferenza rispetto alle componenti di fattore (FP1…FP9). Abbiamo meno variabili, quindi sono più facili da leggere e posso anche scendere a leggere a livello della marca. Prima cosa, condizione necessaria anche se non sufficiente, ANOVA= significativa (quasi sempre lo è). R quadrato 52% ok. Se invece che tutti gli item metto i fattori, perdo qualcosa, ma dal punto di vista della preferenza non ho perso molto. Prima di interpretare i coefficienti dobbiamo preoccuparsi di:

  • Hanno la stessa scala? Si
  • Collionearità VIF=1. Cosa ci dice? Che la sovrapposizione tra le variabili è nulla (non hanno niente in comune, sono variabili ortogonali, non correlate).

Il fatto che non siano correlati è un grande vantaggio: posso aumentare il gusto senza aumentare gli altri. Ciascuno di questi coefficienti rappresenta l’impatto di un fattore pulito senza sovrapposizione con altro (quindi facili da leggere). L’unica variabile significativa negativa (anche se lievemente) è “gusto intenso” il che significa che il gusto è troppo forte, il che non aiuta la preferenza. Fondamentale è il gusto (99), seguito da aspetto (48), distribuzione (47), confezioni… Conclusione: Anova ok, R^2 ok, un solo coefficiente leggermente negativo, gusto variabile più importanza (aspetto e distribuzione a pari merito del gusto circa e confezioni che conta decisivamente meno). Faccio filtro dati locali Marca 100+ Pettinicchio Il livello è circa quello di prima tranne per il peso delle confezioni che è leggermente più alto. È fortemente significativo e fortemente negativo il gusto troppo forte. Il gusto viene quindi interpretato come esagerato, cosa che porta Pettinicchio ad avere una preferenza più bassa. Vallelata Il gusto forte, ad esempio, non è più significativo, ma lo diventa il consumo a cotto (anche se negativamente). Quelli che la consumano a cotto per cucinare non sono pienamente soddisfatti (preferenza più bassa).