














Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti dettagliati della parte pratica svolta alle lezioni di Data Analysis con il professore Della Beffa. Contiene la prima parte delle lezioni frontali del secondo ciclo (Excel e JMP) con esercizi, interpretazione dati e consigli. Molto utile per sostenere l'esame e soprattutto per lo svolgimento del progetto.
Tipologia: Appunti
1 / 22
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!















Una delle operazioni standard che dobbiamo fare sempre è cercare di vedere cosa c’è dentro. Facciamo quindi le distribuzioni delle variabili con cui abbiamo a che fare. Bisogna fare la matrice di correlazione
Questi saranno i nostri output: Mettendoli a confronto: notiamo che cambia la varianza spiegata per ciascun fattore Il totale è sempre 69,874: quindi la varianza totale non cambia MA cambia il peso di ciascun fattore. Quindi i fattori ruotati non solo hanno cambiato senso, ma hanno cambiato anche il peso relativo.
La varianza dei singoli fattori cambia, il totale rimane uguale. Fino a questo punto abbiamo dato tanta enfasi all’aspetto interpretativo. Abbiamo però messo da parte l’obiettivo della riduzione della dimensionalità, che abbiamo visto solo teoricamente. Noi ora abbiamo visto la soluzione a 3 fattori ruotati. Ora dobbiamo cliccare sul triangolino di “componenti principali/analisi fattoriale” rosso e fare “salva componenti ruotate”. Ora andiamo a dare un nome alle nostre 3 colonne fattore 1,2,3.
Ora andiamo a guardare con attenzione i vari dati facendo le distribuzioni hanno media 0 e varianza 1 le correlazioni tra i fattori sono 0 FILE MOZZARELLA JUMP Vogliamo fare un’analisi fattoriale per aggregare questi attributi di marca “analizza, metodi di analisi multivariata e multivariata” e poi sul triangolo multivariato, componenti principali Facciamo la rotazione e mettiamo 3 fattori
Facciamo anche qui una rotazione; Notiamo che il primo fattore è uguale e anche il fattore 3 è rimasto sostanzialmente lo stesso. Quindi 1 e 3 hanno le stesse correlazioni di prima. Ciò che è cambiato è il fattore 2, che si è spezzato in altri 2 fattori “fa molta pubblicità” e “con una distribuzione nazionale”. Il fattore 4 è solo “fa offerte promozionali”. Quindi passare da 3 a 4 fattori ha portato alla distinzione tra il fare offerte promozionali e il fare pubblicità Ora ci troviamo di fronte alla scelta: ci piace di più la soluzione a 3 o 4 variabili? CREIAMO ALTRI 3 FATTORI: ANALISI A 5 FATTORI Il procedimento è sempre lo stesso : in “rotazione dei fattori” ora metto 5 fattori Il secondo fattore è lo stesso del fattore 2 precedente. Il quinto fattore è l’equivalente del quarto di prima. Quelli che prima erano 1,2,4 ora sono 1,2,5. Quindi è successo qualcosa al fattore 3: il concetto di mozzarella di bufala si è separato dal concetto denominazione di origine protetta. Per andare avanti con l’esercizio: scegliamo la soluzione a 4 fattori e denominiamo bene i 4 fattori.
Variabili standardizzate e non correlate tra di loro Ora proviamo a fare una cosa nuova: abbiamo già visto che le 4 variabili generate /fattore 1,2,3,4) sono variabili standard con media 0 e varianza 1. Come possiamo guardare dalla distribuzione che creiamo, notiamo che hanno una distribuzione abbastanza normale. Ci chiediamo: la qualità media è diversa per tipologia di marca? quindi voglio vedere se c’è una relazione tra marca e qualità. Bisogna vedere se le medie sono diverse Facciamo allora analizza stima y rispetto ad x, poi sul triangolino rosso clicchiamo media/ANOVA.
Ora terza variabile
Partendo da 5 fattori, guardiamo subito il fattore n°5. Al di la delle varianze per ciascun fattore, possiamo vedere che fondamentalmente tale fattore è composto da “sono care” e “hanno un gusto intenso e forte”. Cosa fanno insieme queste due variabili? Sembrano molto diverse tra loro e sembrano quindi non aver senso. Mi dichiaro quindi insoddisfatto e vado avanti (aggiungo altri fattori). Interpretiamo il nostro output: il fattore 1 il fattore 2 sembrano ancora troppo sovrapposti (“sono sostanziose” e “sono digeribili”); sono a cavallo dei due item, quindi dobbiamo fare pulizia eseguendo una rotazione con 8 fattori. Analisi fattoriale:
Tutte le marche sono ugualmente alte/o basse (difficile in quanto dovrebbero essere tutte 0) o qualcuna vince/perde rispetto alle diverse variabili? Per rispondere a questa domanda faccio un’analisi ANOVA. Prendiamo le componenti ruotate appena generate (fattori di prodotto) e confrontiamole rispetto alle marche.
Se guardo la correlazione tra production e promotion (0,79) noto che a valori di produzione più alta, corrispondono valori di produzione più alta= forte correlazione (la loro varianza è relativamente sovrapposta). VIF:
VIF= 1 ci dice che la sovrapposizione tra queste variabili è nulla; nessuna di queste ha della varianza in comune con gli altri. Ci dice quindi che non sono correlate queste variabili, ma sono ortogonali. Quindi ora posso davvero dire che posso aumentare il guasto senza aumentare gli altri, perché le variabili non sono correlate. Per la regressione questo è importantissimo perché pulisce l’interpretazione. Analizzo quindi la preferenza rispetto alle componenti di fattore (FP1…FP9). Abbiamo meno variabili, quindi sono più facili da leggere e posso anche scendere a leggere a livello della marca. Prima cosa, condizione necessaria anche se non sufficiente, ANOVA= significativa (quasi sempre lo è). R quadrato 52% ok. Se invece che tutti gli item metto i fattori, perdo qualcosa, ma dal punto di vista della preferenza non ho perso molto. Prima di interpretare i coefficienti dobbiamo preoccuparsi di:
Il fatto che non siano correlati è un grande vantaggio: posso aumentare il gusto senza aumentare gli altri. Ciascuno di questi coefficienti rappresenta l’impatto di un fattore pulito senza sovrapposizione con altro (quindi facili da leggere). L’unica variabile significativa negativa (anche se lievemente) è “gusto intenso” il che significa che il gusto è troppo forte, il che non aiuta la preferenza. Fondamentale è il gusto (99), seguito da aspetto (48), distribuzione (47), confezioni… Conclusione: Anova ok, R^2 ok, un solo coefficiente leggermente negativo, gusto variabile più importanza (aspetto e distribuzione a pari merito del gusto circa e confezioni che conta decisivamente meno). Faccio filtro dati locali Marca 100+ Pettinicchio Il livello è circa quello di prima tranne per il peso delle confezioni che è leggermente più alto. È fortemente significativo e fortemente negativo il gusto troppo forte. Il gusto viene quindi interpretato come esagerato, cosa che porta Pettinicchio ad avere una preferenza più bassa. Vallelata Il gusto forte, ad esempio, non è più significativo, ma lo diventa il consumo a cotto (anche se negativamente). Quelli che la consumano a cotto per cucinare non sono pienamente soddisfatti (preferenza più bassa).