Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Parte pratica Data Analysis secondo ciclo IULM (prima parte), Appunti di Statistica

Libera università di lingue e comunicazione (IULM)Statistica

Prof. Francesco Della Beffa

Appunti dettagliati della parte pratica svolta alle lezioni di Data Analysis con il professore Della Beffa. Contiene la prima parte delle lezioni frontali del secondo ciclo (Excel e JMP) con esercizi, interpretazione dati e consigli. Molto utile per sostenere l'esame e soprattutto per lo svolgimento del progetto.

Tipologia: Appunti

2020/2021

Caricato il 31/03/2022

Chivon 🇮🇹

4.5

(40)

15 documenti

1 / 22

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

16 NOVEMBRE

ESEMPIO JUMP FILE: BANKLOAN

Una delle operazioni standard che dobbiamo fare sempre è cercare di vedere cosa c’è dentro.

Facciamo quindi le distribuzioni delle variabili con cui abbiamo a che fare.

Bisogna fare la matrice di correlazione

-Analizza

-Metodi di analisi multivariata

-Multivariato

Vado sul triangolino “multivariato” e clicco su “componenti principali”

Vado poi sul triangolino delle componenti principali e clicco “rotazione fattori”. A questo punto

dobbiamo selezionare le voci “componenti principali”

Scopri Appunti di Statistica Libera università di lingue e comunicazione (IULM)

Documenti correlati

Parte pratica Data Analysis secondo ciclo primo semestre IULM (seconda parte)

Parte pratica Data Analysis primo ciclo primo semestre IULM

SINTESI DATA ANALYSIS, IULM

data analysys per della beffa in iulm

Etica economia - Parte Seconda iulm

Appunti Marketing avanzato IULM prof. Massara prima parte

Appunti di marketing (3 parte) - Prof.ssa Corsaro IULM

appunti comunicazione digitale 2020 IULM parte tre

appunti comunicazione digitale 2020 IULM parte uno

Statistica RPCI IULM

(2)

appunti gender studies 2021 IULM parte 1

Appunti di marketing (2 parte) - Prof.ssa Corsaro IULM

Anteprima parziale del testo

Scarica Parte pratica Data Analysis secondo ciclo IULM (prima parte) e più Appunti in PDF di Statistica solo su Docsity!

16 NOVEMBRE

ESEMPIO JUMP FILE: BANKLOAN

Una delle operazioni standard che dobbiamo fare sempre è cercare di vedere cosa c’è dentro. Facciamo quindi le distribuzioni delle variabili con cui abbiamo a che fare. Bisogna fare la matrice di correlazione

Analizza
Metodi di analisi multivariata
Multivariato Vado sul triangolino “multivariato” e clicco su “componenti principali” Vado poi sul triangolino delle componenti principali e clicco “rotazione fattori”. A questo punto dobbiamo selezionare le voci “componenti principali”

Questi saranno i nostri output: Mettendoli a confronto: notiamo che cambia la varianza spiegata per ciascun fattore  Il totale è sempre 69,874: quindi la varianza totale non cambia  MA cambia il peso di ciascun fattore. Quindi i fattori ruotati non solo hanno cambiato senso, ma hanno cambiato anche il peso relativo.

La varianza dei singoli fattori cambia, il totale rimane uguale. Fino a questo punto abbiamo dato tanta enfasi all’aspetto interpretativo. Abbiamo però messo da parte l’obiettivo della riduzione della dimensionalità, che abbiamo visto solo teoricamente. Noi ora abbiamo visto la soluzione a 3 fattori ruotati. Ora dobbiamo cliccare sul triangolino di “componenti principali/analisi fattoriale” rosso e fare “salva componenti ruotate”. Ora andiamo a dare un nome alle nostre 3 colonne fattore 1,2,3.

Ora andiamo a guardare con attenzione i vari dati facendo le distribuzioni  hanno media 0 e varianza 1  le correlazioni tra i fattori sono 0 FILE MOZZARELLA JUMP Vogliamo fare un’analisi fattoriale per aggregare questi attributi di marca “analizza, metodi di analisi multivariata e multivariata” e poi sul triangolo multivariato, componenti principali Facciamo la rotazione e mettiamo 3 fattori

Facciamo anche qui una rotazione; Notiamo che il primo fattore è uguale e anche il fattore 3 è rimasto sostanzialmente lo stesso. Quindi 1 e 3 hanno le stesse correlazioni di prima. Ciò che è cambiato è il fattore 2, che si è spezzato in altri 2 fattori “fa molta pubblicità” e “con una distribuzione nazionale”. Il fattore 4 è solo “fa offerte promozionali”. Quindi passare da 3 a 4 fattori ha portato alla distinzione tra il fare offerte promozionali e il fare pubblicità Ora ci troviamo di fronte alla scelta: ci piace di più la soluzione a 3 o 4 variabili? CREIAMO ALTRI 3 FATTORI: ANALISI A 5 FATTORI Il procedimento è sempre lo stesso : in “rotazione dei fattori” ora metto 5 fattori Il secondo fattore è lo stesso del fattore 2 precedente. Il quinto fattore è l’equivalente del quarto di prima. Quelli che prima erano 1,2,4 ora sono 1,2,5. Quindi è successo qualcosa al fattore 3: il concetto di mozzarella di bufala si è separato dal concetto denominazione di origine protetta. Per andare avanti con l’esercizio: scegliamo la soluzione a 4 fattori e denominiamo bene i 4 fattori.

Variabili standardizzate e non correlate tra di loro Ora proviamo a fare una cosa nuova: abbiamo già visto che le 4 variabili generate /fattore 1,2,3,4) sono variabili standard con media 0 e varianza 1. Come possiamo guardare dalla distribuzione che creiamo, notiamo che hanno una distribuzione abbastanza normale. Ci chiediamo: la qualità media è diversa per tipologia di marca? quindi voglio vedere se c’è una relazione tra marca e qualità. Bisogna vedere se le medie sono diverse Facciamo allora analizza stima y rispetto ad x, poi sul triangolino rosso clicchiamo media/ANOVA.

Ora terza variabile

19 NOVEMBRE

Partendo da 5 fattori, guardiamo subito il fattore n°5. Al di la delle varianze per ciascun fattore, possiamo vedere che fondamentalmente tale fattore è composto da “sono care” e “hanno un gusto intenso e forte”. Cosa fanno insieme queste due variabili? Sembrano molto diverse tra loro e sembrano quindi non aver senso. Mi dichiaro quindi insoddisfatto e vado avanti (aggiungo altri fattori). Interpretiamo il nostro output: il fattore 1 il fattore 2 sembrano ancora troppo sovrapposti (“sono sostanziose” e “sono digeribili”); sono a cavallo dei due item, quindi dobbiamo fare pulizia eseguendo una rotazione con 8 fattori. Analisi fattoriale:

analizza
metodi di analisi multivariata
multivariato
selezioni le variabili di interesse

Tutte le marche sono ugualmente alte/o basse (difficile in quanto dovrebbero essere tutte 0) o qualcuna vince/perde rispetto alle diverse variabili? Per rispondere a questa domanda faccio un’analisi ANOVA. Prendiamo le componenti ruotate appena generate (fattori di prodotto) e confrontiamole rispetto alle marche.

Analizza
Stima X rispetto ad X
Marca 100 come fattore X
Da FP1 a FP8 come risposta Y
Clicco sul quadratino rosso “analisi a una via…”
Analisi ANOVA Nel primo test, “gusto per marca”, vediamo che con netta maggioranza vincono i prodotti locali. Così anche nel caso della variabile “aspetto per marca”. Nel caso della confezione le cose cambiano: Granarolo e Vallelata vincono (tenere a mente che per confezione non intendiamo solo il packaging bello da vedere, consideriamo anche la sua comodità).

24 NOVEMBRE

Analizza
Stima modello
Variabile y (variabile risposta)= box office
Variabile predittore= promotion
Enfasi= report minimale

Se guardo la correlazione tra production e promotion (0,79) noto che a valori di produzione più alta, corrispondono valori di produzione più alta= forte correlazione (la loro varianza è relativamente sovrapposta). VIF:

Clic destro in un punto casuale della matrice
Colonne
VIF REGRESSIONE MOZZARELLA
Variabile risposta (y)= preferenza
Variabili esplicative= più scelta; attributi di prodotto o di marca? Per AP: item originali (sono care… gusto intenso e forte) o fattori di prodotto (FP1…FP9).

Anova? Ok (significativa)
R-quadro? Ok (non ci aspettavamo valori troppo alti)
Coefficienti= colpo d’occhio disincentivante. La prima impressione è che l’analisi in questo caso sia complicata in quanto i valori sono tanti.
Quali sono i problemi interpretativi? Quello di scala che in questo caso non ci tocca e quello delle correlazioni: dobbiamo sospettare e in realtà lo sappiamo, che all’interno le ritroviamo. Quindi, aggiungiamo il VIF (alcuni sono al limite ma non tanto da escluderli). Ci fermiamo a quelli significativi (evidenziati da jmp in rosso) e guardiamo per prima cosa il segno, per vedere se influenzano positivamente o negativamente la nostra variabile y, ovvero la preferenza.  Sono care= negativo (influenza negativa)  Prezzo adeguato= positivo  Consumatori esigenti e gusto ricco e pieno= positivo (valori più grandi visti per il momento)  Sapore di latte appena munto e fermenti lattici selezionati non sono significative; quindi, non le considero  …  Adatte per il consumo a cotto= negativo Soffermandomi su quelle positive, vado a guardare i valori assoluti (potremmo cancellare le variabili non significative). Clic triangolo rosso risposta preferenza = Filtro sui dati locali Es. limitiamoci a Pettinicchio (doppio clic su marca 100, seleziono la marca che mi interessa).

VIF= 1 ci dice che la sovrapposizione tra queste variabili è nulla; nessuna di queste ha della varianza in comune con gli altri. Ci dice quindi che non sono correlate queste variabili, ma sono ortogonali. Quindi ora posso davvero dire che posso aumentare il guasto senza aumentare gli altri, perché le variabili non sono correlate. Per la regressione questo è importantissimo perché pulisce l’interpretazione. Analizzo quindi la preferenza rispetto alle componenti di fattore (FP1…FP9). Abbiamo meno variabili, quindi sono più facili da leggere e posso anche scendere a leggere a livello della marca. Prima cosa, condizione necessaria anche se non sufficiente, ANOVA= significativa (quasi sempre lo è). R quadrato 52% ok. Se invece che tutti gli item metto i fattori, perdo qualcosa, ma dal punto di vista della preferenza non ho perso molto. Prima di interpretare i coefficienti dobbiamo preoccuparsi di:

Hanno la stessa scala? Si
Collionearità VIF=1. Cosa ci dice? Che la sovrapposizione tra le variabili è nulla (non hanno niente in comune, sono variabili ortogonali, non correlate).

Il fatto che non siano correlati è un grande vantaggio: posso aumentare il gusto senza aumentare gli altri. Ciascuno di questi coefficienti rappresenta l’impatto di un fattore pulito senza sovrapposizione con altro (quindi facili da leggere). L’unica variabile significativa negativa (anche se lievemente) è “gusto intenso” il che significa che il gusto è troppo forte, il che non aiuta la preferenza. Fondamentale è il gusto (99), seguito da aspetto (48), distribuzione (47), confezioni… Conclusione: Anova ok, R^2 ok, un solo coefficiente leggermente negativo, gusto variabile più importanza (aspetto e distribuzione a pari merito del gusto circa e confezioni che conta decisivamente meno). Faccio filtro dati locali Marca 100+ Pettinicchio Il livello è circa quello di prima tranne per il peso delle confezioni che è leggermente più alto. È fortemente significativo e fortemente negativo il gusto troppo forte. Il gusto viene quindi interpretato come esagerato, cosa che porta Pettinicchio ad avere una preferenza più bassa. Vallelata Il gusto forte, ad esempio, non è più significativo, ma lo diventa il consumo a cotto (anche se negativamente). Quelli che la consumano a cotto per cucinare non sono pienamente soddisfatti (preferenza più bassa).