Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Esercitazione domande aperte Data Analysis, Esercizi di Statica

Scaletta con gli argomenti da studiare per l'esame di Data Analysis del professore Della Beffa, con alcuni esempi di domande. Esempi di domande aperte prese dagli esami degli scorsi anni con le relative risposte fornite dal professore. Molto utili per sostenere l'esame e non avere dubbi su come analizzare i dati per ottenere il massimo dei voti.

Tipologia: Esercizi

2020/2021

Caricato il 31/03/2022

Chivon
Chivon 🇮🇹

4.5

(40)

15 documenti

1 / 16

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
ESAME!!!
1. Dati: scale, ponderazione, missing, outlier, trasformazioni, ossia la standardizzazione, variabili
dummy;
2. Survey: dati primari e secondari (saperli distinguere), esempi di domande e risposte (ci verrà
chiesto come formulare correttamente una domanda o una risposta sulla base di un problema;
quale è meglio per il sondaggio? Sapere pro e contro delle tecniche CATI, CAWI…. ), metodi di
contatto;
3. Probabilità e statistica: domande generiche sulle distribuzioni (saper distinguere una variabile
normale e una non normale. Es. l’altezza delle persone è una variabile normale, il reddito no),
intervalli di confidenza (sapere che cosa sono e da cosa dipendono), campionamento (saper
distinguere le diverse modalità), rappresentatività (sapere cosa vuol dire). Non ci saranno
domande sul calcolo della probabilità;
4. Anova: ci sarà un output di Anova con delle conclusioni e dovremo dire qual è la conclusione
giusta. Es. “La media è significativamente più alta di un’altra” significa che il test è significativo;
5. Chi quadrato: anche qui ci sarà un output e noi dovremo scegliere la conclusione corretta,
oppure domanda del tipo “cosa vuol dire chi quadrato e cosa testiamo?”;
6. Fattoriale: ci saranno domande teoriche. Es. “quale è lo scopo della rotazione dei fattori” “cosa
succede quando ruoto i fattori”;
7. Cluster: anche qui domande teoriche;
8. Regressione e correlazione: domande teoriche e possibili grafici da analizzare. Es. due grafici
con domande del tipo “Quale è quella con il coefficiente di regressione più alto?” o “Quale ha
l’r quadro più alto?” (domanda che ha senso solo con regressione lineare semplice, con quella
multipla è diverso e più semplice).
9. Grafici, data visualization, mapping, quadrant analysis: ci saranno domande tipo “Per fare la
distribuzione di frequenza di una variabile numerica che cosa si usa?”. Ci saranno domande
anche su grafici particolari come il tree map. Sapere anche i grafici meno ovvi, quali si usano, e
altre domande sui grafici gerarchici, grafico di sankey!!!!! Data visualization che caratteristiche
ha l’interazione, quali sono i software. Guardare i grafici meno ovvi
10. Miscellanea: Excel, nulla di troppo tecnico, ma domande del tipo “la differenza tra indirizzi
assoluti e relativi, come si scrive una formula, ossia va messo = davanti, cosa si può scrivere in
una cella, ossia formule, numeri. Differenze tra tecniche, cosa c’è di diverso tra la fattoriale,
regressione e cluster. Obiettivo delle tecniche;
11. Domanda aperta (x2): fattoriale, regressione, cluster gerarchica e non gerarchica, può esserci
un chi quadrato
IMPORTANTE: le domande chiuse valgono 2 punti e domande aperte 5 punti ciascuna. Non ci sono
penalità. Leggere bene la domanda: ci saranno domande fatte in negativo (qual è a risposta
errata). Abbiamo 45 minuti. L’esame è a computer in aula informatica accedendo alla community
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff

Anteprima parziale del testo

Scarica Esercitazione domande aperte Data Analysis e più Esercizi in PDF di Statica solo su Docsity!

ESAME!!!

  1. Dati : scale, ponderazione, missing, outlier, trasformazioni, ossia la standardizzazione, variabili dummy;
  2. Survey : dati primari e secondari (saperli distinguere), esempi di domande e risposte (ci verrà chiesto come formulare correttamente una domanda o una risposta sulla base di un problema; quale è meglio per il sondaggio? Sapere pro e contro delle tecniche CATI, CAWI…. ), metodi di contatto;
  3. Probabilità e statistica : domande generiche sulle distribuzioni (saper distinguere una variabile normale e una non normale. Es. l’altezza delle persone è una variabile normale, il reddito no), intervalli di confidenza (sapere che cosa sono e da cosa dipendono), campionamento (saper distinguere le diverse modalità), rappresentatività (sapere cosa vuol dire). Non ci saranno domande sul calcolo della probabilità;
  4. Anova : ci sarà un output di Anova con delle conclusioni e dovremo dire qual è la conclusione giusta. Es. “La media è significativamente più alta di un’altra” significa che il test è significativo;
  5. Chi quadrato : anche qui ci sarà un output e noi dovremo scegliere la conclusione corretta, oppure domanda del tipo “cosa vuol dire chi quadrato e cosa testiamo?”;
  6. Fattoriale : ci saranno domande teoriche. Es. “quale è lo scopo della rotazione dei fattori” “cosa succede quando ruoto i fattori”;
  7. Cluster : anche qui domande teoriche;
  8. Regressione e correlazione : domande teoriche e possibili grafici da analizzare. Es. due grafici con domande del tipo “Quale è quella con il coefficiente di regressione più alto?” o “Quale ha l’r quadro più alto?” (domanda che ha senso solo con regressione lineare semplice, con quella multipla è diverso e più semplice).
  9. Grafici, data visualization, mapping, quadrant analysis : ci saranno domande tipo “Per fare la distribuzione di frequenza di una variabile numerica che cosa si usa?”. Ci saranno domande anche su grafici particolari come il tree map. Sapere anche i grafici meno ovvi, quali si usano, e altre domande sui grafici gerarchici, grafico di sankey!!!!! Data visualization che caratteristiche ha l’interazione, quali sono i software. Guardare i grafici meno ovvi
  10. Miscellanea : Excel, nulla di troppo tecnico, ma domande del tipo “la differenza tra indirizzi assoluti e relativi, come si scrive una formula, ossia va messo = davanti, cosa si può scrivere in una cella, ossia formule, numeri. Differenze tra tecniche, cosa c’è di diverso tra la fattoriale, regressione e cluster. Obiettivo delle tecniche;
  11. Domanda aperta (x2): fattoriale, regressione, cluster gerarchica e non gerarchica, può esserci un chi quadrato IMPORTANTE: le domande chiuse valgono 2 punti e domande aperte 5 punti ciascuna. Non ci sono penalità. Leggere bene la domanda: ci saranno domande fatte in negativo (qual è a risposta errata). Abbiamo 45 minuti. L’esame è a computer in aula informatica accedendo alla community

Esempio 1: FATTORIALE Data set occhiali: info su come è fatto, scala likert e analisi fattoriale risultati: Dire subito le cose obbligatorie:

  • l’analisi consiste nella generazione di 5 fattori ruotati che spiegano il 71% della variante (fatto: sono ruotati? Quanto spiegano?);
  • interpretazione: fattore 1= specializzazione occhiali da sole fattore 2= alta tecnologia fattore 3= immagine fornita (stile di vita e celebrità) fattore 4= soldi ben spesi fattore 5= rapporto qualità prezzo la tabella superiore, con gli autovalori, ci serve a sapere qual è la varianza totale spiegata (no il primo fattore pesa… il secondo….il terzo…. Quelli sono i pesi non ruotati quindi ci interessa il totale).

Esempio 3: CHI-QUADRATO Chi consuma piselli conservati, li consuma indifferentemente in scatola e in vetro? Noi non saremo tenuti a fare questo ragionamento, ma sicuramente il problema, che consiste nel vedere la concentrazione (alta e bassa) nella tabella di contingenza dobbiamo saperla leggere. Come?

  1. Guardiamo chi-quadrato: è significativo? Si.
  2. Tabella di contingenza: confrontiamo le percentuali con il totale. Non per caso in questo caso il no è 3 volte il si (75% nel no e 25% nel si). 82 è il triplo di 17? No, è molto di più, quindi si concentrano nel no, ovvero nell’82. Uguale. 69 è il triplo di 30? No, è meno, quindi si concentrano nel si, ovvero nel 30. Se il rapporto fosse 3 a 1 saremmo in media. La massima concentrazione è nel no/nel si quindi i consumatori….

Esempio 4: REGRESSIONE LINEARE L’analisi è una regressione lineare il cui scopo è capire quali attributi influenzano la valutazione globale e come essa si presenta (in positivo o in negativo). Interpretiamo poi i risultati:

  • Varianza significativa
  • R^2 non meraviglioso (forse dipende dall’utilizzo di scale modeste come la likert 1-5). Valore medio (0,4)
  • Analizziamo poi la tabella sotto, quali variabili sono significative, quali sono le più importanti (prodotti naturali e genuini con un ottimo sapore, in subordine si distingue dalle altre…) e poi una sottolineatura obbligatoria è: c’è un item significativo negativo (confezioni innovative, evidentemente non sono molto amate). Infine, se c’è la colonna VIF bisogna dire qualcosa anche su di essa (se non ci fosse si potrebbe dire che sarebbe stato interessante analizzare dei problemi di collinearità). Qui la colonna del VIF, che controlla se ci sono item correlati tra loro, c’è; nessuno è drammatico quindi nonostante alcune correlazioni sono presenti non sono preoccupanti. Nell’analisi bisogna accorgersi di tutti i fattoi presenti per poi descriverli e analizzarli. Bisogna anche in alcuni casi accorgersi della mancanza di alcuni valori come la stima della varianza nel caso di una regressione (solitamente a causa di un R^2 molto alto). L’Anova potrebbe non essere

Esempio 6: CLUSTER Bisogna fare un cenno su tutto, vediamo per esempio il numero di cluster. La batteria dei centri finali ha valori positivi e negativi, in più ha 4 attributi (la batteria di item iniziale era di 14 attributi). Su quei 14 potrebbe essere stata fatta una fattoriale su cui poi è stata fatta una cluster. Interpretazione:

  • Il cluster 1: è quello degli entusiasti, sono felici di tutti i servizi a terra e a bordo
  • Cluster 2: detrattori, non gli va bene nulla, in particolare l’intrattenimento a bordo e i servizi online
  • Cluster 3: critici, sono fortemente insoddisfatti dei servizi come pasti e bevande però si sono trovati bene con l’intrattenimento a bordo e con i servizi online.

Esempio 7: CLUSTER La batteria di atteggiamenti è stata sottoposta con il metodo k-means al raggruppamento: non sono state standardizzate e sottoposte a fattoriale. Questi sono gli item originali. Come li guardiamo? Quello più uniforme, e quindi più semplice da leggere forse è il 2, che ha valori un po’ alti dappertutto, anche nel primo item (3,8 rispetto a 2). Quello che lo caratterizza sono quindi il primo e il quarto item= mamme ansiose. Vediamo anche gli altri item. Poi cluster 1, basso su tutto se non per l’ultimo item. Analizzare anche gli altri item= rifiutano i prodotti industriali e fanno tutto loro, hanno quindi molto tempo e si dedicano a tempo pieno al bambino (non sono quindi particolarmente stressate e non seguono più di tanto le indicazioni). Cluster 3, più alto nei prodotti industriali, che vanno bene e sono comodi. Non sono stressate, i bambini si regolano da soli. Stanno ragionevolmente attente a ciò che è detto dal pediatra e si occupano meno di preparare le cose al bambino; saranno quindi le mamme che hanno anche da fare, magari lavorano. Il fatto che il valore più alto sia che utilizzano i prodotti industriali non vuole dire che utilizzano solo quelle, confrontando con gli altri cluster semplicemente li acquistano in quantità maggiori e le preparazioni a mano sono inferiori, ma anche qui non vuol dire che non lo facciano.

Vediamo che gli unici alti: che sia disponibile nelle fantasie varie; da lavare in lavatrice un altro alto ma molto meno: che sia senza cuciture. Assolutamente negativo: intimo contenitivo per migliorare la linea. Ricordarsi di commentare il VIF se c’è Esempio 9: CLUSTER Scala Likert 1- Interpretare i cluster. Abbiamo 3 cluster ora vediamo cosa sono:

  • Cluster 2 sono gli entusiasti di tutto, persino la confezione con una valutazione 6,
  • Cluster 1 sono dei detrattori, sono coloro che non sono sicuramente dei grandi consumatori di Nutella
  • Cluster 3 abbiamo un cluster di critici, che ritengono che sicuramente è buona, ma il prezzo non è molto giusto, ma soprattutto delle confezioni non gliene frega nulla. Tra l’altro questo cluster rappresenta la maggior parte degli intervistati, è il più numeroso con il 47%. Esempio 10: FATTORIALE Negativo significa che al crescere del coefficiente diminuisce il fattore. Pensiamo al fattore prezzo nel quale finiscono due item opposti (caro e buon prezzo). Sicuramente questi due item finiscono

nello stesso fattore, ma se uno è positivo, ‘altro sarà negativo altrimenti viceversa. Se un item è negativo significa che al crescere di quell’item il fattore a cui è correlato assume valori bassi. Guardiamo l’item “vicinanza gate”; influenza negativamente il fattore 4 (con un valore di -,251). Il fattore, quindi, indicherà la lontananza dl gate. Esempio 11: FATTORIALE Immaginiamoci un item aggiuntivo che abbia il significato tipo “sono fatti con materiale fragile” Io mi aspetto che finisca dentro al fattore 2, negativo. Nel fattore 2 per perché è quello relativo all’avanguardia tecnologica degli occhiali.

Es. comunalità alta (0,819), il che significa che tale variabile contribuisce in modo sostanziale (82%) alle due componenti estratte. CASO 2: CHI-QUADRATO Sulla base delle frequenze osservate (che risultano dal campione) e quelle teoriche (confronto tra frequenze), si può rilevare un singolo valore, l’indice X^2 , una misura sintetica della distanza dell’indipendenza. Test non parametrico. La condizione di applicabilità del test chi-quadrato è solo che il campione sia abbastanza grande, ovvero che ci siano abbastanza casi. In caso di perfetta indipendenza, quindi se frequenze osservate e teoriche sono uguali, chi- quadrato vale 0. Più grandi sono le differenze, più grande diventa chi-quadrato. Solo se chi al quadrato è uguale a zero le frequenze osservate e quelle attese sono uguali. P-value = probabilità di trovare valori maggiori o uguali di quello per puro effetto del caso, se l’ipotesi nulla è vera = probabilità di ottenere valori ≥ X^2. Vediamo ora i risultati:  p-value " grande " (es. 𝑝 > 0,05) = test non significativo: il valore di X^2 non è significativamente maggiore di zero, i dati campionari non giustificano il rifiuto di 𝐻 0 al livello di significatività scelto. Le due variabili sono indipendenti perciò accettiamo H 0  p-value " piccolo " (es. 𝑝 < 0,05) = test significativo: il valore di X^2 è significativamente maggiore di zero, si rifiuta 𝐻 0 in favore di 𝐻 1 , esiste una associazione statisticamente significativa tra le due variabili al livello di significatività. Tra le due variabili c’è una relazione significativa, perciò rifiutiamo 𝐻 0 Tabella di contingenza: confrontiamo le percentuali con il totale. Non per caso in questo caso il no è 3 volte il si (75% nel no e 25% nel si). 82 è il triplo di 17? No, è molto di più, quindi si concentrano

nel no, ovvero nell’82. Uguale. 69 è il triplo di 30? No, è meno, quindi si concentrano nel si, ovvero nel 30. Se il rapporto fosse 3 a 1 saremmo in media. La massima concentrazione è nel no/nel si quindi i consumatori…. CASO 3: REGRESSIONE L’analisi è una regressione lineare, il cui scopo è capire quali attributi influenzano la valutazione globale (lo vedo dalla sezione “risposta val. glob.) e come essa si presenta, se in positivo o in negativo. Notiamo come prima cosa che la varianza è significativa, perciò possiamo procedere nell’analisi. R^2 spiega il 41% della valutazione globale, non è il massimo ma p un valore medio (0,4). Passando all’interpretazione evidenziamo le variabili significative, quali tra esse sono le più importanti e se ce n’è qualcuno significativo negativo. Dalla stima evidenziamo poi quelli più importanti e quelli meno. Passiamo infine all’indice VIF (>5 non va bene, in certi casi già se > 2), che controlla se ci sono item correlati tra loro e ci permette di capire se la collinearità è accettabile o meno. In questo caso sono presenti delle correlazioni ma non sono preoccupanti.

Abbiamo un risultato a 3 cluster di dimensioni paragonabili, infatti le percentuali non differenziano troppo l’una dall’altra. Parliamo della numerosità: il cluster 3 è quello più numeroso, mentre l’1 è il meno numeroso Descriviamo i cluster: Quindi queste variabili non sono state sottoposte ad analisi fattoriale, ma ci sono rimasti gli item originali. I cluster 1 basso su tutto tranne su acquisto prodotti freschi…. Non pensano che i prodotti industriali contengono tutto ciò che serve quindi un cluster di mamme che rifiutano i prodotti industriali e che preparano loro stesse la pappa, quindi avranno anche molto tempo da dedicare al bambino, questo comporta anche il fatto che non siano stressate Il cluster 2 ha valori molto alti un po’ su tutto, ma soprattutto (ed è questo che ne caratterizza la peculiarità) anche nell’item 1 con 3,8 e 3,1 per l’appuntamento pappa…. Ciò che caratterizza questo cluster sono ho sempre paura… e l’appuntamento pappa…. Quindi notiamo valori alti sull’ansia, stress e sull’essere scrupolose Cluster 3 non sono per niente stressate, sono coloro che ritengono che i prodotti industriali vadano benissimo, sono ragionevolmente attente a ciò che dice il pediatra e sono quelle che meno si occupano di preparare le cose a mano da sole.