









Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Scaletta con gli argomenti da studiare per l'esame di Data Analysis del professore Della Beffa, con alcuni esempi di domande. Esempi di domande aperte prese dagli esami degli scorsi anni con le relative risposte fornite dal professore. Molto utili per sostenere l'esame e non avere dubbi su come analizzare i dati per ottenere il massimo dei voti.
Tipologia: Esercizi
1 / 16
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!










Esempio 1: FATTORIALE Data set occhiali: info su come è fatto, scala likert e analisi fattoriale risultati: Dire subito le cose obbligatorie:
Esempio 3: CHI-QUADRATO Chi consuma piselli conservati, li consuma indifferentemente in scatola e in vetro? Noi non saremo tenuti a fare questo ragionamento, ma sicuramente il problema, che consiste nel vedere la concentrazione (alta e bassa) nella tabella di contingenza dobbiamo saperla leggere. Come?
Esempio 4: REGRESSIONE LINEARE L’analisi è una regressione lineare il cui scopo è capire quali attributi influenzano la valutazione globale e come essa si presenta (in positivo o in negativo). Interpretiamo poi i risultati:
Esempio 6: CLUSTER Bisogna fare un cenno su tutto, vediamo per esempio il numero di cluster. La batteria dei centri finali ha valori positivi e negativi, in più ha 4 attributi (la batteria di item iniziale era di 14 attributi). Su quei 14 potrebbe essere stata fatta una fattoriale su cui poi è stata fatta una cluster. Interpretazione:
Esempio 7: CLUSTER La batteria di atteggiamenti è stata sottoposta con il metodo k-means al raggruppamento: non sono state standardizzate e sottoposte a fattoriale. Questi sono gli item originali. Come li guardiamo? Quello più uniforme, e quindi più semplice da leggere forse è il 2, che ha valori un po’ alti dappertutto, anche nel primo item (3,8 rispetto a 2). Quello che lo caratterizza sono quindi il primo e il quarto item= mamme ansiose. Vediamo anche gli altri item. Poi cluster 1, basso su tutto se non per l’ultimo item. Analizzare anche gli altri item= rifiutano i prodotti industriali e fanno tutto loro, hanno quindi molto tempo e si dedicano a tempo pieno al bambino (non sono quindi particolarmente stressate e non seguono più di tanto le indicazioni). Cluster 3, più alto nei prodotti industriali, che vanno bene e sono comodi. Non sono stressate, i bambini si regolano da soli. Stanno ragionevolmente attente a ciò che è detto dal pediatra e si occupano meno di preparare le cose al bambino; saranno quindi le mamme che hanno anche da fare, magari lavorano. Il fatto che il valore più alto sia che utilizzano i prodotti industriali non vuole dire che utilizzano solo quelle, confrontando con gli altri cluster semplicemente li acquistano in quantità maggiori e le preparazioni a mano sono inferiori, ma anche qui non vuol dire che non lo facciano.
Vediamo che gli unici alti: che sia disponibile nelle fantasie varie; da lavare in lavatrice un altro alto ma molto meno: che sia senza cuciture. Assolutamente negativo: intimo contenitivo per migliorare la linea. Ricordarsi di commentare il VIF se c’è Esempio 9: CLUSTER Scala Likert 1- Interpretare i cluster. Abbiamo 3 cluster ora vediamo cosa sono:
nello stesso fattore, ma se uno è positivo, ‘altro sarà negativo altrimenti viceversa. Se un item è negativo significa che al crescere di quell’item il fattore a cui è correlato assume valori bassi. Guardiamo l’item “vicinanza gate”; influenza negativamente il fattore 4 (con un valore di -,251). Il fattore, quindi, indicherà la lontananza dl gate. Esempio 11: FATTORIALE Immaginiamoci un item aggiuntivo che abbia il significato tipo “sono fatti con materiale fragile” Io mi aspetto che finisca dentro al fattore 2, negativo. Nel fattore 2 per perché è quello relativo all’avanguardia tecnologica degli occhiali.
Es. comunalità alta (0,819), il che significa che tale variabile contribuisce in modo sostanziale (82%) alle due componenti estratte. CASO 2: CHI-QUADRATO Sulla base delle frequenze osservate (che risultano dal campione) e quelle teoriche (confronto tra frequenze), si può rilevare un singolo valore, l’indice X^2 , una misura sintetica della distanza dell’indipendenza. Test non parametrico. La condizione di applicabilità del test chi-quadrato è solo che il campione sia abbastanza grande, ovvero che ci siano abbastanza casi. In caso di perfetta indipendenza, quindi se frequenze osservate e teoriche sono uguali, chi- quadrato vale 0. Più grandi sono le differenze, più grande diventa chi-quadrato. Solo se chi al quadrato è uguale a zero le frequenze osservate e quelle attese sono uguali. P-value = probabilità di trovare valori maggiori o uguali di quello per puro effetto del caso, se l’ipotesi nulla è vera = probabilità di ottenere valori ≥ X^2. Vediamo ora i risultati: p-value " grande " (es. 𝑝 > 0,05) = test non significativo: il valore di X^2 non è significativamente maggiore di zero, i dati campionari non giustificano il rifiuto di 𝐻 0 al livello di significatività scelto. Le due variabili sono indipendenti perciò accettiamo H 0 p-value " piccolo " (es. 𝑝 < 0,05) = test significativo: il valore di X^2 è significativamente maggiore di zero, si rifiuta 𝐻 0 in favore di 𝐻 1 , esiste una associazione statisticamente significativa tra le due variabili al livello di significatività. Tra le due variabili c’è una relazione significativa, perciò rifiutiamo 𝐻 0 Tabella di contingenza: confrontiamo le percentuali con il totale. Non per caso in questo caso il no è 3 volte il si (75% nel no e 25% nel si). 82 è il triplo di 17? No, è molto di più, quindi si concentrano
nel no, ovvero nell’82. Uguale. 69 è il triplo di 30? No, è meno, quindi si concentrano nel si, ovvero nel 30. Se il rapporto fosse 3 a 1 saremmo in media. La massima concentrazione è nel no/nel si quindi i consumatori…. CASO 3: REGRESSIONE L’analisi è una regressione lineare, il cui scopo è capire quali attributi influenzano la valutazione globale (lo vedo dalla sezione “risposta val. glob.) e come essa si presenta, se in positivo o in negativo. Notiamo come prima cosa che la varianza è significativa, perciò possiamo procedere nell’analisi. R^2 spiega il 41% della valutazione globale, non è il massimo ma p un valore medio (0,4). Passando all’interpretazione evidenziamo le variabili significative, quali tra esse sono le più importanti e se ce n’è qualcuno significativo negativo. Dalla stima evidenziamo poi quelli più importanti e quelli meno. Passiamo infine all’indice VIF (>5 non va bene, in certi casi già se > 2), che controlla se ci sono item correlati tra loro e ci permette di capire se la collinearità è accettabile o meno. In questo caso sono presenti delle correlazioni ma non sono preoccupanti.
Abbiamo un risultato a 3 cluster di dimensioni paragonabili, infatti le percentuali non differenziano troppo l’una dall’altra. Parliamo della numerosità: il cluster 3 è quello più numeroso, mentre l’1 è il meno numeroso Descriviamo i cluster: Quindi queste variabili non sono state sottoposte ad analisi fattoriale, ma ci sono rimasti gli item originali. I cluster 1 basso su tutto tranne su acquisto prodotti freschi…. Non pensano che i prodotti industriali contengono tutto ciò che serve quindi un cluster di mamme che rifiutano i prodotti industriali e che preparano loro stesse la pappa, quindi avranno anche molto tempo da dedicare al bambino, questo comporta anche il fatto che non siano stressate Il cluster 2 ha valori molto alti un po’ su tutto, ma soprattutto (ed è questo che ne caratterizza la peculiarità) anche nell’item 1 con 3,8 e 3,1 per l’appuntamento pappa…. Ciò che caratterizza questo cluster sono ho sempre paura… e l’appuntamento pappa…. Quindi notiamo valori alti sull’ansia, stress e sull’essere scrupolose Cluster 3 non sono per niente stressate, sono coloro che ritengono che i prodotti industriali vadano benissimo, sono ragionevolmente attente a ciò che dice il pediatra e sono quelle che meno si occupano di preparare le cose a mano da sole.