






















Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prove d'esame dell'esame di Data Mining tenuto dalla Prof.ssa Arezzo alla Sapienza.
Tipologia: Prove d'esame
1 / 30
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!























Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti
Acronimi e simboli: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali; = scarto quadratico medio
Data una matrice A ed un vettore x, il sistema omogeneo ammette soluzioni se: a) Il determinante di A è nullo b) Il determinante di A è diverso da zero c) Il determinante di Ax è nullo
Le matrici di distanza sono: a) matrici unità-variabile b) matrici unità-unità c) matrici variabile-variabile
L’affermazione “i risultati dell’ACP condotta su dati scarto o su dati standardizzati sono uguali” è: a) Sempre vera b) Sempre falsa c) Vera solo se le variabili di partenza sono qualitative
Il determinante di una matrice A di dimensione 6x6 è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) il determinante non è definito per le matrici rettangolari
Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di prodotto scalare
Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno
L’algoritmo k-medie è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico
L’affermazione “a partire dalla matrice di varianze e covarianze è possibile risalire alla matrice di correlazione” è: a) vera b) falsa c) vera solo se variabili sono tra loro indipendenti
Siano X e Y due variabili di cui si sa che: Cov(Y,X)=Var(Y)=4. La pendenza della retta di regressione 𝑌̂ = 𝑎𝑋 + 𝑏 è: a) 0. b) 1 c) non ci sono elementi sufficienti per il calcolo
Su un campione di n unità statistiche sono state stimate le due rette di regressione 𝑌̂ = 2 + 0.2𝑋 e 𝑋̂ = −2 + 3,5𝑌. Il coefficiente di determinazione R^2 vale: a) 0. b) 0. c) non ci sono elementi sufficienti per il calcolo
Nell’AC, la traccia della matrice da fattorizzare è data da: a)
b) c) Dipende se l’analisi è fatta sui profili riga o sui profili colonna
Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere
La distanza di Mahalanobis: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili b) É appropriata per variabili qualitative c) Nessuna delle precedenti
Data una matrice quadrata A, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori
Nell’AC le coordinate del punti unità (profili riga) sull' -simo asse fattoriale sono:
a)
b) c) Nessuno dei precedenti
Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico scissorio b) Un algoritmo non gerarchico c) Nessuno dei precedenti
Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi
I metodi di classificazione si applicano: a) direttamente alla matrice dei dati eventualmente trasformata opportunamente b) ai punteggi fattoriali c) Si può applicare sia alla matrice dei dati sia ai punteggi fattoriali
26 ) Nell’AC i primi due assi fattoriali spiegano: a) 87.76% della variabilità totale b) 11.76% della variabilità totale c) nessuno dei precedenti
27 ) Nell’AC il punto (profilo riga o colonna) peggio rappresentato nella seconda dimensione fattoriale è: a) Senior Managers b) Senior Employees c) Nessuno dei precedenti
28 ) Nell’AC è possibile affermare che i punti “None” e “Senior employees” sono: a) quasi sovrapposti b) piuttosto vicini nella prima dimensione c) non possiamo fare alcun tipo di valutazione
29 ) L’algoritmo di clustering utilizzato, restituisce: a) 2 gruppi b) 3 gruppi c) dipende dall’altezza alla quale si esegue il taglio
30 ) L’affermazione “i residui del modello di regressione lineare sono normali” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere
Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali
Un versore è:
Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale b) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno
L’obiettivo dell’AC è: a) Studiare la dipendenza tra due caratteri statistici b) Studiare la struttura della interconnessione tra le modalità di due caratteri statistici c) Nessuno dei precedenti
Sapendo che Pc è la matrice dei profili colonna, che Pr è la matrice dei profili riga e che M è la metrica, nell’AC effettuata nello spazio dei punti profilo riga (spazio degli individui), la matrice da diagonalizzare è: a) Pc Pr b) P′rPc c) PcMPr
Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:
dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%
Data una tabella di contingenza con r righe e c colonne, i profili riga si ottengono:
a)
b)
c)
L’algoritmo che usa il metodo del legame singolo è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico
Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere
La distanza di Minkosky: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili
i.
ij n
n
j
ij n
n .
n ..
nij
b) É appropriata per variabili qualitative c) Nessuna delle precedenti
La formula di Lance e Williams serve per: a) Calcolare la distanza tra nuclei in algoritmi scissori b) Calcolare la distanza tra nuclei in algoritmi non gerarchici c) Nessuna delle precedenti
Nel modello di regressione lineare, il grafico Q-Q consente di: a) controllare se i residui seguono una distribuzione normale b) controllare se i residui sono omoschedastici (hanno stessa varianza) c) nessuna delle precedenti
Una volta scelto il modello lineare Y ˆ= B 0 +B 1 X, l’applicazione del metodo dei minimi quadrati consiste nel porre la condizione:
a) ( Y ˆ-B 0 -B 1 X)^2 =minimo b) ( Yi -B 0 -B 1 Xi)^2 =minimo
c) Nessuna delle precedenti
Il coefficiente di correlazione lineare r tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti
La maledizione della dimensionalità è un problema che riguarda: a) la presenza di poche variabili b) la correlazione tra le variabili c) nessuno dei precedenti
Nella regressione locale, quale delle seguenti espressioni identifica il nucleo normale:
a) 1 √2𝜋 exp(−^
1 2 𝑧) b) 1 √2𝜋 exp(−^
1 2 𝑧
c) 1 √2𝜋 exp(
1 2 𝑧
Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) MXAX’ b) XAX’M c) Nessuno dei precedenti
b) 0. c) non ci sono elementi sufficienti per rispondere alla domanda
Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali
Una matrice quadrata A di dimensione k si dice idempotente se: a) A∙A=A b) A∙A=A^2 c) Nessuno dei precedenti
Il prodotto scalare tra due matrici è: a) un numero b) una matrice c) nessuno dei precedenti
Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori
Sia A una matrice (n,q) e sia B una matrice (q,n). Quale delle seguenti affermazioni è vera: a)
b)
c) Entrambe le affermazioni precedenti sono corrette
Quale delle seguenti affermazioni sulla distanza tra due punti è falsa: a) la distanza non dipende dall’ordine con cui si prendono i due punti b) la distanza è un numero positivo c) la distanza tra due punti è una funzione del prodotto scalare tra due vettori
Il determinante di una matrice quadrata è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) uguale alla somma dei suoi autovettori
tr ( AB ) tr ( BA ) det( AB ) det( A )det( B )
L’algoritmo di Edwards e Cavalli Sforza: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico
Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere
Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico
Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi
Il modello Y ˆ i = f(Xi), può anche essere scritto nella forma:
a) Yi = f(Xi) + ei
b) Y ˆ i = f(Xi) + ei
c) Nessuna delle precedenti
La multicollinearità è un problema che riguarda: a) la presenza di forte correlazione tra la variabile dipendente (Y) e le esplicative (X) b) la presenza di correlazione debole tra la variabile dipendente (Y) e le esplicative (X) c) la presenza di forte correlazione tra le variabili esplicative (X)
La covarianza tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti
La regressione locale consente di fare previsione sulla variabile dipendente: a) attraverso la conoscenza del valore dei parametri b) attraverso la conoscenza della curva loess c) il metodo non permette di fare la previsione della variabile dipendente
Nella regressione locale, quale delle seguenti espressioni identifica il nucleo biquadratico:
a) 15 16 (1 − 𝑧
b) 15 16 (1 − 𝑧
c) 16 15 (1 − 𝑧
Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) AXMX’ b) XMX’A c) Nessuno dei precedenti
Rispondere alle domande seguenti a partire dall’appropriato output di R
La bontà di adattamento del modello di regressione è: a) eccellente b) piuttosto scarsa c) non ci sono elementi sufficienti per rispondere alla domanda
Le variabili esplicative utilizzate nel modello di regressione lineare sono: a) 2 b) 3 c) 4
L’affermazione “nel modello di regressione vi è un grave problema di multicollinearità” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere alla domanda
Nella cluster gerarchica, quanti gruppi si possono identificare in corrispondenza di un taglio fatto ad una altezza pari a 40: a) 2 b) 3 c) non ci sono elementi sufficienti per rispondere alla domanda
Sapendo che nella cluster analysis sono state utilizzate 3 variabili, quale era la dimensione della matrice dei dati originaria: a) 43x b) 34 x 3 c) non ci sono elementi sufficienti per rispondere alla domanda
Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali
Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori
La traccia di una matrice è definita: a) qualunque siano le dimensioni della matrice b) solo per le matrici quadrate c) solo per le matrici diagonali
Quale delle seguenti affermazioni sul determinante di due matrici A e B è corretta: a) det( A+B ) = det( A ) + det( B ) b)
c) Entrambe le precedenti affermazioni sono corrette
Siano date due matrici quadrate A e B della stessa dimensione ed uno scalare k. Quale delle seguenti affermazioni è corretta: a) b) c)
La metrica definita su uno spazio metrico influenza: a) la distanza tra i punti b) l’angolo formato da due vettori c) entrambe le precedenti
Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di prodotto scalare b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale
det( A B )det( A )det( B )
kAB kBA kAB BAk kAB kBA
Se si è effettuata una ACP su dati scarto è possibile passare direttamente ai risultati dell’ACP sui dati standardizzati? a) Sì, basta applicare appropriate formule b) No, occorre effettuare l’analisi dall’inizio c) Solo se i dati di partenza sono qualitativi
Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno
Nell’ACP, il coefficiente di correlazione tra la k-sima variabile Xk e la p-sima componente Cp, è (si tenga presente che 𝛾𝑝 è l’autovalore, 𝑢𝑝 è l’autovettore, 𝑠.𝑘 è lo scarto quadratico medio di Xk):
a)
𝛾𝑝 𝑢𝑝 𝑠.𝑘
b)
√𝛾𝑝 𝑢𝑝 𝑠.𝑘 c) nessuno dei precedenti
Nell’AC il primo autovalore della matrice da diagonalizzare è: a) 1 b) 0 c) Dipende da come sono strutturati i profili riga e colonna
Nell’AC effettuata nello spazio dei profili colonna, la matrice dei pesi contiene: a) I totali marginali di colonna rapportati al totale generale b) I totali marginali di riga rapportati al totale generale c) Nessuno dei precedenti
Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:
non si dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%