Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


PROVE D'ESAME DATA MINING, Prove d'esame di Analisi Dei Dati

Prove d'esame dell'esame di Data Mining tenuto dalla Prof.ssa Arezzo alla Sapienza.

Tipologia: Prove d'esame

2022/2023

In vendita dal 10/03/2025

Ginevra179
Ginevra179 🇮🇹

4

(4)

9 documenti

1 / 30

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Metodi esplorativi per l’analisi dei dati e laboratorio di data mining
Prof. Maria Felice Arezzo
Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti
Acronimi e simboli: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali;
= scarto quadratico medio
1) Data una matrice A ed un vettore x, il sistema omogeneo ammette soluzioni se:
a) Il determinante di A è nullo
b) Il determinante di A è diverso da zero
c) Il determinante di Ax è nullo
2) Le matrici di distanza sono:
a) matrici unità-variabile
b) matrici unità-unità
c) matrici variabile-variabile
3) L’affermazione “i risultati dell’ACP condotta su dati scarto o su dati standardizzati sono uguali”
è:
a) Sempre vera
b) Sempre falsa
c) Vera solo se le variabili di partenza sono qualitative
4) Il determinante di una matrice A di dimensione 6x6 è:
a) uguale al prodotto dei suoi autovalori
b) uguale alla somma dei suoi autovalori
c) il determinante non è definito per le matrici rettangolari
5) Uno spazio vettoriale è un insieme di punti (vettori) per i quali:
a) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero
reale
b) E’ definita l’operazione di somma di vettori
c) E’ definita l’operazione di prodotto scalare
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e

Anteprima parziale del testo

Scarica PROVE D'ESAME DATA MINING e più Prove d'esame in PDF di Analisi Dei Dati solo su Docsity!

Metodi esplorativi per l’analisi dei dati e laboratorio di data mining

Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti

Acronimi e simboli: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali; = scarto quadratico medio

  1. Data una matrice A ed un vettore x, il sistema omogeneo ammette soluzioni se: a) Il determinante di A è nullo b) Il determinante di A è diverso da zero c) Il determinante di Ax è nullo

  2. Le matrici di distanza sono: a) matrici unità-variabile b) matrici unità-unità c) matrici variabile-variabile

  3. L’affermazione “i risultati dell’ACP condotta su dati scarto o su dati standardizzati sono uguali” è: a) Sempre vera b) Sempre falsa c) Vera solo se le variabili di partenza sono qualitative

  4. Il determinante di una matrice A di dimensione 6x6 è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) il determinante non è definito per le matrici rettangolari

  5. Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di prodotto scalare

  1. Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno

  2. L’algoritmo k-medie è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

  3. L’affermazione “a partire dalla matrice di varianze e covarianze è possibile risalire alla matrice di correlazione” è: a) vera b) falsa c) vera solo se variabili sono tra loro indipendenti

  4. Siano X e Y due variabili di cui si sa che: Cov(Y,X)=Var(Y)=4. La pendenza della retta di regressione 𝑌̂ = 𝑎𝑋 + 𝑏 è: a) 0. b) 1 c) non ci sono elementi sufficienti per il calcolo

  5. Su un campione di n unità statistiche sono state stimate le due rette di regressione 𝑌̂ = 2 + 0.2𝑋 e 𝑋̂ = −2 + 3,5𝑌. Il coefficiente di determinazione R^2 vale: a) 0. b) 0. c) non ci sono elementi sufficienti per il calcolo

  6. Nell’AC, la traccia della matrice da fattorizzare è data da: a)

b) c) Dipende se l’analisi è fatta sui profili riga o sui profili colonna

  1. Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere

  2. La distanza di Mahalanobis: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili b) É appropriata per variabili qualitative c) Nessuna delle precedenti

  1. Data una matrice quadrata A, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori

  2. Nell’AC le coordinate del punti unità (profili riga) sull' -simo asse fattoriale sono:

a)

b) c) Nessuno dei precedenti

  1. Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico scissorio b) Un algoritmo non gerarchico c) Nessuno dei precedenti

  2. Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi

  3. I metodi di classificazione si applicano: a) direttamente alla matrice dei dati eventualmente trasformata opportunamente b) ai punteggi fattoriali c) Si può applicare sia alla matrice dei dati sia ai punteggi fattoriali

Rispondere alle domande seguenti a partire dall’appropriato output di R

26 ) Nell’AC i primi due assi fattoriali spiegano: a) 87.76% della variabilità totale b) 11.76% della variabilità totale c) nessuno dei precedenti

27 ) Nell’AC il punto (profilo riga o colonna) peggio rappresentato nella seconda dimensione fattoriale è: a) Senior Managers b) Senior Employees c) Nessuno dei precedenti

28 ) Nell’AC è possibile affermare che i punti “None” e “Senior employees” sono: a) quasi sovrapposti b) piuttosto vicini nella prima dimensione c) non possiamo fare alcun tipo di valutazione

29 ) L’algoritmo di clustering utilizzato, restituisce: a) 2 gruppi b) 3 gruppi c) dipende dall’altezza alla quale si esegue il taglio

30 ) L’affermazione “i residui del modello di regressione lineare sono normali” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere


Metodi esplorativi per l’analisi dei dati e laboratorio di data

mining Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Un versore è:

Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale b) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno

L’obiettivo dell’AC è: a) Studiare la dipendenza tra due caratteri statistici b) Studiare la struttura della interconnessione tra le modalità di due caratteri statistici c) Nessuno dei precedenti

Sapendo che Pc è la matrice dei profili colonna, che Pr è la matrice dei profili riga e che M è la metrica, nell’AC effettuata nello spazio dei punti profilo riga (spazio degli individui), la matrice da diagonalizzare è: a) Pc Pr b) P′rPc c) PcMPr

Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:

 1  1 ;  2  0 , 3 ; 3  0 , 2 ;  4  0 , 15. Il tasso di inerzia del piano fattoriale (due assi) è pari a (se non si

dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%

Data una tabella di contingenza con r righe e c colonne, i profili riga si ottengono:

a)

b)

c)

L’algoritmo che usa il metodo del legame singolo è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere

La distanza di Minkosky: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili

i.

ij n

n

j

ij n

n .

n ..

nij

b) É appropriata per variabili qualitative c) Nessuna delle precedenti

La formula di Lance e Williams serve per: a) Calcolare la distanza tra nuclei in algoritmi scissori b) Calcolare la distanza tra nuclei in algoritmi non gerarchici c) Nessuna delle precedenti

Nel modello di regressione lineare, il grafico Q-Q consente di: a) controllare se i residui seguono una distribuzione normale b) controllare se i residui sono omoschedastici (hanno stessa varianza) c) nessuna delle precedenti

Una volta scelto il modello lineare Y ˆ= B 0 +B 1 X, l’applicazione del metodo dei minimi quadrati consiste nel porre la condizione:

a) ( Y ˆ-B 0 -B 1 X)^2 =minimo b) ( Yi -B 0 -B 1 Xi)^2 =minimo

c) Nessuna delle precedenti

Il coefficiente di correlazione lineare r tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti

La maledizione della dimensionalità è un problema che riguarda: a) la presenza di poche variabili b) la correlazione tra le variabili c) nessuno dei precedenti

Nella regressione locale, quale delle seguenti espressioni identifica il nucleo normale:

a) 1 √2𝜋 exp(−^

1 2 𝑧) b) 1 √2𝜋 exp(−^

1 2 𝑧

c) 1 √2𝜋 exp(

1 2 𝑧

Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) MXAX’ b) XAX’M c) Nessuno dei precedenti

b) 0. c) non ci sono elementi sufficienti per rispondere alla domanda

Metodi esplorativi per l’analisi dei dati e laboratorio di data

mining.

Prof. Maria Felice Arezzo.

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Una matrice quadrata A di dimensione k si dice idempotente se: a) A∙A=A b) A∙A=A^2 c) Nessuno dei precedenti

Il prodotto scalare tra due matrici è: a) un numero b) una matrice c) nessuno dei precedenti

Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori

Sia A una matrice (n,q) e sia B una matrice (q,n). Quale delle seguenti affermazioni è vera: a)

b)

c) Entrambe le affermazioni precedenti sono corrette

Quale delle seguenti affermazioni sulla distanza tra due punti è falsa: a) la distanza non dipende dall’ordine con cui si prendono i due punti b) la distanza è un numero positivo c) la distanza tra due punti è una funzione del prodotto scalare tra due vettori

Il determinante di una matrice quadrata è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) uguale alla somma dei suoi autovettori

tr ( AB ) tr ( BA ) det( AB ) det( A )det( B )

L’algoritmo di Edwards e Cavalli Sforza: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere

Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi

Il modello Y ˆ i = f(Xi), può anche essere scritto nella forma:

a) Yi = f(Xi) + ei

b) Y ˆ i = f(Xi) + ei

c) Nessuna delle precedenti

La multicollinearità è un problema che riguarda: a) la presenza di forte correlazione tra la variabile dipendente (Y) e le esplicative (X) b) la presenza di correlazione debole tra la variabile dipendente (Y) e le esplicative (X) c) la presenza di forte correlazione tra le variabili esplicative (X)

La covarianza tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti

La regressione locale consente di fare previsione sulla variabile dipendente: a) attraverso la conoscenza del valore dei parametri b) attraverso la conoscenza della curva loess c) il metodo non permette di fare la previsione della variabile dipendente

Nella regressione locale, quale delle seguenti espressioni identifica il nucleo biquadratico:

a) 15 16 (1 − 𝑧

b) 15 16 (1 − 𝑧

c) 16 15 (1 − 𝑧

Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) AXMX’ b) XMX’A c) Nessuno dei precedenti

Rispondere alle domande seguenti a partire dall’appropriato output di R

La bontà di adattamento del modello di regressione è: a) eccellente b) piuttosto scarsa c) non ci sono elementi sufficienti per rispondere alla domanda

Le variabili esplicative utilizzate nel modello di regressione lineare sono: a) 2 b) 3 c) 4

L’affermazione “nel modello di regressione vi è un grave problema di multicollinearità” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere alla domanda

Nella cluster gerarchica, quanti gruppi si possono identificare in corrispondenza di un taglio fatto ad una altezza pari a 40: a) 2 b) 3 c) non ci sono elementi sufficienti per rispondere alla domanda

Sapendo che nella cluster analysis sono state utilizzate 3 variabili, quale era la dimensione della matrice dei dati originaria: a) 43x b) 34 x 3 c) non ci sono elementi sufficienti per rispondere alla domanda

Metodi esplorativi per l’analisi dei dati e laboratorio di data mining

Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori

La traccia di una matrice è definita: a) qualunque siano le dimensioni della matrice b) solo per le matrici quadrate c) solo per le matrici diagonali

Quale delle seguenti affermazioni sul determinante di due matrici A e B è corretta: a) det( A+B ) = det( A ) + det( B ) b)

c) Entrambe le precedenti affermazioni sono corrette

Siano date due matrici quadrate A e B della stessa dimensione ed uno scalare k. Quale delle seguenti affermazioni è corretta: a) b) c)

La metrica definita su uno spazio metrico influenza: a) la distanza tra i punti b) l’angolo formato da due vettori c) entrambe le precedenti

Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di prodotto scalare b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale

det( AB )det( A )det( B )

kABkBA kABBAk kABkBA

Se si è effettuata una ACP su dati scarto è possibile passare direttamente ai risultati dell’ACP sui dati standardizzati? a) Sì, basta applicare appropriate formule b) No, occorre effettuare l’analisi dall’inizio c) Solo se i dati di partenza sono qualitativi

Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno

Nell’ACP, il coefficiente di correlazione tra la k-sima variabile Xk e la p-sima componente Cp, è (si tenga presente che 𝛾𝑝 è l’autovalore, 𝑢𝑝 è l’autovettore, 𝑠.𝑘 è lo scarto quadratico medio di Xk):

a)

𝛾𝑝 𝑢𝑝 𝑠.𝑘

b)

√𝛾𝑝 𝑢𝑝 𝑠.𝑘 c) nessuno dei precedenti

Nell’AC il primo autovalore della matrice da diagonalizzare è: a) 1 b) 0 c) Dipende da come sono strutturati i profili riga e colonna

Nell’AC effettuata nello spazio dei profili colonna, la matrice dei pesi contiene: a) I totali marginali di colonna rapportati al totale generale b) I totali marginali di riga rapportati al totale generale c) Nessuno dei precedenti

Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:

 1  1 ;  2  0 , 3 ; 3  0 , 2 ;  4  0 , 15. Il tasso di inerzia della prima dimensione fattoriale è pari a (se

non si dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%