Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

PROVE D'ESAME DATA MINING, Prove d'esame di Analisi Dei Dati

Università degli Studi di Roma La Sapienza (UNIROMA1)Analisi Dei Dati

Prof. Maria Felice Arezzo

Prove d'esame dell'esame di Data Mining tenuto dalla Prof.ssa Arezzo alla Sapienza.

Tipologia: Prove d'esame

2022/2023

In vendita dal 10/03/2025

Ginevra179 🇮🇹

4

(4)

9 documenti

1 / 30

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Metodi esplorativi per l’analisi dei dati e laboratorio di data mining

Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti

Acronimi e simboli: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali;

= scarto quadratico medio

1) Data una matrice A ed un vettore x, il sistema omogeneo ammette soluzioni se:

a) Il determinante di A è nullo

b) Il determinante di A è diverso da zero

c) Il determinante di Ax è nullo

2) Le matrici di distanza sono:

a) matrici unità-variabile

b) matrici unità-unità

c) matrici variabile-variabile

3) L’affermazione “i risultati dell’ACP condotta su dati scarto o su dati standardizzati sono uguali”

è:

a) Sempre vera

b) Sempre falsa

c) Vera solo se le variabili di partenza sono qualitative

4) Il determinante di una matrice A di dimensione 6x6 è:

a) uguale al prodotto dei suoi autovalori

b) uguale alla somma dei suoi autovalori

c) il determinante non è definito per le matrici rettangolari

5) Uno spazio vettoriale è un insieme di punti (vettori) per i quali:

a) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero

reale

b) E’ definita l’operazione di somma di vettori

c) E’ definita l’operazione di prodotto scalare

Scopri Prove d'esame di Analisi Dei Dati Università degli Studi di Roma La Sapienza (UNIROMA1)

Documenti correlati

Crocette Data Mining

DATA MINING 2023 - TRACCE DOMANDE APERTE UFFICIALI

(3)

LEZIONI RSTUDIO DATA MINING

Analisi dei Data e Data Mining 9Cfu Prof. Maria Felice Arezzo

(1)

Analisi dei dati e Data Mining 9Cfu Prof. Maria Felice Arezzo

(1)

PROVE D'ESAME DATA MINING 2

Lezioni di Data Mining 2016 prof. Arezzo

(5)

Riassunto di Analisi dei dati e data mining con la prof. Arezzo

Esercizi di Data Mining: Domande a Scelta Multipla su Vettori, Matrici e Algebra Lineare -

Analisi dei dati e data mining - Arezzo La Sapienza

(1)

Esercizi di Algebra Lineare: Vettori, Matrici e Spazi Vettoriali - Prof. Arezzo

DOMANDE DATA MINING AGGIORNATE 2022 - crocette e risposte aperte

Anteprima parziale del testo

Scarica PROVE D'ESAME DATA MINING e più Prove d'esame in PDF di Analisi Dei Dati solo su Docsity!

Metodi esplorativi per l’analisi dei dati e laboratorio di data mining

Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti

Acronimi e simboli: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali; = scarto quadratico medio

Data una matrice A ed un vettore x, il sistema omogeneo ammette soluzioni se: a) Il determinante di A è nullo b) Il determinante di A è diverso da zero c) Il determinante di Ax è nullo
Le matrici di distanza sono: a) matrici unità-variabile b) matrici unità-unità c) matrici variabile-variabile
L’affermazione “i risultati dell’ACP condotta su dati scarto o su dati standardizzati sono uguali” è: a) Sempre vera b) Sempre falsa c) Vera solo se le variabili di partenza sono qualitative
Il determinante di una matrice A di dimensione 6x6 è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) il determinante non è definito per le matrici rettangolari
Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di prodotto scalare

Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno
L’algoritmo k-medie è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico
L’affermazione “a partire dalla matrice di varianze e covarianze è possibile risalire alla matrice di correlazione” è: a) vera b) falsa c) vera solo se variabili sono tra loro indipendenti
Siano X e Y due variabili di cui si sa che: Cov(Y,X)=Var(Y)=4. La pendenza della retta di regressione 𝑌̂ = 𝑎𝑋 + 𝑏 è: a) 0. b) 1 c) non ci sono elementi sufficienti per il calcolo
Su un campione di n unità statistiche sono state stimate le due rette di regressione 𝑌̂ = 2 + 0.2𝑋 e 𝑋̂ = −2 + 3,5𝑌. Il coefficiente di determinazione R^2 vale: a) 0. b) 0. c) non ci sono elementi sufficienti per il calcolo
Nell’AC, la traccia della matrice da fattorizzare è data da: a)

b) c) Dipende se l’analisi è fatta sui profili riga o sui profili colonna

Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere
La distanza di Mahalanobis: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili b) É appropriata per variabili qualitative c) Nessuna delle precedenti

Data una matrice quadrata A, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori
Nell’AC le coordinate del punti unità (profili riga) sull' -simo asse fattoriale sono:

a)

b) c) Nessuno dei precedenti

Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico scissorio b) Un algoritmo non gerarchico c) Nessuno dei precedenti
Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi
I metodi di classificazione si applicano: a) direttamente alla matrice dei dati eventualmente trasformata opportunamente b) ai punteggi fattoriali c) Si può applicare sia alla matrice dei dati sia ai punteggi fattoriali

Rispondere alle domande seguenti a partire dall’appropriato output di R

26 ) Nell’AC i primi due assi fattoriali spiegano: a) 87.76% della variabilità totale b) 11.76% della variabilità totale c) nessuno dei precedenti

27 ) Nell’AC il punto (profilo riga o colonna) peggio rappresentato nella seconda dimensione fattoriale è: a) Senior Managers b) Senior Employees c) Nessuno dei precedenti

28 ) Nell’AC è possibile affermare che i punti “None” e “Senior employees” sono: a) quasi sovrapposti b) piuttosto vicini nella prima dimensione c) non possiamo fare alcun tipo di valutazione

29 ) L’algoritmo di clustering utilizzato, restituisce: a) 2 gruppi b) 3 gruppi c) dipende dall’altezza alla quale si esegue il taglio

30 ) L’affermazione “i residui del modello di regressione lineare sono normali” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere

Metodi esplorativi per l’analisi dei dati e laboratorio di data

mining Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Un versore è:

Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale b) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno

L’obiettivo dell’AC è: a) Studiare la dipendenza tra due caratteri statistici b) Studiare la struttura della interconnessione tra le modalità di due caratteri statistici c) Nessuno dei precedenti

Sapendo che Pc è la matrice dei profili colonna, che Pr è la matrice dei profili riga e che M è la metrica, nell’AC effettuata nello spazio dei punti profilo riga (spazio degli individui), la matrice da diagonalizzare è: a) Pc Pr b) P′rPc c) PcMPr

Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:

 1  1 ;  2  0 , 3 ; 3  0 , 2 ;  4  0 , 15. Il tasso di inerzia del piano fattoriale (due assi) è pari a (se non si

dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%

Data una tabella di contingenza con r righe e c colonne, i profili riga si ottengono:

a)

b)

c)

L’algoritmo che usa il metodo del legame singolo è: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere

La distanza di Minkosky: a) E’ appropriata allorché si vuole tener conto della correlazione tra variabili

i.

ij n

n

j

ij n

n .

n ..

nij

b) É appropriata per variabili qualitative c) Nessuna delle precedenti

La formula di Lance e Williams serve per: a) Calcolare la distanza tra nuclei in algoritmi scissori b) Calcolare la distanza tra nuclei in algoritmi non gerarchici c) Nessuna delle precedenti

Nel modello di regressione lineare, il grafico Q-Q consente di: a) controllare se i residui seguono una distribuzione normale b) controllare se i residui sono omoschedastici (hanno stessa varianza) c) nessuna delle precedenti

Una volta scelto il modello lineare Y ˆ= B 0 +B 1 X, l’applicazione del metodo dei minimi quadrati consiste nel porre la condizione:

a) ( Y ˆ-B 0 -B 1 X)^2 =minimo b) ( Yi -B 0 -B 1 Xi)^2 =minimo

c) Nessuna delle precedenti

Il coefficiente di correlazione lineare r tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti

La maledizione della dimensionalità è un problema che riguarda: a) la presenza di poche variabili b) la correlazione tra le variabili c) nessuno dei precedenti

Nella regressione locale, quale delle seguenti espressioni identifica il nucleo normale:

a) 1 √2𝜋 exp(−^

1 2 𝑧) b) 1 √2𝜋 exp(−^

1 2 𝑧

c) 1 √2𝜋 exp(

1 2 𝑧

Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) MXAX’ b) XAX’M c) Nessuno dei precedenti

b) 0. c) non ci sono elementi sufficienti per rispondere alla domanda

Metodi esplorativi per l’analisi dei dati e laboratorio di data

mining.

Prof. Maria Felice Arezzo.

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Una matrice quadrata A di dimensione k si dice idempotente se: a) A∙A=A b) A∙A=A^2 c) Nessuno dei precedenti

Il prodotto scalare tra due matrici è: a) un numero b) una matrice c) nessuno dei precedenti

Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori

Sia A una matrice (n,q) e sia B una matrice (q,n). Quale delle seguenti affermazioni è vera: a)

b)

c) Entrambe le affermazioni precedenti sono corrette

Quale delle seguenti affermazioni sulla distanza tra due punti è falsa: a) la distanza non dipende dall’ordine con cui si prendono i due punti b) la distanza è un numero positivo c) la distanza tra due punti è una funzione del prodotto scalare tra due vettori

Il determinante di una matrice quadrata è: a) uguale al prodotto dei suoi autovalori b) uguale alla somma dei suoi autovalori c) uguale alla somma dei suoi autovettori

tr ( AB ) tr ( BA ) det( AB ) det( A )det( B )

L’algoritmo di Edwards e Cavalli Sforza: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Il teorema di Huygens (scomposizione dell’inerzia) afferma che: a) L’inerzia interna è pari all’inerzia totale meno l’inerzia esterna b) L’inerzia complessiva è pari alla somma dell’inerzia interna e di quella esterna c) Le affermazioni precedenti, essendo equivalenti, sono entrambi vere

Il dendrogramma è una rappresentazione grafica adatta a: a) Un algoritmo gerarchico aggregativo b) Un algoritmo gerarchico scissorio c) Un algoritmo non gerarchico

Nel processo di classificazione è necessario conciliare: a) la massimizzazione dell’omogeneità interna dei gruppi con un numero ridotto di gruppi b) la massimizzazione dell’omogeneità interna dei gruppi con un numero elevato di gruppi c) la massimizzazione dell’omogeneità esterna dei gruppi con un numero ridotto di gruppi

Il modello Y ˆ i = f(Xi), può anche essere scritto nella forma:

a) Yi = f(Xi) + ei

b) Y ˆ i = f(Xi) + ei

c) Nessuna delle precedenti

La multicollinearità è un problema che riguarda: a) la presenza di forte correlazione tra la variabile dipendente (Y) e le esplicative (X) b) la presenza di correlazione debole tra la variabile dipendente (Y) e le esplicative (X) c) la presenza di forte correlazione tra le variabili esplicative (X)

La covarianza tra le variabili X e Y: a) è un numero puro b) ha come unità di misura il prodotto delle unità di misura di X e Y c) nessuna delle precedenti

La regressione locale consente di fare previsione sulla variabile dipendente: a) attraverso la conoscenza del valore dei parametri b) attraverso la conoscenza della curva loess c) il metodo non permette di fare la previsione della variabile dipendente

Nella regressione locale, quale delle seguenti espressioni identifica il nucleo biquadratico:

a) 15 16 (1 − 𝑧

b) 15 16 (1 − 𝑧

c) 16 15 (1 − 𝑧

Nel modello generale dell’analisi fattoriale effettuato sui punti variabile con una metrica data dalla matrice simmetrica M e un sistema di ponderazione dato dalla matrice simmetrica A, si diagonalizza: a) AXMX’ b) XMX’A c) Nessuno dei precedenti

Rispondere alle domande seguenti a partire dall’appropriato output di R

La bontà di adattamento del modello di regressione è: a) eccellente b) piuttosto scarsa c) non ci sono elementi sufficienti per rispondere alla domanda

Le variabili esplicative utilizzate nel modello di regressione lineare sono: a) 2 b) 3 c) 4

L’affermazione “nel modello di regressione vi è un grave problema di multicollinearità” è: a) vera b) falsa c) non ci sono elementi sufficienti per rispondere alla domanda

Nella cluster gerarchica, quanti gruppi si possono identificare in corrispondenza di un taglio fatto ad una altezza pari a 40: a) 2 b) 3 c) non ci sono elementi sufficienti per rispondere alla domanda

Sapendo che nella cluster analysis sono state utilizzate 3 variabili, quale era la dimensione della matrice dei dati originaria: a) 43x b) 34 x 3 c) non ci sono elementi sufficienti per rispondere alla domanda

Metodi esplorativi per l’analisi dei dati e laboratorio di data mining

Prof. Maria Felice Arezzo

Punteggio: risposta corretta=1 punto; risposta errata o mancata risposta = 0 punti Acronimi: AC= Analisi delle corrispondenze; ACP=Analisi in componenti principali

Data una matrice quadrata A in Rn, l’equazione caratteristica ad essa associata è: a) di grado n b) di grado n- c) non si può dire a priori

La traccia di una matrice è definita: a) qualunque siano le dimensioni della matrice b) solo per le matrici quadrate c) solo per le matrici diagonali

Quale delle seguenti affermazioni sul determinante di due matrici A e B è corretta: a) det( A+B ) = det( A ) + det( B ) b)

c) Entrambe le precedenti affermazioni sono corrette

Siano date due matrici quadrate A e B della stessa dimensione ed uno scalare k. Quale delle seguenti affermazioni è corretta: a) b) c)

La metrica definita su uno spazio metrico influenza: a) la distanza tra i punti b) l’angolo formato da due vettori c) entrambe le precedenti

Uno spazio vettoriale è un insieme di punti (vettori) per i quali: a) E’ definita l’operazione di prodotto scalare b) E’ definita l’operazione di somma di vettori c) E’ definita l’operazione di somma di vettori e di moltiplicazione di un vettore per un numero reale

det( A  B )det( A )det( B )

kAB  kBA kAB  BAk kAB  kBA

Se si è effettuata una ACP su dati scarto è possibile passare direttamente ai risultati dell’ACP sui dati standardizzati? a) Sì, basta applicare appropriate formule b) No, occorre effettuare l’analisi dall’inizio c) Solo se i dati di partenza sono qualitativi

Nell’ACP, il contributo assoluto di un punto: a) esprime quanto quel punto è stato ben riprodotto sull’asse fattoriale b) esprime quanto quel punto ha contribuito alla costruzione dell’asse fattoriale c) esprime quanto quel punto spiega della variabilità complessiva del fenomeno

Nell’ACP, il coefficiente di correlazione tra la k-sima variabile Xk e la p-sima componente Cp, è (si tenga presente che 𝛾𝑝 è l’autovalore, 𝑢𝑝 è l’autovettore, 𝑠.𝑘 è lo scarto quadratico medio di Xk):

a)

𝛾𝑝 𝑢𝑝 𝑠.𝑘

b)

√𝛾𝑝 𝑢𝑝 𝑠.𝑘 c) nessuno dei precedenti

Nell’AC il primo autovalore della matrice da diagonalizzare è: a) 1 b) 0 c) Dipende da come sono strutturati i profili riga e colonna

Nell’AC effettuata nello spazio dei profili colonna, la matrice dei pesi contiene: a) I totali marginali di colonna rapportati al totale generale b) I totali marginali di riga rapportati al totale generale c) Nessuno dei precedenti

Si ipotizzi di avere effettuato una AC e di avere trovato i seguenti autovalori:

 1  1 ;  2  0 , 3 ; 3  0 , 2 ;  4  0 , 15. Il tasso di inerzia della prima dimensione fattoriale è pari a (se

non si dispone di una calcolatrice, indicare come si calcola il tasso richiesto): a) Circa il 46% b) Circa il 77% c) Circa il 18%