data mining crocette | Prove d'esame di Analisi Dei Dati

● La differenza tra approccio multivariato e multidimensionale:

a. Sta nell’uso di approcci inferenziali

b. Sta nel privilegiare variabili normali nell’analisi

c. Sta nel privilegiare l’approccio campionario

d. Deriva da aspetti legati ai tre aspetti precedentemente citati

La a non basta: è vero che il multivariato è più inferenziale, mentre il multidimensionale è più

descrittivo/esplorativo. Quindi questa è parzialmente corretta ma non completa

Nella risposta b sia le analisi multivariate che multidimensionali possono trattare variabili

nominali, ordinali, cardinali.

Per quanto riguarda la risposta c l’approccio multivariato è spesso campionario perché parte

da un campione per infierire sulla popolazione; ma il multidimensionale può usare anche dati

campionari, o dati di popolazione, o big data quindi anche questa è corretta parzialmente.

La d è la più giusta perché tiene conto dell’approccio interferenziale (vero per il multivariato),

della natura delle variabili, della fonte dei dati (campione o popolazione) non riduce tutto a

un solo fattore.

● La differenza tra approccio multivariato e multidimensionale (Benzecri):

a. Sta nell’uso di approcci inferenziali

b. Sta nel privilegiare variabili normali nell’analisi

c. Sta nel privilegiare l’approccio campionario

d. Deriva dalla quantità di dati raccolti/da analizzare

La b non è giusta perché entrambi gli approcci possono analizzare variabili che non seguono

necessariamente una distribuzione normale

La c non è giusta perché questa non è la differenza principale; sia l’approccio multivariato

che quello dimensionale possono lavorare su dati campionari o di popolazione

La d non è giusta perché la quantità di dati non è la differenza principale tra i due approcci

La a è giusta perché l'approccio multidimensionale (benzecri) descrive relazioni tra dati

usando la geometria e visualizzazioni, senza fare inferenze statistiche; l’approccio

multivariato usa la statistica classica per fare inferenze su più variabili contemporaneamente

● La statistica multidimensionale:

a. privilegia variabili normali

b. privilegia dati censuari

c. privilegia grandi basi di dati

d. necessita di modesti errori campionari

La a è errata perché le variabili normali sono rare

La b è errata perche l’origine del dato non è rilevante

La d è errata perché non necessita del controllo dell'errore campionario

La c è giusta: la statistica multidimensionale lavora meglio su grandi basi di dati

Anteprima parziale del testo

Scarica data mining crocette e più Prove d'esame in PDF di Analisi Dei Dati solo su Docsity!

● La differenza tra approccio multivariato e multidimensionale: a. Sta nell’uso di approcci inferenziali b. Sta nel privilegiare variabili normali nell’analisi c. Sta nel privilegiare l’approccio campionario d. Deriva da aspetti legati ai tre aspetti precedentemente citati La a non basta: è vero che il multivariato è più inferenziale, mentre il multidimensionale è più descrittivo/esplorativo. Quindi questa è parzialmente corretta ma non completa Nella risposta b sia le analisi multivariate che multidimensionali possono trattare variabili nominali, ordinali, cardinali. Per quanto riguarda la risposta c l’approccio multivariato è spesso campionario perché parte da un campione per infierire sulla popolazione; ma il multidimensionale può usare anche dati campionari, o dati di popolazione, o big data quindi anche questa è corretta parzialmente. La d è la più giusta perché tiene conto dell’approccio interferenziale (vero per il multivariato), della natura delle variabili, della fonte dei dati (campione o popolazione) non riduce tutto a un solo fattore. ● La differenza tra approccio multivariato e multidimensionale (Benzecri): a. Sta nell’uso di approcci inferenziali b. Sta nel privilegiare variabili normali nell’analisi c. Sta nel privilegiare l’approccio campionario d. Deriva dalla quantità di dati raccolti/da analizzare La b non è giusta perché entrambi gli approcci possono analizzare variabili che non seguono necessariamente una distribuzione normale La c non è giusta perché questa non è la differenza principale; sia l’approccio multivariato che quello dimensionale possono lavorare su dati campionari o di popolazione La d non è giusta perché la quantità di dati non è la differenza principale tra i due approcci La a è giusta perché l'approccio multidimensionale (benzecri) descrive relazioni tra dati usando la geometria e visualizzazioni, senza fare inferenze statistiche; l’approccio multivariato usa la statistica classica per fare inferenze su più variabili contemporaneamente ● La statistica multidimensionale: a. privilegia variabili normali b. privilegia dati censuari c. privilegia grandi basi di dati d. necessita di modesti errori campionari La a è errata perché le variabili normali sono rare La b è errata perche l’origine del dato non è rilevante La d è errata perché non necessita del controllo dell'errore campionario La c è giusta: la statistica multidimensionale lavora meglio su grandi basi di dati

● La chiave primaria: a. è una relazione essenziale in ogni database: b. è una specifica variabile numerica c. è un’informazione che consente l’individuazione precisa del dato d. è una variabile alfanumerica testuale La a non è giusta perché la chiave primaria non è una relazione ma è un costrutto che identifica ogni record della tabella. La b e la d non sono giuste perché la chiave primaria può essere sia numerica che alfanumerica testuale. La c è giusta perché la sua funzione principale è quella di identificare in modo univoco ciascun dato o record, permettendo così di distinguerlo dagli altri. La chiave primaria può essere composta da uno o più campi e può essere di tipo numerico, alfanumerico o anche testuale, purché mantenga l’unicità per ogni record. ● La chiave primaria: a. è un attributo essenziale in ogni database; b. è una variabile numerica; c. contiene informazione univoca per ogni ennupla di dati; d. è una variabile testuale La a è sbagliata perché e raccomandata ma non è essenziale in ogni database La b è sbagliata perchè una chiave primaria può essere numerica ma non è obbligatorio La d è falsa perchè una chiave può essere testuale ma non lo è sempre La c è giusta perché è la definizione di chiave primaria: la chiave primaria garantisce che ogni riga sia identificabile in modo unico. Ogni valore della chiave primaria deve essere unico e non nullo, non è obbligatoria in ogni database, anche se è fortemente raccomandata in ogni tabella che necessita identificazione univoca. ● Una chiave primaria: a. è un costrutto che assume il ruolo di identificativo primario della banca dati b. è un insieme di attributi che assumono il ruolo di identificativo primario della banca dati c. è un attributo che assume il ruolo di identificativo primario della banca d. è una variabile che assume il ruolo di identificativo primario della banca dati Costrutto; è un termine più generale che può indicare un concetto astratto che rappresenta un ruolo specifico ;interno del modello di dati. La chiave primaria è un elemento fondamentale che assume un ruolo identificativo all’;interno della banca dati.

● La rappresentazione grafica dello schema E-R: a. si basa su costrutti grafici quali rombi, rettangoli e fiammiferi b. si basa su costrutti grafici quali rombi c. si basa su costrutti grafici quali rettangoli d. si basa su costrutti quali fiammiferi La a è la più precisa e completa perché include lì tutti ● L’attributo composto nello schema e - r: a. è formato da due o più attributi semplici b. può essere individuato come chiave primaria c. è formato da due attributi simili d. è formato da due o tre attributi simili La b è errata poichè è pericoloso usare attributi composti come chiave primaria La c è falsa perché gli attributi non devono essere simili, ma diversi La d è completamente errata La a è giusta ● Nella teoria dell'indicazione il modello transfer: a. altera profondamente le variabili elementari per essere trasformate in indici compositi b. altera profondamente le variabili elementari per essere trasformate in indicatori elementari c. considera, tra l’altro il nesso causale tra variabile e fenomeno da quantificare/misurare d. suggerisce la necessità di varie operazioni, anche di statistica inferenziale La c è la giusta perché nella teoria dell’indicazione il modello transfer si concentra sull’analisi dei rapporti tra variabili e il fenomeno che si intende quantificare o misurare. Questo modello cerca di stabilire una relazione causale che possa giustificare l’uso di variabili per costruire indicatori e indici compositi. La comprensione del nesso causale è fondamentale per garantire che le variabili utilizzate siano appropriate e significative nel contesto dell’analisi La a è sbagliata perché sebbene le variabili possano essere trasformate, l’entità del modello transfer non è sull’alterazione profonda, ma sulla loro relazione con il fenomeno La b è sbagliata poiché l’obiettivo non è tanto l'alterazione profonda quanto l’uso delle variabili per riflettere una realtà misurabile. La d non è giusta perché anche se la statistica inferenziale può essere utilizzata nel contesto della costruzione di indici, non è il focus principale del modello transfer. Il modello si concentra più sulla relazione tra variabili e fenomeni.

● Nella teoria dell’indicazione, il modello transfer: a. Si adatta bene a variabili normali b. Necessita variabili scalari c. Tollera variabili dicotomiche (dummies) d. Suggerisce la necessità di varie operazioni, anche di statistica inferenziale Nella teoria dell’indicazione il modello transfer prevede la trasformazione di variabili o indicatori in base alla loro relazione con un costrutto latente o una variabile di interesse. Questo processo richiede spesso operazioni statistiche avanzate e può includere metodi di statistica inferenziale ● Nella teoria dell’indicazione, il modello transfer: a. può includere la standardizzazione delle variabili b. necessità di standardizzare i casi c. predilige variabili normali d. si adatta bene a variabili dicotomiche Le variabili dicotomiche sono molto importanti in questa casistica, dato che sono variabili con due soli valori possibili ● Nella teoria dell’indicazione, il modello transfer: a. altera profondamente le variabili elementari per essere trasformate in indici compositi; b. altera profondamente le variabili elementari per essere trasformate in indicatori elementari c. Considera, tra l’altro, il nesso causale tra variabile e fenomeno da quantificare/misurare d. suggerisce la necessità di varie operazioni, anche di statistica inferenziale La a non è vera perché il modello transfer non altera le variabili ma le seleziona, trasforma logicamente, eventualmente normalizza o aggrega e non sempre costruisce indici compositi ma può anche portare indicatori elementari. La b non è vera perché il modello transfer non altera ma seleziona e giustifica logicamente. La d è sbagliata perché il modello transfer si concentra su trasformazioni concettuali e logiche ma non richiede necessariamente strumenti interferenziali La d è giusta perché il modello transfer nasce per giustificare il legame tra il fenomeno che voglio misurare e le variabili concrete che uso. ● Nello schema entità relazione la relazione: a. è sempre un attributo singolo b. lega almeno 2 entità c. può dipendere dalla cardinalità d. dipende dalla progettazione fisica dello schema entità-relazione La a è errata perché una relazione non è un attributo La c è errata perché le relazioni non dipendono dalla cardinalità per esistere La d è errata perché la relazione è definita dalla progettazione concettuale non fisica La giusta è la b perché non esistono relazioni di una sola entità

● Il risultato di una PCA con matrice (k=20, n=1000) con l’85% della varianza totale spiegata cumulativamente dalle sole componenti 1,2 e 3 indica; a. Una buona notizia in quanto devo leggere solo un biplot ed interpretarlo b. Che le variabili di input sono ottimali per la PCA c. La presenza di variabili di input strettamente negative d. Le variabili di input sono, almeno parzialmente, ridondanti La a è sbagliata perché un biplot classico si compone di 2 componenti in questo caso le componenti sono 3 quindi serve una rappresentazione tridimensionale La b è vaga La c è sbagliata perché il segno delle variabili non ha alcuna influenza diretta sulla varianza spiegata La d è giusta: se 3 componenti spiegano l’85% su 20 variabili, c’è sovrapposizione informativa: le variabili sono ridondanti ● L’estrazione in componenti principali di una matrice (k=100, n=100) restituisce il 20% della varianza totale spiegata cumulativamente dalle sole componenti 1 e 2. Ciò indica che: a. posso valutare i risultati provenienti da biplot sulla PC1 e PC b. Le variabili di input sono ottimali per la PCA c. Ci sono variabili di input strettamente negative nella matrice d. i risultati sono stabili e attendibili in campo medico/epidemiologico ma non in campo sociologico La b è falsa perché le variabili non sono ottimali La c è falsa la PCA non si basa sul segno delle variabili La d è falsa non c'è alcun legame tra dominio e attendibilità nel contesto descritto La a è giusta posso disegnare un biplot anche se utilizzare il biplot con 20% di varianza è quasi inutile ● La differenza tra PCA e cluster gerarchico è prevalentemente: a. nell’uso di variabili dummies (dicotomiche) preferite nella PCA e da escludere nel clustering b. Nell’approccio correlativo e di similarità c. legata alla dimensione della matrice di input k x n d. nell’uso di variabili dicotomiche, preferite nel clustering e meno gestibili nella PCA La a è completamente sbagliata (è il contrario) La b è vera perché la PCA è una tecnica che si basa sull’analisi delle correlazioni tra le variabili, l’analisi dei cluster si basa sull’analisi della similarità tra i casi La c è falsa perché entrambe lavorano su matrici k x n La d non è la differenza fondamentale è troppo generica

● La differenza tra PCA e cluster gerarchico è prevalentemente: a. Nell’analisi della relazione tra casi e variabili b. Legata alla dimensione della matrice di input k x n c. Nell’uso della filosofia e della metrica di analisi delle relazioni tra variabili e tra casi d. Nell’uso di variabili dicotomiche, preferite nella PCA e da escludere nel clustering La a è falsa perché la PCA analizza le correlazioni tra variabili e il clustering si basa su misure di somiglianza tra individui La b è priva di senso La c è giusta perché la PCA analizza le correlazioni tra variabili per ridurre la dimensionalità e individuare componenti principali, mentre il clustering gerarchico studia la similarità tra casi, raggruppandoli in base a distanze o affinità specifiche La d è falsa perché la PCA non preferisce le variabili dicotomiche (funziona meglio con le variabili continue). il clustering può tranquillamente gestire variabili dicotomiche ● La differenza tra PCA e cluster non-gerarchico è prevalentemente: a. Nell’uso di variabili dummies (dicotomiche), preferite nella PCA e da escludere nel clustering b. Nella tipologia di algoritmo per l’identificazione dei clusters c. Legata alla dimensione k x n d. Nell’uso di variabili dicotomiche, preferite nel clustering e potenzialmente meno gestibili in PCA La a è sbagliata la PCA non preferisce variabili dummies e il clustering può gestirle meglio della PCA La b è giusta perché la PCA utilizza un algoritmo di riduzione dimensionale basato su correlazioni tra variabili, mentre il cluster non gerarchico impiega algoritmi iterativi per raggruppare osservazioni in cluster, secondo criteri di similarità La c è sbagliata perché non è questa la differenza tra PCA e clustering (ed entrambi lavorano con k x n) La d è parzialmente giusta ma non tutte perché è vero che le variabili dicotomiche sono difficili da gestire con la PCA (la PCA funziona meglio con variabili quantitative continue. Le variabili dicotomiche hanno varianza limitata e possono distorcere la PCA se non trasformate). ● La differenza tra PCA e cluster non gerarchico è prevalentemente: a. nell’uso di variabili dicotomiche, preferite nella PCA e da escludere nel clustering b. nella tipologia di algoritmo per la gestione dei clusters c. legata alla dimensione della matrice di input k x n d. Legata a una diversa filosofia di analisi delle variabili (PCA) e dei casi (clusters)

La b non è giusta perché il biplot è una rappresentazione tipica della PCA., l’MDS non metrico rappresenta solo le relazioni tra casi non tra variabili quindi non è un biplot La d è giusta perché è più grande nei risultati quando le variabili hanno una distribuzione non normale e asimmetrica perché per le matrici caratterizzate da questa distribuzione la PCA fornisce dati distorti, mentre funziona meglio il MDS non metrico, più adatto quando la PCA non funziona bene ● La differenza tra MDS non metrico e Cluster gerarchico A. Forma della matrice KxN B. L’uso di variabili con specifiche caratteristiche statistiche C. L’applicazione di algoritmi di similarità D. L’analisi grafica in diverse dimensioni Il cluster è monodimensionale in quanto riproduce graficamente un dendrogramma, mentre il MDS è bidimensionale e riproduce graficamente un grafico simile alla PCA. ● La differenza tra PCA e MDS è: a. nell'uso delle metriche di correlazione e di similarità b. nella filosofia di analisi e nelle variabili più appropriate c. nei grafici, perche sono coppletamente diversi dai biplot d. nell’estrazione degli autovalori La a è giusta: la PCA lavora con correlazioni mentre il MDS con similarità La b è sbagliata perché non è la differenza La c è sbagliata perché i grafici non sono completamente diversi La d è sbagliata perché non è una differenza fondamentale ● La principale differenza tra PCA e MDS è A. Nell’estrazione degli assi cartesiani B. Nell’uso di metriche esclusivamente di similarità C. Nel vincolo di usare dati normali D. Nell’uso di matrici quadrate (PCA usa correlazione, e nel MDS con quella di inerzia, concetto di similarità) ● La differenza tra PCA e nMDS è prevalentemente : a. nell’uso di variabili dummies (dicotomiche), preferite nella nMDS e da escludere nella PCA b. nell’interpretazione di relazioni prevalentemente lineari (PCA) rispetto ad altri tipi (nMDS) c. legata alla dimensione della matrice di input k x n d. nell’uso di variabili normali, preferite nel nMDS Mentre la PCA è più adatta a dati quantitativi e relazioni lineari, la nMDS offre maggiore flessibilità nell’analisi di dati di diversa natura, incluse le variabili dummies ● La differenza tra PCA e MDS è prevalentemente: A. nell’uso di variabili dummies (dicotomiche) preferite nella nMDS e da escludere nella PCA B. nell’interpretazione di relazioni prevalentemente lineari (PCA) rispetto ad altri tipi (nMDS) C. legata alla dimensione della matrice di input K x N D. Nell’uso di variabili normali, preferite nel nMDS

la PCA si concentra sulla varianza e sulla correlazione (lineare) tra le variabili, mentre l'MDS si concentra sulla similarità (che può essere non lineare) tra le osservazioni. ● La differenza tra MDS e cluster gerarchico sta: a. nella rappresentazione grafica b. nella gestione delle variabili di input c. nell’interpretazione dei dati d. nell'uso della standardizzazione La a è una conseguenza non la differenza La b non è la differenza La c è giusta il MDS cerca di rappresentare similarità tra punti nello spazio, mentre il cluster gerarchico cerca gruppi omogenei La d è sbagliata in entrambi i casi le variabili devono essere standardizzate ● Le metriche caratteristiche di un analisi dei clusters: a. quantificano la similarità tra variabili b. computano la similarità tra osservazioni c. stimano la relazione multidimensionale nella matrice di input d. includono misure di similarità e qualche misura di correlazione Aspetto fondamentale nell’analisi dei cluster è la similarità tra osservazioni (correlazione tramite la PCA e successivamente la similarità con il cluster) ● Costruire una PCA con variabili di input di diversa natura (cardinali, ordinali, dicotomiche): a. non c’è problema, se tutte le variabili sono normali; b. è possibile, controllando per la numerosità delle singole tipologie di variabili c. è preferibile analizzare gruppi di variabili omogenee uno alla volta d. non c’è problema, se le variabili sono standardizzate La a non è giusta perché anche se la normalità può essere un fattore, non risolve i problemi di omogeneità tra variabili di diversa natura La b non è giusta poiché la numerosità non è l’unico aspetto da considerare La d non è giusta perché la standardizzazione è utile, ma non risolve le problematiche legate all’eterogeneità delle variabili La c è giusta: quando si costruisce una PCA è consigliabile utilizzare variabili che sono omogenee in termini di scala e natura. Questo perché variabili di diversa natura possono influenzare i risultati dell’analisi in modo non uniforme, portando a interpretazioni fuorvianti.

b. consente l’analisi di grandi matrici di dati complessi c. è un insieme di tecniche statistiche multivariate d. è una tecnica per l’esplorazione di informazioni La a e la c non descrivono il data mining La b è troppo generica La parola esplorazione mi porta in direzioni buone, così come “informazioni” e non “variabili normali” o altre che possono portarci fuori strada. (è anche la più generica che non rientra nel merito). ● Il data mining, come pratica di analisi informatica- cibernetica, si compone principalmente di: a. Tecniche a reti neurali b. Tecniche di intelligenza artificiale c. un mix di entrambe d. Un mix di entrambe, con contributi di altre tecniche/discipline, anche statistiche (es. clustering) La d è la giusta, comprende tutto: utilizza un mix di tecniche tra cui IA, reti neurali e metodi statistici. Queste tecniche sono tuttte integrate nel processo di analisi dei dati per scoprire pattern e fare previsioni la a le reti neurali sono solo una delle tecniche usate nel data mining, non l’unica la b anche l’intelligenza artificiale è molto importante la c non è limitato solo a queste due, il data mining include anche metodi statistici e altre tecniche di analisi di dati ● Il data mining, come pratica di analisi statistica: a. tecniche multivariate b. tecniche multidimensionali c. un mix bilanciato di entrambe d. Un mix di entrambe, con contributi minoritari e operativi di altre tecniche/tecnologie E’ giusta perché il data mining utilizza approcci multivariati e multidimensionali, integrando anche tecniche statistiche minori.Il data mining è una disciplina interdisciplinare che combina tecniche provenienti da diversi settori per estrarre conoscenza dai dati. Non si limita solo alle tecniche multivariate o multidimensionali, ma integra anche metodi di machine learning, analisi predittiva, analisi delle reti e altri approcci, a seconda della tipologia di dati e degli obiettivi specifici. Il data mining fa ampio uso di tecniche statistiche tradizionali, tecniche di machine learning, algoritmi di clustering e classificazione, e si avvale anche di analisi predittiva per scoprire modelli e tendenze. Inoltre, può integrarsi con altre discipline, come l’informatica, la teoria delle probabilità, e persino la linguistica o altre scienze sociali, a seconda del contesto. ● Come può essere utile un applicativo di basi nel data mining: a. perché consente una migliore analisi dei dati b. perché consente una migliore conservazione dei dati c. perché consente una migliore gestione dei dati d. perché consente una migliore raccolta di dati

La c è la più completa perché la gestione dei dati è la funzione chiave che connette database e data mining (la parola gestire comprende tutte le altre risposte). In sintesi, permette una gestione sistematica, ordinata e scalabile dei dati, condizione indispensabile per qualsiasi processo di data mining. ● Gli indici compositi possono essere costruiti soprattutto: a. dalla composizione di variabili strettamente quantitative b. dalla composizione di variabili numeriche c. dalla composizione di variabili numeriche o testuali d. dalla composizione di variabili numeriche e testuali, queste ultime se appositamente tradotte in numeri. La a non è corretta perché anche le variabili testuali possono essere incluse una volta convertite in numeri La b non è giusta perche è troppo limitata poiché ignora la possibilità di includere variabili testuali La c è incompleta poiché le variabili testuali devono essere convertite in numeri La d è giusta perché gli indici compositi possono essere costruiti combinando variabili sia numeriche che testuali, a condizione che le variabili testuali siano trasformate in valori numerici attraverso tecniche di codifica ● Gli indici compositi possono essere costruiti soprattutto: a. dalla composizione di variabili strettamente quantitative, cardinali; b. dalla composizioni di variabili strettamente quantitative, cardinali e ordinali; c. dalla composizione di variabili quantitative cardinali, ordinali e nominali; d. dalla composizione di variabili cardinali e dicotomiche, principalmente. Gli indici compositi possono essere costruiti utilizzando : variabili quantitative, cardinali (possono essere misurate numericamente); variabili ordinali (rappresentano un ordine); variabili nominali (categorizzano i dati senza un ordine intrinseco, a condizione che vengano trasformate in forma numerica attraverso una codifica) La a è sbagliata perché è limitata: mancano le variabili ordinali e nominali La b è sbagliata perché mancano le variabili nominali La d è sbagliata perché non include le variabili ordinali e nominali La c è giusta perché include variabili quantitative cardinali, ordinali e nominali ● La funzione agli autovalori assume un profilo di natura esponenziale negativa quando: a. le variabili native sono molto simili b. le variabili native sono molto correlate c. le variabili native sono normali d. le variabili native sono standardizzate La a non è giusta perché la condizione necessaria per un profilo esponenziale negativo della funzione agli autovalori è proprio l’elevata correlazione, non solo la somiglianza

a. Dipende da che dettaglio di informazione è raccolta b. dipende dalla procedura di misurazione c. dipende dalla precisione del questionario d. dipende dalla precisione del rilevatore La b è sbagliata perché la misurazione deve essere coerente e codificabile ma non è la variabile chiave del contenuto della survey La c è errata perché non dipende dalla precisione del questionario poiché le risposte possono essere vaghe La d è sbagliata perché non centra nulla La a è giusta: Il contenuto informativo di una variabile in una survey dipende dal livello di dettaglio che quella variabile è in grado di esprimere. Ad esempio, una variabile con tante modalità distinte (es. reddito esatto in euro) contiene più informazioni rispetto a una variabile con poche classi ampie (es. fasce di reddito). Quindi, più la variabile è specifica e dettagliata, maggiore è il suo contenuto informativo. ● La matrice k x n è: a. una matrice con numerosità di osservazioni pari a k x n b. una matrice a due vie per l’analisi multivariata c. una matrice quadrata d. una matrice rettangolare La a è errata perché non è detto che ha rango pieno La b non è vera perché potrebbe essere anche per l’analisi multidimensionale La c è sbagliata perché se fosse quadrata sarebbe k x k oppure n x n La d è vera è una matrice rettangolare ● La matrice rettangolare a due vie: a. è caratterizzata da un diverso numero di righe e di colonne b. è caratterizzata da un più alto numero di righe n rispetto alle colonne k c. è caratterizzata da un più alto numero di righe n rispetto alle colonne k, sperabilmente 10 o più volte d. è caratterizzata da un più alto numero di colonne n rispetto alle righe k La a è giusta perché la matrice rettangolare ha per definizione un numero diverso di n righe e k colonne (altrimenti sarebbe quadrata). Anche se prevalentemente troviamo piu n righe rispetto a k colonne perche metodi come la PCA ci lavorano meglio, raramente puo accadere che ci siano piu k colonne e meno n righe La D si esclude La B è parzialmente corretta La C sembra una motivazione dello schema entità relazione attributi ● Principale differenza tra statistica multivariata e data mining è: a. l’assunzione di normalità necessaria nel data mining; b. la dimensione campionaria, indispensabile nella statistica multivariata c. assunzioni sulla forma distributiva dei dati completamente differenti d. algoritmi di calcolo molto complessi nella multivariata, meno nel data mining è giusta la c perché la statistica multidimensionale richiede assunzioni sulla distribuzione delle variabili, spesso assumendo che seguano una distribuzione normale, il data mining

invece si distingue per la capacità di operare senza rigide assunzioni distributive. Il data mining può usare qualunque tipologia di dati, purché non ci siano dati mancanti La a è sbagliata perché e una caratteristica della statistica multivariata non del data mining ● La matrice quadrata: a. è adatta alle analisi esplorative multivariate b. è poco frequente nella pratica statistica c. è caratterizzata da un simile numero di righe e di colonne d. è molto frequente nella pratica statistica E giusta la a perché le matrici sono utilizzati in analisi multivariata La c è sbagliata perché non simile ma uguale La d è sbagliata perché è il contrario La b è quasi giusta: è rara nella pratica ● Il data mining nella definizione di Paolo Giudici: a. è una procedura per l’esplorazione di grandi masse di dati, che implica l’uso di varie tecniche statistiche e cibernetiche b. è una procedura esplorativa, che implica tecniche statistiche multivariate e multidimensionali c. è una procedura esplorativa, che implica tecniche statistiche multidimensionali d. è una procedura esplorativa, che implica tecniche statistiche multivariate La a è la più giusta: cita l’esplorazione, le grandi masse di dati, le tecniche statistiche e cibernetiche, le altre sono troppo limitate La b è incompleta, non tiene conto delle grandi masse di dati, elementi cibernetici La c e la d sono incomplete perché non citano le grandi masse di dati ● Sinonimi di data mining sono data fishing o data dregding perché: a. l’obiettivo del data mining è quello di esplorare i contenuti latenti di una matrice di dati b. si estrae una informazione non direttamente visibile da una matrice di dati a due vie c. si sintetizza l’informazione di una matrice a due vie d. si concentra esclusivamente su matrici a due vie La b non è precisa non si limita solo alle matrici a due vie ma anche quelle a tre vie La c è falsa perché la sintesi è una parte del data mining, ma l’obiettivo principale è l’esplorazione per scoprire informazioni nascoste La d è errata: il data mining non si concentra esclusivamente sulle matrici a due vie La a è giusta perché il data mining è una statistica per l’esplorazione di informazioni e il problema del data mining è di tipo esplorativo ● Secondo i contenuti informativi del databasing: a. lo schema E-R consente una razionale estrazione dei dati complessi in una matrice più semplice b. lo schema E-R consente una appropriata, flessibile ed efficiente estrazione dei dati complessi in una matrice a due o tre vie

La c è giusta: L’indice composito è una composizione lineare o moltiplicativa di un certo numero di indicatori elementari La a è sbagliata perché perché non va bene ‘semplici’ La b è sbagliata perche non va bene 'variabili' ● Un indice composito: a. sintetizza indicatori elementari b. deriva da operazioni algebriche/computazionali su indicatori elementari c. può essere stimato con operazioni semplici di natura algebrica d. consente la valutazione di fenomeni socio economici e aziendali Vero e molto preciso: un indice composito viene calcolato attraverso operazioni matematiche o algebriche che combinano i vari indicatori elementari (come la somma, la media ponderata, la normalizzazione, ecc.). ● Trasformare una variabile in un indicatore: a. implica processi di natura logica ed operativa b. implica l’individuazione di un nesso causale tra variabile e processo misurato c. necessità di variabili strettamente quantitative d. necessità di variabili strettamente qualitative La b non è giusta perché è parziale perché è necessaria anche l’operatività La c e d non è giusta perché possono essere qualitative e quantitative La a è la giusta perché tra trasformazione di una variabile in un indicatore richiede una sequenza di passaggi concettuali e tecnici per rendere misurabile e interpretabile un fenomeno attraverso dati numerici. ● Operazioni elementari su indicatori individuali: a. possono essere fatte su indicatori che hanno lo stesso segno semantico b. possono essere fatte con alcune limitazioni concettuali e operative c. possono essere fatte con alcune limitazioni concettuali d. possono essere fatte sempre La a è sbagliata perché sebbene il segno sia una limitazione non è l’unica (limitazioni di scala e nesso causale) La c è sbagliata perché non include le limitazioni operative La d è completamente errata La b è giusta include tutte le condizioni richieste (verso, nesso causale, metrica) ● La presenza di un dato mancante: a. è deleteria per il data mining b. necessita di essere stimato con apposite tecniche statistiche c. può essere stimato con tecniche di data mining d. potrebbe essere ignorato, con appositi correttivi

La a è giusta perché non possiamo misurare il dato, dati quelli mancanti. Nel data mining, la presenza di dati mancanti è altamente problematica per diversi motivi: Disturba l’apprendimento dei modelli. Può influenzare fortemente i risultati, soprattutto in algoritmi che non tollerano nulla o NA, Può alterare le distribuzioni o le relazioni tra variabili. Per questo si dice che è “deleteria”: un dato mancante rompe la catena informativa. ● La matrice R nella PCA: a. è la matrice di correlazione basata sull’indice di Pearson b. sostituisce la matrice sigma di varianza covarianza c. è una matrice quadrata d. è una matrice rettangolare La d è falsa: la matrice R è quadrata non rettangolare La c è vera ma imprecisa perché è vero che le matrici di correlazione siano spesso quadrate, ma non è la definizione La b la matrice R di correlazione è un tipo di matrice utilizzata nella PCA, ma non la sostituisce completamente. Entrambe le matrici possono essere utilizzate a seconda dell’analisi La a è vera: R è la matrice di correlazione di Pearson ● La matrice S nella PCA: a. va usata solo se le variabili di input hanno tutte la stessa unità di misura b. va usata sempre per variabili quantitative c. va usata sempre per variabili ordinali d. va usata sempre per variabili nominali La a è sbagliata perché anche se la standardizzazione è consigliata per eliminare le differenze di scala, la matrice S può essere calcolata su variabili quantitative anche se hanno unità di misura diverse. La c è errata perché la PCA è sub-ottimale per variabili ordinali La d è errata perché le variabili nominali non sono trattabili senza codifica ● Le variabili standardizzate come input della PCA: a. sono particolarmente appropriate perché eliminano le differenze nella metrica di misura b. sono il frutto di una sommaria valutazione quali- quantitativa c. sono variabili artificiali, legate alle componenti principali d. possono essere associate agli autovettori La b è errata perché la standardizzazione è un'operazione matematica precisa, non una valutazione La c è falsa perché le variabili standardizzate sono le variabili di input; le variabili artificiali sono invece le componenti principali La d è errata perché gli autovettori sono legati alle componenti principali, non direttamente alle variabili standardizzate. La a è la giusta: la standardizzazione serve a eliminare l’ influenza delle unità di misura e della scala ● La funzione agli autovalori:

data mining crocette, Prove d'esame di Analisi Dei Dati

Documenti correlati

Anteprima parziale del testo

Scarica data mining crocette e più Prove d'esame in PDF di Analisi Dei Dati solo su Docsity!