Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


DOMANDE ESAMI DATA ANALYSIS CON RISPOSTA CORRETTA, Prove d'esame di Statistica

Oltre 100 domande di esami passati di data analysis. Tutte con domanda, tutte le risposte e quella giusta evidenziata.

Tipologia: Prove d'esame

2020/2021

In vendita dal 28/01/2022

BrendaaS
BrendaaS 🇮🇹

4

(2)

13 documenti

1 / 20

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
DOMANDE STATISTICA
1. quali tra i seguenti metodi di campionamento sono probabilistici?
- per convenienza e casuale semplice
- stratificato e per convenienza
- stratificato e a grappoli
- a grappoli e a valanga
2. Le tecniche di campionamento sono distinti in due gruppi. Quali?
- probabilistico e non probabilistico
- per convenienza e casuale
- a grappoli e stratificato
- casuale e sistematico
3. Rappresentatività dei campioni: qual è l’affermazione vera?
- un campione rappresentativo garantisce sempre stime precise
- un campione molto grande è sempre rappresentativo
- un campione distorto può essere rappresentativo
- un campione può essere grande ma non rappresentativo
4. Quale dei seguenti sono software commerciali specializzati per la data visualization interattiva?
- Tableau, PowerPoint, Power Bi
- Tableau, Google Charts, Python
- Tableau, Excel, Qlik Sense
- Tableau, Power Bi, Qlik Sense
5. quale dei seguenti software commerciali è specializzato per la data visualization?
- Tableau
- Illustrator
- Microsoft Excel
- Photoshop
6. Excel: nella cella A3 inseriamo la formula =$A$1+A2. Copiamo la formula in B3, quale otteniamo?
- =$B$1+B2
- =$A$1+A2
- =$B$1+A2
- =$A$1+B2
7. Excel: quali tipi di dati si possono inserire in una singola cella?
- numeri, formule, testo
- solo numeri
- numeri e testo
- numeri e formule
8. Excel: quale tra le seguenti è una funzionalità per la formattazione delle celle?
- consentire a testi lunghi di andare a capo all’interno della cella
- inserire o eliminare righe o colonne
- ordinare una colonna di dati in ordine ascendente
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Anteprima parziale del testo

Scarica DOMANDE ESAMI DATA ANALYSIS CON RISPOSTA CORRETTA e più Prove d'esame in PDF di Statistica solo su Docsity!

DOMANDE STATISTICA

  1. quali tra i seguenti metodi di campionamento sono probabilistici?
  • per convenienza e casuale semplice
  • stratificato e per convenienza
  • stratificato e a grappoli
  • a grappoli e a valanga
  1. Le tecniche di campionamento sono distinti in due gruppi. Quali?
  • probabilistico e non probabilistico
  • per convenienza e casuale
  • a grappoli e stratificato
  • casuale e sistematico
  1. Rappresentatività dei campioni: qual è l’affermazione vera?
  • un campione rappresentativo garantisce sempre stime precise
  • un campione molto grande è sempre rappresentativo
  • un campione distorto può essere rappresentativo
  • un campione può essere grande ma non rappresentativo
  1. Quale dei seguenti sono software commerciali specializzati per la data visualization interattiva?
  • Tableau, PowerPoint, Power Bi
  • Tableau, Google Charts, Python
  • Tableau, Excel, Qlik Sense
  • Tableau, Power Bi, Qlik Sense
  1. quale dei seguenti software commerciali è specializzato per la data visualization?
  • Tableau
  • Illustrator
  • Microsoft Excel
  • Photoshop
  1. Excel: nella cella A3 inseriamo la formula =$A$1+A2. Copiamo la formula in B3, quale otteniamo?
  • =$B$1+B
  • =$A$1+A
  • =$B$1+A
  • =$A$1+B
  1. Excel: quali tipi di dati si possono inserire in una singola cella?
  • numeri, formule, testo
  • solo numeri
  • numeri e testo
  • numeri e formule
  1. Excel: quale tra le seguenti è una funzionalità per la formattazione delle celle?
  • consentire a testi lunghi di andare a capo all’interno della cella
  • inserire o eliminare righe o colonne
  • ordinare una colonna di dati in ordine ascendente
  • cancellare il contenuto delle celle
  1. Excel: nelle celle in alto a sinistra sono inseriti i valori 1 2 3 5, in un’altra cella si inserisce A1+B2. Cosa visualizza excel in quella cella?
  • A1+B
  • 6
  • 5
  • 11
  1. Si possono inserire testi in una cella di Excel?
  • sì, ma bisogna racchiuderli tra virgolette “”
  • sì, ma solo se la cella è abbastanza ampia da contenere il testo
  • no
  1. Cosa significa che con Excel si possono realizzare grafici dinamici?
  • che i dati di origine sono visualizzati automaticamente al passaggio del mouse
  • che le dimensioni del grafico si possono modificare direttamente con il mouse
  • niente, con Excel non si possono realizzare grafici dinamici
  • che se si cambiano i dati di origine cambiano automaticamente anche i grafici
  1. Quale tra i tipi di grafici seguenti si può ottenere anche con gli strumenti standard di Excel?
  • dendrogramma
  • boxplot
  • diagramma di Sankey
  • grafico a violino
  1. Quali grafici rappresentano la distribuzione di frequenta di una variabile numerica?
  • istogrammi e grafici a torta o ad anello
  • istogrammi e box plot
  • istogrammi e grafici di Pareto
  • istogrammi e grafici a linea
  1. il grafico più adatto per misurare la relazione tra due variabili numeriche:
  • grafico a dispersione
  • istogramma
  • diagramma di Sankey
  • grafico a barre
  1. La relazione tra una variabile categorica e una numerica si analizza normalmente con l’Anova. Quale grafico permette di rappresentarla visivamente?
  • grafico a bolle
  • grafico a barre
  • grafico a linea
  • grafico gerarchico (treemap) Grafici a torta categorica | Grafici a linee numerica e categorica Grafici a dispersione rappresentano due variabili numeriche in un piano cartesiano
  • se sono rappresentate da numeri (es. 1 a 5) sono scale numeriche
  1. Per gestire la coda in un ufficio postale una macchina stampa a richiesta dell’utente un biglietto che contiene: numero progressivo in coda, la data e l’ora, il numero di utenti in coda in quel momento. [una coda unica e non code diverse per diversi servizi). Affermazione corretta:
  • la posizione in coda (numero progressivo) è un dato nominale
  • la data/ora è un dato ordinale
  • sono tutti dati ordinali
  • sono tutti dati numerici
  1. Per accedere a un servizio web gli utenti devono dichiarare l’età. Per analizzarle a fini di mkt, le età degli utenti vengono confrontate con la distribuzione delle età pubblicata dall’Istat. Di che tipo sono i dati in analisi?
  • sia le età degli utenti sia i dati Istat sono dati primari
  • i dati Istat sono dati primari
  • sia le età degli utenti sia i dati Istat sono dati secondari
  • le età degli utenti sono dati primari
  1. Si possono trasformare dei dati categorici in dati numerici?
  • sì, si possono trasformare in dati binari
  • sì, ma solo per dati ordinali
  • sì, ma solo se il dato categorico ha poche categorie
  • no, in nessun caso
  1. un indirizzo urbano: numero civico, scala, piano. Di che tipo sono questi dati?
  • la scala è un dato nominale
  • sono tutti dati numerici
  • sono tutti dati nominali
  • il piano è un dato ordinali
  1. Qual è l’affermazione corretta a proposito dei numeri contenuti negli indirizzi stradali?
  • numero civico e CAP sono entrambi dati ordinali
  • il CAP è un dato numerico
  • il CAP è un dato nominale
  • il numero civico è un dato numerico
  1. Quale dei seguenti dati non è espresso in scala ordinale?
  • numero di locali negli appartamenti
  • fascia di reddito
  • ordine di arrivo di una gara
  • gradi militari
  1. Che tipo di dato è una data completa di giorno, mese, anno?
  • dipende dal formato in cui la data è scritta
  • nominale
  • numerico
  • ordinale
  1. Che tipo di dato sono una data completa di giorno, mese, anno e una data rappresentata dal solo anno?
  • il solo anno numerico, la data completa ordinale
  • entrambe nominali
  • entrambi numeriche
  • entrambe ordinali
  1. La coppia domanda+risposta seguente è formulata in modo corretto? Domanda: «quanti caffè hai bevuto ieri?» Risposta: «nessuno / 1 / 2 / 3 0 4 / 5 o più»
  • si, è corretta
  • no, perché tratta temi che riguardano la salute dell'intervistato
  • no, perché riguarda il passato
  • no, perché dà per scontato che l'intervistato abbia bevuto caffè
  1. Qual è la formulazione più corretta per fare la domanda a un campione rappresentativo?
  • «cosa ne pensa di coloro che scrivono sui muri con le bombolette spray?»
  • «cosa ne pensa di coloro che imbrattano i muri con le bombolette spray?»
  • «cosa ne pensa di coloro che decorano i muri con le bombolette spray?»
  • «cosa ne pensa dei writer?»
  1. La domanda «l’operatrice o l’operatore con cui ha parlato era cortese e competente?» è formulata correttamente?
  • no, perché contiene due domande
  • no, perché tocca temi sensibili
  • no, perché la formulazione è tendenziosa
  • sì, è corretta
  1. Si vuole inserire in un questionario la domanda chiusa «con che frequenza controlli il tuo account LinkedIn?”. Quale tra le seguenti è la formulazione più corretta per le possibili risposte?
  • mai | almeno una volta al giorno | almeno una volta alla settimana
  • mai | tutti i giorni | tutte le settimane
  • mai | almeno una volta al giorno | meno di una volta al giorno
  • mai | raramente | spesso
  1. Survey: la domanda «in che anno suo padre è andato in pensione?» rivolta a un campione rappresentativo della popolazione italiana è formulata correttamente?
  • no, perché informazione chiesta non riguarda l’intervistato
  • no, perché tocca temi sensibili
  • no, perché dà per scontato che il padre sia andato in pensione
  • sì, è chiarissima
  1. Qual è la formulazione più corretta per stimare delle percentuali aggiornate di occupati (es. dipendenti, a contratto, partite Iva) e non occupati (es. disoccupati, volontariato, studenti)?
  • «nell'ultima settimana lei è andato almeno una volta al lavoro?»
  • «nell'ultima settimana lei ha fatto almeno un'ora di lavoro retribuito?»
  • «lei ha un lavoro retribuito?»
  • «lei ha un lavoro?»
  1. Le variabili numeriche possono avere scale o varianze diverse. Quali trasformazioni si possono applicare per portarle tutte alla stessa scala e renderle confrontabili?
  • troncare i valori sopra e sotto un certo percentile (es. sopra il 5% e sopra il 95%)
  • sottrarre a ciascuna la rispettiva media
  • standardizzare o normalizzare
  • passare alla radice quadrata o al logaritmo
  1. Qual è il risultato della standardizzazione di una variabile?
  • la variabile standardizzata ha valori tra zero e 1
  • la variabile standardizzata ha media zero
  • la variabile standardizzata ha valori tra - 1 e +
  • la variabile standardizzata ha varianza zero
  1. Quale dei seguenti elementi non influenza l’ampiezza dell’intervallo di confidenza della media?
  • varianza della popolazione
  • livello di confidenza
  • media campionaria
  • numerosità del campione
  1. Quali elementi influenzano l'ampiezza dell'intervallo di confidenza della media
  • media della popolazione, livello di confidenza, numerosità del campione
  • livello di confidenza, media campionaria, numerosità del campione
  • media campionaria, varianza della popolazione, livello di confidenza
  • numerosità del campione, varianza della popolazione, livello di confidenza
  1. intervalli di confidenza: qual è l’affermazione corretta?
  • il livello di confidenza non dipende né dai dati campionari né dalle caratteristiche della popolazione
  • il livello di confidenza dipende dai dati campionari
  • se il livello di confidenza aumenta da 95% a 99% l'ampiezza dell'intervallo di confidenza diminuisce
  • il livello di confidenza dipende dalle caratteristiche della popolazione
  1. intervalli di confidenza: qual è l’affermazione corretta?
  • il livello di confidenza dipende dalle caratteristiche della popolazione
  • il livello di confidenza non dipende dai dati campionari
  • se il livello di confidenza aumenta da 95% a 99% l'ampiezza dell'intervallo di confidenza diminuisce
  • il livello di confidenza dipende dalla numerosità della popolazione
  1. Cosa è il p-value?
  • una probabilità
  • un test statistico
  • una statistica campionaria
  • un parametro della popolazione p = 0,01 → significativo al 99% p = 0,05 → significativo al 95% p < 0,046 → significativo al 95% p > 0,05 → significativo meno del 95%
  1. ANOVA – Final overall satisfaction per channel
  • c'è almeno una media di Overall Satisfaction diversa dalle altre al livello di confidenza del 95%
  • tra Overall Satisfaction e Channel non c'è relazione al livello di confidenza del 95%
  • c'è almeno una media di Overall Satisfaction diversa dalle altre al livello di confidenza del 99%
  • tutte le medie di Overall Satisfaction sono diverse tra loro al livello di confidenza del 95%
  1. ANOVA – Ticket per survived
    • i sopravvissuti hanno speso significativamente di più
    • la sopravvivenza ha influenzato significativamente l’importo pagato
    • l’importo pagato non ha influenzato significativamente la sopravvivenza
    • i sopravvissuti hanno speso significativamente di meno
  2. ANOVA – Age per survived
    • i sopravvissuti erano significativamente più vecchi
    • non si può affermare che sopravvissuti e non sopravvissuti avessero età significativamente diverse
    • i sopravvissuti erano significativamente più giovani
    • sopravvissuti e non sopravvissuti avevano età diverse ma non si può dire quale è maggiore
  1. ANOVA – Valutazione globale per Marca
  • il test è significativo al 95%: la marca con la valutazione più alta è BON
  • il test è significativo al 99%: la marca con la valutazione più alta è CIR
  • le tre valutazioni sono tutte significativamente diverse tra loro al 95%
  • il test è significativo al 95%: la marca con la valutazione più bassa è DER
  1. ANOVA – Valutazione globale per marca con p-value 0,
  • le marche BON e VAL hanno valutazioni significativamente diverse al 90%
  • le marche BON e VAL hanno valutazioni significativamente diverse al 9 9,9%
  • le marche BON e VAL hanno valutazioni significativamente diverse al 99 % - le marche BON e VAL hanno valutazioni significativamente diverse al 95 %
  1. ANOVA: la differenza in media del reddito (household income) tra i clienti che hanno avuto insolvenze (previously defaulted = yes) o non ne hanno avute (previously defaulted = no) è stata testata col risultato seguente. Qual è l'affermazione corretta?
  • il test è significativo al 95%
  • i “previously defaulted = no” hanno un reddito significativamente più alto
  • il test è significativo al 99%
  • i “previously defaulted = no” hanno in media un reddito più alto
  1. Relazione tra due variabili categoriche: quanto vale chi quadrato se le due variabili sono perfettamente indipendenti?
  • tra zero e 1
  • 1
  • zero
  • un valore positivo molto grande
  1. TABELLA DI CONTINGENZA – Marca per Area
    • al nord metà degli intervistati preferisce la marca B
    • la preferenza di Marca influenza significativamente l’area
    • l’area non influenza significativamente la preferenza di marca
    • la marca C è la preferita al sud
  2. TABELLA DI CONTINGENZA – Genere e mestiere
    • le donne sono la maggioranza nel risk management
    • genere e mestiere sono significativamente indipendenti al 95%
    • gli uomini sono la maggioranza nei sistemi informativi
    • ogni conclusione è arbitraria perché il test non è significativo al 95%
  1. TABELLA DI CONTINGENZA – Marca per consumatori affermazione errata :
  • i consumatori forti sono i più forti consumatori in assoluto della marca C
  • non si possono trarre conclusioni perché il test non è significativo
  • i consumatori forti consumano la marca C relativamente meno degli altri
  • i consumatori forti sono più numerosi degli altri
  1. TABELLA DI CONTINGENZA – consumo Vallelata e consumo Pettinicchio
  • il consumo di Vallelata e quello di Pettinicchio sono indipendenti al 95% ma non al 99%
  • i consumatori di Vallelata consumano Pettinicchio relativamente di più dei non consumatori
  • il consumo di Vallelata e quello di Pettinicchio sono indipendenti al 95%
  • i consumatori di Vallelata sono più di quelli di Pettinicchio
  1. TABELLA DI CONTINGENZA – Consumo Vallelata per consuma Pettinicchio
  • il test non è significativo: il consumo di una marca non influenza quello dell'altra
  • il test non è significativo: i consumatori forti di una marca sono consumatori deboli dell'altra
  • il test non è significativo: i consumatori forti di una marca sono consumatori forti anche dell'altra
  • il test è significativo: i consumatori forti di una marca sono consumatori forti anche dell'altra
  1. TABELLA DI CONTINGENZA – Età per istruzione
  • la percentuale di licenze medie tra i più anziani è significativamente più alta
  • la distribuzione del livello di istruzione è significativamente diversa nelle diverse classi di età
  • la distribuzione del livello di istruzione è approssimativamente la stessa in tutte le classi di età
  • la percentuale di laureati tra i più giovani è significativamente più alta
  1. TABELLA DI CONTINGENZA – Cittadino extra-europeo per Categoria lavorativa
  • il paese di origine influenza significativamente la categoria lavorativa
  • la categoria lavorativa influenza significativamente il paese di origine
  • i cittadini europei sono prevalentemente funzionari o dirigenti
  • gli impiegati sono prevalentemente extra-europei
  1. Analisi delle componenti principali: che caratteristica hanno le componenti?
  • hanno valori compresi tra - 1 e 1
  • non sono correlate con le variabili
  • sono fortemente correlate tra loro
  • nessuna delle precedenti
  1. Analisi delle componenti principali: cosa succede se si aumenta il numero delle componenti estratte?
  • la varianza spiegata totale aumenta
  • la varianza spiegata totale diminuisce
  • non c’è una regola, dipende dal contesto
  • la varianza spiegata delle prime componenti diminuisce
  1. Analisi delle componenti principali: che caratteristica hanno le componenti generate dall’analisi?
  • hanno media zero
  • hanno valori compresi tra zero e 1
  • hanno la massima correlazione possibile l’una con l’altra
  • hanno valori compresi tra - 1 e 1
  1. Analisi delle componenti principali: che caratteristica hanno le componenti generate dall’analisi?
  • non sono correlate tra loro
  • hanno correlazioni decrescenti con le variabili
  • hanno sempre valori positivi
  • hanno valori compresi tra - 1 e + 1
  1. Analisi delle componenti principali: qual è la percentuale di varianza spiegata minima necessaria per considerare accettabile il risultato?
  • non c’è una regola, dipende dal contesto
  • 5% (0,05%)
  • 95% (0,95)
  • 100 meno il numero di variabili nell’analisi
  1. Cosa si intende per “riduzione della dimensionalità” di un dataset?
  • la generazione di nuove variabili in numero minore di quelle originali
  • l’estrazione casuale di un sottoinsieme di unità
  • la riduzione del numero di variabili per eliminazione casuale di alcune di esse
  • la selezione di un campione di unità stratificato in base a variabili opportune
  1. Numerosità e dimensionalità di un dataset: qual è l’affermazione corretta?
  • la dimensionalità è il numero delle colonne (variabili)
  • la dimensionalità è il numero delle righe (unità)
  • indicano sostanzialmente la stessa cosa: la dimensione del dataset
  • dovrebbero entrambe essere mantenute più piccole possibile
  1. quale delle seguenti tecniche prevedono la distinzione tra variabili dipendenti e indipendenti?
  • analisi fattoriale e anova
  • analisi fattoriale e regressione
  • regressione e Anova/analisi della varianza
  • tutte le precedenti
  1. Un distributore di musica in streaming ha fatto una survey per individuare le caratteristiche degli utenti (età, istruzione, generi musicali preferiti) che influenzano maggiormente il tempo di ascolto giornaliero. Quali sono le tecniche più adatte allo scopo?
  • regressione e Anova
  • cluster analysis e test chi quadrato
  • brand mapping e test chi quadrato
  • analisi fattoriale e brand mapping
  1. Reg. lineare multipla: quale di questi indica la significatività dei coefficienti di regressione?
  • Beta std deve essere compreso tra - 1,96 e +1,
  • Prob > |t| deve essere minore di 0,
  • VIF deve essere minore di 5
  • Beta std deve essere minore di - 1,966 o maggiore di +1,
  1. Regressione lineare: che valori possono assumere i coefficienti di regressione non standardizzati [b]?
  • qualunque valore
  • qualunque valore positivo
  • tra - 1 e +
  • tra zero e 1
  1. Regressione lineare: cosa si intende con collinearità?
  • la linearità della relazione con predittori e variabile dipendente
  • la correlazione tra predittori
  • l’esistenza di coefficienti di regressione con significativi
  • la correlazione dei predittori con la variabile dipendente
  1. Regressione lineare: come si può interpretare R-quadrato?
  • significatività dell’approssimazione
  • percentuale di varianza dei predittori spiegata dalla variabile dipendente
  • percentuale di varianza della variabile dipendente spiegata dai predittori
  • nessuna delle precedenti
  1. Quale vale la correlazione tra x e y se R-quadrato vale 0,5?
  • circa 0,
  • dipende dal numero di predittori
  • 0,
  • dipende dalla eventuale collinearità tra i predittori
  1. Quanto vale R-quadrato se la correlazione tra x e y è 0,8?
  • circa 0,
  • 0,
  • dipende dalla eventuale collinearità dei predittori
  • 0,
  1. Cluster analysis si può eseguire su dati binari?
  • sì, ma solo col metodo k-means
  • sì, ma solo se i valori sono codificati 0/
  • no
  1. Cluster analysis: si può eseguire su dati categorici?
  • si, ma bisogna trasformarli in variabili binarie
  • sì, ma bisogna usare la distanza city-block
  • si, la cluster analysis lavora anche su variabili categoriche
  • no
  1. Cluster analysis: quando è opportuno normalizzare o standardizzare i dati prima dell’analisi?
  • quando ci sono poche variabili
  • quando ci sono molte variabili
  • quando le variabili hanno varianze molto diverse
  • quando ci sono molte variabili correlate tra loro
  1. il risultato di una cluster gerarchica è illustrato dal dendrogramma seguente. Sulla base di questo grafico qual è il numero di cluster ideale?
- 2 - 3 - **4** - 6 
  1. I sette soggetti A B C D E F G sono stati aggregati con una cluster analysis gerarchica come nel dendrogramma seguente. Qual è l’affermazione coerente col dendrogramma?
- **la soluzione a tre cluster è [A D B C E] [F] [G]** - la soluzione con tre cluster è [A D] [B C E] [F G] - l’ultimo oggetto a unirsi agli altri è F - i primi oggetti a unirsi sono A e D 
  1. Cluster analysis gerarchica: C
  2. Cluster analysis:
  • cluster 1 è soddisfatto del prezzo
  • cluster 2 e 3 sono molto simili
  • gli item prodotti naturali e genuini e prodotti leggeri e digeribili sono valutati allo stesso modo
  • cluster 1 e 3 sono molto simili
  1. Qual è l’obiettivo del (brand) mapping?
  • rappresentare oggetti (brand) su una mappa il più vicini possibile
  • rappresentare oggetti (brand) su una mappa il più lontani possibile
  • rappresentare oggetti (brand) su una mappa in modo che i più simili siano più vicini
  • rappresentare oggetti (brand) su una mappa cercando di riempire tutti i quadranti