Scarica Introduzione alla Statistica: Esercizi e Domande - Prof. Melchionna e più Panieri in PDF di Statistica solo su Docsity!
BANCA DATI
STATISTICA
Melissa Galfo
Banca dati statistica
Introduzione alla statistica
- La statistica si divide in: statistica descrittiva e inferenza;
- Tra gli obiettivi della statistica ritroviamo: validare un modello attraverso l’osservazione dei dati;
- In un’analisi sulle PMI innovative, la spesa per Ricerca e Sviluppo dell’azienda è: una variabile di interesse;
- La popolazione statistica è formata da: individui intesi come unità di osservazione;
- Il fenomeno statistico è: la variabile di interesse;
- Tra i vantaggi di fare un campione ritroviamo: economicità e tempestività;
- L’inferenza statistica è una procedura analitica che: permette di passare dal particolare al generale;
- Il campione è definito come: un sottoinsieme della popolazione;
- La statistica descrittiva si occupa di: descrivere e sintetizzare le informazioni raccolte;
- Tra gli svantaggi ad analizzare direttamente l’intera popolazione abbiam: costi elevati.
Classificazione dei fenomeni statistici
- I caratteri qualitativi si distinguono in: sconnessi e ordinabili;
- Sulle modalità di un carattere qualitativo sconnesso si possono fare solo operazioni di: uguaglianza e disuguaglianza;
- Se le modalità del carattere osservato è espresso con un attributo abbiamo: un carattere qualitativo;
- Il carattere “reddito mensile” è: quantitativo continuo;
- Il carattere “squadra di calcio per cui si tifa” è: qualitativo sconnesso;
- Se le modalità del carattere osservato è espresso con un numero abbiamo: un carattere quantitativo;
- Il carattere “numero di figli per coppia” è: un quantitativo discreto;
- I caratteri quantitativi si distinguono in: discreti e continui;
- Le modalità di un carattere quantitativo discreto si possono fare solo operazioni: tutte;
- Il carattere “comune di nascita” è: qualitativo sconnesso.
Le distribuzioni di frequenza
- Con Xi si indica: la i-esima modalità;
- Le frequenze si possono calcolare per le seguenti tipologie di caratteri: tutti;
- Le frequenze semplici si determinano effettuando: il conteggio;
- Se su otto PC osservati in un ufficio, tre risultano difettosi, tre corrisponde alla: frequenza semplice delle modalità difettosi, dal carattere “funzionamento PC”.
- Il totale delle frequenze è uguale al: totale delle osservazioni;
- Con il simbolo Σ si indica: la sommatoria;
- Con ni, si indica: la i-esima frequenza;
- Nelle distribuzioni di frequenza, le modalità dei caratteri quantitativi continui sono: raggruppate in classi;
- Per un carattere qualitativo sconnesso, l’elenco con cui si riportano le modalità nella tabella di frequenze è: arbitrario;
- Nel caso di carattere quantitativo continuo, la moda corrisponde alla modalità con: massima densità;
- Le medie vengono chiamate anche: indici di tendenza;
- La moda si può calcolare: per qualsiasi carattere;
- La capacità informativa della Mediana è: superiore alla moda;
- La media è espressa attraverso: un solo valore;
- Se due modalità presentano uguale massima frequenza diremo che: la distribuzione è bimodale;
- Sono definite medie di posizione, quelle medie che si riferiscono: alla particolare posizione occupata da una osservazione;
- La moda è definita come quella modalità che presenta: massima frequenza;
- Guardando un grafico a torta, la moda corrisponde a: la sezione più grande.
La mediana
- La mediana è quel valore che occupa all’interno della distribuzione, la posizione: centrale;
- Per determinare il valore al centro della distribuzione è utile calcolare: le frequenze cumulate;
- Se n è dispari, la posizione occupata dalla Mediana sarà: (n+1)/
- La posizione della mediana deve essere: un numero intero;
- La distribuzione viene divisa dalla Mediana lasciando: metà delle osservazioni prima della Media e metà dopo;
- Se il carattere è per classi: si deve applicare una formula particolare per trovare il valore all’interno della classe;
- La mediana può calcolarsi per caratteri: ameno qualitativi ordinabili;
- Se n è pari, esistono due posizioni centrali: n/2 e (n/2)+1;
- Se ho osservato i valori 0,5,2 la mediana è: 2;
- Se ho rilavato il carattere “comune di residenza”, la mediana: non si può calcolare;
I quantili e i quartili
- I quantili sono: dipende da quanto si è fissato k
- Il secondo quartile corrisponde a: la mediana;
- I quartili sono: 4;
- I decili dividono la distribuzione in: 10 parti;
- Il terzo quartile lascia a destra il: 25% delle osservazioni;
- Per trovare i quartili si divide n per: 4;
- I quantili e i quartili possono calcolarsi per: caratteri almeno ordinabili;
- Il primo quartile lascia alla sua sinistra il: 25%;
- Il primo decile lascia alla sua destra il: 90%;
- Sul carattere “livello di reddito” si possono calcolare: tutti i quantili, per k qualsiasi.
La media aritmetica
- La media aritmetica può calcolarsi per: carattere quantitativi;
- Se in una distribuzione si sono osservati i valori estremi 3 e 20, la media: sarà compresa tra questi valori;
- Se su una distribuzione ho calcolato una media pari a 7 e aumento di 2 tutti i valori osservati, la nuova media sarà pari a: 9
- La media aritmetica è una media: analitica;
- La somma degli scarti della media è: nulla;
- Se ho osservato i voti degli esami su un gruppo di 7 femmine ed è pari a 25 e su un gruppo di 5 maschi che è 23, la media totale sarà: 24.17:
- Nel calcolo della media aritmetica si considerano: tutte le osservazioni;
- Se su una distribuzione ho calcolato una media pari a 8 e sottraggo a tutti i valori osservati 2, la nuova media sarà pari a: 6;
- Se su una distribuzione ho calcolato una media pari a 5 e moltiplico a tutti i valori osservati 3, la nuova media sarà pari a: 15
- Se su una distribuzione ho calcolato una media pari a 10 e divido a tutti i valori osservati 2, la nuova media sarà pari a: 5;
Introduzione alla variabilità
- Se ho osservato i seguenti valori: 3,3,3,3, la variabilità è: nulla;
- Il rango è dato da: valore massimo – valore minimo;
- La differenza interquartilica è: terzo quartile – primo quartile;
- Se su due distribuzioni ho la stessa media, allora queste avranno variabilità: non necessariamente uguale;
- Se ho osservato i seguenti valori: 3,0,1,2,5, la differenza interquartilica è: 3-1=2;
- Gli indici di variabilità si calcolano su caratteri: quantitativi;
- La differenza interquartilica è: sempre non negativa;
- Se ho osservato i seguenti valori: 3,0,1,5,4, il rango è: 5-0=5;
- Se due distribuzioni hanno stessa media e mediana, allora hanno: non si può dire nulla a priori sulla variabilità;
- Se ho osservazioni negativo, il rango sarà: sempre positivo;
La varianza e lo scarto quadratico medio
- La varianza ha unità di misura: uguale al quadrato del fenomeno rilevato;
- Lo scarto quadratico medio è uguale: alla radice quadrata della varianza;
- Se il fenomeno rilevato assume valori negativi, la varianza: è comunque positiva;
- Non si possono considerare gli scarti semplici della media nella misura della variabilità perché: la somma degli scarti è nulla;
- Se il carattere è costante, la varianza è: nulla;
- Se tutti i valori sono aumentati di una costante a, la varianza: rimane uguale;
- Se la varianza è calcolata su dati campionari, la formula: cambia il denominatore;
- Se una distribuzione presenta elevata variabilità, lo sqm è pari: dipende dai dati;
- Se ho calcolato sui dati una varianza pari a 5 e poi moltiplico tutti i valori originari di 2, la nuova varianza sarà: 20;
- Su una distribuzione ho calcolato la varianza ed è pari a 3. Aumento di tutti i valori di due. La nuova varianza è:3;
Approfondimenti sulla variabilità
L’indice del chi quadrato
- Nel caso di massima dipendenza il valore del chi2 è: n*min((h-1);(k-1));
- Nell’analisi dell’indipendenza, la contingenza è data da; cij=(nij-n*ij=;
- L’indice del chi2 è un indice di indipendenza: assoluta;
- L’indice del chi2 è uguale a zero se: tutte le frequenze osservate sono uguali a quelle teoriche;
- L’indice di Cramer varia tra: zero e uno;
- Se l’indice di cramer =1, significa che si ha: massima dipendenza;
- L’indice del chi2 può essere negativo nel caso in cui: mai;
- Se C=0.80 possiamo dire che: siamo in presenza di un elevata dipendenza tra X e Y;
- Se l’indice di Cramer=0, significa che si ha: indipendenza;
- L’indice di cramer è un indice di indipendenza: relativo;
Concordanza e discordanza
- Il baricentro è il punto di coordinate: media di x e media di y;
- Nel caso di caratteri x e y concordanti, la covarianza è: positiva;
- Il grafico di dispersione è: una rappresentazione grafica di due carattere quantitativi;
- Se la covarianza è nulla, allora X e Y sono: incorrelati;
- Se al diminuire di X, Y diminuisce diremo che i due carattere sono: concordanti;
- La covarianza può calcolarsi per: caratteri X e Y entrambi quantitativi;
- Nel caso di carattere X e Y discordanti, la covarianza è: negativa;
- Se al crescere di X, Y diminuisce diremo che i due caratteri sono: discordanti;
- Nella formula semplificata della covarianza si deve calcolare la somma: del prodotto tra le x e le y;
- La covarianza può assumere valori: sia negativi che positivi;
La correlazione
- La covarianza è un indice: assoluto;
- Se il coefficienti di correlazione è nullo: sono incorrelate;
- Nel caso di correlazione spuria si osserva un coefficiente di correlazione alto: ma non esiste dipendenza tra le variabili;
- Se y spiegato da una parabola, allora il coefficiente di correlazione è: 0;
- Il coefficiente di correlazione ha al numeratore: la covarianza;
- Se il coefficiente di correlazione è nulla, allora: non esiste legame lineare tra le variabili;
- Se si è in presenza di una relazione lineare inversa, il coefficiente di correlazione è: negativo;
- Il coefficiente di correlazione assume valori compresi tra: meno uno e più uno;
- Se r=-0.95, allora: x e y sono fortemente legata linearmente;
- La presenza di dati anomali: può alterare il risultato del coefficiente di correlazione;
La retta di regressione
- Nella retta di regressione le due variabili X e Y sono: entrambe quantitative;
- I minimi quadrati vengono usati per specificare: la migliore retta di regressione;
- Con il termine “coefficiente di regressione” si intende: il coefficiente angolare della retta di regressione;
- Nella retta di regressione X e Y sono con un legame di: dipendenza di una sull’altra;
- La retta dei minimi quadrati è quella retta che: più si avvicina ai punti osservati;
- Se ho una retta di regressione Y=2+1.5X allora posso dire che: all’aumentare di una unità di X, Y aumenta di 1.5;
- La relazione tra X e Y può essere in generale espressa: da una qualsiasi funzione f;
- L’intercetta della retta esprime: la parte di Y indipendente da X;
- Se ho una retta di regressione Y=2+1.5X allora posso dire che: il coefficiente di correlazione è positivo;
- Se ho una retta di regressione Y=2+1.5X allora posso dire che quando x=2 il valore teorico di Y sarà:5;
La bontà di adattamento
- Il coefficiente R2 è un indice di: bontà di adattamento;
- Se ho r2=0.75 allora posso dire che: la retta non spiega il 25%;
- Il valore osservato Y può essere scomposto in: Y teorico più un residuo e;
- La varianza Y è scomposta come: Var(Y)= Var(Y^)+Var(e);
- Se ho un coefficiente di correlazione pari a -0.5, allora: r2=0.25;
- Il coefficiente di determinazione varia tra: zero e uno;
- Indicare se è possibile avere un coefficiente di correlazione negativo e un r positivo: si;
- R2 esprime quanta parte della variabilità di Y: è spiegata dalla retta;
- Se la retta passa perfettamente per i punti osservati, r3 sarà pari a:1;
- Se la varianza di Y è uguale alla varianza residua, R2 sarà uguale a: zero;
Approfondimenti sulla retta di regressione
- I residui si devono distribuire rispetto alle X: in modo casuale;
- Se ho un R2=0.15, posso dire che: non esiste dipendenza tra la Y e la X;
- Gli outlier sono: dati anomali;
- Se R2=0 allora: il coefficiente di regressione è nullo;
- L’istogramma dei residui deve avere una forma: campanulare;
- Se R2=0.85 posso dire che: la retta spiega molto bene i punti;
- Se la retta di regressione è una retta parallela all’asse delle X, allora: R2=0;
- Se i miei punti hanno un andamento perfettamente parabolico, R2 sarà: zero;
- Se la retta di regressione è una retta parallela all’asse delle Y, allora: R2=0;
- Se i residui crescono al variare di X, allora: la retta non è buona.
Introduzione alla probabilità
- Nella definizione classica la probabilità è data da: il rapporto tra casi favorevoli e casi totali;
- La probabilità è un valore: compreso tra zero e uno;
- Se A={2,3,4} e B={4,5,6}, la loro intersezione è: 4;
- La funzione normale è definita per valori di x compresi tra: meno infinito e più infinito;
- Ue distribuzioni normali con stessa varianza e diversa moda: sono identiche per traslazione;
- La funzione di densità normale ha un andamento: campanulare;
- All’aumentare della variabilità, la curva normale si: abbassa;
- Nella formula della normale figurano esplicitamente: media e varianza;
- I punti di flesso della curva normale si trovano in corrispondenza di: (m-σ) e (μ+σ);
- Con x∼n(3,2), si indica una media con: media=3 e sqm= 2;
- Nella funzione normale: media, mediana e moda coincidono;
- La curva normale è particolarmente importante nelle applicazione della statistica perché: molti fenomeni si distribuiscono approssimativamente ad una normale;
- La curva normale è: una variabile casuale continua.
La normale standardizzata
- La variabile standardizzata ha: sempre media nulla;
- Le tavole della normale forniscono i valori di:
- La trasformazione di standardizzazione è:
- È possibile passare da una variabile X ad una standardizzata Z: sempre;
- La Pr(Z< 0) è uguale a: 0.5;
- La variabile standardizzata ha: sempre sigma=1;
- Se X ha media = 3 e sigma = 2, allora il valore standardizzato di x=1 è: -1;
- La normale standardizzata ha andamento: campanulare;
- Se X = N(1,2), allora Pr(0 < X < 5) è uguale a: Pr(-0.5 < Z < 2);
- La Pr(Z<0.65) è uguale a: 0.
La tavola della normale
- Nella curva normale, la pr(Z<-a) è uguale a: 1-pr(z<a);
- Nella curva normale, la pr(z>b) è uguale a: 1pr(z<b);
- La pr(z<0.34) è uguale a: 0.63307;
- La pr(z<-0.34) è uguale a: 0.36693;
- La pr(z>0.34) è uguale a: 0.36693;
- La pr(z>-0.34) è uguale a: 0.63307;
- Il valore di z che corrisponde ad una probabilità 0.5 è: 0;
- Il valore di z che corrisponde ad una probabilità 0.8 è: 0.84;
- Sia x una normale con media=3 e sigma=2, il suo terzo quartile è: 4.34;
- Nella normale standardizzata il terzo quartile è: 0.67.
Introduzione al campionamento
- Tra i vantaggi del campionamento casuale semplice troviamo: minima conoscenza della popolazione di partenza;
- Nel campionamento a grappoli: si estraggono i grappoli e poi si osservano tutte le unità all’interno del grappolo;
- Uno degli svantaggi del campionamento a due stadi è: si rileva una perdita di efficacia quando le unità di primo stadio sono molto simili;
- La frazione di campionamento è data dalla formula: n/N*100%;
- Il campionamento a grappolo viene usato spesso nel caso di: ispezionamento delle merci;
- Nel campionamento sistematico si scelgono le unità: una ogni k della popolazione;
- Nel campionamento casuale stratificato: si divide la popolazione in gruppi e si estraggono le unità da ogni strato;
- L’intervallo di campionamento è calcolato da: N/n;
- Nel campionamento a due stadi: si estraggono alcuni gruppi e successivamente si estraggono le unità al loro interni;
- Uni dei vantaggi del campionamento stratificato è che: consente di aumentare la precisione delle stime a parità di dimensione campionaria.
Introduzione all’inferenza
- L’inferenza si interessa a estendere: l’informazione campionaria alla popolazione;
- Se la popolazione di partenza è normale, allora la media campionaria si distribuisce: normalmente;
- Se la varianza della popolazione è 10 e si fa un campione con n=100, la varianza della media campionaria è: 0.1;
- L’intervallo di confidenza ha un livello di garanzia: 1-alpha;
- Il campione (X1,…,Xn) viene considerato come una: variabile causale multipla;
- Se non conosciamo la distribuzione della popolazione, la distribuzione della media campionaria è: normale per n elevato in base al teorema del limite centrale;
- La media campionaria è: una variabile causale;
- Se si estrae un campione da una popolazione con media pari a 4, la media campionaria ha media pari a: 4;
- All’aumentare di n l’ampiezza dell’intervallo: diminuisce;
- Una garanzia del 100% nell’intervallo di confidenza si ottiene per: (-infinito; +infinito);
La verifica dell’ipotesi
- Il punto di partenza dei test statistici è la definizione della: ipotesi nulla;
- Nella verifica delle ipotesi si possono commettere: due tipi di errori;
- I test statistici sono una delle tecniche: dell’inferenza statistica;
- Con l’errore di primo tipo si intende: rifiutare l’ipotesi nulla quando questa è vera;
- Nel test sulla media, se l’ipotesi alterativa è bidirezionale, si accetta se: la statistica test /z/;
- La statistica usata nell’ambito della verifica delle ipotesi è: una statistica-test;
- Se non nota la varianza della popolazione la statistica-test da usa per la verifica del ipotesi sulla media è:
- L’ipotesi alternativa corrisponde a: l’ipotesi che quella nulla non sia verificata;
- La procedura dei test in generale è: definizione ipotesi, individuazione statistica- test, decisione accettazione;
- L’errore di secondo tipo consiste in: accettare l’ipotesi nulla quando questa è falsa.
Introduzione ad Excel
- I formati comunemente usati nelle banche dati e leggibili da Excel sono: xls, csv e
La binomiale con Excel
- I calcoli della distribuzione binomiale possono essere fatti ricorrendo alla funzione statistica: =distrib.Binom;
- Il risultato della funzione binomiale fornisce: la probabilità associata al k selezionato;
- Gli argomenti da specificare nella funzione binomiale sono: n, p, k;
- Se nella funzione della binomiale si pone ”cumulativo=vero”, allora: si sommano tutte le probabilità da i=0;
- Quando la probabilità p si avvicina a 0.5, con un numero di prove consistenti: la distribuzione binomiale si avvicina alla Normale;
- Per calcolare il valore atteso e la varianza della distribuzione binomiale si deve: digitare la funzione manualmente.
La normale con Excel
- Le funzioni riferite alla distribuzione Normale con Excel sono: 4;
- La funzione "=Inv.Norm" fornisce come risultato: il valore della X corrispondente;
- Con Excel è possibile fare esercizi riferiti soltanto alla: Normale qualsiasi e Normale standardizzata;
- Se si vuole calcolare la Pr(X>a) si usa: La funzione scritta manualmente;
- Il risultato della funzione "=Distrib.Norm" è: La probabilità associata a X;
- Nella funzione "=Distrib.Norm.St" l'argomento da specificare è: il valore z;
- Per calcolare la Pr (a < Z < b): Si deve calcolare manualmente partendo da "=Distrib.Norm.St";
- La normale standardizzata Z ha: Media nulla e varianza uno;
- La funzione "=Inv.Norm" ha come argomento: La probabilità, la media e la deviazione standard;
- Nella funzione "=Distrib.Norm" l'argomento da specificare è: Il valore X, la media, la deviazione standard e cumulativo.