statistica domande aperte | Panieri di Statistica

A proposito della moda descrivere: a) che cos'è la densità di classe e come si calcola; b) la formula della moda per valori suddivisi in classi; c) che cos'è una distribuzione amodale ed una distribuzione

plurimodale

Quando le classi sono equi-ampie si può utilizzare, ai fini del calcolo delle misure centrali e di variabilità, il valore centrale di classe, tenendo conto che tale procedura presenta un certo grado di

approssimazione dei risultati. Qualora, invece, le classi non sono equi-ampie è necessario disegnare per ogni classe un rettangolo che ha per altezza la densità di classe, data dal rapporto fra la frequenza

assoluta ni e l’ampiezza di classe (ai-1, ai) e per base l’ampiezza di classe stessa. Mo=Lmo+∗𝐴𝑐𝑙𝑎𝑠𝑠𝑒 dove: Lmo è l’estremo in feriore della classe modale. Δfinf è la differenza fra la frequenza assoluta

della classe modale e la frequenza assoluta della classe immediatamente inferiore a quella modale. Δfsup è la differenza fra la frequenza assoluta della classe modale e la frequenza assoluta della classe

immediatamente superiore a quella modale. Aclasse è l’ampiezza della classe modale. La distribuzione amodale presenta frequenze tutte uguali. La Moda può essere definita come: una misura di

tendenza centrale che si applica ai caratteri qualitativi e quantitativi ordinabili, in modo crescente o decrescente. Rappresenta la modalità di un carattere che si presenta più volte o che evidenzia il

valore di frequenza più elevato in un insieme di osservazioni. Una distribuzione di valori di un carattere può presentare più mode (in questo caso si definisce “plurimodale”), quando si registra più volte

la stessa frequenza.

A proposito della statistica bayesiana: a) spiegare su quale concetto di probabilità si fonda; b) spiegare che essa è definita anche come statistica delle cause; c) rappresentare la configurazione dello

spazio campionario

Il cosiddetto approccio bayesiano alla probabilità è incentrato sulla determinazione della probabilità dopo aver attuato un esperimento ovvero di aver stabilito la probabilità prima di avere effettuato

lo svolgimento dell’esperimento stesso. La particolarità di tale impostazione va ricercata nel fatto che data la conoscenza dell’esito di un esperimento si va a ricercare la probabilità che esso sia dovuto

ad una o più cause. Non a caso la statistica bayesiana è anche definita statistica delle cause.

Commentare brevemente: a) il significato di errore di I tipo; b) il significato di errore di II tipo; c) il significato di potenza del test e la interrelazione fra teoria della stima e verifica di ipotesi

Se si rifiuta l’ipotesi di interesse sotto quella alternativa quando si sarebbe dovuta accettare, si commette un errore del I tipo. Se si accetta l’ipotesi di interesse sotto quella alternativa quando si sarebbe

dovuta rifiutare, si commette un errore del II tipo. In entrambi i casi si assume una decisione errata o si commette un errore di valutazione. In linea generale è più grave commettere un errore del I tipo

che uno del II. Potenza del test: Si consideri un’ipotesi alternativa H1:μ=μ0. La potenza del test è il complemento a 1 dell’errore di II tipo (1-β). Si può affermare che la potenza del test corrisponde alla

probabilità di rifiutare H0 quando questa è falsa. Quindi si cerca di avere un valore molto alto di questa probabilità, come si ribadisce che α deve avere un valore molto basso al fine di garantire una

bassa probabilità di commettere l’errore di I tipo. Interrelazioni fra teoria della stima e verifica di ipotesi. Dalle considerazioni svolte finora si può notare che esiste una interrelazione tra la teoria della

stima che coinvolge gli intervalli fiduciari e la teoria dei test di ipotesi. Se si prende a riferimento la verifica delle ipotesi per test bidirezionali su una media campionaria nel caso di grandi campioni (n>30)

distribuiti normalmente, il sistema di ipotesi relativo sarà: H0:μ=μ0 vs H1:μ≠μ0.

Commentare brevemente: a) il significato di ipotesi nulla e alternativa; b) il significato di verifica di ipotesi con test unilatero dx; c) il significato di verifica di ipotesi con test unilatero sx e bilatero

Il concetto di test parametrico presuppone di affrontare la verifica di ipotesi sui parametri di una popolazione normale da cui sono estratti i campioni. L’approccio di Neyman e Pearson, noto come test

di ipotesi, prende in considerazione esplicitamente l’ipotesi alternativa rispetto a quella di interesse o nulla. Per ipotesi si intende stabilire un valore a priori riguardante un parametro della popolazione

di interesse. Le due ipotesi in opposizione sono: quella nulla o di interesse, definita H0 e quella alternativa, definita H1. L’ipotesi H0 è quella considerata vera fino a prova contraria. L’ipotesi H1 è quella

in contrapposizione. Le procedure che permettono di decidere se accettare o rifiutare una data ipotesi o di stabilire se un dato campione osservato differisce dai risultati attesi sono definite test statistici

o test d’ipotesi o test di significatività dette anche regole di decisione. Se l’ipotesi nulla H0 è un’affermazione sul valore assunto da un parametro incognito di una popolazione, l’ipotesi alternativa H1

risponde ad una delle seguenti affermazioni: il parametro è maggiore o uguale del valore ipotizzato (test unilatero con coda a destra); il parametro è minore o uguale del valore ipotizzato (test unilatero

con coda a sinistra); il parametro è diverso del valore ipotizzato (test bilatero o a due code).

Commentare brevemente: a) la differenza fra stimatore e stima; b) la proprietà di non distorsione o correttezza; c) la proprietà di efficienza e di consistenza

Per quanto riguarda la stima puntuale non si può dire a priori che essa sia buona o cattiva in quanto non conoscendo il vero valore del parametro, essendo esso incognito, non è possibile fare confronti.

Con stimatore affidabile o non affi dabile, si intende fare riferimento al metodo di stima impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo campione, ma all’universo di

tutti i campioni possibili. Le proprietà degli stimatori “ottimali” sono la: distorsione o correttezza; efficienza e consistenza. Distorsione. Lo stimatore T si dice corretto o non distorto se il suo valore medio

o atteso è dato da: E(T)=μ per tutti i possibili valori di μ. La distorsione dello stimatore T è data dalla differenza fr a il suo valore medio o atteso e il valore del parametro della popolazione da stimare

ovvero: B(T)=E(T)-μ. Efficienza. Lo stimatore T si dice efficiente se la differenza fra se stesso e il valore del parametro della popolazione da stimare è il più basso possibile ovvero l’efficienza è una misura

di dispersione o di variabilità dello stimatore. Se si hanno più stimatori (T1,T2,......,Tn), il confronto tra di essi in termini di efficienza viene svolto attraverso il confronto fra le relative varianze; si dirà, ad

esempio, che T1 è più efficiente di T2 se la Var(T1)< Var(T2) e via di seguito e quindi si ha una efficienza relativa. Se invece lo stimatore T1, ad esempio, è più efficiente di qualsiasi altro stimatore del

parametro di interesse si può dire che esiste una efficienza assoluta. Consistenza. Uno stimatore T si dice consistente se la sua precisione aumenta all’aumentare della dimensione campionaria. Si dice

che uno stimatore T è asintoticamente consistente se al tendere all’infinito della numerosità campionaria il suo valore o realizzazione tende al valore del parametro ignoto della popolazione. Ciò è

possibile solo se lo stimatore T è consistente in media quadratica ovvero se tende a zero l’errore quadratico medio.

Commentare brevemente: a) la legge debole dei grandi numeri; b) la legge forte dei grandi numeri; c) la disuguaglianza di Markov e la diseguaglianza di Chebyshev

Si può utilizzare la Disuguaglianza di Chebyshev per avere informazioni sulla varianza. Essa stabilisce che, per ogni distribuzione di dati di una popolazione, la percentuale di essi non si allontanano dalla

media per una certa quantità dello scarto quadratico medio è pari almeno a: (1- 1/k2)*100%. La disuguaglianza può assumere la notazione completa rappresentata dalla seguente disuguaglianza: |xi-

µ|k0≤1/k2 dove k è la quantità espressa da un numero puro positivo. Dalla diseguaglianza di Chebyshev deriva la Legge dei grandi numeri che assume due connotazioni: quella forte e quella debole.

Legge debole. Date n variabili mutuamente indipendenti con media μ e varianza σ2 ed un numero positivo a si può affermare che il limite per x che tende a ∞ della probabilità della differenza tra la

media delle v.c. stesse e il valore atteso μ in termini assoluti sia maggiore di un valore intero positivo a è uguale a zero. In simboli si avrà: limx->∞ P[l (X1+X2+….+Xn)/n]-μl>a]=0 Si può dedurre che la

media μ converge in probabilità alla media aritmetica delle Xi per i=1,…,n. Legge forte. Date n variabili mutuamente indipendenti con media μ e varianza, si può affermare che la probabilità che al limite

per n che tende a +∞ la media aritmetica delle stesse sia uguale a μ in valore assoluto, è pari a 1. In simboli si avrà: lim n→∞PX1+X2…+Xn)/n= μ|=1.

Disuguaglianza di Markov. Nella situazione in cui non si è a conoscenza della distribuzione della v. c., si potrebbe avere l’esigenza di definire dei limiti alla probabilità. In questa circostanza può tornare

utile, pur con forti limiti, utilizzare la disuguaglianza di Markov dove la probabilità della v.c. X, che deve essere maggiore o uguale alla quantità h, non deve superare il rapporto tra la media e la stessa

quantità h e quindi può essere trovata conoscendo solo il valore atteso. La notazione è:P(Xh) ≤x/h dove X è una v.c. non negativa e x è la media o il valore atteso.

Con quale notazione si calcola: a) lo scarto semplice dalla media e dalla mediana; b) lo scarto medio assoluto dalla media e dalla mediana; c) l'indice di dissomiglianza

Scarto semplice dalla media: È la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore medio SCsem= ∑|𝑥𝑖− 𝑥 |

Scarto semplice dalla mediana: È la sommatoria della differenza semplice in valore assoluto fra i valori osservati e il loro valore mediano SCsem= ∑|𝑥𝑖−𝑀𝑒|

Scarto medio assoluto dalla media: È la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore medio rapportati al numero delle osservazioni SCass= ∑ |𝑥𝑖 − 𝑥|/𝑛

Scarto medio assoluto dalla mediana: È la sommatoria della differenza in valore assoluto fra i valori osservati e il loro valore mediano rapportati al numero delle osservazioni SCass = ∑|𝑥𝑖 −𝑀𝑒|/n

Indice semplice di dissomiglianza: È un indice che permette di valutare la dissomiglianza fra due distribuzioni di valori osservati suddivisi in classi ed è dato dalla sommatoria delle differenze medie delle

corrispondenti frequenze relative Idiss=∑|𝑓1𝑖−𝑓2𝑖|

Con quali formule si calcolano: a) la mediana per valori singoli; b) la mediana per classi con il procedimento 1; c) la mediana per classi con il procedimento 2

La mediana occupa la posizione che si ottiene dalla formula: (n+1)/2 = (7+1)/2 = 4^

Dopo aver ordinato l’insieme dei dati in sequenza crescente o decrescente e assegnato la relativa posizione si applicano due principi: 1. se il numero di modalità è Dispari la mediana occupa la posizione

(n+1)/2 ed il suo valore è corrispondente a quello della posizioni trovata; 2. se il numero di modalità è Pari la mediana occupa sempre la posizione (n+1)/2 ma il suo valore è corrispondente a quello

delle due posizioni limitrofe trovate.

Con quali notazioni si esprime: a) la stima puntuale del valore atteso di una proporzione campionaria; b) la stima puntuale della varianza di una proporzione campionaria; c) la stima puntuale della

deviazione standard di una proporzione campionaria

Con quali script di R si implementano: a) la tabella a doppia entrata e le relative frequenze congiunte assolute; b) la tabella delle frequenze teoriche; c) la tabella delle contingenze assolute e quella

delle contingenze assolute al quadrato diviso le frequenze teoriche

Da due popolazioni normali si estraggono due campioni e si studia la differenza fra le due medie campionarie x1 e x2 con varianze note σ12 e σ22 e si vuole individuare: a) la notazione per la regione

di rifiuto; b) la notazione per il calcolo della z empirica; c) il sistema di ipotesi per un test bilatero

Da due popolazioni normali si estraggono due campioni e si studia la differenza fra le due proporzioni campionarie p1 e p2 con n1 e n2 si vuole individuare: a) la notazione per la regione di rifiuto;

b) la notazione per il calcolo della z empirica; c) il sistema di ipotesi per un test unilatero dx

Da una popolazione finita si è estratto un campione di 24 osservazioni e si è ottenuto il valore della varianza campionaria pari a 0,41. Con quali script di R si calcola: a) il valore del quantile della

statistica test; b) la probabilità che la varianza sia maggiore di 0,45; c) la probabilità che la varianza sia minore di 0,39

Dati i seguenti valori di x (7,11,15,16,19) con quali script di R: a) si costruiscono classi per K=2; b) si calcola l'indice di eterogeneità di Gini semplice e massimo; c) si calcola l'indice di eterogeneità di

Gini normalizzato

Dai i seguenti valori di x (7,11,15,16,19): a) costruire classi per K=2; b) calcolare le frequenze relative; c) calcolare l'indice di eterogeneità di Gini semplice, massimo e normalizzato