prova orale statistica | Appunti di Statistica

1. Definisci la frequenza relativa e fornisci la sua formula.

La frequenza relativa indica la proporzione di volte che una specifica

modalità appare in un dataset. Si calcola dividendo la frequenza assoluta

(ni) di quella modalità per il numero totale di osservazioni (N). La formula è

fi = ni / N, dove 0 <= fi <= 1 e la somma di tutte le frequenze relative è

sempre uguale a 1.

2. Spiega come calcolare la media aritmetica per dati raggruppati in

classi.

Quando i dati sono raggruppati in classi, si utilizza la formula x

 = ∑ (Xi * fi),

dove Xi rappresenta il valore centrale di ciascuna classe e fi è la frequenza

relativa di quella classe. In pratica, si moltiplica il valore centrale di ogni

classe per la sua frequenza relativa, e poi si sommano tutti questi prodotti.

3. Descrivi come identificare gli outlier in un box plot e spiega il

significato dei valori adiacenti.

In un box plot, gli outlier sono i valori che si trovano al di fuori dei 'baffi'. I

'baffi' si estendono fino ai valori adiacenti. Il valore adiacente inferiore è

calcolato come Q1 - 1.5*(Q3-Q1), mentre il valore adiacente superiore è

calcolato come Q3 + 1.5*(Q3-Q1). I valori che superano questi limiti sono

considerati outlier e rappresentati con un asterisco. Gli outlier indicano

valori insolitamente alti o bassi rispetto al resto dei dati.

4. Quando è appropriato utilizzare la formula di Sturges e qual è il

suo scopo?

La formula di Sturges, S = 1 + (10/3) * log(n), viene utilizzata per

determinare il numero ottimale di classi (S) da utilizzare nella costruzione

di una distribuzione di frequenze, dato il numero di osservazioni (n).

L'ampiezza delle classi si calcola poi come (Xmax - Xmin) / S. L'obiettivo è

creare una rappresentazione visiva dei dati che sia informativa e non

eccessivamente dettagliata o troppo aggregata.

5. Spiega la differenza tra devianza e varianza, e indica quale

formula si usa per calcolare la varianza.

La devianza è la somma dei quadrati delle differenze tra ciascun valore e la

media del dataset (Dev(X) = ∑ [(xi - x

)²]). La varianza, invece, è la devianza

divisa per il numero di osservazioni (N) (σ² = Dev(X) / N = ∑ [(xi-x

)²] / N).

La varianza misura la dispersione dei dati attorno alla media. Esiste anche

una formula alternativa più veloce: σ² = ∑ (xi²)/N - x

².

6. Descrivi il coefficiente di variazione (CV) e spiega come

interpretarlo.

Il coefficiente di variazione (CV) è una misura di variabilità relativa,

calcolata come il rapporto tra la deviazione standard (σ) e il valore assoluto

della media (|x

|), moltiplicato per 100%: CV = (σ / |x

|) * 100%. Si utilizza

per confrontare la variabilità tra gruppi diversi con medie diverse. Un CV

basso (inferiore al 20-25%) indica una bassa variabilità, mentre un CV alto

(superiore al 50%) indica un'alta variabilità.

Anteprima parziale del testo

Scarica prova orale statistica e più Appunti in PDF di Statistica solo su Docsity!

Definisci la frequenza relativa e fornisci la sua formula. La frequenza relativa indica la proporzione di volte che una specifica modalità appare in un dataset. Si calcola dividendo la frequenza assoluta (ni) di quella modalità per il numero totale di osservazioni (N). La formula è fi = ni / N, dove 0 <= fi <= 1 e la somma di tutte le frequenze relative è sempre uguale a 1.
Spiega come calcolare la media aritmetica per dati raggruppati in classi. Quando i dati sono raggruppati in classi, si utilizza la formula x̅ = ∑ (Xi * fi), dove Xi rappresenta il valore centrale di ciascuna classe e fi è la frequenza relativa di quella classe. In pratica, si moltiplica il valore centrale di ogni classe per la sua frequenza relativa, e poi si sommano tutti questi prodotti.
Descrivi come identificare gli outlier in un box plot e spiega il significato dei valori adiacenti. In un box plot, gli outlier sono i valori che si trovano al di fuori dei 'baffi'. I 'baffi' si estendono fino ai valori adiacenti. Il valore adiacente inferiore è calcolato come Q1 - 1.5(Q3-Q1), mentre il valore adiacente superiore è calcolato come Q3 + 1.5(Q3-Q1). I valori che superano questi limiti sono considerati outlier e rappresentati con un asterisco. Gli outlier indicano valori insolitamente alti o bassi rispetto al resto dei dati.
Quando è appropriato utilizzare la formula di Sturges e qual è il suo scopo? La formula di Sturges, S = 1 + (10/3) * log(n), viene utilizzata per determinare il numero ottimale di classi (S) da utilizzare nella costruzione di una distribuzione di frequenze, dato il numero di osservazioni (n). L'ampiezza delle classi si calcola poi come (Xmax - Xmin) / S. L'obiettivo è creare una rappresentazione visiva dei dati che sia informativa e non eccessivamente dettagliata o troppo aggregata.
Spiega la differenza tra devianza e varianza, e indica quale formula si usa per calcolare la varianza. La devianza è la somma dei quadrati delle differenze tra ciascun valore e la media del dataset (Dev(X) = ∑ [(xi - x̅)²]). La varianza, invece, è la devianza divisa per il numero di osservazioni (N) (σ² = Dev(X) / N = ∑ [(xi-x̅)²] / N). La varianza misura la dispersione dei dati attorno alla media. Esiste anche una formula alternativa più veloce: σ² = ∑ (xi²)/N - x̅².
Descrivi il coefficiente di variazione (CV) e spiega come interpretarlo. Il coefficiente di variazione (CV) è una misura di variabilità relativa, calcolata come il rapporto tra la deviazione standard (σ) e il valore assoluto della media (|x̅|), moltiplicato per 100%: CV = (σ / |x̅|) * 100%. Si utilizza per confrontare la variabilità tra gruppi diversi con medie diverse. Un CV basso (inferiore al 20-25%) indica una bassa variabilità, mentre un CV alto (superiore al 50%) indica un'alta variabilità.

Spiega come interpretare il coefficiente di correlazione di Pearson (r). Il coefficiente di correlazione di Pearson (r) misura il grado di relazione lineare tra due variabili X e Y. Varia tra - 1 e +1. r = +1 indica una correlazione lineare perfetta diretta (crescente), r = - 1 indica una correlazione lineare perfetta inversa (decrescente), e r = 0 indica nessuna correlazione lineare. Valori tra 0 e 1 indicano una concordanza (correlazione positiva), mentre valori tra - 1 e 0 indicano una discordanza (correlazione negativa). Se |r| > 0.7 la correlazione è considerata forte, altrimenti moderata o debole. È importante ricordare che correlazione non implica causalità.
Descrivi il modello di regressione lineare semplice e spiega lo scopo della regressione. Il modello di regressione lineare semplice cerca la retta migliore che descrive la relazione tra una variabile indipendente X e una variabile dipendente Y, minimizzando i residui (metodo dei minimi quadrati). L'equazione della retta è ŷ = β₀ + β₁ x, dove β₀ è l'intercetta e β₁ è il coefficiente angolare. Lo scopo della regressione è stimare i valori di Y in base ai valori di X e comprendere la natura della relazione tra le due variabili.
Definisci il coefficiente di determinazione R² e spiega come interpretarlo. Il coefficiente di determinazione R² misura la proporzione della variabilità della variabile dipendente Y che è spiegata dalla variabile indipendente X nel modello di regressione lineare. Varia tra 0 e 1. R² = 0 indica che la retta non spiega nulla della variabilità di Y, mentre R² = 1 indica che la retta spiega tutta la variabilità di Y (adattamento perfetto). Ad esempio, se R² = 0.76, significa che il 76% della variabilità di Y è spiegata da X.
Enuncia e spiega la regola della probabilità condizionata. La probabilità condizionata, P(A|B), rappresenta la probabilità che l'evento A si verifichi, dato che l'evento B si è già verificato. La formula è P(A|B) = P(A∩B) / P(B), dove P(A∩B) è la probabilità che entrambi gli eventi A e B si verifichino, e P(B) è la probabilità che l'evento B si verifichi. Questa regola è fondamentale quando l'occorrenza di un evento influenza la probabilità dell'altro.
Descrivi la distribuzione di Poisson e indica quali sono le sue principali caratteristiche e applicazioni. La distribuzione di Poisson conta eventi rari in un intervallo di tempo/spazio fisso. È caratterizzata da un unico parametro, lambda (λ), che rappresenta il tasso medio di eventi. La probabilità di osservare x eventi è data da P(X=x) = (λˣ / x!) * e⁻λ. La media e la varianza della distribuzione di Poisson sono entrambe uguali a lambda. Viene utilizzata per modellare eventi come il numero di chiamate a un call center in un'ora, il numero di

falsa. Diminuire l'errore di Tipo II significa aumentare la potenza del test, ovvero la probabilità di rilevare un effetto quando questo esiste realmente.

Descrivi la differenza tra la varianza 'Between' (SQB) e la varianza 'Within' (SQW) nell'analisi ANOVA e spiega come vengono utilizzate per calcolare la statistica F. Nell'analisi ANOVA, la varianza 'Between' (SQB) rappresenta la variabilità spiegata tra i diversi gruppi che si stanno confrontando. Misura quanto le medie dei gruppi differiscono tra loro. La varianza 'Within' (SQW), invece, rappresenta la variabilità non spiegata all'interno di ciascun gruppo. Misura quanto i dati all'interno di ciascun gruppo variano attorno alla media del gruppo. La statistica F viene calcolata come il rapporto tra la varianza media tra i gruppi (MSB = SQB / (k-1)) e la varianza media entro i gruppi (MSW = SQW / (n-k)), dove k è il numero di gruppi e n è il numero totale di osservazioni. Un valore elevato di F suggerisce che la variabilità tra i gruppi è significativamente maggiore della variabilità all'interno dei gruppi, portando al rifiuto dell'ipotesi nulla di uguaglianza delle medie.
Quando si dovrebbe utilizzare un test t di Student invece di un test Z per confrontare la media di un campione con un valore noto? Si dovrebbe utilizzare un test t di Student invece di un test Z quando la deviazione standard della popolazione (σ) è sconosciuta e deve essere stimata dalla deviazione standard del campione (S). Il test Z richiede la conoscenza della deviazione standard della popolazione. Inoltre, il test t è particolarmente appropriato quando la dimensione del campione è piccola (generalmente n < 30), poiché in questi casi la distribuzione t di Student tiene conto della maggiore incertezza nella stima della deviazione standard della popolazione. Se la dimensione del campione è grande (n > 30), il teorema del limite centrale permette di approssimare la distribuzione campionaria della media con una distribuzione normale, e in tal caso si può utilizzare il test Z anche se σ non è nota, sostituendola con S.
Descrivi come calcolare le frequenze teoriche (Eij) nel test del Chi-quadrato per l'indipendenza e spiega cosa rappresentano. Nel test del Chi-quadrato per l'indipendenza, le frequenze teoriche (Eij) rappresentano le frequenze che ci aspetteremmo di osservare in ciascuna cella della tabella di contingenza se le due variabili fossero indipendenti. Si calcolano utilizzando la formula: Eij = (ni * nj) / n, dove ni è il totale della riga i-esima, nj è il totale della colonna j-esima e n è il totale complessivo delle osservazioni. In altre parole, Eij è il prodotto dei totali marginali della riga e della colonna corrispondente, diviso per la dimensione totale del campione. Confrontando le frequenze osservate (Oij) con le frequenze

prova orale statistica, Appunti di Statistica

Documenti correlati

Anteprima parziale del testo

Scarica prova orale statistica e più Appunti in PDF di Statistica solo su Docsity!