Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Statistica formulario 2 modulo, Appunti di Statistica

argomenti richiesti secondo modulo statistica Prof. De Battisti

Tipologia: Appunti

2020/2021

Caricato il 15/05/2023

vincentss
vincentss 🇮🇹

10 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Esistono due tipi di errore, a seconda di quale delle due ipotesi è vera:
- un errore di prima specie consiste nel rifiutare l'ipotesi nulla quanto è vera (H0 vera)
- un errore di seconda specie consiste nel NON rifiutare l'ipotesi nulla quando è valsa (H0 falsa)
REALTA’
DECISIONE
RIFIUTO
NON RIFIUTO
H0 VERA
ERRORE 1 TIPO
DECISIONE CORRETTA
H0 FALSA
DECISIONE CORRETTA
ERRORE 2 TIPO
----------------------------------------------------------------------------------------------------------------------
TEST SIGNIFICATIVITA’
La significatività e la possibilità rilevante che compaia un determinato valore. il livello di significatività di un
test e dato solitamente da una verifica del test di ipotesi. nel caso più semplice definita come la polita di
accettare o rigettare l'ipotesi nulla.
1) Ipotesi H0 / H1 - x camp / po
2) STATISTICA TEST PER UNA MEDIA X ~ N (mu, var/n) (se var è ignota la stimo ma usando t)
Zoss= (x mu) / √var/n
- Se Zoss > Zteorico RIFIUTO H0 ad un livello di significatività di …
- Se Zoss < Zteorico NON RIFIUTO H0 ad un livello di significatività di …
Se var ignota si usa t , e t teorico t a= .. gdl=n-1
3) STATISTICA TEST PER UNA PROPORZIONE P cappuccio ~ N (p, pq/n)
Zoss= (p po) / √po*qo/n
- Se Zoss > Zteorico RIFIUTO H0 ad un livello di significatività di …
- Se Zoss < Zteorico NON RIFIUTO H0 ad un livello di significatività di …
4) P VALUE (detto anche valore di probabilità, è la probabilità di ottenere risultati uguali o meno
probabili di quelli osservati durante il test supposta vera l’ipotesi nulla)
Il p-value è quindi il numero pari al minimo livello di significatività a cui i dati campionari
consentono di rifiutare l'ipotesi nulla
Se p-value = 0 siamo praticamente certi di non sbagliare
p-value = p (Z o T > <<valore z osservato>>) = ….(cerco sulle tavole il valore di z/t)
Fissando il valore di 𝛼 = si ha pertanto che:
se p-value < 𝛼 e quindi SI RIFIUTA H0
se p-value > 𝛼 e quindi NON SI RIFIUTA H0
Interpretazione p-value p-value (è il valore dell’area alla sinistra di z/t sotto la curva
normale e si trova sulle tavole, cercando l’area alla destra di <<n>>)
Se h0 fosse vera, La probabilità di ottenere continuamente campioni diversi a m 4u/p
(maggiori e minori) sarebbe pari a
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Statistica formulario 2 modulo e più Appunti in PDF di Statistica solo su Docsity!

Esistono due tipi di errore, a seconda di quale delle due ipotesi è vera:

  • un errore di prima specie consiste nel rifiutare l'ipotesi nulla quanto è vera (H0 vera)
  • un errore di seconda specie consiste nel NON rifiutare l'ipotesi nulla quando è valsa (H0 falsa) REALTA’ DECISIONE RIFIUTO NON RIFIUTO H0 VERA ERRORE 1 TIPO DECISIONE CORRETTA H0 FALSA DECISIONE CORRETTA ERRORE 2 TIPO

TEST SIGNIFICATIVITA’ La significatività e la possibilità rilevante che compaia un determinato valore. il livello di significatività di un test e dato solitamente da una verifica del test di ipotesi. nel caso più semplice definita come la polita di accettare o rigettare l'ipotesi nulla.

  1. Ipotesi H0 / H1 - → x camp / po
  2. STATISTICA TEST PER UNA MEDIA → X ~ N (mu, var/n) (se var è ignota la stimo ma usando t) Zoss= (x – mu) / √var/n
  • Se Zoss > Zteorico → RIFIUTO H0 ad un livello di significatività di …
  • Se Zoss < Zteorico → NON RIFIUTO H0 ad un livello di significatività di … Se var ignota si usa t , e t teorico → t a= .. gdl=n- 1
  1. STATISTICA TEST PER UNA PROPORZIONE → P cappuccio ~ N (p, pq/n) Zoss= (p – po) / √po*qo/n
  • Se Zoss > Zteorico → RIFIUTO H0 ad un livello di significatività di …
  • Se Zoss < Zteorico → NON RIFIUTO H0 ad un livello di significatività di …
  1. P – VALUE (detto anche valore di probabilità, è la probabilità di ottenere risultati uguali o meno probabili di quelli osservati durante il test supposta vera l’ipotesi nulla) Il p-value è quindi il numero pari al minimo livello di significatività a cui i dati campionari consentono di rifiutare l'ipotesi nulla Se p-value = 0 → siamo praticamente certi di non sbagliare

p-value = p (Z o T > <>) = ….(cerco sulle tavole il valore di z/t)

Fissando il valore di 𝛼 = … si ha pertanto che: “ se p-value < 𝛼 e quindi SI RIFIUTA H 0 “se p-value > 𝛼 e quindi NON SI RIFIUTA H 0 Interpretazione p-value → p-value (è il valore dell’area alla sinistra di z/t sotto la curva normale e si trova sulle tavole, cercando l’area alla destra di <>) Se h0 fosse vera, La probabilità di ottenere continuamente campioni diversi a m 4 u/p (maggiori e minori) sarebbe pari a …

  1. INTERPRETAZIONE (SE RIFIUTO H0) → esiste associazione statisticamente significativa tra le 2 variabili ad un livello di significatività di …… INTERPRETAZIONE (SE NON RIFIUTO H0) → NON esiste associazione statisticamente significativa tra le 2 variabili ad un livello di significatività di …… ASSOCIAZIONI FRA DUE VARIABILI esiste associazione tra due variabili se è più plausibile che un determinato valore della prima variabile si verifichi in corrispondenza di determinati valori della seconda variabile si sa dalla teoria che una variabile y si dice indipendente da una variabile x se la prima rimane costante al sbariare dei valori assunti dalla seconda. in caso contrario si dice che y è in funzione di x. l'assenza di una qualsiasi relazione tra due caratteri X e Y desumibili dalla distribuzione doppia di frequenza è detta INDIPENDENZA ASSOLUTA
  • Se le frequenze osservate sono uguali alle frequenze teoriche, allora ci sarà una situazione di indipendenza INDIPENDENZA → nij = nij* → x2= 0
  • Se le frequenze osservate sono invece diverse dalle frequenze teoriche allora ci sarà una situazione di dipendenza DIPENDENZA → nij =/ nij* → x2 > 0 INDICE DI CONNESSIONE CHI-QUADRO PEARSON
  • è una misura quadratica di distanza tra la distribuzione doppia empirica e quella teorica di indipendenza
  • misura la forza di associazioni tra due variabili
  • è sempre maggiore di zero (>0) e raggiunge il valore massimo quando X e Y sono perfettamente dipendenti 0 <= X2 <= 1 NON PUO’ ASSUMERE VALORI NEGATIVI
  • è nullo quando X e Y sono indipendenti, cioè quando tutte le frequenze osservate sono uguali a quelle teoriche e positivo se X e Y non sono indipendenti
  • Se le variabili sono indipendenti è = 0
  • se le variabili sono perfettamente dipendenti è = 1

se i due caratteri sono statisticamente indipendenti allora ciò significa che cov=0 e quindi p=0, ma se p= non e detto che X e Y siano statisticamente indipendenti

  • se P>0 → cov(x,y) > 0 - → allora x e y sono correlati positivamente, (concordi)
  • se P<0 → cov(x,y) < 0 → allora X e Y sono correlati negativamente (discordi)
  • se x e y INDIPENDENTI allora p=0 e X2 (norm)= INTERPRETAZIONE:
  • SE l'indice di correlazione lineare è vicino a 1 , risulta chiaro che esiste una relazione lineare positiva forte/ molto forte tra le due variabili in questione
  • SE l'indice di correlazione lineare è vicino a 0/<0 risulta chiaro che esiste una relazione lineare negativa (SE <0) o scarsamente positiva (se prossima a 0) tra le due variabili in questione
  • se l'indice di correlazione lineare è = 0 non vi è relazione lineare tra le due variabili in questione COEFFICIENTE DI DETERMINAZIONE (0<=R2<=1) (misura l’adattamento alla retta dei dati) R2= DEVIANZA SPIEGATA / DEVIANZA TOTALE (DEV. Y) R2 = (1-DEVIANZA RESIDUA) / DEVIANZA TOTALE (DEV. Y) R2 = (DEVIANZA Y – DEVIANZA RESIDUA) / DEVIANZA TOTALE (DEV. Y) DEV. RESIDUA = (Yi – m(y)) alla seconda DEV. SPIEGATA = (Yi cappuccio – m(y)) alla seconda INTERPRETAZIONE → se = 0 il modello utilizzato non spiega per nulla i dati se = 1 il modello utilizzato spiega perfettamente i dati

La regressione è quella tecnica statistica utilizzata per studiare le relazioni che intercorrono tra due o più caratteri (variabili) statistici. in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente (Y), dati i valori di altre variabili indipendenti. nella teoria della regressione semplice si suppone che una variabile X assuma valori determinati il si cerca la relazione che la Lega la seconda variabile Y alla prima. si ipotizza quindi che la variabile indipendente “influenzi” la variabile dipendente, in quanto nell'analisi della regressione semplice (o bivariata) abbiamo una sola variabile indipendente sulla quale “regredisce” la variabile dipendente. In altre parole si cerca di stabilire un legame funzionale tra le due variabili. l'analisi della regressione lineare semplice individua quella retta che consente di prevedere al meglio i punteggi nella variabile dipendente a partire da quelli della variabile indipendente. per concludere, si tratta di individuare quella retta che “interpola” meglio la nuvola di punti (o scatter plot, grafico a dispersione) definita dalla distribuzione congiunta delle tue variabili y = a + bx + e a= intercetta della retta con l'asse delle ordinate (Y), corrisponde al valore atteso di y quando x= b = coefficiente angolare (o di regressione), misura l'inclinazione della retta di regressione di y su x ovvero la pendenza, e indica di quanto varia y al variare di un'unità di x e= errore di predizione (errore residuo) ossia tutti quei fattori di y non presi esplicitamente in considerazione dal modello. È = 0 solitamente y = a + bx --------------------→ b = cov(x,y) / var x a = m(y) – b(m(x)) x = a + by -------------------- b = cov(x,y) / var y a = m(x) – b(m(y)) INTERPRETAZIONE A = la retta ai minimi quadrati prevede per (anno di x=0) valore di circa x B= la rete ai minimi quadrati prevede un aumento / diminuzione di circa <>

→ il risultato indica che il …….. relativo all'anno osservato è aumentato / diminuito di (100-nibm) % rispetto all'anno precedente (…) INTERVALLO DI CONFIDENZA IC → confido che questo intervallo di confidenza sia uno dei << (LIV. DI FIDUCIA) >> intervalli su 100 cifra che contengono il vero valore di …..(MU/P)


H0 → ipotesi nulla, e l'ipotesi sulla base della quale si elabora la distribuzione nulla della statistica utilizzata per il test H1 → ipotesi alternativa, e l'ipotesi che generalmente viene formulata prima di fare un test l'idea cioè che ha avuto il ricercatore, e rappresenta tutte le altre ipotesi riguarda il parametro non specificate dall'ipotesi nulla Se RIFIUTO H0 → statisticamente dipendenti Se NON RIFIUTO H0 → statisticamente indipendenti Se media < mediana → assimetria negativa Se media = mediana → simmetria Se media > mediana → assimetria positiva arrivo adesso si ma tre minuti si adesso mi connetto ma più CONTINGENZE CIJ > 0 - → c'è attrazione tra le modalità ….. delle classi ….. CIJ < 0 → c'e repulsione tra le modalità ….. delle classi……

SE P2= 1 allora tra x e y vi è massima connessione Se p2=0 allora via ma minima connessione 0=<x2n<=1 e non può assumere valori negativi Misura la forza di associazione fra due variabili Se = 0 → le 2 variabili sono indipendenti X2n= 0 – p(x,y)= - 1 X2n= 0 – p(x,y) = 0, Non sono possibili perché quando x2n= 0 significa che non c'è associazione tra le variabili, e quindi di conseguenza nemmeno un legame lineare, perciò se x2n=0 allora p sarà sempre uguale zero = P(x,y) = - 1 x2n= - 1 non può verificarsi perché x2n non può assumere valori negativi P(x,y) = 0 x2n= 1 corretta L’unica situazione plausibile è la A) quella in cui Ρ = 0 E X2N = 0.3, che si verifica quando c’è un legame debole fra due variabili ma non di tipo lineare. La situazione b) Ρ = - 0.3 E X2N= 0 non può verificarsi perché se non c’è un legame fra le variabili non può esserci un legame di tipo lineare. La situazione c) p=0 e x2n= - 0,3 non può verificarsi perché il 𝑋 2 n non può assumere valori negativi. Infine la situazione d) Ρ = 1 E 𝑋 2 N= 0.3 non può verificarsi perché se c’è un legame lineare perfetto fra le variabili allora c’è un legame perfetto (e anche 𝑋 2 n deve valere 1). INDIPENDENZA CON FREQ. CONDIZIONATE REL Le due distribuzioni sono diverse, quindi le due variabili non risultano essere indipendenti. In alternativa, si sarebbero potute calcolare le distribuzioni delle frequenze relative condizionate del carattere Tipologia di nucleo familiare (X) dato il carattere Spese di noleggio (Y).