Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Concetti Fondamentali di Statistica: Metodi di Analisi dei Dati, Tipi di Grafici e Indici , Schemi e mappe concettuali di Statistica

Appunti dei concetti fondamentali della statistica descrittiva e inferenziale

Tipologia: Schemi e mappe concettuali

2022/2023

Caricato il 20/03/2023

alessia-mastrilli-1
alessia-mastrilli-1 🇮🇹

4

(1)

2 documenti

1 / 8

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
GRAFICO: è la visualizzazione della frequenza con cui si presentano le modalità di un carattere statistico. Si
ricorre al grafico quando le informazioni statistiche sono difficilmente rappresentabili con una tabella.
POPOLAZIONE: insieme degli elementi che sono oggetto di indagine statistica, ovvero l’insieme delle unità
statistiche o individui di una popolazione sulle quali viene effettuata la rivelazione di una certa caratteristica
(es. persone, animali, piante, cose)
CARATTERE O VARIABILE: una proprietà che si possa osservare o studiare in ogni individuo.
Caratteri:
Quantitativi (variabile) se le modalità sono espresse attraverso una grandezza misurabile o
numerabile;
1. Discrete: possono assumere un numero discreto (cioè finito) di modalità che possono
essere sempre poste in corrispondenza con l’insieme dei numeri naturali. Esempio:
numero figli, voto di laurea, punteggio nel lancio di un dado, ecc.-
2. Continue: possono assumere un qualunque valore contenuto in un intervallo reale
predefinito. Esempio: età, peso, altezza, temperatura, ecc
Qualitativi (mutabile) se le modalità sono espresse mediate espressione verbali o attributi.
Variabili:
-NOMINALI: quando la proprietà assume stati discreti non ordinabili. Le relazioni che si possono stabilire
tra le modalità di una variabile nominale sono l’uguaglianza e la disuguaglianza;
-ORDINALI: e quando la proprietà assume stati discreti ordinabili. Oltre alle relazioni di uguaglianza e
disuguaglianza, tra le modalità si può stabilire una relazione d’ordine;
-CARDINALI: quando la proprietà assume valori numerici. Oltre alle relazioni di uguaglianza, disuguaglianza
e d’ordine, con le modalità di questa variabile si possono svolgere le quattro operazioni elementari.
MEDIANA: Data una distribuzione di N intensità graduate secondo valori crescenti o decrescenti, si
definisce Mediana l intensità che occupa un posto centrale nella graduatoria. Se N è dispari, il posto
centrale corrisponde al posto (N+1)/2; se N è pari esistono due posti centrali, il posto N/2 e il posto N/2+1
e per valore mediano si prende la semisomma tra i due.
MODA: la modalità della distribuzione che ha frequenza massima
ninformazioni. Si occupa di descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi,
quindi, per così dire si occupa di “fotografare” una data situazione e di sintetizzare le caratteristiche salienti
FREQUENZA ASSOLUTA: il numero di osservazioni registrare per ogni elemento del campione (ni)(fi)
FREQUENZA RELATIVA:
o pi= ni / n
La frequenza relativa è compresa nell’intervallo [0, 1].
pf3
pf4
pf5
pf8

Anteprima parziale del testo

Scarica Concetti Fondamentali di Statistica: Metodi di Analisi dei Dati, Tipi di Grafici e Indici e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity!

STATISTICA

GRAFICO: è la visualizzazione della frequenza con cui si presentano le modalità di un carattere statistico. Si ricorre al grafico quando le informazioni statistiche sono difficilmente rappresentabili con una tabella. POPOLAZIONE: insieme degli elementi che sono oggetto di indagine statistica, ovvero l’insieme delle unità statistiche o individui di una popolazione sulle quali viene effettuata la rivelazione di una certa caratteristica (es. persone, animali, piante, cose) CARATTERE O VARIABILE: una proprietà che si possa osservare o studiare in ogni individuo. Caratteri:  Quantitativi (variabile) se le modalità sono espresse attraverso una grandezza misurabile o numerabile;

  1. Discrete: possono assumere un numero discreto (cioè finito) di modalità che possono essere sempre poste in corrispondenza con l’insieme dei numeri naturali. Esempio: numero figli, voto di laurea, punteggio nel lancio di un dado, ecc.-
  2. Continue: possono assumere un qualunque valore contenuto in un intervallo reale predefinito. Esempio: età, peso, altezza, temperatura, ecc  Qualitativi (mutabile) se le modalità sono espresse mediate espressione verbali o attributi. Variabili: -NOMINALI: quando la proprietà assume stati discreti non ordinabili. Le relazioni che si possono stabilire tra le modalità di una variabile nominale sono l’uguaglianza e la disuguaglianza; -ORDINALI: e quando la proprietà assume stati discreti ordinabili. Oltre alle relazioni di uguaglianza e disuguaglianza, tra le modalità si può stabilire una relazione d’ordine; -CARDINALI: quando la proprietà assume valori numerici. Oltre alle relazioni di uguaglianza, disuguaglianza e d’ordine, con le modalità di questa variabile si possono svolgere le quattro operazioni elementari. MEDIANA: Data una distribuzione di N intensità graduate secondo valori crescenti o decrescenti, si definisce Mediana l intensità che occupa un posto centrale nella graduatoria. Se N è dispari, il posto centrale corrisponde al posto (N+1)/2; se N è pari esistono due posti centrali, il posto N/2 e il posto N/2+ e per valore mediano si prende la semisomma tra i due. MODA: la modalità della distribuzione che ha frequenza massima n informazioni. Si occupa di descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi, quindi, per così dire si occupa di “fotografare” una data situazione e di sintetizzare le caratteristiche salienti

FREQUENZA ASSOLUTA: il numero di osservazioni registrare per ogni elemento del campione ( n i)(fi)

FREQUENZA RELATIVA :

o pi= ni / n

La frequenza relativa è compresa nell’intervallo [0, 1].

FREQUENZA PERCENTUALE :

o pi= ni / n x 100

MEDIA CAMPIONARIA o aritmetica: MEDIA PONDERATA : pi= frequenza DEVIANZA: somma dei quadrati degli scarti della media SCARTO QUADRTICO MEDIO (o deviazione standard ): radice quadrata della varianza campione popolazione VARIANZA : il quadrato dello scarto quadratico medio campione popolazione VARIANZA CAMPIONARIA PONDERATA : rapporto tra devianza diviso la numerosità del campione - COEFFICINETE DI VARIAZIONE: permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura CV% = (deviazione standard / media) * 100% RANGE : XMAX - XMIN

GRAFICO A TORTA: rappresenta la composizione del collettivo rispetto a un carattere qualitativo non ordinato. GRAFICO A NASTRO : per caratteri qualitativi NON ordinati GRAFICI A BARRE : per caratteri qualitativi ordinati linearmente ISTOGRAMMA : per caratteri quantitativi continui. STATISTICA DESCRITTIVA BIVARIATA La statistica bidimensionale o bivariata si occupa dello studio del grado di dipendenza di due caratteri  Dette X e Y le due variabili statistiche, la distribuzione delle frequenze delle loro modalità x1, x2, …………….xq  e y1, y2, ……………yp  può essere rappresentata attraverso una tabella a doppia entrata in cui si associa ad ogni coppia (xi ;yi ) la sua frequenza assoluta detta frequenza congiunta. TABELLA A DOPPIA ENTRATA: X 1 X 2 X 3 … tot Y 1 F1,1 F1,2 F1,3 … F1, Y 2 F2,1 F2,2 F2,3 … F2, Y 3 F3,1 F3,2 F3,3 … F3, yi … … … … Fi, … tot F0,1 F0,2 F0,3 Fo,j f La prima riga è quella delle modalità del carattere x , la prima colonna è quella delle modalità del carattere y. La colonna dei totali e la riga dei totali sono le frequenze marginali della variabile x e della variabile y , sono dette distribuzioni marginali e rappresentano le distribuzioni di ognuno dei due caratteri considerati singolarmente (distribuzioni univariate). fi,j sono le frequenze congiunte. Le colonne e le righe interne della tabella sono le distribuzioni condizionate. DIPENDENZA DI DUE CARATTERI: Due tipologie -Dipendenza logica : se tra due caratteri esistono relazioni di causa ed effetto. -Dipendenza statistica : se tra due caratteri esistono delle regolarità nell’associazione tra le modalità dei caratteri (non un nesso di causalità). Indipendenza logica  Indipendenza statistica Obiettivi :

  1. Stabilire la dipendenza statistica tra X e Y
  2. Valutare l’intensità della dipendenza INDIPENDENZA IN UNA DISTRIBUZIONE : Se la distribuzione condizionata X,Y non cambia al variare delle modalità di Y allora si dice che la variabile X è indipendente in distribuzione da Y. L’indipendenza è una relazione simmetrica: se X è indipendente da Y allora anche Y è indipendente da X.

Date due variabili indipendenti in distribuzione, è possibile ricostruire la tabella doppia a partire dalle distribuzioni marginali, dal momento che Vale Se non si è in grado di costruire la frequenza congiunta di un elemento a partire da quelle marginali allora le variabili non sono indipendenti ma connesse. Esiste una dipendenza assoluta tra due caratteri INDIPENDENZA E DIPENDENZA STATISTICA DI DUE VARIABILI Due variabili statistiche sono indipendenti se le modalità di una non influenzano le modalità dell’altra. Per determinare se due variabili statistiche sono dipendenti o indipendenti bisogna utilizzare le distribuzioni marginali delle frequenze della tabella a doppia entrata. La variabile X e la variabile Y sono indipendenti se la frequenza congiunta f i,j ( quella interna alla tabella), è il prodotto delle corrispondenti frequenze marginali, divise per il numero di dati n : f i,j =[fi, 0 f 0 , j ]/n Se tale condizione non è rispettata, le due variabili NON sono indipendenti ma si dicono DIPENDENTI. CONTINGENZE: Per misurare la dipendenza tra due caratteri, occorre studiare le contingenze cij , ossia lo scarto tra la frequenza osservata in una cella e la frequenza teorica che si osserverebbe se le due variabili fossero completamente indipendenti.* La contingenza permette di misurare il grado di dipendenza di due variabili qualitative: il GRADO DI CONNESSIONE delle due MUTABILI. Si dice contingenza la differenza tra le frequenze osservate e quelle teoriche. C(xi;yj) = f(xi,yj) - f’(xi,yj) ( contingenza = freq. osserv. - freq. teorica ) Nel caso di indipendenza, le contingenze sono tutte nulle, mentre cresceranno in valore assoluto, al crescere del grado di dipendenza tra i caratteri. Due caratteri sono connessi se e solo se esiste una cella per cui cij è diversa da zero MASSIMA CONNESSIONE: Tra due caratteri X e Y esiste la massima connessione se, nota una modalità di X, si determina in modo univoco la modalità di Y corrispondente. L’indice che misura il grado di connessione di due variabili qualitative( mutabili) è l’Indice di connessione di Pearson (CHI-QUADRO) χ 2: dove nij sono le frequenze osservate dei caratteri congiunti. Dove σX,Y è la covarianza tra X e Y e σX E σY sono le due deviazioni standard.

 Se ᵨX,Y >0, le variabili si dicono direttamente correlate , oppure correlate positivamente ;

 se ᵨX,Y =0 , le variabili si dicono incorrelate ;

 se ᵨX,Y <0 , le variabili si dicono inversamente correlate , oppure correlate negativamente.

L’INDICE DI MORTARA:

È una media ponderata dei rapporti di contingenza in valore assoluto

T-value : il valore assunto dalla statistica test sulla base dei dati osservati. Sarà tanto più grande (per alcuni statistiche test anche più piccolo) quanto più i dati supporteranno il rifiuto dell’ipotesi nulla. p-value : il valore dell’area sottostante alla distribuzione di probabilità della statistica test che può assumere un valore maggiore od uguale (per alcuni statistiche test anche minore od uguale) al T-value DECISIONE : Il processo di decisione segue quattro fasi fondamentali

  1. Si definisce il criterio di decisione
  2. Si raccolgono i dati
    1. Si calcola la media
    2. Si calcola z, La decisione: a. Si rifiuta H0 (la media del campione si colloca nella regione critica) per cui esiste una forte differenza fra la media del campione e quella della popolazione b. Non si rifiuta H0 (la media del campione si colloca vicina alla media della popolazione) A partire dai dati osservati si calcola il T-value Al T-value corrisponde un p-value sulla base della distribuzione di probabilità della statistica test. **Casi possibili
  3. Se il p-value è minore di α**  **si rifiuta l’ipotesi nulla
  4. Se il p-value è maggiore di α ma minore di 0.1**  **si accetta l’ipotesi nulla con riserva
  5. Se il p-value è maggiore di 0.1**  si accetta l’ipotesi nulla DISTRIBUZIONI DI PROBABILITA’ Distribuzione gaussiana o normale : La distribuzione normale di una variabile casuale continua X è rappresentata dalla funzione sopra descritta Distribuzione t di Student :La distribuzione t di una variabile casuale continua X è rappresentata dalla funzione sopra descritta

Distribuzione F di Snedecor con r1e r2 gradi di libertà, di una variabile casuale continua X è rappresentata dalla funzione sopra descritta VERIFICA IPOTESI: L’ipotesi nulla H0 :

  • si riferisce sempre a un parametro della popolazione e non a una statistica campionaria (come la media campionaria).
  • Contiene il segno di uguaglianza relativo al parametro della popolazione. L’ipotesi alternativaH1 :
  • non contiene mai un segno di uguaglianza relativo al valore specificato del parametro della popolazione ERRORI DI INFERENZA Errore di I tipo ha un certo grado di gravità perché l’ipotesi H0 è quella privilegiata. L’ipotesi nulla H0 si abbandona solo se veramente poco probabile dal momento che questo rifiuto implica dei costi. Errore di II tipo si indica con il simbolo β e si commette quando si accetta l’ipotesi nulla H0 quando essa è falsa. Quando il ricercatore rifiuta l’ipotesi nulla H0, nulla garantisce la capacità del test statistico di essere sempre in grado di rilevare la situazione in cui l’ipotesi alternativa H1 è vera. Potenza del test: la capacità di rifiutare H0 quando essa è falsa. È funzione di una serie di parametri caratteristici del test e si calcola mediante l’operazione 1-β. La potenza del test dovrebbe essere più alta possibile, tenendo conto che il suo valore limite è pari a 1. IL PROCESSO DI DECISIONE: Per prendere una decisione sull’ipotesi nulla, occorre determinare il valore critico della statistica test. Tale valore separa la regione di accettazione dalla regione di rifiuto. Se l’ipotesi alternativa H1 suppone che il parametro sia maggiore o minore di un certo valore si hanno ipotesi composte monodirezionali H1: μ>μ1 o H1: μ La regione di rifiuto si concentra in una delle 2 code TEST A 1 CODA Il test ad una sola coda consente di rifiutare l’ipotesi nulla anche quando la differenza fra la media del campione e quella della popolazione è relativamente ridotta.
  • Maggior rischio di un errore di tipo I
  • Maggiore sensibilità
  • Un risultato di segno opposto a quello ottenuto non è interessante ai fini della verifica dell’ipotesi