Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti statistica, Appunti di Analisi Statistica

appunti statistica

Tipologia: Appunti

2014/2015

Caricato il 03/08/2015

ConsigliereM
ConsigliereM 🇮🇹

1 documento

1 / 23

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
LA STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE
!
Negli ultimi anni i metodi statistici hanno assunto un ruolo sempre più importante nel settore socio-sanitario e
in particolare in quello della ricerca medica. L'esigenza principale è quella di trattare e interpretare una grossa
mole di dati messi a disposizione dagli operatori sanitari e dal continuo progresso tecnologico. Dati quantitativi
e qualitativi che se elaborati rapidamente e con le opportune metodiche statistiche, permettono di eseguire
delicate sperimentazioni cliniche, di pianificare interventi di prevenzione, profilassi e cura sul territorio
migliorando la qualità delle azioni e consentendo una precisa analisi e valutazione dei risultati conseguiti. !
Possiamo dividere il nostro corso in due ambiti generali: quello della STATISTICA DESCRITTIVA e quello della
STATISTICA INFERENZIALE
La STATISTICA DESCRITTIVA
è quel filone della Statistica in cui il fenomeno studiato si riferisce all'intera comunità di individui in cui tale
fenomeno si manifesta. Ovvero viene studiato un carattere della popolazione attraverso l'osservazione e la
descrizione della "popolazione statistica" nel suo insieme(Ad esempio descrizione delle nascite, delle morti,
diplomati laureati ecc.)
La STATISTICA INFERENZIALE
invece si basa sullo studio del "campione". Il fenomeno oggetto dell'osservazione viene studiato, cioè, non
attraverso l'analisi di tutta la popolazione ma attraverso l'osservazione di una parte più piccola di essa che sia
sufficientemente rappresentativa. I dati così rilevati vengono poi riferiti all'intera popolazione attraverso dei
processi induttivi.
Le variabili
Gli elementi appartenenti ad una popolazione che viene sottoposta ad osservazione prendono il nome di unità
Statistiche (ogni bambino nato). !
Le caratteristiche di ogni unità statistica (ad esempio il sesso, l'altezza, il peso) vengono definite CARATTERI
dell'unità statistica o VARIABILI. !
Le VARIABILI possono essere di tipo QUALITATIVO o QUANTITATIVO. !
Le VARIABILI o CARATTERI di tipo QUALITATIVO sono ad esempio il sesso (maschio, femmina), la
nazionalità (italiana, straniera) e vengono quindi definiti da degli aggettivi a cui può essere assegnato un codice
numerico (ad es. nati da parto naturale = 1, nati da parto cesareo = 0). !
Le variabili QUANTITATIVE sono riferite ad intensità misurabili ad esempio l'età o l'altezza. Le variabili
quantitative si dividono a loro volta in discrete e continue. L'età appartiene alla categoria delle variabili discrete
perché può assumere un numero finito di valori rappresentabile da numeri naturali mentre l'altezza è un
carattere di tipo continuo perché può assumere anche valori compresi in un intervallo e è rappresentata
attraverso numeri reali.
Le scale di misura
Le OPERAZIONI che si possono eseguire sulle variabili dipende dalla "scala" con cui sono "misurabili". !
La scala di MISURA più semplice è quella NOMINALE che permette di effettuare solo relazioni di uguaglianza
(ad es. di due gruppi sanguigni si può solo dire se sono uguali o diversi). !
La scala di MISURA ORDINALE può essere utilizzata solo se le variabili qualitative possono essere ordinate in
base a qualche criterio. In questo caso, oltre all'uguaglianza, risultano definite anche le relazioni di maggioranza
(ad es. il titolo di studio che può essere uguale o maggiore o minore di un altro). !
La SCALA ad INTERVALLI oltre che per ordinare i dati può essere utilizza per determinare degli intervalli (ad
esempio i voti di un esame 18-22, 23-26, 27-30). !
La SCALA DI MISURA di RAPPORTI può essere infine utilizzata per tutte le operazioni algebriche (1/3,
1/5, ...) !
Prova a rispondere alle seguenti domande !
* L'altezza è una variabile qualitativa nominale? SI / NO !
* Quale delle seguenti variabili è quantitativa! !
- Numero dei divorzi in una nazione !
- Stato civile !
- Livello di istruzione !
* Quale delle seguenti variabili è quantitativa continua? !
- Numero dei figli !
- Altezza !
- Età !
* Quale delle seguenti variabili è qualitativa? !
- Peso !
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17

Anteprima parziale del testo

Scarica Appunti statistica e più Appunti in PDF di Analisi Statistica solo su Docsity!

LA STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE

Negli ultimi anni i metodi statistici hanno assunto un ruolo sempre più importante nel settore socio-sanitario e in particolare in quello della ricerca medica. L'esigenza principale è quella di trattare e interpretare una grossa mole di dati messi a disposizione dagli operatori sanitari e dal continuo progresso tecnologico. Dati quantitativi e qualitativi che se elaborati rapidamente e con le opportune metodiche statistiche, permettono di eseguire delicate sperimentazioni cliniche, di pianificare interventi di prevenzione, profilassi e cura sul territorio migliorando la qualità delle azioni e consentendo una precisa analisi e valutazione dei risultati conseguiti. Possiamo dividere il nostro corso in due ambiti generali: quello della STATISTICA DESCRITTIVA e quello della STATISTICA INFERENZIALE La STATISTICA DESCRITTIVA è quel filone della Statistica in cui il fenomeno studiato si riferisce all'intera comunità di individui in cui tale fenomeno si manifesta. Ovvero viene studiato un carattere della popolazione attraverso l'osservazione e la descrizione della "popolazione statistica" nel suo insieme(Ad esempio descrizione delle nascite, delle morti, diplomati laureati ecc.) La STATISTICA INFERENZIALE invece si basa sullo studio del "campione". Il fenomeno oggetto dell'osservazione viene studiato, cioè, non attraverso l'analisi di tutta la popolazione ma attraverso l'osservazione di una parte più piccola di essa che sia sufficientemente rappresentativa. I dati così rilevati vengono poi riferiti all'intera popolazione attraverso dei processi induttivi. Le variabili Gli elementi appartenenti ad una popolazione che viene sottoposta ad osservazione prendono il nome di unità Statistiche (ogni bambino nato). Le caratteristiche di ogni unità statistica (ad esempio il sesso, l'altezza, il peso) vengono definite CARATTERI dell'unità statistica o VARIABILI. Le VARIABILI possono essere di tipo QUALITATIVO o QUANTITATIVO. Le VARIABILI o CARATTERI di tipo QUALITATIVO sono ad esempio il sesso (maschio, femmina), la nazionalità (italiana, straniera) e vengono quindi definiti da degli aggettivi a cui può essere assegnato un codice numerico (ad es. nati da parto naturale = 1, nati da parto cesareo = 0). Le variabili QUANTITATIVE sono riferite ad intensità misurabili ad esempio l'età o l'altezza. Le variabili quantitative si dividono a loro volta in discrete e continue. L'età appartiene alla categoria delle variabili discrete perché può assumere un numero finito di valori rappresentabile da numeri naturali mentre l'altezza è un carattere di tipo continuo perché può assumere anche valori compresi in un intervallo e è rappresentata attraverso numeri reali. Le scale di misura Le OPERAZIONI che si possono eseguire sulle variabili dipende dalla "scala" con cui sono "misurabili". La scala di MISURA più semplice è quella NOMINALE che permette di effettuare solo relazioni di uguaglianza (ad es. di due gruppi sanguigni si può solo dire se sono uguali o diversi). La scala di MISURA ORDINALE può essere utilizzata solo se le variabili qualitative possono essere ordinate in base a qualche criterio. In questo caso, oltre all'uguaglianza, risultano definite anche le relazioni di maggioranza (ad es. il titolo di studio che può essere uguale o maggiore o minore di un altro). La SCALA ad INTERVALLI oltre che per ordinare i dati può essere utilizza per determinare degli intervalli (ad esempio i voti di un esame 18-22, 23-26, 27-30). La SCALA DI MISURA di RAPPORTI può essere infine utilizzata per tutte le operazioni algebriche (1/3, 1/5, ...) Prova a rispondere alle seguenti domande

  • L'altezza è una variabile qualitativa nominale? SI / NO
  • Quale delle seguenti variabili è quantitativa!
  • Numero dei divorzi in una nazione
  • Stato civile
  • Livello di istruzione
  • Quale delle seguenti variabili è quantitativa continua?
  • Numero dei figli
  • Altezza
  • Età
  • Quale delle seguenti variabili è qualitativa?
  • Peso
  • Gruppo sanguigno
  • Altezza

La distribuzione di frequenza può essere rappresentata graficamente attraverso un ISTOGRAMMA. es. rappresentazione grafica della DISTRIBUZIONE di FREQUENZA dell'esempio precedente

Prova a rispondere alle seguenti domande:

  • Relativamente alla distribuzione precedente indicare
  • Il numero inferiore dalla seconda classe
  • Il limite superiore della terza classe
  • L'ampiezza delle classi
  • La frequenza assoluta della quarta classe
  • La frequenza relativa della seconda classe (in percentuale) Gli indicatori di tipo posizionale Si definisce MEDIA ARITMETICA di un insieme di n valori! la sommatoria degli n valori diviso per il numero dei valori. La media aritmetica viene descritta con il simbolo!. In formula !

Qualora i dati siano organizzati in una distribuzione di frequenza la formula si trasforma in: !

Dove m è il numero di classi in cui è divisa la variabile osservata! è il valore centrale della classe e! è la frequenza della classe i-esima. Prova a rispondere alle seguenti domande:

  • Calcolare la media aritmetica dei seguenti valori: 7, 9, 13, 15, 19
  • Calcolare la media aritmetica della distribuzione di frequenza dell'esempio precedente:

! Dati i seguenti 7 valori per calcolare la mediana occorre ordinare i dati in ordine crescente. ! essendo dispari il numero delle osservazioni la mediana sarà il quarto valore (8) che lascia alla sua ds e alla sua sn lo stesso numero di osservazioni (tre). esempio 27, 30, 21, 25, 19, 31 per calcolare la mediana di questa serie di osservazioni dobbiamo, prima di tutto, ordinarle in ordine crescente. 19, 21, 25, 27, 30, 31 in questo caso n = 6 è pari, la MEDIANA è quindi data dalla media aritmetica dei due valori centrali 25 e 27. Quindi MEDIANA = 26 Se i dati sono raggruppati in una distribuzione di frequenza o raggruppati in classi, la mediana è data da:

dove:! = limite inferiore della classe mediana n = frequenza totale ! = sommatoria di tutte le classi inferiori alla MEDIANA ! = frequenza della classe mediana c = ampiezza della classe mediana esempio data la seguente tabella di distribuzione di frequenza delle età di un gruppo di pazienti, calcoliamo l'età mediana : !

  • la frequenza più alta è quella della quarta classe che viene detta classe MEDIANA Prima di applicare la formula assegniamo i valori ai vari termini:

Quantili Un altro modo per descrivere un insieme di dati sperimentali di tipo quantitativo è quello dei QUANTILI. Una volta ordinati i dati in ordine crescente, si dividono in quattro parti uguali definiti QUARTILI. Il primo e il terzo quartile delimitano il 25% e il 75% dei dati, mentre il secondo quartile corrisponde al 50% delle osservazioni e coincide con la MEDIANA. Se si dividono i dati in 10 parti, i valori corrispondenti a ciascuna parte vengono definiti DECILI. Il quinto decile corrisponde alla MEDIANA. Se le divisioni sono 100 prendono il nome di PERCENTILI e in questo caso la mediana corrisponderà al 50° percentile. Ambiguità nel calcolo di un quantile Un valore con le proprietà richieste ad un quartile può non essere unico. Vediamo i seguenti esempi: Prendiamo una sequenza di dati già ordinati in ordine crescente 6,4 6,7 6,8 7,0 7,3 7,5 7,6 7,9 8, Calcoliamo prima la mediana che come abbiamo detto è data dalla media dei due valori centrali ovvero !

Calcoliamo ora il valore del primo e terzo quartile (abbiamo visto che secondo quartile e mediana coincidono). Il primo quartile dovrebbe lasciare sulla SN il 25% delle osservazioni. Essendo le osservazioni dieci il 25% è quindi pari a 2,5. Non potendo definire due osservazioni e mezzo possiamo procedere in due modi: Così come per la mediana possiamo interpretare "lasciare a SN 2,5 osservazioni" come posizionarsi nel valore intermedio tra il secondo e il terzo ovvero 1° quartile !

Analogamente il terzo quartile assumerà il valore di 7,75 ovvero il valore intermedio tra la settimana e l'ottava osservazione. L'altra soluzione è quella di considerare il primo quartile come quello che divide le osservazioni a sinistra dalla mediana in due parti uguali. Quindi avendo a sinistra della mediana 5 osservazioni possiamo considerare 6,8 il primo quartile analogamente assegneremo al terzo quartile il valore di 7,6. Entrambe le soluzioni proposte sono valide e tale problema tende a ridursi all'aumentare del numero di osservazioni. Quando queste sono infatti maggiormente addensate la differenza tra i due valori tende a diminuire.

INDICATORI DI VARIABILITA’, INDICATORI DI DISPERSIONE

come primo passo dobbiamo calcolare la media aritmetica utilizzando nel caso della distribuzione in classi il valore centrale di ciascuna classe.

Un indicatore di variabilità analogo al precedente ma che risolve il problema del segno anziché con il valore assoluto con l'elevamento al quadrato è la VARIANZA. Dato un gruppo di n osservazioni si definisce VARIANZA la seguente quantità:

es.: per calcolare la varianza della seguente serie di osservazioni 3, 4, 6, 7, 2, 8 si deve procedere prima di tutto a calcolare la media aritmetica !

la varianza sarà quindi: !

Se i dati sono raggruppati in una distribuzione di frequenza la varianza è data da:

dove m è il numero di classi, fi è la frequenza della classe i-esima e xi è il valore centrale della classe. esempio: !

Calcoliamo prima la media aritmetica

Alcune considerazioni La varianza quindi ci dà la possibilità di valutare la "DISPERSIONE" dei dati intorno alla media. Infatti, trovandoci di fronte a due risultati di una indagine statistica come quelli qui sotto riportati: 1° risultato 5, 4, 5, 4, 2, 4 su di questo calcoliamo la media aritmetica ed otteniamo:

come possiamo vedere ad "occhio nudo" in questo caso i dati si distribuiscono intorno alla media "non c'è dispersione" infatti la VARIANZA

esempio: in un reparto audiologico viene condotto uno studio epidemiologico su un campione di cittadini di età che varia tra 3 e 51 anni. Viene riportato in tabella il relativo numero di ipoacusie di tipo trasmissivo riscontrate: !

N. di ipoacusie totali = 246 Calcolare per questo campione:

  1. la media aritmetica delle ipoacusie
  2. lo scostamento semplice medio dalla media
  3. la varianza
  4. la deviazione standard o scarto quadratico medio
  5. la media aritmetica è data da: ! dove! sono i valori centrali di età e quindi 6, 13, 20, 27, 34, 41, 48 che devono essere moltiplicati per le relative frequenze
  1. lo scostamento semplice medio dalla media:
  1. la varianza
  1. la deviazione standard o scarto quadratico medio

P(A e B) = P(A)+P(B)-P(AeB) ovvero P(AeB) = (0,6 + 0,8) - (0,6x0,8) = 1,4 - 0,48 = 0,

IL CAMPIONAMENTO PARTE 1

Se una popolazione di cui dobbiamo conoscere certe caratteristiche è particolarmente grande e soprattutto se effettuare delle misurazioni di uno o più dei suoi elementi risulta economicamente improponibile o tecnicamente impossibile dobbiamo ricorrere alla tecnica del CAMPIONAMENTO, ovvero l'estrazione di un numero finito di elementi della popolazione che vogliamo studiare che siano altamente rappresentativi della popolazione stessa. Più il campione risulterà perfettamente rappresentativo della popolazione più affidabili saranno quindi i risultati. Molto spesso, infatti, abbiamo a che fare con popolazioni di fatto non accessibili. Per questi motivi si decide di stringere l'indagine ad un campione di studio su cui effettuare i nostri studi. Come si sceglie il campione Il modo più semplice di estrarre un campione da una popolazione è quello del CAMPIONAMENTO CASUALE SEMPLICE. L'unica avvertenza da rispettare è che tutti gli elementi della popolazione devono avere uguale probabilità di essere selezionati. Se N è la dimensione della popolazione e n è la numerosità del campione il rapporto n/N viene detto RAPPORTO DI CAMPIONAMEMNTO. Esistono diverse modalità per estrarre un campione da una popolazione vediamone alcune: CAMPIONAMENTO STRATIFICATO CASUALE Questo campionamento viene utilizzato quando si è interessati a differenti strati della popolazione. Tale modalità di campionamento prevede la suddivisione della popolazione in sottogruppi omogenei in cui non ci siano sovrapposizioni, ovvero coloro che fanno parte di un sottogruppo non siano presenti negli altri. Per ogni sottogruppo si procede poi all'estrazione di un campione di n elementi. Con questo metodo abbiamo la sicurezza che ogni strato della popolazione è rappresentato nel campione. La media e la varianza della popolazione nel suo insieme sarà data, in questo caso, dalla media delle varie medie e "dalla varianza media" CAMPIONAMENTO SISTEMATICO CASUALE Questo tipo di campionamento può essere adottato quando disponiamo di un elenco completo degli elementi che compongono. Si assegna un numero progressivo da 1 a N agli elementi della popolazione. Si decide la numerosità del campione e si determina il rapporto K = N/n. Si estrae un numero casuale M tra 1 e k e si estrae l'elemento M e gli M+ (k e i suoi multipli) esempio: Poniamo di avere una popolazione di 200 pazienti sottoposti a terapia e supponiamo di voler estrarre un campione di dimensione n=20, K sarà dato da!. Estraiamo in modo casuale un numero compreso tra 1 e 10 supponiamo che sia il 3. Numeriamo quindi i pazienti da 1 a 200. Il campione sarà costituito dai venti pazienti corrispondenti ai numero : 3, 13, 23, 33, 43, 53, 63, 73, 83, 93, 103, 113, 123, 133, 143, 153, 163, 173, 183, 193. GLI ERRORI IN MEDICINA Qualunque tipo di indagine statistica in medicina come in altra disciplina comporta una certa possibilità di commettere un errore. Per cercare di diminuire la possibilità di errore si cerca di soddisfare due condizioni: l'accuratezza e la precisione. Per ACCURATEZZA si intende la capacità di una certa misura di essere il più vicina possibile al valore reale del fenomeno. La PRECISIONE è la capacità di una certa misurazione d fornire risultati molto simili ad altri valori misurati. La mancanza di precisione determina un aumento della variabilità delle misure. L'imprecisione può essere compensata da un maggior numero di misurazioni oppure ripetendo la stessa misura più volte. Un altro tipo di errore assai diffuso e molto difficile da riconoscere, è il vizio. Questo tipo di essere non produce variabilità ma consiste in un'alterazione costante dei dati. Può essere causato, ad esempio, da uno strumento non tarato. In assenza di valori standard di riferimento è impossibile da riconoscere e quindi da evitare ed ha conseguenze più gravi della semplice imprecisione. Il vizio infatti determina sottostime e sovrastime e altera i confronti con dati ottenuti in altri laboratori facendo apparire differenze dove invece non ce ne sono. La distribuzione campionaria

Supponiamo di estrarre da una popolazione un campione casuale e di calcolarne la media!. Dalla stessa popolazione estraiamo ora un secondo campione di uguale dimensione rispetto al precedente e calcoliamo la media!. Se ripetiamo più volte questa operazione, avremo più medie che si distribuiranno in una DISTRIBUZIONE DELLE MEDIE CAMPIONARIE, dove consideriamo ciascuna media come una singola osservazione della popolazione. Se calcoliamo la media di questa distribuzione (ovvero calcoliamo la media delle medie) tale media è uguale alla media della popolazione di origine. La varianza di questa distribuzione delle medie è invece pari a! dove! è la varianza della popolazione e n è il numero dei campioni estratti. Nelle applicazioni pratiche si ricorre alla selezione di un solo campione e su questo si fanno "inferenze" sulla popolazione. Stima puntuale e stima intervallare dei parametri di una popolazione Abbiamo visto che nella realtà si studiano le caratteristiche generali di una popolazione partendo dalle misure effettuate su un campione rappresentativo di quella popolazione. Le metodologie impiegate per la stima dei parametri rilevati dal campione sono di due tipi: la stima "puntuale" e quella "intervallare". Quelle che abbiamo visto sino ad ora sono stime puntuali perché producono un singolo valore (puntuale) espresso per stimare il parametro ad es. la media. Abbiamo visto, però, che in taluni casi il parametro può essere stimato con stimatori diversi (ad es. la moda o la mediana sono stimatori alternativi alla media). La scelta di un particolare stimatore viene effettuata sulla base di tre proprietà: la correttezza, la consistenza e l'efficacia. La CORRETTEZZA: uno stimatore risulta corretto quanto più il suo valore è uguale al parametro da stimare. La CONSISTENZA: indica che il valore dello stimatore tende a quello del parametro da stimare all'aumentare della numerosità del campione. L'EFFICACIA: tra più stimatori il più efficiente è quello con minore varianza. Il problema degli stimatori puntuali risiede nel fatto che non ci dicono quanto si discostino dal valore vero del parametro da studiare. Per ovviare a questo inconveniente si ricorre a stime intervallari. Nella stima intervallare non si fornisce infatti un valore unico ma bensì due che definiscono un intervallo all'interno del quale è ragionevole ritenere che cada il valore vero di quel parametro della popolazione che stiamo studiando. Questo intervallo viene definito "INTERVALLO DI CONFIDENZA". Supponiamo quindi di dover studiare un carattere di una popolazione distribuita in modo normale partendo dalla stima della sua media!. Come abbiamo visto dobbiamo estrarre in modo casuale un campione di dimensione n dalla popolazione e su questo eseguire il calcolo della media campionaria!. Ma la stima così condotta non ci dice quanto la media campionaria! si discosta dalla media reale ( dell'intera popolazione. Possiamo allora fornire un intervallo compreso tra due valori all'interno dei quali con un certo grado di probabilità riteniamo che sia contenuta la media vera della popolazione. Il calcolo dell'intervallo di confidenza per la media si basa sulle proprietà della distribuzione delle medie campionarie. Sappiamo infatti che questa per n grande si distribuisce in modo normale con media! pari ala media della popolazione e varianza!. Possiamo quindi eseguire la trasformazione nella variabile normale standardizzata! con n grande. Poiché il 95% della distribuzione normale standardizzata è compresa tra i valori -1,96 e +1, ovvero: ! modifichiamo la disuguaglianza moltiplicando tutti i termini

dove Z! /2 è detto coefficiente di confidenza. esempio: Da una popolazione distribuita normalmente con deviazione standard! (scarto quadratico medio) pari a 31 viene estratto un campione casuale di numerosità n=28. Con media! =85 vediamo quanto equivale l'intervallo di confidenza al 95% per la media (incognita) della popolazione: Per una probabilità del 95% essendo pari a 1-! abbiamo che! =0.05 e quindi! /2=0.025. Il 95% della distribuzione normale standardizzata è compresa tra -1,96 e +1,96 detti coefficienti di confidenza !. Quindi

dove! è la media della popolazione di cui vogliamo calcolare i limiti di confidenza n (numerosità del campione)= 28 ! (scarto quadratico medio)= 31 ! = 85 abbiamo quindi !

possiamo quindi dire che con una probabilità del 95% la media vera della popolazione cadrà tra i valori di 73, e 96,48.

IL CAMPIONAMENTO PARTE 2

Dal campione alla popolazioneAbbiamo visto che le finalità della statistica inferenziale sono quelle di acquisire informazioni su una popolazione attraverso l'osservazione di un campione opportunamente estratto del quale possiamo fornire degli indicatori come MEDIA, MEDIANA, MODA, FREQUENZE, ECC. Attraverso l'inferenza statistica si possono quindi trarre conclusioni sulla popolazione a partire dai dati del campione. In questo ambito rientra quindi anche la determinazione degli intervalli di confidenza che abbiamo visto in precedenza e i test di significatività statistica di cui ci occuperemo in questo capitolo. Test di significatività statistica I test di significatività si basano sulla formulazione di un assunto su un parametro della popolazione (media, differenza tra medie). Tale assunto viene poi accettato o rifiutato in base ai risultati del test. L'esecuzione di un test di significatività si può articolare nei seguenti punti:

  1. Si formulano due ipotesi statistiche. La prima è detta ipotesi nulla (Ho) ed è quella che deve essere valutata attraverso il test. Questa ipotesi è detta anche di uguaglianza perché si valuta l'uguaglianza tra il valore del parametro della popolazione di riferimento e il parametro misurato sul campione estratto da quella popolazione. In altri termini attraverso i test di significatività e l'ipotesi nulla si valutano le differenze tra i risultati ottenuti dall'analisi del campione e quelli attesi della popolazione. Quando l'ipotesi Ho è vera il test porta all'accettazione dell'ipotesi di uguaglianza con un grado di probabilità pari a 1-!. L'altra ipotesi, alternativa alla prima, presuppone una differenza tra il valore del campione e quello della popolazione di riferimento che non è giustificabile solo per effetto del caso.
  2. Si sceglie un indice statistico adeguato e se ne calcola il valore mediante il campione. Questo valore viene confrontato con il valore critico della distribuzione di frequenza dell'indice statistico scelto. Questa distribuzione si riferisce alle varie misure dell'indice ottenute selezionando tutti i possibili campioni di dimensioni uguali a quelle del campione in esame estratti in modo casuale dalla popolazione. La rappresentazione grafica di questa distribuzione di valori dell'indice statistico offre due zone una detta di accettazione e una di rifiuto.
  3. Si fissa la probabilità massima! di considerare erroneamente Ho falsa quando invece è vera. Tale probabilità viene detta "livello di significatività" e individua l'area della curva distribuzione dell'indice statistico che costituisce la zona di rifiuto dell'ipotesi Ho e i valori calcolati sui campioni che cadono in questa regione sono detti significativi.
  4. Si confrontano il valore calcolato dall'indice statistico con il valore critico e si possono ottenere i seguenti risultati: Il valore cade nella zona di accettazione e quindi si accetta l'ipotesi di verosimiglianza Ho. Il valore cade fuori dalla zona di accettazione e quindi si rifiuta l'ipotesi nulla Ho. I test di significatività possono essere monodirezionali o bidirezionali. Nel caso del t-student li avremo entrambi mentre per la distribuzione del! (Chi-quadro) potranno essere solo monodirezionali. Test di significatività sulla media di una popolazione distribuita normalmente con varianza ignota Non conoscendo la varianza del campione! necessaria per il calcolo della t si ricorre alla varianza corretta del campione ! Supponiamo quindi di voler verificare l'ipotesi nulla Ho secondo cui la media della popolazione! e quella ipotizzata dallo studio del campione! sono uguali, contro l'ipotesi alternativa H1: ! l'indice statistico da utilizzare è il t-student ! fissiamo il livello di significatività! e scriviamo: