Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Valutazione qualità dati: errore campionamento, variabile e statistica descrittiva, Appunti di Statistica

Come valutare la qualità dei dati attraverso il controllo dei bias, l'errore di campionamento e la statistica descrittiva. Vengono presentati concetti come variabile, modalità, raggruppamento dei dati in classe, media campionaria, mediana, moda, centili e asimmetria. Il documento illustra come calcolare queste misure utilizzando esempi pratici.

Tipologia: Appunti

2020/2021

Caricato il 19/06/2022

graziella-cossu
graziella-cossu 🇮🇹

5 documenti

1 / 25

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
STATISTICA
La statistica è l’arte e la scienza del disegno degli studi e dell’analisi dei dati che tali studi
producono; la statistica è l’arte di imparare dai dati.
Esistono due tipi di statistica:
-descrittiva: insieme di metodi per la raccolta, organizzazione e sintesi dei dati;
-inferenziale: insieme di metodi utili per realizzare i dati estratti da un campione per
arrivare a conclusioni applicabili all’intera popolazione.
I tipi di studi che possono essere svolti sono:
-osservazionali: il fenomeno viene solo osservato senza usare unità statistiche.
Associazione trattamento ed esito;
-sperimentali: vengono somministrati diversi tipi di trattamento allo studio per misure gli
effetti. Identificazione delle cause tra esito ed esposizione.
Inoltre l’analisi delle osservazioni può essere svolta secondo una scala o globale, in cui le
indagini riguardano l’intera popolazione presa nel complesso, o parziale, in cui le indagini
vengono svolte solo in una piccola parte che fa parte della popolazione.
Unità Statistiche → insieme degli elementi che costituiscono la popolazione.
Per cui si può dire che:
vengono usati dei metodi per condurre degli studi di ricerca per analizzare e interpretare i
prodotti ottenuti dagli studi. Si parte da un disegno di studio per ottenere dei dati rilevanti e
dopo averli raccolti avviene un’analisi statistica in cui i dati sono semplificati in tabelle e
grafici. Si procede secondo inferenza, ossia arrivare ad una decisione o previsione che
riguarda l’intera popolazione sulla basa di dati campionari. Per svolgere i calcoli,
successivamente, verranno utilizzati dei datafile appositi.
DISEGNO DELLO STUDIO
Il disegno di studio è uno dei metodi statistici che caratterizzano la ricerca scientifica e i
metodi principali della statistica sono:
-disegno: pianificare l’ottenimento di dati;
-descrizione: sintesi e analisi dei dati ricavati dagli studi;
-inferenza: prendere decisioni e fare previsioni sulla base di quei dati allo scopo di
rispondere a una domanda statistica.
Si parte dall’analisi di un campione in cui vengono presi in considerazione delle variabili e
dei parametri. Per variabile si intende la caratteristica rilevata nelle unità statistiche; un
esempio sono: s (indica una statistica, ovvero una raccolta di dati), la X con il trattino sopra
(media combinatoria), s2e p (probabilità statistica). Per statistiche si intendono i dati raccolti
nella popolazione e sono rappresentati con lettere dell’alfabeto. Mentre i parametri vengono
rappresentati con le lettere dell’alfabeto greco: μ, σ, σ2, π.
I dati raccolti senza un disegno portano ad errori con più facilità, infatti ci si fa “trasportare”
da questioni secondarie, tuttavia non rappresenta il metodo scientifico. Per questo è
importante progettare uno studio e il motivo della ricerca.
QUESITO STATICO
Il quesito si formula conoscendo bene l’argomento che può derivare da oggetti per la ricerca
e deriva anche da curiosità che il ricercatore stesso si pone. Da esso poi ne deriverebbero
delle idee tuttavia bisogna rispettare 5 criteri che sono rappresentati da una sigla F.I.N.E.R,
ognuno dei quali ha un significato:
-F:FATTIBILITÀ’: è fattibile condurre tale studio? Ho competenze sufficienti? Ho
sufficienti partecipanti che mi aiutino?
-I:INTERESSE: risveglia la nuova curiosità del ricercatore?
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19

Anteprima parziale del testo

Scarica Valutazione qualità dati: errore campionamento, variabile e statistica descrittiva e più Appunti in PDF di Statistica solo su Docsity!

STATISTICA

La statistica è l’arte e la scienza del disegno degli studi e dell’analisi dei dati che tali studi producono; la statistica è l’arte di imparare dai dati. Esistono due tipi di statistica:

  • descrittiva : insieme di metodi per la raccolta, organizzazione e sintesi dei dati;
  • inferenziale : insieme di metodi utili per realizzare i dati estratti da un campione per arrivare a conclusioni applicabili all’intera popolazione. I tipi di studi che possono essere svolti sono:
  • osservazionali : il fenomeno viene solo osservato senza usare unità statistiche. Associazione trattamento ed esito;
  • sperimentali : vengono somministrati diversi tipi di trattamento allo studio per misure gli effetti. Identificazione delle cause tra esito ed esposizione. Inoltre l’analisi delle osservazioni può essere svolta secondo una scala o globale, in cui le indagini riguardano l’intera popolazione presa nel complesso, o parziale, in cui le indagini vengono svolte solo in una piccola parte che fa parte della popolazione.

Unità Statistiche → insieme degli elementi che costituiscono la popolazione.

Per cui si può dire che: vengono usati dei metodi per condurre degli studi di ricerca per analizzare e interpretare i prodotti ottenuti dagli studi. Si parte da un disegno di studio per ottenere dei dati rilevanti e dopo averli raccolti avviene un’ analisi statistica in cui i dati sono semplificati in tabelle e grafici. Si procede secondo inferenza , ossia arrivare ad una decisione o previsione che riguarda l’intera popolazione sulla basa di dati campionari. Per svolgere i calcoli, successivamente, verranno utilizzati dei datafile appositi.

DISEGNO DELLO STUDIO

Il disegno di studio è uno dei metodi statistici che caratterizzano la ricerca scientifica e i metodi principali della statistica sono:

  • disegno : pianificare l’ottenimento di dati;
  • descrizione : sintesi e analisi dei dati ricavati dagli studi;
  • inferenza : prendere decisioni e fare previsioni sulla base di quei dati allo scopo di rispondere a una domanda statistica. Si parte dall’analisi di un campione in cui vengono presi in considerazione delle variabili e dei parametri. Per variabile si intende la caratteristica rilevata nelle unità statistiche; un esempio sono: s (indica una statistica, ovvero una raccolta di dati), la X con il trattino sopra (media combinatoria), s^2 e p (probabilità statistica). Per statistiche si intendono i dati raccolti nella popolazione e sono rappresentati con lettere dell’alfabeto. Mentre i parametri vengono rappresentati con le lettere dell’alfabeto greco: μ, σ, σ^2 , π. I dati raccolti senza un disegno portano ad errori con più facilità, infatti ci si fa “trasportare” da questioni secondarie, tuttavia non rappresenta il metodo scientifico. Per questo è importante progettare uno studio e il motivo della ricerca.

QUESITO STATICO

Il quesito si formula conoscendo bene l’argomento che può derivare da oggetti per la ricerca e deriva anche da curiosità che il ricercatore stesso si pone. Da esso poi ne deriverebbero delle idee tuttavia bisogna rispettare 5 criteri che sono rappresentati da una sigla F.I.N.E.R, ognuno dei quali ha un significato:

  • F: FATTIBILITÀ’ : è fattibile condurre tale studio? Ho competenze sufficienti? Ho sufficienti partecipanti che mi aiutino?
  • I: INTERESSE : risveglia la nuova curiosità del ricercatore?
  • N: NOVITÀ’ : lo studio è nuovo, esplora territori non conosciuti o vi sono sufficienti evidenze?
  • E: ETICITÀ’ : arrecare danni ai soggetti in studio?
  • R: RILEVANZA : è rilevante lo studio per la comunità scientifica, la medicina e la salute pubblica? I principali motori di ricerca per usare come banca dati sono come PubMed la quale contiene importanti riviste scientifiche consentendo anche l’accesso di MEDLINE. C’è anche Google Scholar. La comunità scientifica ha un margine di errore che lo stesso ricercatore pone ad esempio 95% in cui lo studio è “corretto” e il rimanente 5% è il margine di errore. Nel caso di associazione tra fattori di esposizione. Nel caso di uno studio che riguarda gli anziani si possono porre dei quesiti in modo che possano essere analizzati e raccolti i dati. Successivamente possono essere consultate le banche dati affinchè avvenga un’analisi più accurata.

FASI DELLA RICERCA

Le fasi della ricerca sono diversi e sono: 1 - Definizione del quesito statico Definizione dell’obiettivo della ricerca 2 - Raccolta dei dati Valutazione della qualità del dato 3 - Analisi statistica 4 - Interpretazione dei risultati 5 - Comunicazione e trasferimento dei risultati della ricerca

CONCETTI E I CRITERI DEVONO ESSERE SEMPRE RISPETTATI

Più i dati presentano un errore in piccole percentuali, più è attendibile uno studio per cui scriveremo che la probabilità statistica sarà minore ad un numero α: p < α p < 0.05 5% p < 0.001 1* In tal caso avremo una probabilità che mostra un margine di errore del 5%, per cui le occasioni in cui la dimostrazione dei dati è dimostrabile è molto bassa, ma lo è ancora di più nel caso dell’ 1*1000. Il margine di errore deve essere sempre minore della probabilità statistica, oppure non è sarà attendibile l’intero studio; tuttavia α tiene conto dell’errore casuale. La raccolta degli studi può essere:

  • primaria : rilevati dai ricercatori;
  • secondaria : rilevati secondo fonti ufficiali. La modalità di raccolta possono essere di 3 tipi:
  • occasionale: svolta senza periodicità;
  • periodica: svolta con intervalli costanti;
  • continua: es. monitoraggio. Inoltre può essere di tipo diretta , la quale avviene sul campo, o indiretta la quale avviene attraverso dei questionari.

Valutazione della qualità del dato Il controllo dei dati viene eseguito per eliminare eventuali bias , ossia gli errori che possono essere presenti, per diversi motivi all’interno di uno studio:

  • sistematici: presentano lo stessa maniera per ogni dato rilevato e viene rilevato com un errore sistematico;

ad un criterio di convenienza di conseguenza i risultati possono essere rappresentativi della popolazione. Il campione deve essere rappresentativo della popolazione e quindi rappresentare la popolazione e non la convenienza, per questo viene inoltre scelto casualmente e non per convenienza.

Tipi di campionamento Esistono vari tipi di campionamento e sono:

  • semplice casuale : conoscendo la popolazione e le singole unità statistiche e in maniera casuale vengono estratte casualmente;
  • cluster : viene preso un gruppo di unità statistiche e uso le stesse tecniche di estrazione nel caso del campionamento semplice;
  • stratified : la popolazione è divisa in strati e vengono poi estratte le unità statistiche in maniera sempre casuale. La scelta del tipo di campionamento varia in base alla popolazione dato che presenta delle variabilità, soprattutto per rendere omogeneo l’intero campione viene usato il metodo stratificato; nel caso del cluster viene estratto ed analizzato un gruppo che fa parte della popolazione. Usare i tipi di campionamento serve per estrarre le unità statistiche con più facilità ed ogni unità deve avere la stessa possibilità per essere estratta in egual modo da una popolazione. Non importa quanto sia grande una popolazione scegliere un tipo di campionamento non è casuale, mai.

Modalità di campionamento Non è arbitrario e può essere con:

  • reintroduzione: un elemento della lista dopo essere stato selezionato, viene reintrodotto nella lista da cui ha la stessa probabilità di essere selezionato nelle estrazioni successive. Ovviamente viene tenuto conto di un’eventuale riestrazione della stessa unità;
  • senza reintroduzione: dopo essere estratto, un elemento non può essere estratto un’altra volta, di conseguenza la base da cui abbiamo estratto tale elemento diminuisce (ho un sacchetto con 5 palline ne estraggo una verde e le probabilità di trovarne una rossa è maggiore poiché la base è diminuita.) Quando si definisce una popolazione teoricamente infinita, in cui il campionamento è piccolo, con o senza reintroduzione, è ininfluente per cui la probabilità che un campionamento figuri più volte lo stesso elemento è del tutto trascurabile. nel caso di una popolazione finita è importante distinguere la modalità di campionamento.

Per ottenere un campionamento bisogna seguire 3 step:

  • creare una lista che include ogni unità della popolazione di interesse e assegnare ogni unità compresa da 1 a N (N indica la dimensione totale della popolazione). Per cui alle unità vengono attribuiti dei numeri per facilitare l’estrazione ed il campionamento;
  • assegno un campione dall’unità della popolazione, non ci si basa neanche in una base scientifica. Assegnare le unità in modo casuale segue un metodo aiutandoci ad estrarre delle unità;
  • usare un generatore di numeri casuali interi tra 1 e il numero totale di unità nella popolazione;
  • bisogna campionare le unità con i numeri che coincidono con quelli del prodotto dal generatore di numeri casuali. Le tavole numeriche casuali sono costituite da numeri che vanno da 0 a 9, per consultarli essi vengono rappresentati in colonna e “scritti” come se venissero generati manualmente: Esempio nel caso di un’urna all’interno dei quali sono presenti dei numeri e vengono estratti casualmente. Prendendo una riga, i numeri presenti in ogni stringa:

Ho una popolazione che comunque presenta 17 unità e prendo le prime 5 stringhe, controllo quale di queste stringhe presenta delle unità che fanno parte della popolazione e li prendo in considerazione. La crescente diffusione dei computer che si ebbe a partire dai primi anni ‘40 fece nascere il desiderio di poter eseguire efficientemente la generazione dei numeri “casuali” impiegando i computer, giungendo alla formulazione di un algoritmo o si una serie di operazioni aritmetiche inserite in un processo interattivo che ha portato alla generazione di numeri pseudo-casuali. L’utilizzo di computer ha facilitato, quindi lo svolgimento e la ricerca delle tavole numeriche permette di trovare con più facilità le unità a noi utili. Nel caso di Excel si usa “=CASUALE()” per cui scriverò: =INT(CASUALE()100)+ da ciò otterremo un numero casuale da 1 a 100. Per ottenere un numero si può scrivere anche più generalmente come: =INT(CASUALE()N)+ e ciò perché N è la base che io ho. Tale funzione è una funzione matematica e non statistica, per cui, se non è selezionato, bisogna selezionarlo manualmente. Posso mettere qualsiasi numero al posto di N tuttavia esso deve rispettare la base che io prendo in considerazione. Se la popolazione è infinita usiamo: E: TRA (1) Su ogni campione estratto possiamo attribuire delle caratteristiche, le quali saranno diverse dalle unità che andranno a comporre il campionamento. Per condurre un'indagine campionaria, il campione deve rappresentare la popolazione e affinché ciò avviene un’estrazione casuale in modi diversi, o tramite la tavola dei numeri casuali, oltre ai vari metodi scritti sopra.

Errore di campionamento Il campione è un’imperfetta fotografia della popolazione per cui scrivere:

x - μ=errore di campionamento

I fattori che influiscono sull’errore di campionamento sono le dimensioni del campione stesso e della variabilità, per cui disponendo di un campione (n) su ciascuna unità statistica abbiamo la possibilità di raccogliere i dati in modi diversi. Nella tabella sono sintetizzati alcuni esempi di campioni in cui, su ogni unità è stata misurata una caratteristica definita variabile che può differire da individuo ad individuo.

Variabile Come già detto precedentemente essa può essere qualitativa o categorica e rappresenta una caratteristica di un’unità statistica, ma non misurabile; i valori che vengono assunti vengono chiamate modalità. Un esempio di modalità sono: adenina, guanina, citosina e timina le quali sono 4 modalità della variabile del DNA. Nel caso della variabile quantitativa la caratteristica di un’unità statistica è espressa da un numero derivante da un conteggio o una misura e si possono riconoscere due tipi di variabili:

  • discreta: può assumere un numero intero di possibili modalità derivando da un conteggio. Un esempio sono i numeri di ogni mese, in numero di figli, il numero di globuli rossi per mm^3 di sangue;
  • continua: può assumere qualsiasi valore in un intervallo reale derivando in maniera diretta o indiretta da un processo di misurazione in cui i valori sono ottenuti con l’ausilio di uno strumento di misura. Per le misure dirette si possono considerare il peso,

La frequenza cumulata viene calcolata per ottenere informazioni sulle osservazioni che assumono valori inferiori o superiori alla modalità di interesse. Fi si ottiene sommando la frequenza assoluta della modalità considerata e la frequenza assoluta della modalità precedente; l’ultima frequenza cumulata sarà uguale al totale del campione (n). Per ottenere la frequenza cumulata relativa verrà svolto il rapporto tra la frequenza cumulata di una modalità ed il totale delle frequenze assolute (o n): (Fi /n) Un esempio di tabella di frequenza relativa di una variabile qualitativa è la tabella che riporta le frequenze relative delle 10 cause di morte più comuni degli adolescenti statunitensi di età compresa tra 15 e 19 anni nel 1999. Può essere sviluppata anche una tabella di frequenza cumulata, in cui vengono riportate le frequenze cumulate delle stesse variabili prese in considerazione prima.

Raggruppamento dei dati in classe Avendo misurato una variabile quantitativa, la costruzione della tabella di frequenza da poche informazioni e questo perché le variabili quantitative mostrano valori contenuti in un mezzo di misura. Si esegue un raggruppamento di dati in classi e serve per trarre informazioni da essi oltre a evidenziare l’intervallo dei valori che risultano più frequenti per la caratteristica considerata. Quindi la tabella mette in evidenza il 50% percento dei del campione con un dato medio. Un intervallo è costituito da un limite o superiore o inferiore, facenti parte di una classe aperta {160-165} o chiusa [160-165]. La classe aperta ha un limite superiore che equivale ai valori racchiusi in una parentesi graffa. Quando si viene a raggruppare una serie di dati, essi devono appartenere ad una classe che rispecchia gli stessi limiti, e questo perché le classi sono aperte. Le parentesi graffe indicano che anche il limite inferiore appartiene al limite (aperta), la classe non sarebbe stata esclusiva perché i limiti massimi e minimi fanno parte dell’intervallo; nel caso delle parentesi quadre, il limite minimo esso non apparterrà al tale limite (intervallo chiuso). Per raggruppare i dati in casi bisogna:

  • riordina i dati in senso crescente, determinando una valore massimo (Xmax) e il valore minimo (=Xmin);
  • calcolare il range, il quale è una misura di variabilità: (R) = Xmax - Xmin. Il range è la misura più semplice della variabilità, perché quando abbiamo una variabilità in classi, ci aiuta ad identificare un valore massimo e uno minimo;
  • bisogna calcolare gli intervalli di classe (k), la quale ha una formula definita di Sturges: K = 1 + 3,322 (log 10 n). Per cui non può essere un numero maggiore di 10, quindi avremo in totale 10 classi e non può avere un valore di 5 perchè perderemmo molti dati;
  • calcola l’ampiezza di ciascun intervallo e si arrotonda per eccesso e si ottiene tramite la formula: λ = R/k.
  • quindi partendo da un valore minimo si aggiunge a quello dell’ampiezza e otteniamo il limite inferiore della classe successiva, fino a quando non raggiungiamo il limite massimo di classi k calcolate;
  • si costruiscono gli intervalli massimi;
  • si assegnano le singole unità statistiche alle classi. Nella tabella di frequenza vengono perse delle misure descrittive. Tuttavia calcolare la media stimata ci restituisce un valore diverso rispetto alla media calcolata con la considerazione dei singoli numeri e ciò avviene perchè avendo dei valori all’interno di un range. Il vantaggio ottenuto nel raggruppare i dati in classe ci aiuta ad avere delle informazioni più specifiche. Il grafico usato per rappresentare una variabile di tipo continua perché ci aiuta ad evidenziare dei valori anomali, più frequenti.

Rappresentazione grafica dei dati Sono essenziali sia nella presentazione dei risultati, in cui si cerca di comunicare cosa dicono i dati, sia per la presentazione dei dati rilevati, attraverso i quali cerchiamo di capire cosa dicono i dati stessi. Nel caso del grafico dot-plot rappresenta il grafico più semplice perché evidenzia dati anomali e ogni valore è rappresentato da un punto, consentendo di individuare valori anomali o valori che si ripetono. I vantaggi della rappresentazione grafica è la messa in evidenza le caratteristiche principali di un fenomeno in una forma immediatamente percepibili e oltre a suggerire al lettore nuove ipotesi per ulteriori studi ed approfondimenti. Le caratteristiche principali per costruire un grafico deve essere accurato, chiaro e semplice e per ottenere tali elementi bisogna:

  • titolo: descrive a quale carattere di riferisce la distribuzione, su quale collettivo di unità è stato misurato, quando è stata data anche la rilevazione;
  • etichetta: indica la modalità o le classi del carattere. Sull’asse delle frequenze viene indicato se ci si riferisce a frequenze assolute, relative o percentuali.
  • legenda: per grafici che confrontano più distribuzioni e in generale per tutti quelli un pò complessi.
  • nota: fonte dei dati. Ci sono numerosi grafici racchiusi in 4 tipologie attraverso cui vengono rappresentati dei dati che si possono usare, in base ai dati a disposizione si usa una composizione, distribuzione, confronto e relazione diversa. Possono essere usati dei grafici anche tridimensionali nel caso di tre variabili, nel caso di più dimensioni sarebbe difficile da interpretare. I grafici che hanno una composizione dei dati qualitativa sono diversi. Il grafico a torta, o reale, viene usato per descrivere la composizione in percentuale dei dati; è diviso in settori in modo che ogni settore sottenda un angolo proporzionale alla frequenza relativa della categoria corrispondente. I grafici a colonna sono formati da rettangoli con basi uguali ed altezze proporzionali alle frequenze dei vari gruppi considerati, rappresentando l’informazione della variabile che abbiamo misurato. Per i dati quantitativi i grafici usati sono l’istogramma e il poligono a frequenza. L’istogramma è maggiormente usato per variabili di tipo quantitativo e i dati sono, quindi, raggruppati in classi. E’ utile per variabili i cui dati sono raggruppati in classi e sull’asse delle X è riportato il limite superiore delle classi, ossia si parte dal limite superiore della classe con frequenza 0 andando poi a salire. Nelle ordinate è rappresentata l’altezza della frequenza che possono essere assolute, relative o percentuali. Per costruire un istogramma i dati devono essere rappresentati in classi aperte e l’altezza è direttamente proporzionale all’area, per cui facendo base*altezza/2 otteniamo la frequenza. Ci rivela la forma della distribuzione, se c’è una variabilità dai dati, la quale è espressa dalla forma (per forma si intende alla curva che si sovrappone, più è allungata più sarà bassa la variabilità e viceversa) e la presenza di outlier, o valori anomali. La variabilità è ciò che dobbiamo vedere e studiare statisticamente; se tutte le variabili hanno una curva alta significa che i range, ossia i valori di normalità, rispettano la “normalità”. Ciò è stato studiato affinchè i valori cadano all’interno del range che è stato disposto, come nel caso della pressione, dell’insulina, delle analisi del sangue; se tali valori uscissero dal range, superando o essendo inferiori ad esso, potrebbero comportare anche dei problemi, rientrando nei cosiddetti valori anomali. Unendo i punti medi dei rettangoli dell’istogramma il disegno ottenuto sarà un disegno areale chiamato come poligono di frequenza. Le variabili le possiamo rilevarle anche attraverso il tempo, attraverso dei grafici lineari; sull’asse delle x viene indicato il tempo, qualsiasi unità di tempo, e sulle ordinate i valori della variabile.

Per le variabili quantitative le misure di posizione più importanti sono: la media,mediana e moda. Esistono vari tipi di media , ossia:

  • media campionaria: indicando con xi i valori che può assumere una variabile definita X, in cui xi è un termine generico, si riferisce alle unità statistiche assumendo valori interi. Viene indicata con la 𝑥ed è data dalla somma (indicata da sigma Σ rappresentando la sommatoria) di tutte le osservazioni (i) diviso il numero delle osservazioni (n):

𝑥 = 𝑖 = 1

𝑛 ∑ 𝑥𝑖

𝑛

  • media “vera”: la media media di una popolazione finita indicata con il simbolo μ si ottiene dalla somma (Σ) di tutte le osservazioni (i) divisa il numero delle osservazioni nella popolazione (N):

μ =

𝑖 = 1

𝑛 ∑ 𝑥𝑖

𝑁 Per cui graficamente la media può essere vista come il baricentro di una distribuzione, se ogni singola osservazione fosse rappresentata da un peso convenzionale, identico per tutte, lungo l’asse che riporta i valori su una scala di intervalli o di rapporti. Su excel la si calcola come, avendo i dati all’interno di una tabella di frequenza, moltiplicando il valore per xi per ogni singola osservazione, fratto per i valori totali presenti all’interno della tabella. Se i dati sono riportati in una tabella di frequenza, si calcolano le misure descrittive ponderate.

  • media aritmetica ponderata: non esistendo la funzione statistica per svolgerla du Excel, allora si riportano in una nuova colonna i prodotti xiyi, per cui se i dati sono raggruppati in classi allora di calcolerà la media aritmetica ponderata, considerando come xi il valore centrale della classe:

𝑥 =

Tuttavia xi sono le medie degli intervalli di classe cioè il valore centrale di ogni intervallo:

𝑥 𝑖 =

Se si hanno dei vettori viene calcolata una media definita semplice.

  • media geometrica: si calcola quando le osservazioni sono facilmente espresse come titoli, ovvero diluizioni di date sospensioni o reagenti. Andare a sommare i valori e dividerli per n non sarebbe corretto, per cui viene calcolata la media geometrica svolgendo il logaritmo di ogni singolo valore, sommandoli a vicenda, svolgiamo una classica media; tuttavia dato che deve essere commutato in unità, verrà fatto l’antilogaritmo oppure possiamo scrivere 10n. La mediana è un valore che divide l’insieme dei dati ordinati in due parti uguali. In altre parole, è l’osservazione che nella serie ordinata lascia alla destra il 50 delle osservazioni e alla sinistra il 50 delle osservazioni; se n (ossia il numero delle osservazioni) è dispari allora la mediana è l’osservazione centrale, se n è pari allora la mediana sarà la coppia centrale. Su Excel la mediana si calcola con la funzione: =MEDIANA(intervallo di valori) Se i valori vengono rappresentati in una tabella di frequenza, la mediana sarà il valore che troveremo al centro della tabella; sarà utile calcolare le frequenze cumulate (F) e dalla definizione otterremo il valore medio, ovvero al centro della distribuzione che occupa.

Se i dati sono rappresentati in classi si parla di classe mediana. Si tiene conto delle osservazioni della distribuzione, contiene esattamente il valore della mediana. Per avere l’esatto valore della mediana bisogna applicare:

𝑀𝑒 = 𝐿𝑖 +

𝑛 2 − 𝐹 𝑓𝑚^ λ

dove: Li = limite inferiore della classe mediana (classe che contiene la mediana) F = somma delle frequenze di tutte le classi inferiore alla classe mediana fm = frequenza della classe mediana A = ampiezza della classe mediana n = numero delle osservazioni Per individuare la classe mediana si segue la regola:

  • se il numero di osservazioni è dispari la mediana si identifica nel valore centrale
  • se il numero di osservazioni è pari risulta essere la semisomma dei due valori centrali. N.B.: E’ utile calcolare le Frequenze cumulate (F).

La moda è un valore con la frequenza più alta in un insieme di dati e appartiene alla modalità della distribuzione; se i dati sono ben rappresentati, la moda sarà il punto massimo di una curva ed è un indice per i dati normali. Non è quindi rappresentata da valori esterni. Per cui si può dire che la classe della moda e quella modale sono contenute una all’interno dell’altra. La distribuzione unimodale se è presente una sola moda; bimodale se ci sono diversi valori della variabile con la stessa frequenza massima; distribuzione multimodale se vi son più di due differenti valori della variabile con la stessa frequenza massima; se nessun valore viene ripetuto non c’è la moda. Su Excel si usa la funzione: =MODA(intervallo di valori) I centili appartengono i percentili, quartili, e così via in base alla divisione della distribuzione. I quartili sono degli indici di posizione che dividono l’intera distribuzione ordinata dei dati in 4 parti uguali. Il primo quartile, Q1, è il valore tale che il 25% delle osservazioni è più piccolo di Q1 e il 75% è più grande di Q1:

posizione Q1 =

Il terzo quartile, Q3, è il valore tale che il 75% delle osservazioni è più piccolo di Q3 e il 25% è più grande di Q3:

posizione Q3 =

Il secondo quartile, Q2, è il valore tale che il 50% delle osservazioni è più piccolo di Q2 e il 50% è più grande di Q2 (coincide con la MEDIANA):

posizione Q2 =

in Excel i quartili si determinano secondo la funzione: =QUARTILE(intervallo di valori) Tali misure sono importanti per quantificare la variabilità di una distribuzione di frequenza. Graficamente possono venirsi a formare diversi tipi di curve:

  • leptocurtica: ha una frequenza maggiore rispetto alla lunghezza;
  • normocutica: ha una frequenza che rientra nella normalità e si differenzia per la variabilità e la varianza;
  • platicurtica: risulterà con una frequenza più bassa rispetto a quella normale. La variabilità dipende o dalla genetica, quindi interindividuale tra i diversi fenotipi, oppure tramite fonti ambientali. Nel caso dell'intera individuabilità avremo dei risultati biologici, in cui

codevianza divide il numero delle osservazioni (guarda le slide sulla covarianza compresa interpretazione geometrica). Nella rappresentazione grafica verranno rappresentati gli scarti, però saranno concordi solo quando tali scarti saranno nel primo e nel terzo quadrante. La covarianza è > 0 se gli scarti sono nel primo e nel secondo quadrante portando ad una relazione positiva; se fosse < 0 allora la variabilità è negativa e l’indice è negativo, per cui l’andamento della relazione è decrescente, per cui negativa. Svolgendo la relazione, per la covarianza si otterrà sempre un valore molto vicino a 0. Nel caso di Excel useremo: =COVARIANZA.C(A2:A4).

Probabilità La probabilità è importante per i processi biologici i quali sono influenzati dal caso.. Su cosa si basa la probabilità?

Dato che la probabilità si basa su esperimenti aleatori o casuali ha diversi esiti che può produrre; un esempio è il lancio della moneta in cui non possiamo sapere quale sia il risultato, se non dopo l’esecuzione dell’esperimento. La moneta è composta da testa e croce, per cui ci sono due possibilità ma un solo esito in cui si potrà ottenere o testa o croce. Un altro esperimento aleatorio può essere visto anche durante una sequenza di una stringa di DNA in cui vi è la sequenza di basi azotate però si conosce solo dopo il sequenziamento. Prima di procedere con la probabilità bisogna:

  • esperimento aleatorio;
  • deve essere chiaro quale sia lo spazio campionario S soggiacente, ovvero l’insieme di tutti i possibili esiti dell’esperimento. Per evento si riferisce un risultato di un esperimento casuale e viene indicato come sottoinsieme definito E e viene rappresentato tramite grafici di uenner. Gli eventi possono essere :
  • certi, in cui l’evento si verifica sempre;
  • impossibile in cui non si verifica mai;
  • possibile o probabile, in cui l’evento può verificarsi oppure no. Lo spazio probabilistico

La probabilità la si può classificare come:

  • classica:
  • frequentista:
  • Bayesiana o soggettiva: La probabilità di un evento si indica come p (E) è uguale al rapporto tra il numero dei casi favorevoli (m) e il numero dei casi possibili (n): p(E) = m/n Secondo la legge dei grandi numeri, a lungo termine la probabilità poi tende all’incertezza. Per cui definire la probabilità frequentista si riferisce ad un esperimento in cui la sua probabilità di un risultato è la proporzione di volte che quel risultato si realizza (E) in una lunga serie di osservazioni: P(E) = n° di volte in cui E si è verificato/ n° di repliche dell’esperimento Per scriverci su Excel, essendo una funzione casuale: =CASUALE.TRA(intervallo valori) Quando l'assegnazione di una valore di probabilità è da attribuire ad un certo evento irripetibile per il quale gli esiti non sono equiprobabili, allora l'interpretazione classica e quella frequentista non sono validi e si deve ricorrere all’interpretazione bayesiana o soggettiva. Per cui definire della probabilità soggettiva o bayesiana è la probabilità definita come il grado di fiducia soggettiva che un individuo ripone nel verificarsi di un evento in base alle conoscenze e convinzioni del momento. La probabilità è un numero compreso tra 0 e 1:

0<P<1 in cui ci sono varie possibilità:

  • se p(E) = 0 l’evento non si verifica mai;
  • se p(E) = 1 se l’evento è certo;
  • se p(E) = 0.5 l’evento ha possibilità di capitare come non c’è la possibilità che avvenga Se però, p(E) è uguale alla probabilità di successo dell’evento la probabilità che non si manifesti un evento E (insuccesso) è q, ovvero la probabilità che è associata all’evento successo: q = 1 -p(E) = 1 - P La somma delle probabilità o frequenze relative di tutti gli eventi che possono verificarsi deve essere uguale ad 1.

Un evento composto è un evento formato da uno o più elementi semplici e possono essere legati dall’unione (somma) dei due insiemi semplici, oppure l'intersezione (sottrazione) di essi; per cui viene svolta la probabilità dei singoli eventi.

Dati due eventi si vuole una regola per p(A e B) ossia per la probabilità che l'evento A si verifichi in un primo esperimento e che l'evento B si verifichi in un secondo esperimento, per cui la regola formale del prodotto viene scritta come: P (A∩B) = P (A) * P (B|A) In cui B si realizza se A si è già realizzato per cui p (B|A) si può scrivere e ne deriva la probabilità condizionale: P (B|A) = P (A∩B)/P (A) Nel caso in cui si realizzasse prima B allora scriveremo che: P (A|B) = P (A∩B)/ P (B) Devo però verificare la condizione secondo cui se i due eventi sono dipendenti, la probabilità del secondo evento si è realizzato, quella del primo elemento diventa condizionale; due eventi sono indipendenti se il verificarsi di uno dei due eventi non ha alcun effetto sull verificarsi dell’altro evento in cui P (B|A) coincide con P(B). Esistono tuttavia sia falsi positivi sia falsi negativi in cui il risultato ottenuto è l’opposto. Per definire due eventi indipendenti bisogna soddisfare la condizione in cui la probabilità del secondo evento coincida con la probabilità di B, dato che il primo si è realizzato; se la probabilità condizionale è diversa dal secondo evento, allora essi si definiscono dipendenti. Definizione di tabella di contingenza e tabella di congiunzione. Valore predittivo positivo del test (VPP), invece nel caso di quello negativo esso sarà detto dall’evento complementare di tutti i risultati dei test in cui con l’acronimo viene scritto come VPN; attraverso ciò è in grado di considerare gli eventi positivi e negativi, differenziandoli dai falsi positivi e negativi. Si può anche definire la probabilità a priori, in cui un soggetto presenti una data condizione; nel caso di una probabilità a posteriori, viene considerata la probabilità condizionale applicando la regola di Weiss in cui viene applicata la filosofia bayesiana da cui deriva il calcolo della probabilità a posteriori, tenendo conto dell’evento che si è realizzato e qual è la causa che influisce con maggior probabilità l’esito finale. Vengono tenute in conto tutte le case all’interno di uno spazio campionario all’interno del quale però uno può determinare un determinato fattore. Per questo devi applicare la regola formale del prodotto rispettando però sempre l’indipendenza degli eventi. Per risolvere i problemi di probabilità si possono usare i diagrammi ad albero affinché si abbia un’elencazione grafica di tutti gli elementi dello stato campione; sui rami poniamo i valori di probabilità associati all’esito successo. Dalla radice si dipartono dei rami tanti quanti sono gli esiti che avvengono. E’ un grafico direzionale che mostra gli esiti di un esperimento che si dipartono da uno stesso punto, ossia la radice, generalmente posto in alto a sinistra rappresentando la “situazione iniziale”; si procede poi a costruire i cammini, indicati con le frecce, che tengono conto dei diversi risultati possibili e delle rispettive probabilità che vengono riportate su ogni freccia (o arco del grafo). Lungo i rami si moltiplica attraverso la “e” logica, mentre in orizzontale si addiziona attraverso la “o” logica affinché o uno o l’altro evento si manifestino.

DISTRIB.BINOM (num_successi; prove; probabilità_s; cumulativo) Dove:

  • num_successi : ovvero il numero di successi in n prove indipendenti;
  • prove : numero di prove indipendenti;
  • _probabilitàs : probabilità di successo per ogni prova;
  • cumulativo: è un parametro logico che deve avere come valore VERO, se si desidera calcolare le probabilità cumulate ossia p(X≤x); invece per avere il valore FALSO si calcolare ciascuna probabilità singola p(X=x); Se cambia n, mantenendo costante il valore di p la distribuzione da asimmetrica diventa simmetrica o normale, invece se la probabilità dell’evento p è molto piccola con n (numero delle prove) molto grande, la distribuzione binomiale tende alla distribuzione di Poisson e la funzione che rappresenta tale distribuzione è:

𝑃(𝑋) = λ𝑥 𝑥! * 𝑒

−λ

Dove:

  • λ = numero medio di successi per unità di tempo;
  • x = numero di successi;
  • e = costante (2,71828). La distribuzione di Poisson ha una asimmetria positiva, al crescere di λ la distribuzione tende a diventare simmetrica. La media e la deviazione standard della distribuzione di Poisson sono calcolabili se la X ha distribuzione di Poisson μ è l’unico parametro che caratterizza la distribuzione per cui:

μ = 𝑛 * 𝑝 = λ σ

2 = λ → σ = λ

La distribuzione normale è spesso chiamata gaussiana ed è la distribuzione più usata nell’analisi statistica perché descrive bene la maggior parte dei fenomeni naturali e biologici E’ una distribuzione tipica di molti procedimenti di misura in fisica, biologia. La funzione di densità è la rappresentazione dei dati di una variabile continua mediante istogrammi con dati raggruppati in classi, possiamo osservare come facendo crescere indefinitamente il numero delle classi si arriva alla curva che viene chiamata funzione di densità. Per cui essa è data da:

𝑓(𝑥) = con

1 σ 2π

  • 𝑒 −

(𝑥−μ)^2 2σ^2

− ∞ < 𝑥 <+ ∞

Dove: π= 3,14; e= 2, Caratteristiche di una distribuzione normale è la simmetria intorno alla sua media μ in cui essa, la mediana e la moda coincidono; l’area sotto la curva vale 1, poiché la distribuzione normale è una distribuzione di probabilità. A causa della simmetria a destra e a sinistra dell’asse di simmetria si trova il 50% dell’area. E la distribuzione normale è specificata da due parametri: μ e σ. Effetti sul grafico di una modifica apportata alla media μ o alla varianza σ^2 :

  • stessa varianza, diversa media: la media individua la posizione della curva: se varia μ la curva si sposta sull’asse delle ascisse;
  • stessa media, diversa varianza: a parità di μ la curva diventa si appiattisce o si allunga. Esiste un numero infinito di distribuzioni normali diverse fra loro ed è possibile ricondurre tutte queste diverse distribuzioni ad un’unica distribuzione standard attraverso la deviata normale standardizzata quando siamo interessati a determinare la probabilità compresa in un certo intervallo di valori. Gli effetti sul grafico di una modifica apportata alla media μ o alla varianza σ^2 in cui uguale media diversa varianza e la curva si appiattisce o si allunga; uguale varianza e diversa media implica l'individuazione della curva in cui se varia μ la curva si sposta sull’asse delle ascisse.

La standardizzazione avviene se x è un’osservazione da una distribuzione che ha media μ e deviazione standard σ, il valore standardizzato di x (chiamato valore z) è:

𝑧 =

𝑥−μ σ Mentre la trasformazione inversa sarà:

𝑥 = μ 𝑥

  • σ 𝑥
  • 𝑧

In Excel la funzione si scrive come: NORMALIZZA(x;media;deviazione standard) restituendo il valore standardizzato (z).

Qual è la probabilità per un paziente affetto da cirrosi biliare primitiva di avere un valore di albumina ≥ 42.0g/l? Cioè, qual’ è la P(X≥42.0) Si trasforma quindi il valore di 42.0 g/l in valori Z: (42.0 - 34.21)/ 5.39 = 1. Qual’ è la P(X≥42.0) oppure, P(Z≥1,445)? Possiamo usare le tavole Z oppure in Excel la funzione = DISTRIB.NORM.ST.N(z;VERO). Dalla distibuzione di otterrà la probabilità cumulata del’area poichè l’area di probabilità di interesse si riferisce all’area della curva in nero (ovvero della coda destra della distribuzione), all’area di probabilità dell’intera curva, 1, sottraiamo il valore di probabilità dell’area cumulata: p (Z≥1,445) = 1 - 0.926 = 0.0742. Per cui un paziente con albumina ≥42g/l ha il 7.4% di probabilità di essere affetto da cirrosi; dalla curva normale standardizzata possiamo risalire al valore di z noto il valore di probabilità. Qual è il valore di z che stacca il 25,14% dei valori nella coda di sx? In Excel si scrive come: INV.NORM.S(.2514) restituendo il valore di z. Una variabile casuale si definisce continua quando i possibili valori costituiscono un intervallo a cui i possibili valori vengono assegnati dei valori di probabilità e al crescere degli intervallo l’ampiezza di essi si riduce e la forma dell’istogramma tende ad approssimare una curva Si applica la distribuzione binomiale prendendo elementi presi x volte. Si può anche costruire l’intera distribuzione, per cui si può calcolare quanti test siano positivi e/o negativi, affinché si arrivi al numero totale delle osservazioni prese in considerazione; si può calcolare anche la varianza e in tal caso svolgendo la radice quadrata della quantità permetterà di ottenere l'indice di variabilità rispetto al valore atteso. Nel caso in cui i fenomeni, in cui la variabile aleatoria si sviluppi in un tempo in cui essa si può avverare è definita distribuzione di Poisson; qualora si fosse interessati a calcolare la probabilità in cui il numero medio di morti di una cittadina è di 7 su 760 (numero totali di abitanti) e per calcolare il uero medio di morti, si dividerà per 365, affinché si ottenga il valore dei morti per giorni.

Quando vengono raccolti dei campioni biologici è perchè si cerca di conoscere le popolazioni sottostanti di interesse e per popolazione si può riferire anche a:

  • reale finita: tutti i maschi oltre i 20 anni in italia;
  • infinitamente grande: cellule di lievito con genotipi identici ad un specifico ceppo di riferimento;
  • risultati di processo stocastico che possiamo osservare e misurare, come nel caso della ricombinazione meiotica nelle mosche. Si deve tenere conto che le statistiche prese in considerazione non corrispondono quasi esattamente a quelle delle popolazioni sottostante, infatti essi presentano degli errori quando si raccoglie un campione e calcoliamo per la variabile X una statistica, come la media o la deviazione standard, c’è sempre un certo grado di incertezza sulla stima. La distribuzione di campionamento è considerata prendendo molti campioni di cui si calcola la media di ciascun campione, con statistiche diverse per poi rappresentarle graficamente; la

frequenza campionaria. Per cui la variabilità della distribuzione delle medie con la distribuzione della popolazione della variabile presenta una variabilità minore della distribuzione della popolazione. Risulta essere minore perché il valore ottenuto è il valore delle medie campionarie estratte dalla popolazione, per cui quella misura risente della quantità che coincide con l’errore di campionamento. Pensando in un campo biologico, la statistica può coincidere con la vera media, quantificando l’errore in termini di probabilità per generalizzare le informazioni che ho

ottenuto. Se la quantità è nota allora: (condizione in cui conduciamo degli studi e σ 𝑛 consideriamo un’intera casistica, per cui si può calcolare la vera deviazione standard) per cui se dividiamo per la radice di n otterremo una quantità definita errore standard (indice di variabilità riferito alla distribuzione delle medie campionarie - alla media delle statistiche

campionarie): → varianza → *

σ 𝑛

σ^2 𝑛

Le distribuzioni campionarie della media per campioni di dimensioni sono la varianza e la deviazione standard. In cui, se la dimensione del campione aumenta, la distribuzione campionaria della media diventa più stretta attorno alla media reale, μ. Ciò significa che all’aumentare della dimensione del campione, l’incertezza associata alle nostre stime della media diminuisce, per cui la varianza e la deviazione standard delle medie diminuiscono all’aumentare della numerosità tramite le formule scritte prima *.

Proprietà della distribuzione campionaria delle medie è data da:

  • distribuzione campionaria delle medie segue approssimativamente la curva normale;
  • media delle medie campionarie tende a essere uguale al valore medio della popolazione;
  • deviazione standard è inversamente proporzionale alla numerosità del campione;
  • la deviazione standard della distribuzione campionaria della media prende il nome di errore standard. Se la distribuzione della popolazione è normale, il campione può essere di qualsiasi dimensione, quindi se la popolazione non è normale (asimmetrica o discreta) il campione dovrà essere di almeno 30 osservazioni per avere una maggiore precisione della stima.

Le distribuzioni teoriche che vengono utilizzate per determinare le probabilità delle statistiche campionarie o modifiche delle stesse che ci aspetteremo da ripetuti campionamenti da una o più popolazioni. Queste distribuzioni sono ampiamente utilizzate per la stima e il test di ipotesi. Le tre distribuzioni teoriche per la statistica sono:

  • distribuzione z: appena è una distribuzione normale lo è solo se sigma è nota, per cui solo sulla variabile di interesse, procedendo standardizzare la variabile, come nel caso dell’altezza delle donne, portando a z = x mi/sigma, con le medie campionarie per per calcolare le probabilità di interesse. Se estraiamo dalla popolazione un campione, ci possiamo chiedere che valore può essere maggiore o minore. E’ importante standardizzare la media in una variabile z, la quale ha una media centrata sullo zero e la deviazione posta su 1;
  • distribuzione t di student: utilizzata quando sigma non è nota, per cui deve essere considerata la deviazione standard. vengono per cui considerate le statistiche sui dati campionari con la presenza delle deviazioni standard, utilizzando come stima la deviazione standard s come stima di sigma, per cui la distribuzione delle medie campionarie in realzione di sigma considerando una stima tramite l’errore standard. Viene usata perché gli studi condotti riguardano piccoli campioni*;
  • distribuzione x^2 : il grafico è una funzione esponenziale in quanto varia per il grado di libertà (n-1).

Per la distribuzione t di student e x^2 parliamo di famiglie di distribuzione di probabilità che dipendono dal numero dei gradi di libertà (g.l). Se è nota σ, allora è possibile calcolare la vera deviazione standard delle medie campionarie, ottenendo lo standard error; la distribuzione delle medie campionarie. Nota la varianza allora è noto anche l’errore standard (formule inverse). *un piccolo campione è piccolo quando la numerosità del campione è minore di 30; se aumenta la quantità del campione non si potrà utilizzare la distribuzione t di studenti.

ESEMPIO

In una popolazione la lunghezza del creazioni è approssimativamente distribuita come una normale con una media di 185.6 mm e una deviazione standard di 12.7 mm (sigma). Se si estraggono n = 10 crani, qual è la probabilità che la media della lunghezza del cranio sia ≥190?! SVOLGIMENTO P(X ≥ 190)= ?!

Si standardizza la variabile, chiedendoci qual è il valore z delle medie. Per cui si scrivere: z = x - mi / 12.7/ radice di n. Il valore di z è = 1.09 e p(z ≥ 1.09) = 0.137. In cui: p(X ≥ 190) = 0.

Per cui la distribuzione campionaria individua i possibili valori che una statistica (come la media campionaria) e con quale probabilità in cui data una distribuzione campionaria della

media per una popolazione nota (con sigma noto) è data da: 𝑍 =. 𝑥 − μ σ 𝑛 La distribuzione campionaria di una media se n è piccolo e sigma non è nota in cui coincide

con la distribuzione campionaria teorica: 𝑡 = 𝑥 − μ 𝑠 𝑛

La distribuzione t student è una famiglia di distribuzioni la cui forma cambia di funzione di n-1 che sono definiti in gradi di libertà della distribuzione t e al crescere dei gradi di libertà, la sua forma si avvicina sempre di più a quella delle domande standard; quando la df è 30 o più, le distribuzioni sono quasi identiche.

Gli argomenti finora svolti sono i mattoni della pratica statistica considerando:

  • progettazione dello studio: abbiamo appreso che il modo in cui i dati vengono raccolti per uno studio è determinante per la forma delle prove e può limitate alcune conclusioni;
  • sintesi dei dati: descrive il tipo di distribuzione che abbiamo, nonché la sua forma, il centro e la diffusione;
  • probabilità: descrive matematicamente l’incertezza. Soprattutto abbiamo appreso le proprietà della curva normale, una distribuzione che si presenta molto frequentemente quando si studiano variabili biologiche e nel lavoro statistico;
  • distribuzioni campionarie: le statistiche del campione variano da campione a campione e si possono quindi caratterizzare queste variabilità (froma, centro e diffusione) con la distribuzione normale (esattamente o approssimativamente).

Viene definita l’inferenza statistica l’insieme dei metodi che ci consentono di predire i risultati ottenuti dal campione a tutta la popolazione oggetto dello studio. Le tecniche dell’inferenza sono:

  • intervalli di confidenza: intervallo di valori entro il quale con un livello di probabilità prefissato cadrà nel parametro.