Scarica Allineamento di Sequenze: Tecniche e Applicazioni in Bioinformatica - Prof. Russo e più Sbobinature in PDF di Bioinformatica solo su Docsity!
LABORATORIO DI BIOINFORMATICA
LEZIONE 1 Il genoma è l’insieme delle informazioni genetiche presenti in un organismo vivente. Le informazioni genetiche sono sequenze nucleotidiche organizzate in cromosomi. I geni non coding possono andare a regolare l’espressione di altri geni. Un esempio sono i microRNA. Questi si stanno studiando perchè hanno un ruolo nell’ambito tumorale. L’ epigenoma è l’insieme dei processsi che modificano il DNA senza intaccarne la sequenza ma regolandone l’espressione, anche in risposta a stimoli esterni. Tutte le cellule di un organismo hanno lo stesso genoma, ma diversi epigenomi e trascrittomi. Dai prelievi del sangue sono stati individuati i metalli presenti nel sangue. Si è cercato di capire se i livelli di inquinanti del sangue fossero correlati all’aumento della metilazione del DNA. Tutto questo si fa con la statistica. La ricerca biomolocolare ha fatto passi da gigante per sapere quale fosse la relazione tra genotipo e fenotipo. La genomica si divide in:
- Strutturale : si va a sequenziare il genoma, si verificano i geni e si cerca di capire quali sono gli elementi che regolano l’espressione genica;
- Funzionale : si studiano le funzioni dei geni; si cerca di capire come interagiscono i geni tra di loro; si cerca di capire come i geni possano essere coinvolti in determinate patologie;
- Comparata : analisi comparata dei genomi per determinare relazioni tra genomi di organismi viventi. Spesso gli esperimenti vengono fatti su topi o su altri organismi, perchè è complicato farli sull’uomo. La bioinformatica è il campo della scienza in cui biologia e informatica si fondono in un’unica disciplina per facilitare nuove scoperte biologiche e determinare nuovi paradigmi computazionali sul modello dei sistemi viventi. Quando sequenziamo un genoma otteniamo delle sequenze di cui non conosciamo niente. C’è tutta una parte di analisi dati per capire quali sono le sequenze relative ai geni, quali relativi ai fattori di trascrizione etc.. Le connessioni tra i geni nascono sulla base di calcoli specifici. Dalle relazioni si tira fuori una rete, da cui si cerca di capire quali sono le community: insieme di geni che possono avere la stessa funzione, ad esempio per capire quali sono i geni responsabili di una malattia. Tutti i computer che usiamo sono basati sull’architettura di von Neumann. Il cuore del nostro calcolatore è costituito dal processore CPU e dalla memoria RAM. Il processore gestisce i programmi che devono funzionare nel nostro computer. Per il funzionamento dei programmi abbiamo bisogno di dati che si trovano nella memoria RAM che è volatile, per cui quando spegniamo il computer si perde tutto. Abbiamo bisogno della memoria esterna, la memoria di massa (dischi esterni o interni), che memorizzano i dati in maniera sicura e definitiva. La periferica di input è la testiera; la periferica di output è il monitor che ci consente di vedere quello che stiamo facendo sul computer e con esso riusciamo a tener traccia di quello che il nostro computer sta facendo. Sul computer sono installati i sistemi operativi, che aiutano il funzionamento dei calcolatori, ci consentono di gestire i vari dati che ci servono per il funzionamento dei programmi, ci consentono di gestire lo storage di dati (possiamo creare directory). Abbiamo poi la gestione di input e di output e attraverso il sistema operativo abbiamo un’interfaccia abbastanza facile per l’utente. Per l’analisi di questi dati usiamo sistemi operativi come UNIX o LINUX. Gli algoritmi sono istruzioni che bisogna dare per poter ottenere, dato un input, un output specifico. Quando viene creato un algoritmo si fa uso dei diagrammi di flusso, che ci consentono di capire quali sono le istruzioni da dare.
I diagrammi di flusso hanno forma ben specifiche: l’inizio è indicato negli ovali, come anche la fine; la parte di calcolo è messa in rettangolini. Nel rombo abbiamo delle condizioni. Supponiamo di voler fare la differenza tra due numeri A e B. Il nostro computer deve leggere A, deve leggere B. Poi si inserisce una condizione:
- Se A è maggiore di B è vero, si fa A-B.
- Se A è maggiore di B è falso, si fa l’operazione opposta. Andiamo a vedere il risultato sullo schermo (si fa un print). Un programma ci consente di implementare questo algoritmo in un linguaggio di programmazione. Il programma traduce le istruzioni dell’algoritmo in un linguaggio comprensibile al computer. I linguaggi di programmazione possono essere: interprete o compilatore. Nel primo caso, avremo una schermata in cui mettiamo le istruzioni. Man mano che le istruzioni vengono inserite, vengono tradotte in un codice comprensibile al computer. Nel caso del compilatore, noi scriviamo tutte le istruzioni in un linguaggio di programmazione, quindi abbiamo una sintassi specifica da seguire e poi tutto il codice che abbiamo scritto viene tradotto in un linguaggio macchina prima di essere eseguito. Ad esempio R è un interprete. Per questa analisi abbiamo bisogno di un’alta capacità di calcolo, un’alta capacità di archiviazione. Quello che si fa è utilizzare i server , ovvero computer molto potenti, da cui ci si collega ad un altro computer da remoto. In questo caso riescono a collegarsi più persone. Poi abbiamo anche i cluster , cioè un insieme di questi server collegati tra di loro. Il cluster è ancora più avanzato e potente. Se si devono fare tante operazioni, è possibile, in parallelo, mandare le istruzioni sui vari nodi del cluster, cioè sui vari server. Si dividono i lavori tra i vari computer e quindi si riescono ad ottenere i risultati in maniera parallela. Web server: si ha l’accesso al server tramite browser internet Un altro strumento utilizzato sono i basi di dati , database in cui dobbiamo memorizzare i dati in maniera specifica con uno schema. Anche per la gestione dei database abbiamo bisogno di programmi specifici, come DBMS. I database possono essere relazionali e non relazionali. Nei database relazionali c’è una relazione tra le varie tabelle. Quelli non relazionali sono quelli in cui le tabelle sono indipendenti l’una dall’altra. Per quanto riguarda i database relazionali, per creare una relazione tra le tabelle dobbiamo avere un calcolo in comune. Si definiscono delle tabelle in cui si hanno righe e colonne. Le righe rappresentano i record; le colonne rappresentano i campi. Se si vogliono mettere in relazione le tabelle tra di loro si devono avere campi comuni, ad esempio l’ID deve essere lo stesso, quindi si deve avere una colonna comune. Progettazione di un database:
- Progettazione concettuale: rappresentazione delle informazioni in uno schema;
- Progettazione logica: dobbiamo tradurre lo schema iniziale in un formalismo grafico;
- Progettazione fisica: memorizzazione dei dati. Sui geni già noti, tutte le informazioni sono già presenti nei database. Introduzione ad R R è un linguaggio di programmazione che consente di fare soprattutto analisi statistica. R è open-source, quindi è gratuito. Negli R promt è possibile digitare i comandi ed eseguire le operazioni in modo interattivo direttamente dalla console. R si può usare in diversi modi:
- Approccio interattivo: ogni comando è scritto nel promt ed è eseguito con il testo di invio;
LEZIONE 2 I pacchetti si possono scaricare da CRAN o bioconductor. I pacchetti hanno un manuale d’uso quindi è facile capire quali sono gli step da fare. Una matrice è una sorta di tabella, in cui abbiamo righe e colonne. Tutti gli elementi che memorizziamo nella tabella si possono vedere e l’accesso viene indicato con le parentesi quadre. M [,2] significa che sto guardando la seconda colonna. Se si vuole vedere l’elemento di riga 3 e colonna 2 bisogna indicare nelle parentesi prima l’indice di riga e poi l’indice di colonna. Se si mette il meno davanti signfica che si vuole eliminare la seconda colonna. Supponiamo di avere l’espressione di diversi geni in diversi campioni. Le righe possono essere gene 1, gene 2, gene 3 e gene 4; nelle colonne i vari caratteri. Nelle matrice vengono memorizzati dati di espressione genica.
- Dim(): restituisce le dimensioni di una matrice
- T(): trasposta una matrice
- Cbind(): unione di matrici per colonna Un altro oggetto usato sono le liste , un insieme di oggetti di natura diversa. In una lista si può avere un vettore, una matrice. Quando si va a definire una lista, se si vuole il primo elemento bisogna usare una doppia parentesi quadra. I caratteri vanno sempre tra virgolette. In R abbiamo un’altra classe di oggetti importanti, cioè il dataframe , che si può vedere come una matrice le cui colonne possono essere di tipo eterogeneo.
STATISTICA
È l’insieme di metodi di natura logica e matematica atti a raccogliere, elaborare, analizzare e interpretare dati con la finalità di descrivere fenomeni collettivi. La statistica descrittiva riguarda i metodi per organizzare e riassumere le informazioni. Essa comprende le costruzioni di grafici e tabelle e il calcolo di varie misure descrittive come medie, misure di variazione. L’errore è indice di variabilità di un dato. Per avere un indice di errore piccolo bisogna stare attenti anche al design del dato. Quando si va a fare un esperimento in cui ci sono repliche di controllo e di trattamento, nello stesso giorno bisogna fare trattamenti e controlli. La statistica inferenziale riguarda i metodi per trarre conclusioni su di una popolazione e misurare l’affidabilità di queste conclusioni a partire e da informazioni ottenute da un campione della popolazione. Da un campione cerchiamo di ricevere risultati per l’intera popolazione. Quando ad esempio dobbiamo studiare il valore di insulina nei diabetici cardiopatici, ci si basa su un campione. Da questo campione si vogliono ottenere risultati generali per l’intera popolazione. La popolazione è l’insieme di tutti gli individui o entità considerate in uno studio statistico. Il campione è una parte della popolazione, su cui si fanno gli esperimenti. Quando si sceglie il campione, esso deve essere rappresentativo nell’intera popolazione. Bisogna capire qual è la numerosità del campione, cioè quante repliche servono e poi deve essere eterogeneo e casuale, cioè tutte le unità della popolazione devono avere la stessa probabilità di essere pescate.
Quando facciamo un esperimento andiamo a valutare diverse variabile. Esperimenti:
- La variabile responso è la caratteristica del risultato sperimentale che ci interessa osservare/misurare. Essa può essere l’abbondanza di una proteina, l’espressione genica, il peso di una persona in seguito a una dieta;
- Il fattore è ciò che influenza la variabile responso. Nel caso in cui si fa un esperimento con diversi trattamenti, il fattore trattamento influisce sulla risposta. Oppure si può avere il sesso, che può influenzare la rispposta;
- All’interno dei fattori ci sono diversi livelli. Andando a considerare il fattore trattamento, nell’esperimento si sta utilizzando 3 tipi di trattamento diverso. Il fattore generale è trattamento del farmaco; i livelli sono i vari trattamenti che si stanno effettuando e sono i farmaci che si stanno utilizzando. Poi si prendono le misure relative ai farmaci;
- Il trattamento è la condizione sperimentale. In generale quando si fa un esperimento si deve pensare bene al disegno sperimentale. Occorre rispettare 3 principi:
- Controllo: vanno confrontati due o più trattamenti;
- Randomizzazione: i singoli soggetti dell’esperimento vanno divisi casualmente tra i gruppi da confrontare per evitare di influenzare la risposta al trattamento;
- Replicazione: occorre utilizzare un numero sufficiente di unità per essere certi sia della ripartizione casuale delle unità che di riuscire ad individuare le differenze nelle risposte al trattamento. Ci devono essere almeno 5 repliche per fare una statistica.
fuori da altre misure che sono indicative della variabilità dei dati stessi. Se si osserva una barra di errore molto grande vuol dire che il dato è molto variabile e viene fuori da diverse misure del campione non molto concordi tra loro. Quindi, parlare di variabilità significa parlare di quanto varia questo dato. Spesso se, a seguito di più misurazioni si osserva una variabilità molto elevata, questo può derivare anche da una variabilità tecnica. Anche se l’esperimento viene effettuato da più operatori con delle mani diverse si può generare molta variabilità. La media non ha significato senza una misura di variazione associata alle misurazioni.
- Range : dà informazioni sull’intervallo in cui variano i dati in esame ed è dato dalla differenza tra il massimo valore ottenuto dal campione ed il minimo, MAX (range) – MIN (range);
- Varianza : dà informazioni su come varia il dato intorno alla media, quindi è la dispersione dei dati attorno alla media quantità di secondo grado;
- Deviazione standard : fornisce una buona indicazione della variabilità del dataset e si calcola facendo la radice quadrata della varianza. La varianza è la sommatoria della differenza tra ogni singolo valore, (X_i è il valore ottenuto dal campione, mentre X ̅rappresenta la media), divisa per la numerosità del campione (n). Così facendo si osserva come punto per punto la misurazione di ogni elemento del campione si discosta dalla media. Un’altra misura generalmente utilizzata per rappresentare i dati è la standard error MEAN , ossia la deviazione standard della media, oppure spesso si utilizza l’intervallo di confidenza. L ’intervallo di confidenza è associato ad una percentuale. Ad esempio, dire 95% intervallo di confidenza significa che c’è il 95% di probabilità che la media cada in un determinato intervallo. Riassumendo, ai dati sono associate delle barre rappresentanti il valore della media e ad esse si associa una barra di errore che può essere data dall’intervallo di confidenza o dallo standard error mean. La statistica inferenziale e la statistica descrittiva, in realtà, non sono del tutto separate tra di loro. Quando bisogna valutare se le differenze esistenti tra più misurazioni sono significative o meno, si utilizzano i test di ipotesi, cioè la statistica inferenziale.
Statistica inferenziale
Raccogliere dati riguardo un’intera popolazione statistica X è praticamente impossibile. Solitamente si raccolgono dati su un campione casuale di taglia n. Ad esempio, data una popolazione si suppone di voler calcolare il valore di glicemia nei diabetici cardiopatici, è possibile valutare l’intera popolazione, perciò raccogliamo un campione di taglia n, ossia si fanno n misurazioni (X_1,X_2,X_3,…). Dai dati raccolti sul campione si deve:
- Stimare parametri della popolazione (media, varianza, correlazione, etc.);
- Calcolare intervalli di confidenza per le stime;
- Fittare modelli (regressione, …);
- Testare ipotesi statistiche. Nel caso in cui si voglia vedere se c’è un’effettiva differenza tra i trattamenti fatti su un campione, si va a vedere la media come parametro di popolazione.
Se, invece, si desidera vedere se la varianza tra i due trattamenti diversi è la stessa oppure no; in questo caso si sta utilizzando la varianza come parametro di popolazione. Una volta aver fatto delle stime campionarie, ossia aver stimato i parametri della popolazione, da alcune di queste si fa inferenza. Fare inferenza significa che sulla base dei risultati ottenuti sul campione raccolto, si vogliono trarre conclusioni (inferenza statistica) e riportarle all’intera popolazione.
Test di ipotesi (statistica)
Un test di ipotesi (statistica) è una regola attraverso la quale si decide se accettare o meno un'ipotesi formulata sulla base delle risultanze campionarie, ovvero consente di fare inferenza sull’intera popolazione a partire da un numero finito di osservazioni (campione statistico). L’ipotesi formulata, generalmente, riguarda la distribuzione della probabilità che descrive la popolazione X. Ad esempio, può riguardare un parametro della distribuzione di probabilità come la media. Il procedimento è lo stesso, si preleva un campione casuale da un’intera popolazione, si fa un test statistico e si riportano i risultati all’intera popolazione. Ipotizziamo di dover testare se le differenze tra i diversi trattamenti son significative o meno, in questo caso si sta facendo un test sulla media di quelle popolazioni, cioè sto cercando di capire se le due medie sono uguali o meno. Una volta fatto il test, si può dire se la media è diversa oppure se è la stessa. Per fare tutto ciò bisogna passare per la statistica test. Un 'ipotesi statistica è un'affermazione che specifica parzialmente o completamente la legge di distribuzione della probabilità di una variabile casuale X (che descrive la popolazione di interesse). Quando si fa un’ipotesi si fa un’affermazione su una distribuzione di probabilità di una variabile casuale. Questa ipotesi la si può fare sui parametri noti della distribuzione, come media e mediana, e in questo caso si parla di test parametrici perché è nota la distribuzione. Se invece, non si conosce la forma analitica della distribuzione del dato, non si possono fare delle ipotesi sui parametri della distribuzione, ma si fanno ipotesi sulla distribuzione stessa. In questo caso si parla di test non parametrici. Quindi, i test di ipotesi si distinguono in:
- Test parametrici, in cui si assume nota la forma analitica della distribuzione e si esprime un’ipotesi circa uno o più dei suoi parametri;
- Test non parametrici, in cui non si fanno assunzioni circa la forma analitica della distribuzione, ma si esprime un’ipotesi su di essa o su alcune sue caratteristiche. In generale, si possono formulare due tipi di ipotesi:
- Ipotesi nulla H0 che rappresenta lo stato di fatto o l’ipotesi neutra;
- Ipotesi alternativa H1 che è l’ipotesi di interesse. Queste due ipotesi sono tra di loro complementari, ma generalmente quando si fa un esperimento ci si augura sempre che si verifichi l’ipotesi alternativa. Nell’esempio in cui confrontiamo le due medie, l’ipotesi nulla è che le medie siano uguali mentre quella alternativa è che le due medie siano diverse. Questa ipotesi altro non è che un’affermazione che si fa sui parametri di una popolazione, che si considera vera fino a che non si testa la sua veridicità. Quando si rifiuta l’ipotesi nulla H_0, si considera come vera l’ipotesi alternativa H_1. Accettare l’ipotesi nulla non significa che questa sia vera, ma “solo” che non c’è nulla che ci porti a credere il contrario (manca l’evidenza del contrario).
Fasi per eseguire un test d’ipotesi
- Specificare le ipotesi da testare H0 e H1, due ipotesi esclusive dove una esclude l’altra;
- Fissare il livello di significatività α, indice di commettere un errore di probabilità del I tipo;
- Definire una statistica test in base ai parametri su cui si vanno a fare le ipotesi (media, varianza, ecc.);
- Calcolare, sulla base della statistica scelta e della significatività, la regione di rifiuto per H0;
- Eseguire il campionamento e calcolare il valore della statistica osservato sul campione casuale;
- Se il valore cade nella regione di rifiuto, si decide di rifiutare H0 in favore dell’ipotesi alternativa, altrimenti se cade nella regione di accettazione si decide di non rifiutare H0. Quindi, la risposta del test è “rifiuto” o “non rifiuto”.
P-value
Associato ad un test di ipotesi vi è il P-value. Il P-value sintetizza il risultato del test di ipotesi stesso. Quando si usa in R una funzione che fa un T-test, in output si avrà un P-value. In base al valore del P-value si può dire se accettare o rifiutare l’ipotesi nulla. P-value rappresenta la probabilità dei valori della statistica test di superare il valore della statistica che si ottiene. La probabilità rappresenta l’area sotto la curva nel grafico. Quando si fa i test di ipotesi si ottiene il p-value. Se esso è piccolo, ci si trova nella regione di rifiuto dell’ipotesi nulla. Il nostro livello di singificatività generalmente è 0,05. Quindi se si ottiene un valore minore di 0,05 è possibile rifiutare l’ipotesi nulla.
Approccio alternativo per un test delle ipotesi
- Specificare le ipotesi da testare;
- Fissare il livello di significatività alfa;
- Definire la statistica test;
- Eseguire il campionamento (i.e., l’esperimento) e calcolare il valore della statistica osservato sul campione casuale;
- Calcolare il p-value associato alla statistica osservata;
- Se p <= alfa, si decide di rifiutare H0, altrimenti si decide di non rifiutare. I test statistici possono riguardare o ipotesi inerenti a una singola popolazione X, oppure inerenti a due o più popolazioni e il loro eventuale confronto. Ad esempio, nel primo, si vuole vedere se la media dei valori ottenuti è uguale o diverso a un numero fisso già dato dalla letteratura. Nel secondo caso, si possono confrontare le differenze tra due trattamenti, quindi tra due popolazioni.
I test possono essere parametrici o non parametrici , in base al fatto che sia nota o meno la curva di distribuzione del dato. Nel caso in cui sia nota si fanno dei test relativi ai parametri della distribuzione.
Test parametrici
Definiamo con X una variabile casuale che abbia una distribuzione di probabilità definibile come: Dove ϑ sono i parametri incogniti della nostra distribuzione. Possiamo fare il test in cui definiamo un valore specifico di un parametro. Se il parametro è la media, confrontiamo questo con un valore specifico. Questo si chiama ipotesi statistica semplice , quindi si confronta il parametro con un valore specifico. Se ci si riferisce ad un intervallo di valori, si parla di ipotesi statistica composta. Dobbiamo definire entrambe le ipotesi: H0 e H1. Ad esempio,
- L’ipotesi H0 è che ϑ = ϑ 0
- L’ipotesi alternativa è che ϑ ≠ ϑ 0 Le due ipotesi sono complementari. Uno dei test che possiamo fare è il test sulla media. Test sulla media di una popolazione Supponiamo di avere una variabile casuale, X, tale che: L’obiettivo è testare se: Ad esempio, la popolazione è composta dagli studenti del terzo anno di Biologia. Una classe è un campione dela popolazione. Si vuole vedere se l’età della popolazione degli studenti è pari a 22. Si prende il campione e si chiede l’età a tutti. L’ipotesi nulla è che l’età media è 22; l’ipotesi alternativa è che l’età sia diversa da 22. X1, X2, Xn rappresentano le età. Quando si va a fare un test sulla media, si deve capire se la varianza della popolazione è nota o incognita. Quindi si può sapere se la varianza è nota, quindi ha un valore specifico o no e quindi la si ricava dal grafico. Se la varianza è nota, si utilizza come statistica test la Z.
In questo caso:
- La regione di rifiuto è Z < Zα/2 e Z > Zα/2;
- La regione di accettazione è - Zα/2 <= Z <= Zα/ Ci sono delle tabelle già predisposte in cui ci sono i valori critici, cioè valori che delimitano la regione di rifiuto da quella di accettazione. T-test a una coda In questo caso bisogna calcolare la varianza campionaria. Nel caso della coda sinistra :
- H0 è che μ >= μ0, dove μ0 è un valore noto;
- H1 è che μ < μ0. In questo caso non dobbiamo guardare l’ipotesi nulla, ma l’ ipotesi alternativa. In base al livello di significatività alfa, si definiscono i valori critici che delimitano la regione di rifiuto. Una volta ottenuti i valori del campioni, andiamo a calcolare T e vediamo se cade nella regione di rifiuto o di accettazione. Nel caso del T-test, la nostra statistica T è la distribuzione T di Student. Per questa statistica dobbiamo anche considerare il grado di libertà , dato da n-1, dove n è la taglia del nostro campione. Questo valore ci serve per vedere le tabelle. T-test a due code Andiamo a calcolare T e vediamo se cade nella regione di rifiuto o di accettazione. In questo caso, l’area è di alfa/2. Quando le due medie sono uguali il valore T sarà molto simile a 0, quindi significa dire che il valore si trova nella regione di accettazione. Quando invece le due medie sono molto diverse tra di loro, sarà un numero che finisce nella regione di rifiuto. Per quanto riguarda la statistica T, definiamo il livello di significatività alfa pari a 0,01 e anche in questo caso abbiamo tabelle dei valori critici. Quindi il nostro valore sarà confrontato con il valore critico. Ricapitolando: Utilizziamo lo zeta test quando la varianza è nota; utilizziamo il t-test quando la varianza è incognita. Possiamo utilizzare la statistica test se abbiamo un numero n molto elevato. Ma anche nel caso in cui la varianza non è nota, ma abbiamo una una n molto grande possiamo utilizzare lo zeta test. Quando invece n è piccolo e la varianza è incognita, utilizziamo il t-test. In caso di ipotesi di normalità violate si può utilizzare il Wilcoxon signed-rank test.
Esempio 1 Si supponga di aver somministrato ad un gruppo di n=12 cavie un particolare farmaco di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57, 65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato (di uguale età e condizione), quando non sono sottoposte a trattamenti, mostrano un incremento medio di peso pari a 65 grammi (μ0). Ci si domanda se le osservazioni siano tali da poter attribuire al farmaco la differenza riscontrata nell'incremento medio di peso; in particolare si vuole sapere cioè se il farmaco possa consentire una riduzione dell’aumento del peso o oppure se tale differenza possa essere attribuita a fattori aventi carattere puramente accidentale. In questo caso facciamo sempre un test d’ipotesi, in cui abbiamo che la nostra ipotesi è che μ sia maggiore uguale di 65. L’ipotesi nulla è che μ sia maggiore o uguale di 65, mentre l’ipotesi alternativa è che μ sia minore di 65. Non sappiamo qual è la varianza della popolazione, quindi applichiamo un T-test anche perchè n = 12, quindi è minore di 30. Supponiamo che il livello alfa sia pari a 0,05. Esistono delle tabelle che dicono che il valore minimo corrispondente a 0,05 ha 11 gradi di libertà (12-1). In questo caso il valore è all’estremo, quindi si rifiuta l’ipotesi nulla, a favore dell’ipotesi alternativa. In corrispondenza di -3,63 possiamo ottenere anche il p-value. Quando il p-value è molto basso bisogna rifiutare l’ipotesi nulla. Esempio 2 Caso 1) Supponendo che il livello medio di colesterolo in soggetti adulti sani sia di 180. Si consideri la popolazione di soggetti adulti affetti da una determinata patologia, si vuole verificare se tali soggetti associano un livello di colesterolo diverso da quello dei soggetti sani. L’ipotesi nulla è che μ è uguale a 180; l’ipotesi alternativa è che μ è diverso da 180. In questo caso supponiamo di estrarre 10 campioni. Dobbiamo fare sempre un T-test, questa volta a due code. Nel caso in cui n = 10, i gradi di libertà sono 9.
LEZIONE 4
Due popolazioni
Consideriamo le variabili casuali X ed Y che descrivono il comportamento di una variabile di interesse in due popolazioni. L’obiettivo è confrontare le due popolazioni rispetto ad una qualche caratteristica comune. Prendiamo un campione nella popolazione in X e una in Y. Con i test parametrici andiamo a fare un’ipotesi sui parametri della popolazione quando è nota la distribuzione della popolazione. Nel caso dei test non parametrici facciamo ipotesi sulla popolazione stessa. Quando abbiamo due popolazioni si pone il problema di:
- campionamento indipendente , in cui le taglie dei due campioni possono essere diverse, non c’è alcuna corrispondenza tra i campioni delle rispettive popolazioni;
- campionamento dipendente appaiato , in cui ogni osservazione di un campione è appaiata con una ed una sola osservazione dell’altro campione, pertanto i due campioni hanno lo stesso numero di elementi e l’appaiamento è non ambiguo. Caso tipico di dati appaiati è la misura di una stessa variabile di interesse prima e dopo un certo trattamento sullo stesso individuo. Supponiamo di voler confrontare le medie di controllo e trattamento, in cui prendiamo in considerazione l’occhio dei topi. L’occhio destro rappresenta il campione di trattato e l’altro di controllo quindi abbiamo un appaiamento tra i due campioni. Ma possiamo anche programmare esperimenti in diversi giorni, in cui ogni giorno abbiamo controllo e trattamento. Anche in questo caso li possiamo appaiare, perchè potremmo avere delle scale diverse, quindi effetti dovuti solo a fattori tecnici e non biologici, quindi attraverso l’appaiamento riusciamo a rimuovere la variabilità tecnica.
Test sulla media di due popolazioni
Abbiamo le nostre variabili causali X e Y tali che la media della prima sia μ1 e la media della seconda sia μ2 e tali che le varianze siano sigma con 1 quadro e sigma con 2 quadro. Quando facciamo un test ad ipotesi abbiamo sempre due ipotesi: una nulla e una alternativa, che sono complementari tra di loro. Per il test a due code abbiamo due ipotesi: Invece, ad un coda destra abbiamo sempre due ipotesi: Invece, ad una coda sinistra si invertono le ipotesi: Estraiamo i campioni casuali di taglia m ed n.
Esempio 1 Il livello di espressione del gene ABC viene misurato in 6 pazienti dabietici (popolazione X) e in 8 controlli sani (popolazione Y). Supponendo che le osservazioni ottenute siano le seguenti:
- Campioni diabetici: 8.34, 8.77, 9.25, 7.95, 9.01, 8.
- Campioni controllo: 8.12, 8.23, 8.56, 7.35, 7.91, 8.39, 8.45, 8. Stabilire, con un livello di significatività alfa di 0,05 se il gene in questione possa ritenersi associato al diabete. Vogliamo sapere se l’espressione di questo gene rispetto al controllo è uguale o diverso. Se è diverso, significa dire che in qualche modo il diabete influisce sull’espressione del gene. La taglia delle popolazioni è piccola, quindi dobbiamo applicare un T-test a due code. Le due popolazioni hanno la stessa varianza. I gradi di libertà sono 6+8-2 =12 gradi. Dobbiamo calcolare la media di X e di Y e poi calcoliamo St e otteniamo 1,7. Il valore critico è 2,17. Il valore ottenuto è 1,75, che sta prima quindi si accetta l’ipotesi nulla. In corrispondenza del valore è possibile calcolare il p-value, che è l’area sotto la curva ed è 0,10. Poichè il p-value deve essere minore di 0,05 non si può rifiutare l’ipotesi nulla. C’è una piccola modifica che viene fatta a questo test nel momento in cui le varianze sono diverse, cioè il T-test proposto da Welch.
Confronto media per campioni “appaiati”
Quando i campioni sono appaiati abbiamo una taglia m per la popolazione X e una n per la popolazione Y. La taglia del campione deve essere la stessa per X e Y. L’appaiamento non deve essere ambiguo, infatti X1 deve essere accoppiato con Y1. Utilizziamo una variabile casuale D che è data dalla differenza tra le due, infatti Dn = Xn -Yn. Questo si può ridurre ad un test a una popolazione, perchè quello che andiamo a testare è se la differenza è uguale o diversa da 0. La differenza è uguale a 0 quando X è uguale a Y, quindi non c’è differenza in media tra X e Y. Ma quando la differenza è diversa da 0? Ritorniamo all’ipotesi in cui μ1 è diverso da μ2. Poichè ho fatto la differenza tra X ed Y, la differenza deve essere diversa da 0 nell’ipotesi alternativa. La stessa cosa per il test a una coda sinistra e ad una coda destra. Quindi è come se ritornassimo al test ad una popolazione. Quindi si costruisce una statistica test T. Nella statistica T avevamo X- μ0. Questa volta μ0 è 0 perchè si sta confrontando la differenza con 0. La media D rappresenta la media tra le differenze quindi X1-Y2 e così via diviso n. Si calcola la varianza e poi si utilizza la statistica T con n-1 gradi di libertà. Di conseguenza le regioni di accettazione e rifiuto, così come il p-value si calcolano come nel corrispondente caso della media di una popolazione con varianza incognita.
Esempio 2 Si vuole verificare l’efficacia di una data dieta dimagrante, pertanto vengono monitorati n=11 individui al tempo t=0 (inizio della dieta) e t=3 mesi da quando la dieta è iniziata. A parte il regime dietetico gli individui selezionati continueranno a seguire il lo stile di vita cui erano abituati. Se la dieta ha funzionato, il peso dovrebbe diminuire. Se si calcola X-Y la differenza dovrebbe essere X>0. Quindi l’ipotesi nulla H0 è che d <= 0. Si calcolano le medie delle differenze e si vede che essa è 1,5. Poi si calcola la varianza associata e si ottiene 1,4. Andando a sostituire nella formula si ottiene che T = 3,6. In questo caso il livello di significatività è di 0,01, quindi il valore critico va preso in corrispondenza di 0,01. Poichè si hanno 11 persone, quindi la taglia del campione è 11, il grado di libertà sarà 11-1 = 10. Quindi il valore critico è 2,76. Il valore ottenuto T è maggiore rispetto al valore critico, quindi ci si trova a metà della regione di rifiuto quindi è si può rifiutare l’ipotesi nulla quindi la dieta sarà in difetto.
Test della varianza in due popolazioni
Un altro test che si può fare è quello sulla varianza. Quando dobbiamo applicare un test sulla media, dobbiamo dire se la varianza delle due popolazioni è uguale o no. Ci auspichiamo che la varianza sia la stessa, anche se non lo sappiamo. In questo caso però si può testare la varianza, quindi come parametro si utilizza la varianza. In questo caso si considera i rapporto tra sigma con 1 quadro e sigma con 2 quadro. Si ha che:
- Se la varianza della popolazione X è uguale alla varianza della popolazione Y il rapporto sarà uguale a 1;
- Se la varianza della popolazione X è maggiore della varianza della popolazione Y il rapporto sarà maggiore di 1;
- Se la varianza della popolazione X è minore della varianza della popolazione Y il rapporto sarà minore di 1. Quando si fa un test sulla varianza si fa rispetto al valore 1.
Test non parametrici sul parametro di locazione
Ci sono casi in cui non sappiamo niente sulla distribuzione del dato e non possiamo fare nessuna ipotesi. Ci sono anche dei test che ci consentono di vedere se i dati che abbiamo misurato vengono da una misurazione normale o no. Invece di utilizzare il valore che abbiamo ottenuto, utilizziamo il rango, cioè la posizione del valore nella sequenza dei numeri che abbiamo ottenuto. Mettiamo i valori in ordine crescente, e invece di usare i valori, utilizziamo il corrispondente ordinamento. Nel caso del Wilcoxon test , l’ipotesi non si fa sulle medie ma sulle mediane, anche se le ipotesi sono sempre le stesse degli altri test.