Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Sintesi di Bioinformatica, Sintesi del corso di Bioinformatica

Sintesi degli argomenti del corso di Bioinformatica della professoressa Helmer Citterich, Scienze Biologiche Tor Vergata

Tipologia: Sintesi del corso

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 09/02/2021

matilde-scoditti
matilde-scoditti 🇮🇹

4.6

(54)

41 documenti

1 / 24

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BANCHE DATI
Le banche dati vanno ben progettate e sono come contenitori costruiti per immagazzinare dati che vengono da vari esperimenti o
letteratura scientifica. Ci sono banche dati dedicate a generiche sequenze di acidi nucleici, a sequenze di proteine, a strutture 3D, a
promotori, tRNA, sequenze mitocondriali, articoli, motivi funzionali ecc.. Una banca dati è costituita da entries e ogni entry di una
banca dati contiene informazioni sull’oggetto principale della banca dati insieme a tutte le altre informazioni che si vogliono
considerare come classificanti l’oggetto stesso. Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre
alla sequenza di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli articoli che riportano dati
su quella sequenza, le caratteristiche funzionali e ogni altra informazione ritenuta di interesse. Fondamentalmente una entry è una
scheda vuota che viene riempita con le informazioni della proteina che viene inserita.
Accession number: Indicatore unico che viene assegnato nel momento della sottomissione dei dati. Dimostra che è stata fatta la
sottomissione della sequenza e quella sequenza può essere pubblicata in letteratura scientifica. In numero della prima
sottomissione è detto primario. La maggior parte delle banche dati di interesse biologico è disponibile (o anche disponibile) in
formato flat-file ovvero in un formato di semplice testo. Il formato flat-file consente un’immediata lettura del contenuto della
banca dati, eventualmente anche mediante l’uso di programmi per calcolatore sviluppati allo scopo. È possibile navigare tra le
banche dati differenti grazie ai passaggi crociati; è molto importante che ci siano delle relazioni ( riferimenti crociati o cross-
references) tra banche dati che trattano informazioni riguardanti gli stessi oggetti o oggetti correlati. I riferimenti crociati rendono
possibili i passaggi di informazione tra banche dati diverse e favoriscono la loro integrazione. Ma ancora più importante è che i
dati contenuti nelle varie banche dati vengano organizzati in formati che favoriscano di per sè lo scambio dei dati.
Operatori logici: servono per evitare di essere sommersi dai dati. È necessario, dunque, per poter fare ricerche più rapide. È
molto utile la conoscenza degli operatori booleani (da George Boole, matematico inglese dell’800) che consentono ricerche che
soddisfino più criteri. Gli operatori booleani più usati sono OR, AND e NOT. AND permette di fare intersezioni, OR permette le
somme e NOT permette di cercare per esclusione. Cercando nella banca dati innanzitutto devo cercare in inglese, poi devo
utilizzare la logica booleana, ma affinchè la mia ricerca sia più specifica devo effettuare ricerche di determinate parole-chiave che
debbano trovarsi in specifici campi, corrispondono alle varie parti dell'entry identificate nell’header, ad esempio, si può restringere
la ricerca della parola whale al solo campo relativo all’organismo nel cui proteoma si effettua la ricerca.
BANCHE DATI PRIMARIE E SECONDARIE
Ci sono banche dati primarie che contengono acidi nucleici (DNA e RNA). Queste banche sono tre: una giapponese (DDBJ), una
Europea (EMBL) e una Americana (GEN BANK) e raccolgono dati dal proprio intorno, dopo che la sequenza è stata controllata
e accertata viene condivisa con le altre banche. Ci sono miliardi di basi e centinaia di milioni di sequenze. Quando nella ricerca
non viene specificato l’operatore booleano, viene sottointeso dal programma come AND.
Banca dati secondaria: contiene sequenze proteiche UNIPROT (composta da swiss prot= è la “treccani” e contiene decine di
milioni di sequenze e dalla TrEMBL=translated EMBL) la differenza tra queste due è che le singole sequenze sono annotate
manualmente in swiss prot mentre TrEMBL ha l’aggiornamento automatico. Le banche dati di sequenze proteiche contengono sia
dati ottenuti direttamente dalla sequenza di proteine, che dalla traduzione di sequenze geniche di cui sia stata individuata o
predetta la funzione. Le sequenze nucleotidiche devono essere trascritte in FASTA. La sequenza è scritta senza spazi, nè numeri,
nè a capo e sono costituite più o meno da 60 caratteri per riga.
PUBMED
Pubmed è una banca dati unica per motivi di copyright. Una parte della conoscenza acquisita nel corso della storia della scienza
sta nei libri, un’altra parte sta nelle review che citano e riassumono gli articoli più importanti degli ultimi due anni, mentre tutta la
parte nuova, i risultati recenti si trovano solo negli articoli, che arrivano nelle biblioteche, agli abbonati e in gran parte sono
disponibili in rete, gratis o a pagamento. In Pubmed si possono trovare articoli, rewiev e libri (a pagamento e non) di interesse
biomedico. È gestito da NCBI. Inizialmente la banca più importante era Medline sviluppata dalla National Library of Medicine, è
la più completa banca dati di bibliografia biomedica disponibile al mondo (contiene dati su milioni di articoli, successivamente
l’NCBI ha incorporato Medline in Entrez dando vita così a Pubmed e a Pubmed central. Si possono inserire parole chiave,
utilizzando sempre la logica booleana. Dopo aver effettuato una ricerca, la prima cosa a uscire è il titolo, poi ci sono gli autori
(riportati prima per cognome e poi per nome). Si consiglia di fare tutte le ricerche col cognome completo e l’iniziale del nome,
questo perchè si è cominciato a inserire il nome completo solo dagli anni 2000 quindi se si cerca un autore con nome e cognome
completo usciranno solo gli articoli pubblicati dopo il 2000 e non quelli precedenti. Il primo autore è quello che fa principalmente
tutto il lavoro, l’ultimo nome è il capo mentre quelli che stanno in mezzo sono quelli che hanno contribuito al lavoro. Estremi
della referenza: nome della rivista e data di pubblicazione, le rewiev vanno citate con nome di autore e data di pubblicazione.
Codice PMID: codice identificativo di Pubmed, è un codice identificativo unico. Quando, una volta impostata la ricerca si va a
seguire una singola entry non si arriva subito al lavoro ma si arriva a una pagina intermedia dove c’è la possibilità di fare un
approfondimento perchè vengono riportati tutti i dati fondamentali della pagina precedente e l’abstract. L’articolo è disponibile in
formato HTML. È importante fare la ricerca per campi, fare ricerca generica è un errore perchè dopo aver semplicemente cercato
un argomento è probabile che escano migliaia di entries. Le ricerche fatte possono essere composte e i risultati delle ricerche
composte possono a loro volta ricorsivamente diventare elementi di nuove ricerche.
EUROPE PMC
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
Discount

In offerta

Anteprima parziale del testo

Scarica Sintesi di Bioinformatica e più Sintesi del corso in PDF di Bioinformatica solo su Docsity!

BANCHE DATI

Le banche dati vanno ben progettate e sono come contenitori costruiti per immagazzinare dati che vengono da vari esperimenti o letteratura scientifica. Ci sono banche dati dedicate a generiche sequenze di acidi nucleici, a sequenze di proteine, a strutture 3D, a promotori, tRNA, sequenze mitocondriali, articoli, motivi funzionali ecc.. Una banca dati è costituita da entries e ogni entry di una banca dati contiene informazioni sull’oggetto principale della banca dati insieme a tutte le altre informazioni che si vogliono considerare come classificanti l’oggetto stesso. Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli articoli che riportano dati su quella sequenza, le caratteristiche funzionali e ogni altra informazione ritenuta di interesse. Fondamentalmente una entry è una scheda vuota che viene riempita con le informazioni della proteina che viene inserita. Accession number : Indicatore unico che viene assegnato nel momento della sottomissione dei dati. Dimostra che è stata fatta la sottomissione della sequenza e quella sequenza può essere pubblicata in letteratura scientifica. In numero della prima sottomissione è detto primario. La maggior parte delle banche dati di interesse biologico è disponibile (o anche disponibile) in formato flat-file ovvero in un formato di semplice testo. Il formato flat-file consente un’immediata lettura del contenuto della banca dati, eventualmente anche mediante l’uso di programmi per calcolatore sviluppati allo scopo. È possibile navigare tra le banche dati differenti grazie ai passaggi crociati ; è molto importante che ci siano delle relazioni ( riferimenti crociati o cross- references ) tra banche dati che trattano informazioni riguardanti gli stessi oggetti o oggetti correlati. I riferimenti crociati rendono possibili i passaggi di informazione tra banche dati diverse e favoriscono la loro integrazione. Ma ancora più importante è che i dati contenuti nelle varie banche dati vengano organizzati in formati che favoriscano di per sè lo scambio dei dati. Operatori logici : servono per evitare di essere sommersi dai dati. È necessario, dunque, per poter fare ricerche più rapide. È molto utile la conoscenza degli operatori booleani (da George Boole, matematico inglese dell’800) che consentono ricerche che soddisfino più criteri. Gli operatori booleani più usati sono OR, AND e NOT. AND permette di fare intersezioni, OR permette le somme e NOT permette di cercare per esclusione. Cercando nella banca dati innanzitutto devo cercare in inglese, poi devo utilizzare la logica booleana, ma affinchè la mia ricerca sia più specifica devo effettuare ricerche di determinate parole-chiave che debbano trovarsi in specifici campi, corrispondono alle varie parti dell'entry identificate nell’header, ad esempio, si può restringere la ricerca della parola whale al solo campo relativo all’organismo nel cui proteoma si effettua la ricerca. BANCHE DATI PRIMARIE E SECONDARIE Ci sono banche dati primarie che contengono acidi nucleici (DNA e RNA). Queste banche sono tre: una giapponese ( DDBJ ), una Europea ( EMBL ) e una Americana ( GEN BANK ) e raccolgono dati dal proprio intorno, dopo che la sequenza è stata controllata e accertata viene condivisa con le altre banche. Ci sono miliardi di basi e centinaia di milioni di sequenze. Quando nella ricerca non viene specificato l’operatore booleano, viene sottointeso dal programma come AND. Banca dati secondaria: contiene sequenze proteiche UNIPROT (composta da swiss prot= è la “treccani” e contiene decine di milioni di sequenze e dalla TrEMBL=translated EMBL) la differenza tra queste due è che le singole sequenze sono annotate manualmente in swiss prot mentre TrEMBL ha l’aggiornamento automatico. Le banche dati di sequenze proteiche contengono sia dati ottenuti direttamente dalla sequenza di proteine, che dalla traduzione di sequenze geniche di cui sia stata individuata o predetta la funzione. Le sequenze nucleotidiche devono essere trascritte in FASTA. La sequenza è scritta senza spazi, nè numeri, nè a capo e sono costituite più o meno da 60 caratteri per riga. PUBMED Pubmed è una banca dati unica per motivi di copyright. Una parte della conoscenza acquisita nel corso della storia della scienza sta nei libri, un’altra parte sta nelle review che citano e riassumono gli articoli più importanti degli ultimi due anni, mentre tutta la parte nuova, i risultati recenti si trovano solo negli articoli, che arrivano nelle biblioteche, agli abbonati e in gran parte sono disponibili in rete, gratis o a pagamento. In Pubmed si possono trovare articoli, rewiev e libri (a pagamento e non) di interesse biomedico. È gestito da NCBI. Inizialmente la banca più importante era Medline sviluppata dalla National Library of Medicine, è la più completa banca dati di bibliografia biomedica disponibile al mondo (contiene dati su milioni di articoli, successivamente l’NCBI ha incorporato Medline in Entrez dando vita così a Pubmed e a Pubmed central. Si possono inserire parole chiave, utilizzando sempre la logica booleana. Dopo aver effettuato una ricerca, la prima cosa a uscire è il titolo, poi ci sono gli autori (riportati prima per cognome e poi per nome). Si consiglia di fare tutte le ricerche col cognome completo e l’iniziale del nome, questo perchè si è cominciato a inserire il nome completo solo dagli anni 2000 quindi se si cerca un autore con nome e cognome completo usciranno solo gli articoli pubblicati dopo il 2000 e non quelli precedenti. Il primo autore è quello che fa principalmente tutto il lavoro, l’ultimo nome è il capo mentre quelli che stanno in mezzo sono quelli che hanno contribuito al lavoro. Estremi della referenza: nome della rivista e data di pubblicazione, le rewiev vanno citate con nome di autore e data di pubblicazione. Codice PMID: codice identificativo di Pubmed, è un codice identificativo unico. Quando, una volta impostata la ricerca si va a seguire una singola entry non si arriva subito al lavoro ma si arriva a una pagina intermedia dove c’è la possibilità di fare un approfondimento perchè vengono riportati tutti i dati fondamentali della pagina precedente e l’abstract. L’articolo è disponibile in formato HTML. È importante fare la ricerca per campi, fare ricerca generica è un errore perchè dopo aver semplicemente cercato un argomento è probabile che escano migliaia di entries. Le ricerche fatte possono essere composte e i risultati delle ricerche composte possono a loro volta ricorsivamente diventare elementi di nuove ricerche. EUROPE PMC

Europe PMC è un’altra banca dati, più piccola e totalmente europea. Nell’Introduzione, in particolare ci sono le citazioni ad altri articoli (referenze negli articoli scientifici) alcune si trovano tra parentesi nel testo, altre si trovano alla fine (references). Più un articolo viene citato, più è importante il lavoro. L’impact factor di una rivista è il numero medio di citazioni per articolo relativo a due anni prima. Anche se questo servizio non funziona bene in Pubmed, è possibile ricercare anche solo le rewiev. Per ottenere dati sulle citazioni di un articolo, è necessario avere accesso al citation index di Scopus il cui uso non è gratuito. Un ottimo sostituto di Scopus è scholar.google.com, che valuta le citazioni dei lavori basandosi su ricerche effettuate in rete. L’H-index è l’indicatore che indica numero di lavori e quanto sono citati. L'indice H , o indice di Hirsch (a volte, in inglese, H - index ), è un criterio per quantificare la prolificità e l'impatto scientifico di un autore, basandosi sia sul numero delle pubblicazioni, sia sul numero di citazioni ricevute. I valori utilizzati per valutare gli scienziati sono quindi il numero di citazioni, l’impact factor delle riviste e l’h-index

ELEMENTI DI INFORMATICA

I programmi vengono scritti attraverso linguaggi di programmazione quali il Fortran, il C, il C++, Java, il BASIC e altri. Essi consistono in una successione di "istruzioni" che consentono l'acquisizione dell'input, la sua elaborazione e la generazione dell'output. I programmi vengono scritti in linguaggi di alto livello che noi comprendiamo bene e il calcolatore no, e sono detti sorgente; i linguaggi sorgente vengono poi tradotti in moduli eseguibili che il calcolatore comprende bene e noi no. La traduzione viene eseguita da programmi speciali detti compilatori. Trasforma la sorgente e li trasforma il programmi eseguibili. Ci sono diversi compilatori, se ad esempio un programma sorgente è scritto in linguaggio C, si utilizzerà il compilatore C per tradurlo e renderlo eseguibile. I compilatori devono inoltre essere specifici per il sistema operativo dove voglio eseguire il programma. Per questo motivo non è possibile copiare programmi eseguibili da un sistema operativo ad un altro; programmi adatti a windows non funzionano su linux e viceversa, anche se i loro programmi sorgente potrebbero essere addirittura identici. Il software open source è definito dalla sua licenza che rinuncia ai diritti di copyright che di solito spettano al creatore del software. Questa procedura da’ a chiunque l’opportunità di modificare ed eventualmente ridistribuire ogni software open source.

SIMILARITÀ E OMOLOGIA

Similarità e omologia sono differenti tra loro: la similarità è un dato che prescinde dall’ipotesi della causa della similarità e che posso misurare, l’omologia invece indica che hanno antenato comune e che quindi hanno stessa origine filogenetica. Si può dire che due sequenze sono simili all’80% perchè hanno l’80% dei nucleotidi identici, ma non posso dire che sono omologhe all’80%. Si può però, considerando la misura della similarità tra le due sequenze, considerare un‘ipotesi di omologia. Nel trattare le sequenze è sempre più corretto utilizzare il termine similarità, in quanto è sempre possibile stabilire quanto due sequenze siano simili, mentre non sempre si può decidere se la similarità sia dovuta ad omologia, a convergenza evolutiva, oppure al caso. Strutture o sequenze ortologhe in due organismi sono sequenze omologhe che sono evolute dalla stessa caratteristica nel loro ultimo antenato comune ma che non necessariamente mantengono la loro funzione ancestrale. Sequenze omologhe la cui evoluzione riflette invece eventi di duplicazione genica si definiscono paraloghe, per esempio, la catena dell’emoglobina è un paralogo della catena dell’emoglobina e della mioglobina, dal momento che ambedue si sono evolute dallo stesso gene ancestrale attraverso ripetuti eventi di duplicazione genica. La cosa più semplice è allineare una coppia di sequenze, si possono allineare coppie di sequenze nucleotidiche e coppie di sequenze amminoacidiche. Le differenze tra le due non sono molto elevate, tranne per il fatto che quando si tratta di acidi nucleici abbiamo a che fare con solo quattro lettere differenti tra loro, mentre con le proteine ne abbiamo 20 e quindi per quanto riguarda la statistica che posso fare con le misure di similarità. Quando si hanno pochi caratteri si possono avere buoni allineamenti anche per caso, differentemente a quando ne hai di più. Quindi con 4 caratteri è più difficile valutare gli allineamenti. Quando i nucleotidi si corrispondono si mette un trattino. La similarità dipende dall’allineamento, quindi un buon allineamento è quello che massimizza la similarità. Non si possono allineare sequenze senza stabilire dei criteri di similarità. Per un allineamento dato, definiamo una prima semplice misura di similarità, data dal numero dei caratteri delle due sequenze che si appaiano esattamente. Come già detto gli allineamenti migliori sono quelli più simili, ma la situazione non è sempre così semplice e spesso è necessario generare tutti i possibili allineamenti tra due sequenze per poter poi valutare quale sia l’allineamento migliore. Un buon metodo per generare tutti i possibili allineamenti tra due sequenze consiste nel fare scorrere una delle due sequenze rispetto all’altra e nel valutare la similarità di sequenza di ognuno degli allineamenti generati. CALCOLO DELLA SIMILARITÀ Per sapere quanti allineamenti diversi posso generare facendo scorrere una sequenza sull’altra devo attuare la formula “lunghezza di una sequenza + lunghezza dell’altra sequenza -1”. Tale formula vale per tutte le lunghezze delle sequenze. Il numero dei caratteri confrontati si calcola invece moltiplicando il numero dei caratteri della prima sequenza con il numero dei caratteri della seconda sequenza. Un buon metodo per generare tutti i possibili allineamenti tra due sequenze consiste nel fare scorrere una delle due sequenze rispetto all’altra e nel valutare la similarità di sequenza di ognuno degli allineamenti generati. Un programma che calcoli la similarità di sequenza tra due sequenze date deve effettuare un numero di confronti che dipende dal prodotto della lunghezza delle due sequenze. O(nm) ~ O(n2) che si legge: ordine di n x m oppure ordine di nquadro

Non bisogna confondere le matrici di punti con le matrici di sostituzione. Le matrici dei punti sono dei grafici, dei modi di visualizzare allineamenti che consentono di mettere in evidenza zone d'identità tra due sequenze, la tabella è rettangolare, perché logicamente le sequenze possono avere lunghezza m o n. Le matrici di sostituzione sono differenti perché sono quadrate e simmetriche, mettono a confronto amminoacidi e danno un punteggio ai residui. I valori di una matrice di sostituzione sono stati calcolati raccogliendo statistiche sulle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche allora note. Man mano che le sequenze divergono, le mutazioni si accumulano. È comunque necessario evitare di considerare allineamenti in cui possano essere avvenute sostituzioni multiple in determinate posizioni per cui questi calcoli devono venire effettuati su coppie di sequenze molto simili tra loro, in modo da poter assumere che nessuna posizione è mutata più di una volta. La divergenza di due sequenze si può misurare in PAM, con 1 PAM = 1 Percent Accepted Mutation. Nel calcolo di sequenze con il 99% d'identità di sequenza è presente al massimo una differenza ogni 100 amminoacidi; due sequenze hanno divergenza di 1 Pam quando l’identità di sequenza è al 99%. Frequenze di sostituzioni amminoacidiche per sequenze più divergenti possono essere calcolate a partire da queste, moltiplicando le matrici di sostituzione 1 PAM per sé stesse, fino ad ottenere matrici PAM 250, corrispondenti a similarità di sequenza del 20%. A Pam 0 avrò un’identità perfetta del 100% mentre, come già detto a Pam 1 avrò identità a 99%. Moltiplicando le Pam tra loro otterrò Pam di ordine superiore ed è come se venissero calcolate su sequenze con basse percentuali d'identità. Questo tipo di allineamenti non possono essere utilizzati davvero perché questo tipo di allineamenti ha sicuramente le sostituzioni multiple che si sono avvicendate nel corso dell’evoluzione. Si tratta quindi di un artificio matematico che simula il passare del tempo nell’evoluzione delle sequenze delle proteine. La similarità di residui di due sequenze filogeneticamente distanti è meglio descritta da matrici PAM con indici più alti, la similarità di residui di due sequenze più vicine da matrici PAM con indici bassi. I valori più alti sono nella diagonale. Due tra le più usate matrici di sostituzione di tipo PAM sono la PAM120 e la PAM250, che si utilizzano per ottimizzare allineamenti tra sequenze che abbiano circa il 50% o il 20% di identità di sequenza. Nel confronto tra la PAM120 e la PAM250, si vede come in generale diminuiscano le penalizzazioni e aumentino i premi associati a sostituzioni di qualsiasi tipo. Questa digressione sulle matrici deriva dalla volontà di riuscire a trovare un punteggio esatto nella valutazione della similarità tra due sequenze come la somma dei residui uguali nelle stesse posizioni dell’allineamento. Considerando l’allineamento della figura precedente alla luce di quanto studiato a riguardo delle matrici di sostituzione si può ricavare un’effettiva valutazione. Ci sono algoritmi che effettuano delle ricerche esaustive ed esplorano tutto lo spazio degli allineamenti possibili. Ad esempio, algoritmi che sfruttino lo schema tipo “matrice di punti” sono esaustivi, nel senso che esplorano tutto il piano della matrice di confronto tra due sequenze. Si tratta di algoritmi di ordine n2, ovvero per allineare due sequenze lunghe ognuna 1000 residui, effettuano 1000x1000 = un milione di confronti. Ovviamente tutto questo non avviene in poco tempo, e affinché l’operazione sia rapida sono necessari algoritmi che siano potenti.

METODI ESAUSTIVI PER L’ALLINEAMENTO DI SEQUENZE

Serve un algoritmo per generare il miglior allineamento possibile tra due sequenze, tenendo anche conto delle possibili inserzioni e delezioni. Volendo confrontare due sequenze generando ogni possibile allineamento, valutando inserzioni o delezioni in ogni possibile dimensione e posizione si può utilizzare la programmazione dinamica che sfrutta lo stesso meccanismo della matrice di punti. Il metodo trova il miglior allineamento globale tra due sequenze ma allo stesso tempo però l’output mostra più allineamenti diversi col massimo del punteggio e impiega un tempo nell’ordine di nxn (n quadro). Per effettuare un allineamento è prima di tutto necessario scegliere una matrice di sostituzione (scelta in base al lavoro che si sta svolgendo o al proprio obiettivo) per valutare gli appaiamenti tra residui e definire dei punteggi di penalizzazione per i gaps. Algoritmi di allineamento che utilizzano una tecnica di programmazione dinamica sono quello di Needleman e Wunsch (1970) e quello di Smith e Waterman (1981). Consideriamo le due sequenze da allineare in una specie di dot plot: nelle caselle, invece degli asterischi o dei punti, scriviamo i punteggi in rosso derivati dalla matrice di sostituzione scelta (residui identici o simili saranno caratterizzati all'incrocio tra righe e colonne da punteggi più alti e viceversa). Si otterranno quindi delle varie intensità di colore. Si nota che i valori più alti sono in diagonale e definisco l’allineamento e la somma dei valori equivale al punteggio dell’allineamento. Dall’analisi delle diagonali si possono ricavare anche altri allineamenti che non danno un punteggio valido come quelli della diagonale principale. Calcolando le somme lungo le diagonali, effettuiamo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra. Nel calcolo dei punteggi bisogna considerare che se una sequenza è scritta da sinistra a destra e l’altra dall'alto in basso, allora qualsiasi percorso valido deve mantenere sempre una direzione tendenziale che va dall'angolo in alto a sinistra a quello in basso a destra. Considerando che sarà lavoro del programma calcolare i punteggi delle sequenze bisogna calcolare 3 valori v1 = m1 + sost4 (nella direzione diagonale) v2 = m2 - gap penalty (nelle altre direzioni in cui il “percorso” è stato deviato per la presenza di un gap) v3 = m3 - gap penalty Nella matrice di programmazione dinamica saranno inseriti i valori della matrice di sostituzione. Nella prima riga e nella prima colonna saranno solamente copiati i valori di sostituzione e poi si inizierà a calcolare a partire da questi. Si deve infine ricercare il valore più alto e a partire da quello ricalcolare all’indietro. ALLINEAMENTI GLOBALI E LOCALI

Gli allineamenti possono essere globali o locali. Globale è qualcosa che parte da un lato della matrice e arriva all’altro. Per la costruzione di allineamenti globali è necessario utilizzare matrici di sostituzione contenenti esclusivamente valori positivi. Ne consegue che non si trovano zeri all'interno della matrice e che il valore massimo della matrice si trova sempre nell’ultima riga o nell’ultima colonna. Il percorso che si ricostruisce per decidere l'allineamento migliore parte quindi dall'ultima riga o dall'ultima colonna e può in generale procedere fino alla prima riga o alla prima colonna, dove compaiono i valori più bassi. Locale invece prende in considerazione una regione più stretta. Spesso gli allineamenti locali hanno una migliore rispondenza con la realtà funzionale, ma la scelta dipende dal particolare problema che si vuole affrontare. Similarità locali servono a identificare proteine anche diverse, ma che contengono lo stesso dominio. A livello di DNA, troviamo regioni con similarità locali che riflettono situazioni interessanti: ad esempio introni/esoni, inserzioni/delezioni, trasposoni, regioni promotore. Per la costruzione di allineamenti locali, invece si devono usare matrici di sostituzione con valori sia positivi che negativi e imporre che quando il valore da scrivere nella matrice di programmazione dinamica è negativo, si scriva invece uno zero. In questo modo i valori più alti, che segnalano la fine di un allineamento, possono trovarsi anche in porzioni interne alla matrice e la ricostruzione all'indietro del percorso seguito può procedere fino a regioni interne alla matrice e descrivere di conseguenza allineamenti locali. Il valore assoluto dei punteggi che associamo agli allineamenti dipende dai valori contenuti nella matrice di sostituzione che utilizziamo. ci sono matrici i cui valori variano tra 0 e 100, altre che variano da -1 a +1, adottando punteggi decimali. È importante notare che il punteggio è massimo in senso relativo. L’ algoritmo di Needleman e Wunsch è stato sviluppato per l’allineamento globale mentre l’algoritmo di Smith e Waterman è stato sviluppato per l’allineamento locale. sono due algoritmi che si somigliano molto e le differenze tra allineamento globale e locale si definisce tra il tipo di matrice che viene utilizzato, ovvero la presenza di valori solo positivi o positivi e negativi. Ci sono algoritmi che si possono utilizzare tra due sequenze differenti, dove il risultato sarà allineamento similarità di sequenza mentre altri che mettono a confronto una sequenza con una banca dati e si otterrà quindi una lista di proteine simili alla query. Per effettuare ricerche di similarità in banche dati, servono algoritmi più veloci di quelli di ordine n2.

METODI EURISTICI PER L’ALLINEAMENTO DI SEQUENZE

Sono stati sviluppati dei metodi euristici “mi cerco delle scorciatoie” per ottenere una ricerca più veloce. La crescita esponenziale delle dimensioni delle banche dati di sequenze biologiche ha portato alla necessità di sviluppare programmi in grado di effettuare velocemente ricerche di similarità, grazie a soluzioni euristiche che, come vedremo, sono basate su assunzioni non certe, ma estremamente probabili. In pratica la ricerca è resa più veloce a scapito della certezza di avere veramente trovato la soluzione migliore. I programmi che adottano soluzioni di tipo euristico sono FASTA e BLAST FASTA È necessario definire alcuni parametri:

  • la lunghezza della parola (= word, o k-tup) con cui si effettua il primo passo dell’algoritmo
  • una soglia che decida la qualità minima degli allineamenti dell’output STEP Ricerca di parole contigue per sola identità sulla stessa diagonale. La k-tup qua è importante e per sequenze proteiche si suggerisce, per criteri statistici, k-tup=2, per sequenze nucleotidiche k-tup=6. Se io imposto una k-tup=3 il programma mi riporta le sequenze che hanno almeno 3 residui identici. La k-tup decide del rapporto tra velocità di esecuzione del programma e sua sensitività. Più è bassa la k-tup più sarà accurata la ricerca ma allo stesso tempo sarà più lenta. Aumentare la k-tup porta a:
  • diminuire il background
  • diminuire i tempi di calcolo
  • aumentare il rischio di non identificare omologhi distanti STEP Dopo aver stabilito una k-tup e aver visto i residui identici faccio la matrice di sostituzione. Calcolo di punteggi con matrice di sostituzione, selezione dei 10 migliori punteggi. I 10 migliori match vengono valutati nuovamente considerando eventuali residui da aggiungere con k-tup=1 e sostituzioni conservative. I “pezzettini” simili tra loro verranno poi allungati e si avrà eliminazione di quelli che non servono. Per ognuna delle 10 regioni (initial regions), si identifica un core match a punteggio massimo. Questi punteggi iniziali si ritrovano poi nell’output col nome di init1. STEP 3 Unione di frammenti che possono essere congiunti entro una soglia di accettabilità. Si scartano i match il cui init1 non supera un determinato cutoff. Si valutano dei nuovi punteggi sommando i punteggi delle regioni ottenute congiungendo match separati e sottraendo eventuali gap penalties. I nuovi punteggi sono initn. In questo passaggio si consentono inserzioni, delezioni e ulteriori sostituzioni conservative. La metodologia euristica di FASTA sta nella k-tup che permette di selezionare solo determinate regioni di piano. STEP 4 Applicazione dell’algoritmo di programmazione dinamica (esaustivo) su una stretta banda per ottimizzare l’allineamento. Si sceglie una banda larga 32 residui intorno al match col migliore punteggio init1. Si calcola il nuovo punteggio per l’allineamento (opt). FASTA è preferibile per allineamenti globali di acidi nucleici, mentre Blast è stato costruito per allineamenti locali di proteine.
  1. deviazione standard → la deviazione standard si calcola utilizzando la somma delle differenze tra le varie altezze misurate e l'altezza media (per ogni altezza misurata) e poi dividendo per il numero delle altezze misurate. Radice quadrata della somma delle distanze dalla media (al quadrato) fratto numero dei punteggi sommati. La deviazione standard è quindi una grandezza proporzionale all’ampiezza della distribuzione. La distribuzione visualizzata è un istogramma, ma potrebbe anche essere rappresentata da una funzione continua, al diminuire degli intervalli considerati sull’asse delle ascisse per raggruppare gli studenti, la distribuzione potrebbe approssimare una funzione continua. Uno specifico punteggio è tanto più significativo quanto più è distante dal punteggio medio e chiederemo che la significatività del punteggio dipenda anche dalla larghezza della distribuzione. Infatti, per distribuzioni più “larghe”, a parità di distanza dal punteggio medio, un punteggio dato sarà meno significativo di uno ottenuto con una distribuzione più “stretta”.
  2. z-score → quindi definiamo lo Z-score come una grandezza proporzionale alla distanza di un punteggio dal punteggio medio e inversamente proporzionale all’ampiezza della distribuzione stessa. Si calcola sottraendo il punteggio meno il punteggio medio, tutto diviso per la deviazione standard, che ha valore sempre positivo. Nel caso in cui si confronti una sequenza con una banca dati di sequenze, la significatività di un allineamento, può quindi essere messa in relazione col suo Z-score. se un punteggio è pari al punteggio medio, il suo Z-score è 0. più è alto lo zeta score, più il punteggio sarà significativo. in genere un punteggio si considera statisticamente significativo se lo Z-score > 5 L’e-value indica il numero di allineamenti con punteggi equivalenti o migliori che ci si aspetta compaiano per caso in un dato insieme di sequenze (in pratica rappresenta il rumore casuale di fondo). Ad esempio, un e-value =1 assegnato ad una sequenza nell'output di blast può essere interpretato così: in un database di quella dimensione ci possiamo aspettare di trovare una sequenza con quel punteggio semplicemente per caso. Più basso è il valore di E-value, maggiore è la significatività del nostro punteggio. In un ouput di blast una buona soglia di E-value è e-5=10-5 o più bassa; il motivo per tenere la soglia così stringente è che con un e-value = 0,001 in un confronto con un database di 1 milione di sequenze ci sarebbero sempre 1000 allineamenti dovuti al caso mentre un e-value = e-6 lascerebbe solo un allineamento dovuto al caso.

ALLINEAMENTI MULTIPLI DI SEQUENZE

È possibile utilizzare una lista di sequenze simili tra loro per generare un allineamento multiplo di sequenze detto anche MSA (Multiple Sequence Alignment). Per poter generare un allineamento multiplo di proteine omologhe, è necessario utilizzare algoritmi di allineamento globale. Alternativamente, si può costruire un allineamento multiplo “locale” nel quale siano considerati solo le regioni o i domini comuni a proteine che non siano tra loro globalmente simili. Una famiglia proteica è un gruppo di sequenze evolutivamente correlate che discendono da un antenato comune. Se un residuo è altamente conservato significa che ha una funzione importante nella struttura o nella funzione della proteina o famiglia proteica. Le informazioni che si possono tirare fuori da un allineamento permettono di costruire sequenze tridimensionali. In allineamenti multipli, grazie alle reti neurali, è possibile ad esempio evidenziare la presenza di loop o elementi di struttura secondaria: o alpha elica o foglietti beta. Posso ricavare un albero e poi un allineamento multiplo: si parte infatti dalla coppia di sequenze che hanno il maggior numero di identità in comune. ALGORITMO PER ALLINEAMENTO MULTIPLO DI SEQUENZE

  • sono necessarie sequenze omologhe
  • si costruiscono tutti i possibili allineamenti a coppie
  • costruire un albero guida basato sui punteggi di similarità tra tutte le coppie
  • scegliere la coppia di sequenze (o cluster) con il più alto grado di similarità e raggrupparle in un cluster fissandone l’allineamento
  • se il multiallineamento comprende tutte le sequenze allora si formerà l’allineamento multiplo Nelle procedure che producono allineamenti multipli e alberi filogenetici, oltre all’ormai noto concetto di similarità tra sequenze, è molto utilizzato anche quello dI distanza. La distanza tra due sequenze (o divergenza) è data dalla percentuale di residui diversi nell’allineamento. Le distanze, quindi, sono solitamente espresse in numeri compresi tra 0.0 e 1.0. (se ho il 40% di divergenza allora avrò il 60% di distanza). CLUSTAL OMEGA Si può generare un allineamento multiplo di proteine col programma Clustal Omega, il programma richiede in input le sequenze da allineare in uno di 7 formati consentiti (tra cui il formato fasta). Pesi individuali vengono assegnati a ogni sequenza per pesare meno le sequenze quasi identiche e dare più peso alle più divergenti (sequenze simili pesano poco, sequenze differenti pesano tanto). Si usano matrici di sostituzione vengono cambiate ai diversi stadi dell’allineamento in dipendenza con la divergenza delle sequenze da allineare. Le gap penalties sono residuo-specifiche e vengono ridotte localmente in corrispondenza di regioni idrofiliche (incoraggiando quindi l’apertura dei gap in regioni che potenzialmente codifichino dei loop piuttosto che in strutture secondarie). All’interno di clustal omega, se si seleziona Show colors si aprirà un’interfaccia colorata che permette di analizzare meglio le sequenze: vengono dati, infatti, dei colori specifici per ogni tipo di residuo proteico, ad esempio tutti i residui idrofilici hanno lo stesso colore. Un filogramma è un diagramma a rami in cui la lunghezza dei rami è proporzionale alla divergenza valutata. un cladogramma è un diagramma a rami in cui i rami sono tutti della stessa lunghezza --> un cladogramma mostra quindi relazioni evolutive senza dare informazioni sul “tempo” che separerebbe le sequenze confrontate.

“Oggetti” concepiti dalla bioinformatica per descrivere famiglie di proteine:

  • PSSM (position specific score matrix)
  • HMM (hidden markov model) PSSM Una possibilità di codifica molto efficiente è rappresentata dal profilo ovvero una matrice di punteggi dipendenti dalla posizione dei residui nella sequenza, detta anche PSSM o Position Specific Scoring Matrix. Il profilo (PSSM) dovrebbe essere in grado di ottimizzare la ricerca di sequenze omologhe, anche se con bassa identità di sequenza. I profili di sequenze (PSSM) vengono generati utilizzando le informazioni derivate da un allineamento multiplo di sequenze (ovvero le frequenze dei singoli residui nelle varie posizioni dell'allineamento) e da una matrice di sostituzione, la quale viene utilizzata per ‘generalizzare’ le informazioni disponibili nell’allineamento utilizzato e svincolarle per quanto possibile dal particolare allineamento (MSA = Multiple Sequence Alignment) da cui si parte; infatti non è detto che l'allineamento da cui si parte sia rappresentativo della famiglia e comprenda tutte le possibili variazioni. Il PSSM avrà m colonne in base alla lunghezza dell’allineamento e 20 colonne come i 20 residui. Utilizzando le informazioni derivanti da un allineamento multiplo di sequenze vogliamo aumentare sia la sensitività, che la selettività e la specificità delle nostre ricerche in banche dati.
  • sensitività = numero dei veri positivi / (veri positivi+falsi negativi)
  • selettività = num veri positivi / (veri positivi+falsi positivi)
  • specificità = num veri negativi/ (veri negativi+falsi positivi) Tutti questi parametri possono variare tra 0 e 1, in condizioni ideali il parametro perfetto è 1 ma in condizioni reali i parametri sono diversi da 1. Il metodo dei profili offre una grande accuratezza nell’allineare sequenze correlate, anche se distanti dal punto di vista evolutivo, perché tiene conto delle informazioni contenute in un allineamento multiplo di sequenze e delle similarità tra residui. Il profilo si legge dall’alto al basso, in ognuna delle posizioni di aa ci si può mettere un numero che indica quanto è conservato il determinato aa. Vediamo quindi come una PSSM tiene conto sia delle frequenze dei singoli residui nelle varie posizioni dell'allineamento che dell'esistenza di residui simili anche se non identici a quelli presenti nell'MSA. L’occorrenza è la ricorrenza di un qualsiasi fatto o fenomeno espressa in percentuale. Il valore per questo particolare allineamento sarà pari al prodotto tra il numero di occorrenze della M in quella posizione e i valori di sostituzione di ognuno dei 20 residui. Quindi residui simili ai residui presenti nell'allineamento avranno valori buoni, anche se non sono presenti nell'allineamento, e residui diversi dai residui presenti, avranno valori bassi o negativi. Il residuo avrà valore 0 quando non c’è, nel caso in cui sia presenta il valore sarà diverso da zero e più sarà alto più è presente nell’allineamento. METODI DI UTILIZZO DI PSSM Due modi per utilizzare PSSM:
  • con un allineamento multiplo possiamo utilizzare una PSSM e confrontarla con tutte le sequenze di una banca dati per identificare proteine omologhe
  • ricerca in una banca dati che trovi tutti gli eventuali membri di una famiglia di proteine quindi confrontare la sequenza di una proteina con tante PSSM per identificare la famiglia di cui fa parte o per identificarne il fold. In entrambi i casi, dobbiamo saper allineare una sequenza a una PSSM e valutare il punteggio dell'allineamento ottenuto. Per allineare una sequenza a un profilo si utilizza l'algoritmo di programmazione dinamica. A differenza della procedura di allineamento tra due sequenze nella programmazione dinamica, si utilizza il profilo al posto della matrice di sostituzione. Il profilo, infatti contiene i dati di un allineamento multiplo, quindi, sarebbe quello più ideale da utilizzare. I punteggi di sostituzione dei residui dipendono dalla loro posizione lungo la sequenza e sono specifici per l'allineamento multiplo da cui sono stati calcolati. Lo schema descritto di punteggi dipendenti dalla conservazione dei residui nell’allineamento multiplo e da una matrice di sostituzione si chiama profilo di sequenza o PSSM. Il metodo dei profili offre una grande accuratezza nell’allineare sequenze correlate, anche se distanti dal punto di vista evolutivo, perché tiene conto delle informazioni contenute in un allineamento multiplo di sequenze e delle similarità tra residui. PSI-BLAST è un programma derivato da blast in cui un profilo (o PSSM) viene automaticamente costruito a partire dall’allineamento multiplo delle sequenze a punteggio e significatività maggiori identificati nel corso di una prima ricerca con blast. Il profilo viene poi utilizzato per lanciare le successive ricerche con blast e i risultati di ogni ciclo vengono usati per rifinire il profilo. Una volta che il programma viene lanciato viene fuori una lista di output. Successivamente sarà fatto un altro lancio dove ci saranno nuovi output e si procede fino a che non si avrà nessun’altra proteina nuova. Questa strategia iterativa produce un grande aumento nella sensitività, selettività e specifictà della ricerca. La procedura può essere lanciata per un numero di volte arbitrario o fino a che non si raggiunge la convergenza, ovvero quando ad una nuova iterazione non si aggiunge alla lista di output nessuna sequenza con punteggio statisticamente significativo. È necessario usare una certa cautela nella scelta delle sequenze per la costruzione del profilo: è possibile includendo sequenze che in realtà non sono omologhe della sequenza query, che i risultati della ricerca divergano invece di convergere. È quindi buona norma scegliere un valore di significatività statistica di sicurezza per le sequenze da aggiungere a quelle usate per la costruzione del profilo. Si possono utilizzare i suggerimenti di Blast che sicuramente vengono da calcoli accurati dell p value. Vantaggi
  • le PSSM funzionano bene per descrivere regioni corte e ben conservate
  • sono relativamente veloci e facili da calcolare
  • producono punteggi facilmente interpretabili dal punto di vista statistico

modello è proporzionale alla lunghezza delle sequenze che descrive. Se dobbiamo descrivere un allineamento multiplo, ci serve almeno uno stato per ogni posizione dell'MSA. In una posizione di un MSA si possono trovare:

  • residui allineati a residui di un'altra sequenza
  • residui in un'inserzione
  • nessun residuo (una delezione) Cui corrispondono tre possibili stati del modello quali appaiamento (o sostituzione), inserzione e delezione. I simboli che possono essere emessi sono i 20 amminoacidi. Per descrivere una generica singola colonna di un MSA, abbiamo bisogno di tre stati:
  • uno principale, detto stato M (da main) che renda conto della probabilità dei residui in quella posizione
  • uno che tenga conto della probabilità di inserzione
  • uno che tenga conto della probabilità di delezione La più comune architettura di grafo orientato che descriva un MSA prevede:
  • gli stati di inserzione si trovano tra uno stato principale e l'altro
  • gli stati di delezione possono essere usati per saltare uno stato principale
  • gli archi uniscono gli stati principali tra loro e anche gli stati di delezione tra loro
  • gli stati di inserzione possono anche ciclare (aggiungendo anche più di un residuo tra due stati principali)
  • gli stati principali e di inserzione emettono simboli di residui, mentre gli stati di delezione sono muti. Se il modello descrive un insieme di sequenze proteiche (per esempio un allineamento multiplo), l’HMM ha un numero di stati principali pari alla lunghezza della sequenza media dell’allineamento. Gli HMM portano due sostanziali vantaggi nel problema dell’allineamento multiplo di sequenze o strutture biologiche
  • possono essere costruiti a partire da sequenze non allineate (i metodi standard dei pattern o dei profili richiedono un allineamento multiplo preesistente)
  • offrono una trattazione statisticamente corretta delle inserzioni e delle delezioni (nei profili standard sono invece determinabili unicamente attraverso un processo di tentativi ed errori, non soddisfacente dal punto di vista teorico) Nel metodo dei profili non viene garantita la correttezza dell’allineamento multiplo che viene inserito, nel caso di hmm si può costruire il modello anche a partire da sequenze non allineate. Inoltre, il problema dell’allineamento di molte sequenze a molte sequenze (intrattabile dal punto di vista del calcolo prima dell’uso degli hidden Markov models) viene rimodellato nel problema di allineare molte sequenze ad un unico HMM. anche intuitivamente, l’allineamento di sequenze ad una sequenza consensus è molto vicino a ciò che si vorrebbe davvero fare nella costruzione di un allineamento multiplo ideale. Un HMM è un modello che rappresenta il comportamento e le variazioni osservate in un gruppo di sequenze correlate. il modello comprende diversi parametri. COME IMPARA UN HMM? Il training set deve contenere abbastanza informazione per una buona valutazione dei parametri e permette di istruire un modello. Dato un HMM e una sequenza, ci sono tre domande fondamentali che ci possiamo porre:
  • Con quale probabilità una sequenza data è stata generata da un HMM? Si calcolano i prodotti delle proprietà di transizione con quelle di emissione, si fanno tutti i prodotti dei percorsi e si sceglie quello a probabilità maggiore
  • Qual è il percorso ottimale con cui questo HMM ha potuto generare la sequenza data? Anche in questo caso si considera percorso ottimale quello a probabilità più alta
  • Dato un allineamento multiplo di sequenze, quali sono la struttura e i parametri di un HMM che lo descrivono nel modo migliore possibile? Devo avere abbastanza sequenze omologhe in modo da istruire nella maniera migliore il modello. Si parte da un insieme di sequenze che possono anche essere non allineate, se la lunghezza media delle sequenze è L, si disegna un modello con L stati principali. Si procede a inizializzare il modello con stime delle probabilità di transizione e della composizione in residui di ogni stato principale e di inserzione. In genere si preferisce cominciare dalle probabilità di transizione tra gli stati principali, che rappresentano le colonne di un allineamento multiplo. Si esaminano tutti i possibili percorsi nel modello per generare ognuna delle sequenze del training set e si valuta la probabilità di ogni sequenza per ogni possibile percorso. si fa in modo che le sequenze del training set abbiano i massimi valori possibili del modello. questo accade quando si conta il numero di volte in cui viene utilizzata una determinata transizione e uno specifico residuo nella corrispondente posizione della sequenza. Con questi dati si costruisce una nuova versione dell’HMM iniziale, con nuove probabilità di transizione e composizione di residui negli stati principali e di inserzione. Questa procedura viene ripetuta varie volte, fino a che i parametri non si stabilizzano. Il modello finale si può utilizzare per:
  • definire il percorso più probabile per ogni sequenza di un test set, cioè il suo allineamento con l’HMM
  • l’insieme dei percorsi delle sequenze fornisce un MSA con gli stati principali, di delezione e inserzione per ogni sequenza
  • effettuare ricerche in banche dati di sequenze per trovare altre sequenze che condividano il modello La qualità di un HMM dipende dalla forma del modello e dalla qualità e quantità delle informazioni iniziali. I parametri del modello finale dipendono dai dati del training set, ma il modello deve poter riconoscere membri della stessa famiglia di proteine o motivi funzionali non presenti nel training set. I parametri devono quindi essere ammorbiditi, in modo da rendere il modello capace di riconoscere sequenze anche un po’ diverse da quelle usate nel training.. Si è visto che il sistema può funzionare meglio se l'addestramento avviene a partire da un MSA precalcolato; le probabilità di transizione vengono calcolate sulla base delle

frequenze dei vari eventi osservate nell'MSA mentre le probabilità di emissione vengono calcolate sulla base delle frequenze dei vari residui nelle colonne dell'MSA. Vantaggi degli HMM

  • producono MSA di alta qualità
  • si basano su una solida statistica
  • non richiedono selezioni di sequenze
  • né ipotesi di gap penalties Limiti degli HMM
  • necessitano di un buon numero di sequenze
  • sono computazionalmente molto intensi

RICERCA DI PATTERN E MOTIVI FUNZIONALI

Uno dei primi scopi della bioinformatica consiste nel rispondere alla domanda: data una nuova sequenza, cosa si può dire sulla funzione, o sulle funzioni, in essa codificata/e? A questa domanda si può rispondere tramite

  • ricerca per similarità di sequenza in una banca dati di acidi nucleici o di proteine
  • ricerca di pattern e di motivi funzionali Un motivo di interesse biologico è costituito da un insieme di caratteri (nucleotidi o residui amminoacidici) non necessariamente contigui in sequenza, ma che si trovino sempre o spesso associati ad una precisa struttura o funzione biologica. I motivi posso essere descritti da loghi che esprimono quanto sono conservati in diverse posizioni i caratteri che li compongono, più il residuo è conservato più il carattere risulterà alto. Genera la visualizzazione delle frequenze relative dei caratteri nelle varie posizioni della sequenza. Un motivo funzionale è ideale se può sempre ed univocamente essere associato ad una precisa struttura o funzione. Molti motivi sono invece reali, in quanto si trovano anche in sequenze che non presentano la funzione specificata (selezionano cioè falsi positivi) e sono assenti in sequenze che invece sono funzionalmente correlate al motivo (falsi negativi). Un ramo importante della bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l’analisi funzionale e strutturale di nuove sequenze. Dallo studio dei pattern è emerso che non ci sono strumenti che possano indifferentemente essere utilizzati per l’analisi di qualsiasi tipo di sequenza nucleotidica, in quanto, nel corso dell’evoluzione, certi segnali o certe caratteristiche sono andate differenziandosi tra eucarioti e procarioti, ma anche tra taxa o tra singole specie ed organismi. Spesso un motivo varia a seconda delle diverse vie che l’evoluzione ha intrepreso; ne consegue, che alcuni programmi o parametri sono stati sviluppati ad hoc per ottenere risultati affidabili:
  • per tutte le sequenze, ma soprattutto per quelle eucariotiche, è necessario un filtro che escluda dall’analisi le sequenze ripetitive
  • molti programmi per la ricerca di pattern di nucleotidi vengono sviluppati, e sono quindi affidabili, per un unico organismo o per un numero limitato di organismi simili. I motivi non rispondo a leggi fisiche ma solo alla storia dell’evoluzione.
  • alcuni programmi sono sviluppati solo per sequenze genomiche o, alternativamente, per cDNA Spesso per l’analisi di un'unica sequenza di DNA è necessario utilizzare diversi strumenti che utilizzino vari tipi di informazione, perché l’uso di un solo tipo di dati non sarebbe sufficiente ad ottenere una predizione ragionevolmente sicura della funzione. Le sequenze di giunzione tra esoni e introni sono talmente poco significative dal punto di vista statistico che non potrebbero essere utilizzate se non affiancate da altri tipi di analisi ed informazioni. Diversi organismi mostrano preferenze diverse per i 64 codoni del codice genetico; se in una regione prevale la codon preference è molto probabile quindi che io sia in una regione codificante, al contrario probabilmente sono in una zona intronica; questo tipo di preferenza quindi si riverbera solo sulla sequenza degli esoni. Misurando le frequenze dei codoni lungo una sequenza di gene eucariotico è possibile valutare la probabilità che una regione appartenga a un esone, con frequenze simili a quelle caratteristiche dell’organismo, o a un introne, con frequenze di codoni casuali. MOTIVI IN SEQUENZE PROTEICHE La maggior parte delle proteine note può essere raggruppata in un numero relativamente limitato di famiglie sulla base della similarità di sequenza. analizzando allineamenti multipli di proteine simili, si possono identificare regioni conservate e regioni variabili. dalle regioni conservate è possibile derivare dei pattern utili per distinguere proteine che appartengano a quella famiglia da tutte le altre proteine non correlate. L’espressione regolare è il modo più compatto di scrivere un pattern; un’espressione regolare permette di Avere un’espressione standardizzata e compatta. PROSITE Prosite è una banca dati che raccoglie circa 1500 motivi proteici associati a funzione o struttura. Prosite annota pattern amminoacidici individuati in set di sequenze proteiche attraverso analisi in silicio e/o determinati sperimentalmente. I pattern sono disponibili sia in forma di espressioni regolari che in forma di profili. Vi sono diversi modi di utilizzare prosite:
  • per avere informazioni dettagliate sui motivi noti di interesse biologico (utilizzando parole chiave per identificare entries)
  • per individuare tutti i motivi funzionali presenti in una sequenza proteica (e fare ipotesi sulla sua possibile struttura o funzione)

metodo, che sfrutta Hidden Markov Models per migliorare la predizione dei siti di inizio della traduzione in vari procarioti, abbiamo visto che sono disponibili diverse procedure e banche dati che possono essere utilizzate per il riconoscimento di siti biologicamente attivi nelle sequenze nucleotidiche; il confronto tra la predizione di motivi in sequenze nucleotidiche e la loro corretta annotazione in banche dati a seguito di dati sperimentali verificati dimostra quindi che l’approccio integrato di più metodologie diverse è in generale molto più affidabile delle singole metodologie applicate separatamente. Anche per calcolare l’affidabilità di un motivo funzionale, si utilizzano i parametri già definiti: la sensitività, la selettività, la specificità e la correlazione di un motivo. La correlazione ha bisogno di tutti gli altri valori, nel caso della predizione perfetta vale 1 mentre -1 nel caso di una predizione sbagliata. se abbiamo una correlazione =0 vuol dire che la correlazione non è totalmente perfetta, ma neanche completamente da buttare, si può dire che un valore abbastanza buono che viene piacevolmente accettato dalla comunità sia quello di 0.3.

VP ×VN − FP × FN

[( VN + FN ) ( VN + FP ) ( VP + FN ) ( VP + FP )]

1 / 2 Nel caso dei motivi funzionali:

  • i veri positivi sono costituiti dalle sequenze che esibiscono il motivo e la funzione ad esso correlata;
  • i veri negativi sono le sequenze che NON possiedono la funzione e neanche il motivo che la identifica;
  • i falsi positivi sono le sequenze che possiedono il motivo funzionale, ma NON la funzione;
  • i falsi negativi sono le sequenze che possiedono la funzione, ma in cui non si trova il motivo ad essa correlato

CURVA ROC

La curva roc utilizzata sia nella biologia sperimentale che nella bioinformatica è un metodo statistico utilizzato per valutare motivi e si basa su come il motivo sia in grado di discriminare i veri positivi dai falsi positivi. Essa presenta nelle ordinate i veri positivi e nelle ascisse la percentuale dei falsi positivi, Un risultato random ci indica un motivo che non va molto bene, ma va a caso. Un metodo che funziona va più verso i veri positivi e se funziona perfettamente va al 100% verso i veri positivi mentre tiene separati i falsi positivi. Si considera poi l’area sotto la curva (AUC) e più il metodo è efficiente più il valore della curva sarà alto; il massimo che si può avere è 1, che sarebbe poi l’intera area del rettangolo del diagramma cartesiano.

ELEMENTI DI GENOMICA

I primi studi sul genoma avvenivano grazie all’ingegneria degli enzimi di restrizione e l’utilizzo di plasmidi. Venne proposto successivamente sequenziamento di tutti i frammenti con approccio shotgun. il genoma viene diviso in numerosi frammenti che sono tagliati in maniera casuale, poi vengono reinseriti in un programma che permette l’allineamento. fondamentalmente l’idea è dunque quella di ricostruire un genoma a partire da milioni di sequenze di DNA. Il problema di questo metodo è dunque l’assemblaggio. Nel 2001 è stato reso pubblico il primo draft del genoma umano, progetto titanico che ha coinvolto molti laboratori tra il 1990 e il 2003. il genoma umano è di circa 3.3 miliardi di coppie di basi. è stato tagliato in frammenti di circa 150 mila bp, ognuno dei quali è stato clonato in vettori noti come BAC (Bacterial Artificial Chromosomes). I BAC non sono plasmidi, sono una specie di cromosomi artificiali che si replicano nei batteri. devono presentare obligatoriamente la sequenza ORI, macatori che consentono di sapere se il batterio ha incorporato BAC e infine la sequenza PAR. I vettori possono essere amplificati in batteri e sequenziati separatamente con metodo shotgun; questo tipo di shotgun è stato definito shotgun gerarchico. All’inizio del 2018 è stato sottoscritto un accordo tra 13 paesi europei (tra cui l’Italia) per sequenziare un milione di genomi entro il 2022 e condividere le informazioni in modo sicuro e protetto. il progetto è stato disegnato in supporto ai database per la medicina personalizzata. Un vantaggio del sequenziamento dei genomi può essere ad esempio il ricavare informazioni per la medicina personalizzata ENCODE ENCODE, l'Encyclopedia of DNA Elements, è un progetto per l'identificazione di tutte le regioni di trascrizione, associazione con fattori di trascrizione, struttura della cromatina e modificazione degli istoni nel genoma umano. Grazie a ENCODE ad oggi circa l'80% dei componenti del genoma umano ha almeno una funziona biochimica associata. il 5 settembre 2012 i risultati iniziali di ENCODE sono stati pubblicati in 30 lavori: 5 su Nature, 18 su Genome Biology, 6 su Genome Research, tra i risultati di ENCODE si è visto che molto del DNA non codificante è coinvolto nella regolazione del DNA codificante. studi di associazione genome-wide hanno dimostrato che circa il 90% degli SNPs associati a malattie cadono in regioni non codificanti. Si era partito con l’analizzare nella maniera più precisa possibile l’1% del genoma umano. I ricercatori di ENCODE impiegano diversi metodi per identificare gli elementi funzionali del genoma:

  • sequenziamento di RNA
  • genomica comparativa
  • metodi di bioinformatica integrativa
  • "curazione" manuale
  • test di ipersensitività del DNA
  • test di metilazione del DNA
  • immunoprecipitazione di cromatina (ChIP) di proteine che interagiscono col DNA (istoni modificati e fattori di trascrizione), seguita da sequenziamento (ChIP-Seq) ENCODE partito come progetto pilota per utilizzare tanti metodi sperimentali di varia natura per studiare l’1% del genoma umano. la trascrizione è più complessa dell'atteso: molti trascritti non-coding si intercalano tra i classici geni codificanti. non si sono trovate evidenze di un numero maggiore di geni codificanti rispetto a quelli identificati nelle prime analisi sul genoma umano.ci sono molti più TSS dell'atteso, circa 10 volte di più del numero dei geni codificanti. l'informazione di tipo regolativo è distribuita in cluster nel genoma e la sua distribuzione vicino ai TSS è abbastanza simmetrica. ENCODE ha mappato i siti ipersensibili alla DNasiI (DNaseI Hypersensitive Sites = DHSs), ovvero i siti della cromatina sensibili all'attacco della DNasi I, e quindi putativi elementi regolatori in 125 diversi tipi cellulari umani, sono quindi stati identificati quasi 3 milioni di distinti DHS, solo 3700 circa dei quali comuni a tutti i tipi cellulari (ci fa pensare che questi geni hanno a che fare con gli housekeeping), il 34% dei DHS ha una posizione specifica del tipo cellulare considerato il 5% dei DHS identifica i promotori noti, il 95% si trova negli introni e nelle zone intergeniche ci sono ancora MOLTE cose che dobbiamo ancora capire. Per quanto riguarda l’identificazione dei geni ci sono metodi sperimentali:
  • ricerca mRNA se si conosce sequenza; utilizzo un pezzetto di sequenza pe ricavare un oligonucleotide, da questo si può pescare rna messaggero e ricavo cdna e in questo modo si puo ricavare la posizione del gene, quali sono gli introni ed esoni
  • esperimenti di RNA-seq (high throughput) si identificano tutti i trascritti ANALISI ORFS Uno dei passaggi più importanti nell’analisi di un genoma è l’identificazione delle regioni che codificano per sequenze proteiche.si possono poi ricavare le corrispondenti sequenze proteiche e fare ipotesi sulla loro funzione. Nei procarioti, gli ORF si identificano facilmente come lunghi tratti di sequenza privi di codoni di terminazione, mentre negli eucarioti bisogna considerare la possibile presenza di sequenze introniche. 3 su 64 codoni rappresentano segnali di terminazione per cui, in ogni frame di lettura, ci si aspetta un codone di terminazione in media ogni 21.3 codoni. Quando un orf è abbastanza lungo posso pensare che sia un gene. Quando c’è un codone di stop non c‘è chiaramente un open reading frame. Il genoma procariotico presenta circa 10 milioni di basi e nei procarioti l’85% del genoma codifica per proteine; il genoma eucariotico invece ha circa 10 miliardi di basi. METODI ESTRINSECI I metodi estrinseci si basano su dati sperimentali e banche dati per identificazione di parti importanti di un gene. Le Expressed Sequence Tags (ESTs) sono delle brevi sequenze di DNA che corrispondono alle regioni terminali di sequenze di cDNA più lunghe e possono essere anche definite come mozziconi di messaggeri che presentano una coda poli T che si lega alla poli A. Vi sono delle sequenze proteiche che vengono allineate su un nuovo genoma e quindi si possono ricavare delle similitudini e stabilire delle identità. Maggiore è l’identità di sequenza tra le regioni che si utilizzano per l’annotazione e più sicura sarà l’annotazione. Utilizzando dati noti si arriva dunque ad identificare dei geni tramite ENSEMBL. METODI INTRINSECI I metodi intrinseci, quali l’individuazione del contenuto e l’individuazione del segnale, si basano su caratteristiche del solo genoma in studio, sono indispensabili per identificare geni nuovi. La presenza di un ORF non è sempre sufficiente ad identificare un gene e inoltre non è sempre chiaro quale sia l’inizio della regione codificante. È necessario, dunque, che sia anche presente un codone di inizio. Questo approccio è relativamente affidabile nei procarioti, mentre gli eucarioti contengono introni nel 95% dei geni e gli introni hanno lunghezze che variano da pochi a migliaia di nucleotidi. L’uso dei codoni nelle regioni codificanti è diverso e caratteristico nei vari genomi, in base all’uso dei codoni si può capire se si sta operando dentro a un esone o dentro a un introne, informazione importantissima perché senza di questa non possono essere analizzate le sequenze eucariotiche. Caratteristiche tipiche delle regioni esoniche sono:
  • preferenze per codoni diversi
  • preferenza per G e C terminali in eucarioti superiori
  • terza base tende ad essere la stessa
  • preferenze per esanucleotidi In uno stesso organismo si possono rilevare differenze nelle frequenze di di-, tri- o esa-nucleotidi negli introni e negli esoni, differenze dovute al tipo di preferenze per i residui o per le coppie di residui, diverse da organismo a organismo. Le frequenze di specifici gruppi di nucleotidi possono essere associate alla loro posizione in esoni o in introni in un dataset noto. Si considera ad esempio la frequenza degli esanucleotidi e andando a guardare gli esoni noti e introni noti ricavo la frequenza con cui l’esanucleotide è stato visto o negli introni o negli esoni. Basandosi su questi dati si ricava un punteggio, che deriva dalla tabella dei geni noti e per ogni specie è differente. Per ogni esanucleotide viene dato un numero e alla fine si fa la somma dei punteggi. Ci sono regioni in cui la propensione a stare negli introni è alta mentre altre regioni in cui la propensione a stare negli esoni è alta. Questo è un metodo intrinseco che mette insieme sequenze di esanucleotidi con vari segnali come i siti di giunzione. Nonostante questi due metodi possano essere considerati deboli, permettono comunque di ottenere informazioni abbastanza affidabili. COSTRUZIONE DI UN MODELLO DI UN GENE

ANALISI STRUTTURALE DI UNA PROTEINA

La sequenza di una proteina determina la sua struttura tridimensionale, ed è la struttura stessa che definisce la funzione: le conseguenze di anche lievi differenze in sequenza diventano comprensibili solo nel contesto della struttura 3D. È importante studiare la struttura delle proteine in molti casi è vero che solo l’analisi della struttura tridimensionale di una macromolecola può aiutarci a comprendere in quale modo e per quale motivo una determinata sequenza possa codificare una ben precisa funzione. solo vedendo i vari residui si capisce la funzione molecolare di una determinata proteina. È importante analizzare le strutture delle proteine anche perché il confronto tra strutture proteiche può essere utilizzato per mettere in luce relazioni evolutive più difficilmente evidenziabili mediante il confronto di sequenze proteiche. I metodi sperimentali classici per la risoluzione della struttura tridimensionale sono:

  • la cristallografia a raggi X
  • la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR); le esigenze di questo tipo di analisi sono una proteina non eccessivamente grande, in soluzioni molto pulite e molto concentrate
  • la crio-elettro-microscopia I metodi sperimentali per la determinazione della sequenza di una proteina sono estremamente rapidi e relativamente economici. la risoluzione della struttura tridimensionale di una proteina richiede invece l’uso di strumenti più complessi e talvolta mesi di lavoro le strutture che abbiamo visualizzato sono disponibili nella banche dati di strutture, in forma di coordinate cartesiane delle posizioni degli atomi che le compongono. PDB La banca dati di molecole a struttura nota si chiama PBD che contiene quasi 50.000 proteine. Al momento ci sono circa 158. strutture risolte nel PDB e ~182.000.000 sequenze in UniProt. Entrambi i numeri riportati fanno riferimento a banche dati ridondanti. Ad esempio, per quanto riguarda il PDB, scegliendo un rappresentante per ogni gruppo di sequenze identiche, si ottiene una banca dati di ~70.000 strutture. Diventa quindi chiaro che lo sviluppo e l’applicazione di affidabili tecniche computazionali per la predizione della struttura a partire dalla sequenza consentirebbe un enorme risparmio di risorse di tempo, umane ed economiche. Gran parte delle ricerche in biologia strutturale è quindi volta allo studio delle leggi fondamentali del folding delle proteine e la biologia computazionale dedica molte energie e risorse allo sviluppo di metodi per la predizione della struttura delle proteine. In generale, la sequenza amminoacidica di una proteina codifica la sua struttura tridimensionale. Dovrebbe quindi essere possibile disegnare un algoritmo per predire la struttura 3D di una proteina a partire dalla sua sequenza 1D. questo è l’obiettivo più ambizioso e complesso della bioinformatica, e non è ancora stato raggiunto.

METODI COMPUTAZIONALI

MODELLING PER OMOLOGIA:

Se una proteina a struttura non nota è omologa ad una proteina a struttura nota, possiamo assumere che le due strutture siano simili e usare l’una per generare un modello 3D dell’altra. l’affidabilità dipende dalla similarità. L’analisi delle proteine a struttura nota porta ad affermare che l’affidabilità di un modello 3D costruito con tecniche di homology modelling è in genere proporzionale all’identità di sequenza tra le due proteine. Identità di sequenza è il parametro più affidabile. L’identità è il numero di residui identici si hanno su 100 a.a., mentre la similarità sono i residui simili. A posteriori, l’affidabilità di un modello può essere valutata come la differenza tra la struttura predetta e la struttura risolta sperimentalmente. La qualità e l’affidabilità del modello dipendono criticamente dalla similarità tra le sequenze delle due proteine. In generale, a maggiore identità di sequenza tra due proteine, corrisponde maggiore similarità tra le corrispondenti strutture. se l’identità tra due sequenze proteiche è superiore al 30%, si può assumere che le loro strutture saranno simili. esistono protocolli semplici di homology modelling che possono essere applicati in casi in cui l’identità di sequenza è molto alta o non ci sono inserzioni e delezioni. Protocollo homology modelling:

  1. analizzare con attenzione la sequenza della proteina di interesse in modo da identificare eventuali regioni che dovranno essere trattate separatamente ed evidenziare domini discreti da modellare separatamente
  2. identificare una o più proteine a struttura nota che abbiano una buona identità di sequenza (>30%) con la proteina data
  3. per identità di sequenza superiori o uguali al 70%, l’allineamento può essere relativamente privo di complicazioni e può anche essere affidato a procedure automatiche
  4. identificare i segmenti della catena principale che ci si aspetta siano strutturalmente conservati tra le due proteine
  5. modellare le regioni strutturalmente variabili che connettono le regioni di struttura secondaria conservata.
  6. modellare le catene laterali della proteina a struttura non nota sulle catene laterali della proteina a struttura nota
  7. risolvere, se possibile, eventuali problemi strutturali manualmente o effettuando calcoli di minimizzazione dell’energia Per costruire modelli per omologia di proteine che abbiano una alta identità di sequenza con una proteina a struttura nota, si può utilizzare il server automatico SwissModel, che prende in input una sequenza proteica e l’indirizzo di posta elettronica della persona che sottomette la sequenza, cerca nel PDB possibili strutture che possano fare da templato e produce una pagina web con le coordinate e la valutazione del modello o le motivazioni della propria incapacità a produrne uno di buona affidabilità

THREADING O FOLD RECOGNITION

Nei casi in cui non è possibile utilizzare il modelling per mancanza di un buon templato, è possibile utilizzare una tecnica meno affidabile, ma ancora in fase di attivo sviluppo: il threading. I residui amminoacidici sono come delle perle che possono essere infilate su fold diversi. Ci sono proteine che esibiscono lo stesso fold anche in assenza di una rilevante similarità di sequenza. Il numero di fold rappresentati in natura è relativamente limitato. 500 fold diversi sono già noti: alcuni di essi sono sopra- rappresentati, altri sono stati visti solo in singoli casi. Avendo a disposizione una banca dati con tutti i fold disponibili in natura e potendo contare su di un metodo di allineamento ideale tra sequenza proteica e fold, il problema della predizione della struttura terziaria di una proteina a partire dalla sua sequenza potrebbe considerarsi risolto. Il threading è l’insieme delle tecniche che sono state sviluppate per valutare la qualità dell’allineamento tra una sequenza proteica (1D) e un fold (3D). Diversi metodi di threading utilizzano funzioni diverse per valutare l’allineamento 1D-3D, ma tutti derivano i propri potenziali dall’osservazione delle strutture note e sono basati su regole che tengono conto delle leggi fisiche. Ci sono 4 componenti fondamentali nel threading:

  • Una banca dati di fold derivati dal PDB (la banca dati di proteine a struttura nota)
  • Un insieme di potenziali (ovvero di punteggci) per valutare il fit tra una sequenza e un fold
  • Un algoritmo di allineamento tra sequenza e struttura
  • Un metodo di selezione o ranking Come nel caso degli allineamenti tra sequenze, è necessario definire dei parametri con cui valutare la qualità di ogni coppia sequenza-struttura, e quindi uno score. Io posso allineare sequenze diverse su un fold o allineare la stessa sequenza su vari possibili fold. Il threading dipende da due problemi:
  • Quanti fold conosciamo rispetto al numero dei fold esistenti in natura? Quindi il fold della proteina di cui vogliamo predire la struttura è compreso nella lista dei fold noti?
  • Se il fold della nostra proteina è già noto, quanto sono buoni i potenziali che utilizzano per calcolare il fit 1D-3D? STELE DI ROSETTA Allo scopo di cercare di risolvere i problemi del threading è stato sviluppato un nuovo metodo di riconoscimento del fold detto della stele di Rosetta, che decodifica le corrispondenze tra sequenza e struttura. Questo metodo mette in relazione le sequenze con le strutture. Sviluppato da David Baker e collaboratori, è un recente metodo di riconoscimento del fold con grande capacità predittiva e non si basa su una banca dati di fold di riferimento predeterminati, ma su una banca dati di porzioni di strutture proteiche note.
  • effettua una ricerca per identità o similarità di sequenza tra frammenti (da 3 a 9 residui) della sequenza della proteine a struttura non nota e la banca dati di proteine a struttura nota
  • utilizza i risultati della ricerca come base di predizione per la conformazione dei frammenti della proteina a struttura non nota
  • vengono costruiti diversi modelli alternativi combinando le strutture dei frammenti identificati nella prima fase
  • le varie conformazioni vengono valutate con varie funzioni di scoring paradosso di Levinthal può essere considerato un enigma relativo alle dinamiche del ripiegamento di proteine. Una proteina si folda non provando tutte le posizioni perchè fondamentalmente non ha tempo. ha comunque un suo percorso preferenziale. Significa quindi che le proteine non raggiungono la loro configurazione finale mediante una ricerca esaustiva di tutte le configurazioni possibili ma possiamo immaginare invece che seguano un percorso preciso verso un minimo globale.

CASP: Critical Assessment of Protein Structure Prediction

CASP è un esperimento-comune a livello mondiale per la previsione della struttura delle proteine, si svolge ogni due anni dal

  1. CASP fornisce ai gruppi di ricerca l’opportunità di testare oggettivamente i loro metodi di predizione di strutture e offre una valutazione indipendente dell’arte nel modeling delle strutture proteiche per la comunità di ricerca e gli utenti del software. Anche se l’obiettivo principale di CASP è di aiutare l’avanzamento dei metodi di identificazione proteica delle strutture 3D partendo dalle loro sequenze amminoacidiche, molti vedono l’esperimento più come un “campionato del mondo”. Più di 100 gruppi di ricerca provenienti da tutto il mondo vi partecipano e molto spesso interrompono le loro ricerche per concentrarsi su come ottimizzare i loro server per l’esperimento ottenendo previsioni dettagliate. Gli scopi di CASP sono sostanzialmente:
  • Predizione della struttura terziaria, in due categorie, proteine con un possibile templato nel PDB e proteine senza templato
  • Modelli ad alta risoluzione (quelli per cui la predizione del backbone è ovvia e si valuta quindi la capacità di refinement Altre predizioni:
  • Identificazione di estremi di domini strutturali
  • Regioni di ordine/disordine
  • Contatti tra residui
  • Predizione di funzione
  • Identificazione di siti di legame

VALUTAZIONE DELLA QUALITÀ DI UN MODELLO

suddivisi in n parti, n-1 parti vengono usate per il training e la parte restante per il test. La procedura può essere ripetuta n volte per evitare che una particolare scelta di training e test set possa influenzare la validazione. Se i dati sono ridondanti, o anche parzialmente ridondanti, si ottiene un falso apprendimento, basato sul fatto che dati identici o molto simili sono presenti sia nel training che nel test set. Per evitare questo problema, è necessario procedere ad una riduzione della ridondanza prima della divisione in training e test set. Nel corso del training i pesi sono fissi, al giro successivo si possono cambiare i pesi. Si parte quindi con pesi casuali tra 0 e 1, poi si da in input e si ottiene l’output; dopo si controlla se il risultato è vicino a quello che ci si aspettava o se è lontano, e per cambiare il risultato bisogna cambiare i pesi, i quali vengono cambiati secondo un algoritmo chiamato back propagation. Si va avanti fino a che la rete non impara e si smette con i cicli di training quando ormai la rete comincia a rispondere correttamente. La differenza tra l’output desiderato e quello ottenuto nel corso del training serve a modificare i pesi utilizzati nel ciclo successivo; se i valori di output sono molto diversi dai valori corretti desiderati, il valore dei pesi viene variato di molto, mentre se i valori dell'output sono molto vicini ai valori corretti desiderati, il valore dei pesi viene variato di poco. Si va avanti fino a che la rete non impara e si smette quindi con i cicli di training quando ormai la rete comincia a rispondere correttamente. Una volta che la rete è pronta e i pesi sono stati fissati può essere messa online e può dunque essere usata da chiunque.

INTERAZIONE TRA PROTEINE

Per una buona comprensione del funzionamento della cellula, non sono sufficienti informazioni sulle sequenze geniche, sulla loro trascrizione ed espressione. È anche necessaria una conoscenza delle interazioni tra le proteine e tra le proteine e gli acidi nucleici e della loro regolazione spazio-temporale. Per quanto riguarda l’interfaccia proteina-proteina la maggior parte delle interfacce è costituita da un core di residui completamente sepolti, con una dimensione tipica ≥ 1600 ± 400 Å2. Modelli recenti propongono che le interfacce siano costituite da poche regioni indipendenti denominate hot-spots che danno un contributo significativo all’energia libera di legame. In molti processi cellulari le proteine riconoscono target specifici. La specificità di interazione dipende dalle caratteristiche strutturali e chimico-fisiche delle due proteine interagenti. coppie di proteine omologhe interagiscono in modo simile. alcuni metodi sperimentali per l’analisi delle interazioni tra proteine:

  • doppio ibrido in lievito
  • purificazione per affinità
  • phage display
  • pep-spot
  • FRET

METODI BIOINFORMATICI PER LO STUDIO DELLE INTERAZIONI PROTEINA PROTEINA

METODO DEI PROFILI FILOGENETICI

Il profilo filogenetico è un’originale ed elegante tecnica bioinformatica in cui la presenza o l'assenza di geni/proteine in una simile distribuzione di specie viene usata per inferire una significativa relazione biologica, come ad esempio il coinvolgimento di due diverse proteine nello stesso pathway biologico. Specie correlate dovrebbero avere simili insiemi di geni o possono invece accumularsi cambiamenti tra specie distanti a causa di trasferimenti orizzontali o di perdita di geni. Singole proteine possono essere caratterizzate da singole funzioni o far parte di complessi proteici. Un processo biologico, come la fotosintesi, la metanogenesi o un pathway metabolico, può richiedere l'azione concertata di diverse proteine. Se una o più proteine associate a un dato processo si perdono, anche le altre diventano inutili e la selezione naturale rende improbabile che si mantengano nel tempo quindi se due gruppi di proteine tendono ad essere sempre assenti o sempre presenti in organismi simili, è probabile che siano coinvolte nello stesso processo biologico. Per il metodo dei profili filogenetici, è necessario avere a disposizione le sequenze dei genomi o dei proteomi del maggior numero possibile di organismi. Se due proteine hanno un profilo genetico identico o simile allora si può fare l’ipotesi che siano funzionalmente correlate, ciò significa che possono appartenere alla stessa classe funzionale o anche avere un’interazione fisica. Una versione più raffinata dei profili filogenetici non usa 0 e 1 per definire la presenza o assenza delle proteine date nei diversi proteomi ma usa dei valori reali, ad esempio l’e-value relativo al migliore confronto. Il metodo dei profili filogenetici si basa sull’assunto che proteine che siano funzionalmente correlate evolvano in modo correlato, ovvero tendano ad essere tutte presenti o tutte assenti in uno stesso genoma; è infatti lecito attendersi che le proteine dei flagelli siano presenti solo nei genomi dei batteri che possiedono i flagelli, ma non nei genomi degli altri batteri. Questo metodo è il primo metodo ad associare funzionalmente proteine tra loro, senza basarsi direttamente sulla similarità di sequenza. La presenza di una proteina in un proteoma viene stabilita tramite una misura di similarità di sequenza, ovvero tramite un e-value ottenuto confrontando una o più sequenze omologhe con un proteoma di un altro organismo; è pertanto possibile che se si considerano organismi troppo diversi il segnale di similarità possa essere insufficiente. Questo metodo è poco costoso e può dare risposte solo per proteine che appartengano a processi cellulari o a pathways che possano essere non indispensabili. METODO DELLA STELE DI ROSETTA Questo metodo è anche detto gene fusion e si basa sull’osservazione che alcune proteine, che in certi organismi sono codificate da due geni indipendenti, in altri organismi si possono trovare fuse in una singola catena polipeptidica, si possono trovare quindi dei geni che sono uniti e che dunque non presentano codone di terminazione. Nel caso in cui i geni sono codificati insieme si forma

una proteina che ha uno scopo comune. Nell’organismo 1, le proteine A e B formano un complesso, mentre nell’organismo 2 sono fuse in un’unica sequenza proteica

  • dal punto di vista termodinamico la coespressione è vantaggiosa (le proteine non devono “trovarsi” nella cellula)
  • diventa possibile produrre meno proteina
  • gli enzimi in pathways biochimici correlati possono formare complessi funzionali
  • i substrati possono quindi passare da un enzima all’altro senza diffondere nel citosol I vantaggi di questo sistema sono che è molto rapido e poco costoso mentre lo svantaggio è che ha un coverage basso, ovvero dà risposte solo per coppie di proteine che almeno in un genoma noto siano codificate dallo stesso gene DOCKING Il docking (attracco) consiste nella formazione di un complesso molecolare a partire dalle strutture 3D delle sue componenti. Sono stati sviluppati diversi programmi che effettuano il docking di proteine o tra proteine e ligandi prendendo in input le coordinate dei due oggetti e producendo in output dei complessi, ognuno associato ad un punteggio che ne valuti la stabilità o la probabilità. I vari programmi di docking esistenti sono di solito specializzati per uno dei seguenti casi:
  • Proteina-proteina: enzima-inibitore, recettore-ligando, antigene-anticorpo
  • Proteina-piccolo ligando: flessibile, rigido Per alcune differenze è possibile utilizzare lo stesso algoritmo di docking con variazione di parametri, per esempio dando più peso o meno peso alla complementarità geometrica piuttosto che a quella chimico-fisica, e viceversa o aggiungere o meno parametri energetici. Nel caso della differenza tra il trattare un ligando come un corpo rigido o flessibile, si può applicare un programma sviluppato per analizzare corpi rigidi a una libreria di conformeri rappresentativa delle diverse conformazioni assunte dalla molecola. Nel caso della differenza tra diverse tipologie di complessi, è sufficiente variare i parametri che diano maggiore o minor peso alla curvatura della superficie (complementarità geometrica) o alle caratteristiche chimico-fisiche dei residui (complementarità elettrostatica). Per i complessi enzima-inibitore, ci si trova spesso di fronte a interfacce con buche profonde da una parte ed estrusioni notevoli dall’altra mentre nel caso dei complessi antigene-anticorpo, le interfacce sono di tipo gibboso, e spesso inglobano molecole d’acqua che stabilizzano il complesso con ponti idrogeno, ma ne rendono più complesso il docking a causa della diminuita complementarità geometrica derivata. Il legame di un ligando ad una proteina o di una proteina ad un’altra proteina è talvolta accompagnato da cambi conformazionali in una o in entrambe le molecole interagenti. Ci sono 3 possibili interazioni:  Lock-and-key (chiave e toppa): hanno una struttura complementare a priori; in questo caso i programmi di docking che simulano il legame come un corpo rigido vanno bene. Non molto frequente.  Induced fit (complementarità indotta): la complementarità viene indotta dal loro legarsi una all’altra; è più difficile l’identificazione del sito di interazione.  Selected fit (complementarità selezionata): ci possono essere tante conformazioni possibili di una delle due molecole e semplicemente quella che si adatta meglio alla conformazione dell’altra stabilizza il complesso. L’induced fit può essere simulato utilizzando delle apposite librerie di rotameri. Analizzando il PDB, si è visto che ogni residuo assume con maggiore frequenza un numero relativamente basso di conformazioni. Le conformazioni cambiano in base agli angoli che si formano con le catene laterali, per formare rotameri. SIMILARITÀ DEGLI ALBERI FILOGENETICI In un certo numero di casi, tra cui quello dell'insulina e dei suoi recettori, è stato possibile dimostrare che le proteine co-evolvono. In questi casi, i corrispondenti alberi filogenetici mostrano un grado di similarità superiore a quello atteso per proteine non interagenti. È stato quindi messo a punto il metodo della similarità degli alberi filogenetici, in cui tale similarità viene messa in relazione con la probabilità di interazione tra proteine. Per ottenere una valutazione quantitativa della probabilità dell'interazione tra due proteine, bisogna costruire gli allineamenti multipli delle sequenze (MSA) delle due proteine provenienti dagli stessi proteomi. Si parte quindi dagli allineamenti multipli disponibili, e poi si effettua una "riduzione" ai proteomi comuni ai due allineamenti. Limiti principali di questa metodologia:
  • necessita di allineamenti multipli di ottima qualità per entrambe le proteine che si considerano
  • gli allineamenti devono contenere sequenze provenienti dagli stessi genomi
  • gli alberi filogenetici e le matrici delle distanze ricavate dai programmi di allineamento sono in generale dipendenti dai metodi che si utilizzano e non sempre affidabili al 100% MUTAZIONI CORRELATE Nel 1969 si notò per la prima volta che la sostituzione di un residuo è spesso accompagnata da una sostituzione compensatoria in un residuo contiguo. Questa osservazione si basava su un semplice principio di conservazione del volume. Ed esempio una prima mutazione può portare a stabilità ridotta ma una seconda mutazione compensatoria può ripristinare la stabilità. Per riconoscere una mutazione correlata è necessario generare un allineamento multiplo della stessa proteina in specie diverse. Se si osserva una identica sostituzione nella colonna X dell'allineamento in due o più sequenze e se tale sostituzione è sempre associata ad una sostituzione nella colonna Y, allora le sostituzioni nelle colonne X e Y si dicono correlate. Analizzando due allineamenti multipli posso trovare sia mutazioni correlate intraproteina sia mutazioni interproteine. Ci aspettiamo che i segnali di possibile interazione