Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Bioinformatica: Analisi di Sequenze e Strutture - Prof. Percudani, Appunti di Bioinformatica

Una panoramica completa sull'analisi bioinformatica di sequenze e strutture, con un focus sulle metodologie di allineamento, l'uso di banche dati e la filogenesi. Vengono discusse le tecniche per la ricerca di omologia, l'importanza della conservazione delle sequenze e le applicazioni dei modelli markoviani. Il documento include anche informazioni sulle modalità d'esame e le risorse utilizzate in bioinformatica, rendendolo utile per studenti e ricercatori nel campo. Approfondisce l'analisi bioinformatica di geni e proteine, l'uso di database di sequenze e le tecniche di allineamento multiplo. Esplora anche i modelli markoviani e la filogenesi, fornendo una solida base per lo studio della bioinformatica.

Tipologia: Appunti

2023/2024

In vendita dal 16/12/2025

sofy-tofy
sofy-tofy 🇮🇹

5

(1)

4 documenti

1 / 37

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BIOINFORMATICA
La bioinformatica studia:
Sequenze di acidi nucleici, con la scrittura detta Fasta (es >gi|8886401|gb|AF162269.1|) di
cui la IUPAC è 5’CCCACTCCTCCAT… GAC3’, eccetera.
Sequenze di proteine, (es >P25032 : N terminale - MASSSSATSGDDR… - C terminale, ecc).
Strutture di macromolecole
Ha due scopi principali:
Gestione dei dati biologici: mantenimento, organizzazione, distribuzione…
Analisi dei dati biologici: interferenze e predizioni sul significato biologico.
1 base sta in un byte; considerando questo, ad oggi la quantità d’informazioni è sempre crescente.
Sono stati raggiunti i Petabyte (41,5 PB). Il genoma umano è, ovviamente, un grande punto di
interesse: possiede 3 miliardi di basi/paia di basi (o 3 Gigabasi) e circa 20-30.000 geni. La
bioinformatica aiuta anche nel costruire gli alberi filogenetici, quindi nel comprendere l’affinità tra
specie, famiglie, generi diversi,
attraverso lo studio della
genomica, della trascrittomica,
della proteomica e della
metabolomica. Le somiglianze
possono anche derivare da
trasferimenti orizzontali nel corso
dell’evoluzione (ad esempio i
cloroplasti delle piante derivanti
da cianobatteri o per noi animali i
mitocondri).
Questo tipo di interazioni
evolutive è osservabile anche a
livello di geni e proteine.
Oltre agli alberi sono molto
utilizzate anche le RETI (Network),
ottime per l’analisi delle interazioni.
Il passaggio da sequenza a struttura, struttura e funzione, sequenza e funzione, sono dei punti
interrogativi (anche se la prima sta venendo innovata e quasi risolta dall’intelligenza artificiale), nel
senso che bisogna ancora capire il nesso che le unisce per fare predizioni affidabili.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25

Anteprima parziale del testo

Scarica Bioinformatica: Analisi di Sequenze e Strutture - Prof. Percudani e più Appunti in PDF di Bioinformatica solo su Docsity!

BIOINFORMATICA

La bioinformatica studia:

  • Sequenze di acidi nucleici, con la scrittura detta Fasta (es >gi|8886401|gb|AF162269.1|) di cui la IUPAC è 5’CCCACTCCTCCAT… GAC3’, eccetera.
  • Sequenze di proteine, (es >P25032 : N terminale - MASSSSATSGDDR… - C terminale, ecc).
  • Strutture di macromolecole Ha due scopi principali:
  • Gestione dei dati biologici: mantenimento, organizzazione, distribuzione…
  • Analisi dei dati biologici: interferenze e predizioni sul significato biologico. 1 base sta in un byte; considerando questo, ad oggi la quantità d’informazioni è sempre crescente. Sono stati raggiunti i Petabyte (41,5 PB). Il genoma umano è, ovviamente, un grande punto di interesse: possiede 3 miliardi di basi/paia di basi (o 3 Gigabasi) e circa 20-30.000 geni. La bioinformatica aiuta anche nel costruire gli alberi filogenetici, quindi nel comprendere l’affinità tra specie, famiglie, generi diversi, attraverso lo studio della genomica, della trascrittomica, della proteomica e della metabolomica. Le somiglianze possono anche derivare da trasferimenti orizzontali nel corso dell’evoluzione (ad esempio i cloroplasti delle piante derivanti da cianobatteri o per noi animali i mitocondri). Questo tipo di interazioni evolutive è osservabile anche a livello di geni e proteine. Oltre agli alberi sono molto utilizzate anche le RETI (Network), ottime per l’analisi delle interazioni. Il passaggio da sequenza a struttura, struttura e funzione, sequenza e funzione, sono dei punti interrogativi (anche se la prima sta venendo innovata e quasi risolta dall’intelligenza artificiale), nel senso che bisogna ancora capire il nesso che le unisce per fare predizioni affidabili.

MODALITÀ di ESAME

Bioinformatica

  • (60%) Elaborato contenente una analisi bioinformatica originale di un gene/proteina. Formato: articolo scientifico. Consegna in data di appello: PDF e cartaceo
  • (40%) Esame orale. Discussione sulla relazione e domande sulla teoria.

Posso anche non basarmi sull’omologia ma su altre evidenze. Queste di solito sono associazioni funzionali con altri geni e proteine. Tipi di evidenza per le associazioni:

  • Vicinanza genica
  • Fusione genica
  • Co-occorrenza Vicinanza genica (neighborhood) Vale soprattutto per i procarioti, che associano i geni in operoni, i quali spesso devono essere espressi (trascritti) in simili evenienze e nello stesso trascritto. In questi casi la vicinanza mi permette di ipotizzare una associazione funzionale. Anche l’orientazione dei geni può essere importante; essi possono essere divergenti, convergenti o avere la stessa orientazione. L’ultima è tipica degli operoni, la prima suppone un promotore comune, mentre la seconda non è tipica delle associazioni. Vale anche negli organismi eucariotici, soprattutto se il gene è omologo a quello di un procariote. Un esempio negli eucarioti sono i pathway metabolici per la degradazione dell’allantoina (metabolic gene cluster). Proprio grazie alle evidenze di vicinanza genica è stato scoperto il 22° aminoacido, la pirrolisina, che si ottiene da un codone di stop (come la selenio-cisteina nell’essere umano). I geni successivi corrispondevano ad enzimi responsabili della sintesi della pirrolisina. Scoperta di CRISPR-CAS9, sempre fatta studiando l’intorno genico, vicino alle ripetizioni palindromiche caratteristiche. Fusione genica Trovare una fusione genica fa ipotizzare che ci sia una qualche sorta di associazione funzionale tra due geni anche se hanno attività distinte. Sotto la scoperta della degradazione dell’idrossilisina: La fusione è un metodo più generale rispetto alla… vicinanza?

Co-occorrenza o profili filogenetici Si va a guardare la presenza o l’assenza di un gene e si costruiscono questi profili filogenetici. Si osserva se un gene tende ad essere presente quando anche un secondo lo è, o viceversa, se l’assenza di uno è correlata all’assenza dell’altro. Non funziona bene per i geni universali (presenti praticamente in ogni organismo). Ad esempio, nella degradazione delle purine, l’essere umano degrada direttamente dall’urea, il resto dei mammiferi arriva prima all’allantoina, mentre piante, funghi ed alcuni microrganismi usano le purine come riserva di ammoniaca. All’homo sapiens manca tutto il pathway metabolico che parte dall’urato ossidasi. DALLA FUNZIONE ALLA SEQUENZA So che esiste una certa funzione in alcuni organismi e voglio trovarne il gene. Per aiutarsi si usano i pathway holes, dove manca il gene codificante per un enzima facente parte del pathway. È il metodo più semplice, rispetto a sequenza-funzione. NETWORK Simili agli alberi, ma i secondi presentano una gerarchia tra i nodi in un rapporto antenato- discendente. Le reti sono utilizzate per relazioni contemporanee. Come gli alberi sono composti da bracci e nodi; i bracci, che collegano i nodi fra loro, possono essere orientati o meno. I network possono essere regolari o randomici , con connessioni casuali. Le applicazioni dei network sono nelle interazioni geniche, nell’analisi della co-espressione, della funzione di geni e proteine, o dei pathway metabolici (es: KEGG) dove i nodi rappresentano i metaboliti e i bracci rappresentano le reazioni con l’enzima catalizzante. È utile introdurre sue parametri:

  • Lunghezza media del cammino (Lg): che mi dice che strada fare per percorrere la via più corta tra due nodi
  • Coefficiente di clustering (Cg): numero di connessioni tra nodi vicini, dove per vicini si intende che c’è un singolo braccio tra ognuno di questi e un altro singolo nodo. Nei network regolari il Cg è elevato mentre Lg è basso, viceversa in quelli randomici. Ci sono dei network particolari detti “mondi piccoli”, che meglio rispecchiano i network naturali. Esistono network, detti scale free, con nodi iperconnessi, che si chiamano fulcri del network o “hub”. Questi danno al network una proprietà particolare: si può esprimere la distribuzione dei gradi di connettività con una legge di potenza. Dimostra essenzialmente come ci siano nodi scarni e nodi unz unz unz.

Verrebbe naturale pensare che la fissazione delle mutazioni sia dovuta all’evoluzione e alla selezione naturale, quindi che abbia un senso adattativo. In realtà la teoria più quotata è quella delle mutazioni neutrali (teoria neutrale dell’evoluzione), formulata per la prima volta da Motoo Kimura. Egli sosteneva che il numero di mutazioni osservate era troppo massiccio per poter essere ricondotto alla selezione naturale, la deriva genetica è quindi la favorita. La sua teoria è riassumibile in 3 punti:

  • Le mutazioni neutrali (o debolmente svantaggiose) possono essere accettate per effetto del caso;
  • Le mutazioni vantaggiose sono favorite ma possono non essere accettate per effetto del caso;
  • La comparsa delle mutazioni neutrali (o svantaggiose) è molto più probabile della comparsa delle mutazioni vantaggiose. Il caso (oltre alla selezione naturale) ha grande importanza nell'accettazione delle mutazioni. Inoltre va osservato come le regioni “meno importanti” (introni, pseudogeni, regioni periferiche delle proteine, terza posizione dei codoni), mentre le regioni “più importanti” mutano meno rapidamente o sono talmente conservate da essere immutabili su scala biologica (residui critici per la struttura proteica o residui critici per l’attività catalitica). Alla base, comunque, c’è la forza che causa la fissazione o la scomparsa di determinate mutazioni in funzione del caso: la deriva genetica (genetic drift). La probabilità di fissazione è inversamente proporzionale alla dimensione della popolazione, secondo l’equazione p = 1/2N. La selezione naturale, d’altro canto, è una forza che determina il successo (o il mancato successo) di una determinata mutazione in base al vantaggio adattativo della stessa. La probabilità di fissazione di un allele varia in base al coefficiente di selezione e alle dimensioni della popolazione; quando Nse è pari a zero, la mutazione è neutrale e l’equazione è uguale a quella della deriva genetica. L’ampiezza della regione intorno alla neutralità dipende dalla grandezza della popolazione ed è direttamente proporzionale alla grandezza della popolazione.

Effetto hitchiking: la tendenza di trovare più mutazioni fissate insieme, per effetto della ricombinazione (che raramente intacca punti vicini dello stesso gene). Effetto del linkage (assenza di ricombinazione) sul destino di alleli alternativi. A) i tre loci sotto selezione sono completamente legati. Si assume che il vantaggio complessivo dell'allele azzurro (vantaggioso) e dell'allele nero (svantaggioso) sia maggiore dell'allele verde (deb. vantaggioso). Le mutazioni vantaggiose, svantaggiose e neutrali sono fissate insieme (effetto hitchhiking). La mutazione vantaggiosa in verde è eliminata. B) i tre loci sono indipendenti. Entrambe le mutazioni vantaggiose sono fissate, la mutazione svantaggiosa è eliminata. Quando le dimensioni del genoma aumentano tendono ad aumentare anche le regioni non- codificanti. Perché tutto questo DNA “inutilizzabile”? Paradosso del valore C: per ragioni storiche il contenuto di DNA nel genoma di un organismo è riferito come C-value, ovvero come constant-value, dall'osservazione che il peso in pg del DNA è costante negli individui di una stessa specie. Il paradosso deriva da due osservazioni:

  • il contenuto di DNA aploide può avere grandi variazioni anche nello stesso gruppo di organismi (es. nelle angiosperme varia tra 0.1 pg e 125 pg);
  • il contenuto di DNA aploide può non avere una relazione diretta con la “complessità” di un organismo (es alcuni protisti hanno C-values 100 volte superiori a quello dell'uomo). (1 Gbp ≈ 1 pg dove (10 9 ) * (660) * (1,66 · 10 - 24 ) = 1,02 · 10 - 12 g. Il C-value del DNA diploide umano (2C) è c.a 6.3 pg nei maschi e 6.4 pg nelle femmine.) Mutation load e mutation rate: Il mutational load (U) è il tasso di mutazioni deleterie per genoma per generazione. Nell'uomo si stima U ≈ 2. Il mutation rate (μ) è il numero di mutazioni totali per sito per generazione. Nell'uomo si calcola μ = 1,1 · 10 - 8. Se tutte queste mutazioni fossero deleterie, il mutational load umano sarebbe U = (1,1 · 10 - 8 )* (3 · 9 bp) * (2) = 66, ovvero ciascuno riceve dai propri genitori circa 66 mutazioni, ma solo una piccola percentuale di queste (<5%) sono deleterie. Questi paradossi vengono spiegati proprio dalla teoria del junk DNA, ossia dall’osservazione che i genomi sono costituiti da grandi aree di DNA prive di funzione. Tuttavia questa teoria è considerata superata dal 2012, quando il progetto Encode riuscì a codificare la funzione di circa l’80% del genoma umano. Resta il fatto che gran parte delle mutazioni che subiamo non abbiano effetti fenotipici e siano quindi neutre. Si è arrivati alla conclusione che, effettivamente la maggior parte del DNA sia inutile ma che, in periodi di crisi o bisogno o mutazioni, possa assumere funzionalità. Quindi:
  • La selezione naturale domina nelle popolazioni grandi
  • La deriva genetica domina nelle popolazioni piccole
  • La complessità genomica si origina passivamente per azione della deriva genetica
  • La complessità genomica è occasione di innovazioni adattative

Il fatto che le catene alfa e beta siano separate ci fa capire che è avvenuta duplicazione; tutti i confronti alfa-beta sono confronti tra paraloghi. In-paralogs e out-paralogs: nei primi la duplicazione avviene in seguito alla speciazione, nei secondi la duplicazione precede la speciazione. In generale, l’omologia non garantisce che la funzionalità sia mantenuta. Nell’ortologia è più probabile che lo sia, rispetto alla paralogia, ma non è mai detto. Comunque, in entrambi i casi, la struttura dei prodotti proteici di due geni omologhi rimane sempre simile. Metodi per la distinzione di tipi diversi omologia:

  • Ricostruzione filogenetica, confronto tra “gene trees” e “species trees”; riconosco la differenza tra ortologhi e paraloghi grazie al confronto tra alberi genetici e alberi delle specie. Capisco che è speciazione se i due coincidono, quindi avrò omologia tra ortologhi.
  • Best reciprocal hit (BRH), ricerca di omologia in genomi completi, tramite programmi come Blast. Confrontando gli alberi, quando essi sono inconciliabili di solito è per colpa dei trasferimenti genici orizzontali. È un evento estremamente raro negli eucarioti. ( Adaptive horizontal transfer of a bacterial gene to an invasive insect pest of coffee. Acuna et al. PNAS, 2012 ) Nei procarioti invece, il trasferimento genico orizzontale è molto frequente e può avere esiti differenti: acquisizione di un nuovo gene, acquisizione di un paralogo, acquisizione di un analogo (non orthologous gene displacement) in cui il gene originario viene soppiantato.

Nel 1965, con Pauling, sorse la teoria delle mutazioni come orologio molecolare, ossia la possibilità di un loro utilizzo per misurare i tempi evolutivi. L’ipotesi è di una relazione lineare tra tempo evolutivo e numero di mutazioni accumulate; si tratterebbe di un orologio stocastico, somigliante al decadimento radioattivo, cioè non si può calcolare esattamente il momento in cui la mutazione accadrà ma posso ipotizzare che se ne verifichi una ogni X anni. L'orologio necessita di una calibrazione attraverso un riferimento indipendente (es. Reperti fossili). Una volta conosciuta la velocità dell'orologio, la divergenza tra sequenze può essere usata per stimare il tempo di separazione, considerando anche quelle non visibili. La distanza si misura in PAM (numero di mutazioni puntiformi ogni 100 siti), normalizzando anche il numero di siti per ogni organismo. Prendiamo in esempio le distanze evolutive delle emoglobine di mammifero, dove T è il tempo ed R (Rate) è la velocità espressa in PAM su My (million years). R = PAM / 2T T = PAM / 2R Si moltiplica per due poiché si considerano due linee separate, ciascuna con il suo tempo T. R (α) = 20 PAM / 280 My = 0. R (β) = 20 PAM / 280 My = 0. T (α,β) = 110 / (2* 0.12) = 458 My Il problema è che ho assunto che il rate osservato nei mammiferi degli ultimi 80 My sia sempre stato lo stesso, anche nei primi organismi. Innanzitutto, ogni proteina ha un suo rate di evoluzione, quindi non posso usarli intercambiabilmente. L’orologio va ri-calibrato per ogni proteina in esame. Ad esempio, gli istoni sono estremamente conservati (rate = 0%), l’emoglobina presenta un rate del 18%, mentre i fibrinopeptidi sono estremamente veloci nell’accumulare mutazioni con un rate pari all’86%. Questa velocità mi va ad indicare anche le regioni che sopportano meno le mutazioni, in cui la perdita o modifica della funzione risulti estremamente pericolosa. Più una proteina ha porzioni neutrali e più evolverà velocemente.

  • KA/KS >1 selezione positiva (adattamento) Esempio di utilizzo nel gruppo di scimmie ruminanti, le quali hanno evoluto indipendentemente il lisozima a livello intestinale. L’adattamento è evidente confrontando Ka e Ks tra le ruminanti e le non- ruminante: infatti, il rapporto Ka/Ks è pari a 3. Diversamente, lo stesso rapporto condotto unicamente tra le scimmie di quel gruppo di ruminanti si attesta intorno al 0,15, quindi con una pressione che si oppone alle mutazioni. CONFRONTO TRA SEQUENZE Attraverso questo confronto si può dedurre un’omologia, quindi capire se un’eventuale somiglianza è significativa a livello evolutivo. Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto di “vicinanza” tra gli oggetti del confronto. Tuttavia i due termini si riferiscono ad aspetti diversi del confronto. L’omologia è una proprietà qualitativa del confronto. La somiglianza è una proprietà quantitativa del confronto. Tra i primi metodi utilizzati per analizzare le somiglianze tra sequenze senza forzatamente dover formulare un allineamento sono i dot plots. Sezioni di punti posti in una diagonale indicano una somiglianza. I gap corrispondono ad inserzioni o delezioni.
  • Una sequenza nella riga superiore e una sequenza nella colonna sinistra;
  • Inserire un pallino (dot) ogni volta che si incontrano due lettere uguali tra righe e colonne;
  • Unire le diagonali per identificare le aree di sovrapposizione;
  • I gaps sono interruzioni verticali (nella sequenza della riga) o orizzontali (nella sequenza della colonna). I dot plots non sono privi di limitazioni:
  • Si basano sull’analisi visiva
  • Non forniscono una misura quantitativa dell’allineamento
  • Non permettono di misurare la significatività statistica di un allineamento Per ovviare a queste occorre avere una funzione oggettiva per l’allineamento. La sovrapposizione ottimale tra le lettere delle due sequenze con l’eventuale introduzione di elementi vuoti (gap) sarebbe la seguente: Un input con 2 sequenze, un sistema di punteggio per le sovrapposizioni e uno di penalità per i gaps o per i mismatch (quindi che premi le somiglianze e penalizzi le discrepanze). L’output sarà un gaps

appaiamento ottimale che conservi l’ordine delle lettere ammettendo l’introduzione di elementi vuoti in modo da produrre un punteggio totale più alto. Per quanto riguarda il confronto di sequenze nucleotidiche questo tipo di assegnazione di punti è corretto ma nelle sequenze amminoacidiche l’identità deve essere accompagnata dalla somiglianza e il mantenimento della funzione degli aminoacidi coinvolti. Il primo criterio oggettivo usato per definire la somiglianza tra aminoacidi dipendeva dalle loro caratteristiche chimico-fisiche, anche se non è semplice stabilire aprioristicamente quali siano più importanti per ogni proteina. Il criterio empirico migliore per farlo è stato ideato da Margaret Dayhoff, grazie alle matrici empiriche di somiglianza. Calcolò tutte le sostituzioni osservate tra set di proteine molto simili (identità>85%), poi costruì una matrice di sostituzione A(i,j) con le probabilità che un aminoacido Aj muti in un aminoacido Ai in una unità evolutiva (1 PAM), per poi derivare le matrici di sostituzione per diverse intervalli evolutivi tramite moltiplicazione della matrice unitaria. Così nacquero le matrici PAM, le quali illustrano le probabilità che un aminoacido di una colonna j sia sostituito da un aminoacido di una riga i in un intervallo evolutivo di una singola mutazione su 100 residui. Le matrici utilizzate attualmente sono le log-odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall’evoluzione e le probabilità di sostituzione date dal caso (logaritmo della frequenza osservata di sostituzione i↔j / frequenza attesa Fi x Fj). Un valore positivo indica una somiglianza, lo zero indica una neutralità, mentre un valore negativo indica una dissomiglianza. Quindi, alcuni valori saranno effettivamente in accordo con le proprietà chimico-fisiche ma avremo un dato molto più puntuale. In generale, le matrici derivano da sostituzioni che si osservano in sequenze omologhe. Poi esistono anche le matrici BLOSUM (BLOck SUbstitution Matrix) che hanno preso in considerazione anche proteine molto distanti, senza usare GAP. Le due matrici non sono tanto diverse a livello di risultati, cambiano solo i numeri che le accompagnano (es PAM250, BLOSUM62). Vanno utilizzate quindi in base alla distanza delle sequenze da analizzare. Blast usa BLOSUM62 perché è media. Ad esempio una PAM10 (10 sostituzioni su 100 siti) equivale ad una BLOSUM dal numero piuttosto alto, a significare che le sequenze sono molto simili. Per intervalli medio-distanti vengono solitamente utilizzate PAM120 e BLOSUM62 oppure, se ancora più distanti, PAM250 e BLOSUM45. L’ideale è sempre usare la matrice più adatta al confronto che si deve andare a fare. Prendendo come esempio

Per stabilire quale sia la situazione con il miglior punteggio ho bisogno di impostare un algoritmo. In questi casi lo schema da seguire prevede l’inserimento dei dati iniziali, le due sequenze, e l’utilizzo di una funzione matematica che mi permetta di ottenere l’allineamento: sarà lo score. La ricerca combinatoria dell'allineamento ottimale non è un algoritmo efficiente; infatti, i programmi di allineamento non esplorano tutte le combinazioni possibili per trovare la sovrapposizione ottimale, i tempi di calcolo sarebbero infiniti anche per sequenze di modesta lunghezza. La soluzione più efficiente sembra essere quella della “programmazione dinamica” (il calcolo di combinazioni possibili passa da 2nxm^ a nxm), la quale si divide a sua volta in:

  • Allineamento globale
  • Allineamento locale Entrambi possono sfruttare le cosiddette matrici dotplot, nelle quali trovare l’allineamento significa trovare il miglior percorso nella matrice. Oppure l’allineamento può essere scomposto in più parti, nel quale il punteggio dell’allineamento è la somma del punteggio di una parte più il punteggio della rimanente. Effettivamente, il calcolo dell’allineamento con un algoritmo di “programmazione dinamica”, avviene nel seguente modo: dopo aver costruito una tabella che contenga la prima sequenza in riga e la seconda in colonna, metto valori 0 nella prima riga e nella prima colonna; poi definisco i valori delle caselle in base al punteggio (match=1, mismatch=0, gap=spazio). Per mettere il punteggio nella caselle devo considerare i valori che la circondano a sinistra, in alto e in diagonale. Per farlo considero la casella come M (i;j) che sarà funzione del valore a sinistra M (i;j-1), in alto M (i-1;j) e in diagonale M (i-1;j-1). Va scelta una di queste tre opzioni in base al valore max (o minimo?) tra di esse. Con questo criterio il programma tiene conto di tutti gli allineamenti precedenti tramite i vettori. Finito il riempimento inizia la fase del Traceback: partendo dalla casella in basso a destra (che presenta il punteggio dell’allineamento) e andando a ritroso ricostruisco l’allineamento, sapendo che in diagonale ripercorro i match mentre nelle direzioni ortogonali ripercorro i gap. Per completare l’allineamento globale va costruita una matrice BLOSUM62, tenendo conto delle penalità per i gap. L’allineamento locale non è altro che una variante di questo, ma tiene in considerazione solo i segmenti somiglianti (ad esempio, proteine che condividono un dominio, come un esone rispetto all’intero gene) partendo dalla cella col miglior punteggio e facendo traceback fino all’ultimo, in senso di marcia, punteggio positivo; tutto questo contando i punteggi negativi come uno 0. Altre varianti includono l’allineamento accavallato, che si può calcolare partendo da una qualsiasi delle ultime caselle in basso o a destra (invece che esclusivamente quella in basso a destra) sempre col miglior punteggio. In sintesi, va fatta una scelta iniziale poiché i risultati dei vari allineamenti sopracitati sono diversi; ad esempio, in quello globale vengono confrontate anche sequenze non somiglianti. Quello locale può essere scelto quando si vogliono confrontare porzioni simili provenienti da due proteine diverse, come un dominio altamente conservato, mentre in quello globale la somiglianza si estende a tutta la sequenza. Un aspetto dell’allineamento è che le somiglianze sono meglio osservabili tra sequenze amminoacidiche, rispetto alle corrispondenti nucleotidiche, a causa della degenerazione del codice genetico, ed è anche di più difficile pesatura (ogni AA corrisponde a 3 basi azotate). La somiglianza, o identità, si esprime come numero di posizioni dal valore positivo, in percentuale.

Altro parametro è la significatività: questo presuppone che la somiglianza sia dovuta esclusivamente a due fattori, l’omologia o il caso. Essendo l’omologia non determinabile livello probabilistico, bisogna attuare il processo inverso, ossia determinare la probabilità che quella somiglianza sia casuale: se la probabilità è molto bassa (<10-^5 ) allora accetto l’ipotesi di omologia. Per calcolarla vengono simulati allineamenti con sequenze casuali registrandone il punteggio, il cui score finale viene confrontato con quello di interesse (tra le due o più sequenze che voglio studiare): se quello reale non si ottiene facilmente mediante le associazioni randomiche allora l’allineamento è significativo. Per definirne la statistica e determinare la probabilità casuale si usa la curva dei valori estremi che è asimmetrica verso i valori più alti. La significatività (E) si calcola con la seguente formula (importantissima): E è il numero di segmenti attesi con un punteggio maggiore di un dato score S, n e m sono le lunghezze delle due sequenze e K e λ sono parametri stimati con fitting da allineamenti di sequenze casuali per una determinata matrice di somiglianza e penalità di gap. Questa statistica è pienamente valida solo per gli allineamenti locali. Al crescere di S la probabilità casuale di ottenere un determinato allineamento diminuisce; per S pari a zero il valore di E sarebbe: Allineamenti più lunghi producono somiglianze più significative; allineamenti lunghi risultano significativi anche in presenza di identità basse. Tuttavia al di sotto del 20% di identità diventa difficile la distinzione tra somiglianze casuali e somiglianze per omologia. RMSD è una misura in Angstrom della distanza media tra gli atomi di una catena principale di due strutture; in generale va ad indicare la somiglianza strutturale tra due proteine. Abbinando questo tipo di somiglianza a quella genetica posso coprire anche la zona di mezzanotte per descrivere un eventuale omologia di omologhi evolutivamente distanti. È molto probabile, quando due proteine hanno forti somiglianze strutturali ma poche a livello di sequenza genica, che abbiano funzioni nettamente diverse (divergenza funzionale). Esiste anche il caso di proteine che hanno la stessa

  • GenBank (americana)
  • EMBL (europea)
  • DDBJ (giapponese)
  • dbEST (contiene esclusivamente sequenze di cDNA, derivanti dalla retro trascrizione di mRNA) Banche dati primarie: proteine Ora ce n’è una unica, la UNIPROT (universal protein resource), anche se fino a qualche anno fa quella europea e quella americana erano divise. Contengono sia sequenze di proteine determinate per sequenziamento diretto (ma in minima parte), mentre le altre sono sequenze ricavate dalla traduzione di sequenze codificanti di DNA, in parte annotate e commentate dai curatori della banca. Quella che segue è la distribuzione tassonomica delle sequenze in UNIPROT: Problemi legati all’interrogazione delle banche dati di sequenza:
  • Ridondanza (più record per lo stesso oggetto)
  • Nomenclatura non standard
  • Errori nell’annotazione

Le RefSeq sono sequenze di riferimento, definite da annotatori, per una data porzione genomica, di mRNA o proteica (NC interi genomi, NM sono mRNA, NP proteine). Nei profili di espressione con RNAseq, in particolari organismi molto studiati come l’uomo, posso anche osservare l’espressione nei diversi distretti corporei. Subentra l’unità di misura RPKM, Reads Per Kilobase of transcript, per Million mapped reads. RICERCA DI OMOLOGIA IN BANCA DATI Ricerca di omologia di sequenza: data una sequenza (query), una banca dati, un sistema di confronto e una soglia statistica, trovare le sequenze della banca dati più somiglianti alla data query ordinate per significatività. I software per la ricerca di omologia in banca dati possono sfruttare algoritmi ottimali (ha un tempo di esecuzione proporzionale a N x M, lunghezza della sequenza per dimensione della banca dati) e algoritmi euristici (usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale). Le varie sequenze vengono indicizzate e si può, grazie ad essi, tentare la ricerca di omologia tramite il confronto tra gli indici (metodo euristico); si vanno a calcolare gli offset, ossia le differenze tra gli indici e si compila un vettore di questi offset che ci mostra segmenti simili. Segmenti simili corrispondono a diagonali con il medesimo offset (la sequenza in ascissa è quella di database, quella in ordinata è la query (quella inserita). In FASTA la lunghezza delle sequenze è indicata dal valore k-tuple=lunghezza delle parole nell’indice.