





































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti slide lezione del corso di Bioinformatica
Tipologia: Appunti
1 / 77
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






































































Informazioni funzionali possono essere derivate dalla sequenza o dalla struttura
tridimensionale.
Sequenze note sono molte ma le strutture offrono un livello dettagliato
maggiore.
INFERENZA funzionale : se due entità biologiche di somigliano è verosimile che
abbiano anche funzione simile.
Maggiore è la SIMILARITÀ maggiore è la VEROSOMIGLIANZA che la funzione sia
la stessa.
Omologia = origine evolutiva comune
Analogia = evoluto indipendentemente una stessa soluzione a un problema.
Sequenze di geni di specie moderne sono ancora simili a geni di antenato
comune.
Valutazione statistica : valutare somiglianza quanto si somigliano e quanto la
somiglianza sia dovuta al caso.
Trasferimento dell’informazione : caratterizzazione funzionale di un bene è un
processo lungo e costoso, se si fa la caratterizzazione su una proteina omologa
di un’altra specie si può assumere che le caratteristiche valgono anche per la
proteina umana non caratterizzata.
Il confronto delle sequenze omologhe in più specie è utile per trovare aa
importanti associati alle funzioni poiché più conservati evolutivamente.
Alcune mutazioni possono non alterare la struttura di una proteina.
Es: emoglobina e mioglobina hanno 24% di identità di sequenza ma entrambe
legano gruppo eme e hanno funzioni simili.
Componenti fisiche computer CPU (hardware) programmi (software).
Un programma è una serie di istruzioni che la macchina può eseguire e capire.
Istruzioni—> acquisizione input—> elaborazione—>generazione output
I programmi vengono scritti utilizzando linguaggi (comunicare istruzioni per
svolgere un compito) la macchina può capire istruzioni di livello molto basso.
Codice sorgente—>interprete—> codice oggetto—>output
ALGORITMO : percorso logico, per risolvere un problema un programmatore
può ideare una serie di passaggi che partendo dall’imputato generi l’output
desiderato.
IMPLEMENTAZIONE : quando questo percorso logico viene messo in pratica
tramite software che possiede le istruzioni necessarie per compiere i passaggi.
Software rapidi con tempi di esecuzioni compatibili con progetto di ricerca.
La rapidità dipende da vari fattori: linguaggio abilità programmatore.
Complessità non si preferisce.
O(n): complessità
La complessità viene valutata stimando il numero di operazioni che l’algoritmo
deve seguire dato un certo input contenente n dati e si riporta il numero di
operazioni in funzione di n.
Ci sono algoritmi con complessità lineare o polinomiale (proporzionale a una
potenza di n).
Algoritmi esponenziali: per una proteina di n residui il numero di operazioni
proporzionale a 2^n complessità O(k^n) tempi lunghi
Algoritmi che forniscono la soluzione ottimale: ESATTI
EURISTICI : complessità elevate permettono di sviluppare algoritmi basati su
assunzioni che non garantiscono di trovare la soluzione ottimale ma avviene in
tempi rapidi e buoni.
Similarità implica OMOLOGIA
Ma la similarità è un dato che prescinde da eventuali ipotesi sulla causa dell
similarità stessa e omologia significa che due sequenze condividono una stessa
origine filogenetica.
Ortologhe : sequenze omologhe che sono evolute dalla stessa caratteristica nel
loro ultimo antenato ma che non necessariamente mantengono la loro funzione
ancestrale.
Paraloghe : sequenze omologhe la cui evoluzione riflette eventi di duplicazione
genica (catena alfa e beta emoglobina).
Convergenza adattiva: la similarità può presentarsi anche per caso o per questi
fenomeni.
Es: ala di uccello e di pipistrello si sono evolute indipendentemente e di
conseguenza non sono omologhe
Le varianti dell’usato e H1 sono paraloghe fra di esse in uno stesso genoma.
Geni xenologi : dovute a trasferimento orizzontatale di geni.
Mutazioni sinonime: mutazioni che non cambiano L’aa codificato (3 base di un
codone)
Mutazioni non sinonime: mutazioni che alterano sequenza aa di una proteina.
Superficie: carica o polarità
Core: dimensione è importante
Mutazioni tra Arg lisina sono contro selezionate
Come tra F Y e W o tra Y S T
Allineamenti di sequenza: residui impilati gli uni sugli altri corrispondono a
residui evoluti da uno specifico residuo nella sequenza dell’antenato.
Ma la situazione non è sempre così semplice e spesso è necessario generare tutti
i possibili allineamenti tra due sequenze per poter poi valutare quale sia
l’allineamento migliore
Un metodo semplice per generare tutti i possibili allineamenti tra due sequenze
consiste nel fare scorrere una delle due sequenze rispetto all’altra e nel valutare
la similarità di sequenza di ognuno degli allineamenti generati
Definiamo similarità di sequenza tra le due sequenze come il più alto dei
punteggi ottenibili
L’allineamento associato alla più alta valutazione della similarità di sequenza
verrà scelto come il migliore degli allineamenti possibili
Definiamo similarità di sequenza tra le due sequenze come il più alto dei
punteggi ottenuti (in questo caso = 4), che identifica anche il migliore
allineamento
In tutto abbiamo valutato 10 (6+5-1) allineamenti e abbiamo fatto 30 (6x5)
confronti di caratteri
In generale, per confrontare due sequenze di lunghezza, rispettivamente m ed
n, senza considerare gaps, il numero degli allineamenti generati N all
è pari alla
somma della lunghezza delle sequenze meno 1
all
= m + n – 1
Il numero dei confronti tra caratteri effettuati, N confronti
, è invece pari al
prodotto delle due lunghezze
confronti
= m x n
Quindi per allineare due sequenze di 200 aminoacidi, dobbiamo testare
200+200-1 = 399 allineamenti, e confrontare 200x200 = 40000 residui
Volendo scrivere un programma che faccia tutto questo, i suoi tempi di
esecuzione sarebbero comunque molto veloci
I problemi nascono perchè non stiamo contemplando ancora la possibilità che
nel corso dell’evoluzione ci siano state aggiunte o perdite di residui in una
sequenza rispetto all’altra
Inoltre spesso non vogliamo solo confrontare due sequenze, ma confrontare
una sequenza contro un’ampia collezione di sequenze in una banca dati
Questo è il migliore allineamento ottenibile facendo scorrere queste due
sequenze una sull’altra.
Considerando l’inserimento e/o la delezione di caratteri ( gaps ) l’allineamento
migliora:
Per il principio di parsimonia, preferiamo comunque allineamenti con pochi
gaps, quindi dobbiamo tenere conto di questo nella funzione di scoring
Potremmo aggiungere una penalità punteggio negativo) al nostro sistema di
punteggio per sfavorire allineamenti con tanti gaps, e bisognerebbe anche
tenere conto dell’estensione (quanto sono lunghi) dei gaps
Si vuole penalizzare l’apertura di un gap, ma anche la sua estensione
Una penalità da associare ai gaps in un allineamento deve tenere conto di questi
due fattori: numero di gaps e loro estensione
Possiamo associare un punteggio di penalizzazione (gap opening penalty) per
ogni gap aggiunto all’allineamento
E attribuire un punteggio di penalizzazione diverso per l’apertura di un gap
nell’allineamento o per il suo allungamento (gap extension penalty)
Il punto viene posizionato al centro della finestra.
La soglia minima di identità delle finestre è ovviamente importante per
identificare tratti simili fra di loro.
Proteine e soprattutto acidi nucleici contengono spesso sequenze che si
ripetono simili o anche identiche più volte nella sequenza
Nel genoma degli eucarioti superiori, circa metà della sequenza è ripetitiva, cioè
trova da qualche parte nel genoma almeno una sequenza simile
Nelle proteine, alcuni domini possono essere contenuti più di una volta nella
stessa proteina
Cosa succede quando si disegna una dot-matrix per due sequenze che hanno
entrambe lo stesso dominio presente due volte in ciascuna?
La presenza di regioni di sequenza ripetute in più punti della sequenza causa
segmenti nella dot-matrix paralleli alla diagonale
Riassumendo:
Abbiamo introdotto i concetti di similarità e di allineamento tra biosequenze
Abbiamo visto che per generare e valutare il miglior allineamento di due
sequenze di lunghezza m e n, è necessario effettuare mxn confronti fra caratteri
Il numero di operazioni da effettuare cresce e i tempi di calcolo di conseguenza
si allungano se si vogliono considerare anche i possibili gaps in tutte le posizioni
(e di tutte le lunghezze possibili) di entrambe le sequenze
Noi VOGLIAMO considerare i gap , ma non POSSIAMO permetterci algoritmi che
considerino tutti i possibili gaps in tutte le possibili posizioni e di tutte le
possibile lunghezze
Gli allineamenti possono essere visualizzati graficamente in modo rapido (con
algoritmi dell’ordine di mxn) con matrici di punti ( dot matrices )
Gli allineamenti migliori vengono visualizzati come segmenti di retta paralleli alla
diagonale della matrice e possono essere valutati con un punteggio correlato
alla loro lunghezza
I gaps negli allineamenti possono essere visualizzati come salti di diagonale nelle
matrici di punti
I gaps possono essere penalizzati con punteggi che dipendono dal numero e
dall’estensione dei gap stessi ( gap penalty e gap extension penalty )
Potremmo raggruppare residui in classi a seconda della similarità delle loro
caratteristiche chimico-fisiche, e sommare 1 al punteggio per appaiamenti di
residui della stessa classe e sottrarre 1 per residui di classi diverse
Possiamo però andare oltre: gli allineamenti e il calcolo della similarità
potrebbero essere notevolmente migliorati dall’introduzione di schemi di
punteggio diversi da 0 e da 1 per l’appaiamento di residui amminoacidici
Si potrebbero per esempio prevedere punteggi alti per l’identità tra coppie di
residui, punteggi un po’ più bassi ma >0 per residui simili dal punto di vista
chimico-fisico
Punteggi invece negativi (o uguali a 0) per residui diversi dal punto di vista
chimico-fisico
Vorremmo calcolare il costo di sostituire un aminoacido con un altro
guardandone la frequenza di sostituzione, cioè quante volte in proteine
omologhe queste sostituzioni avvengono e sono tollerate.
Dobbiamo calcolare questi valori in maniera opportuna e accurata e costruire
quella che si chiama Matrice di Sostituzione
Margaret Dayhoff raccolse statistiche sulle frequenze di sostituzioni
amminoacidiche nelle sequenze proteiche allora note
Via via che le sequenze divergono, le mutazioni si accumulano
Per misurare la probabilità relativa di una particolare sostituzione (per esempio
Asp--> Glu) possiamo contare quanti Asp sono diventati Glu in allineamenti di
sequenze omologhe
Per stabilire quali fossero le sostituzioni trovate più di frequente in sequenze
omologhe, furono analizzate 1572 mutazioni in alberi filogenetici di 71 diverse
famiglie di proteine. Due sequenze della stessa famiglia presentavano almeno
l’85% di identità.
Le sequenze erano sufficientemente simili da poter essere allineate
accuratamente “a mano”
Per ogni mutazione, calcola il log odd ratio: log (Osservati/attesi)
Associano un punteggio ad ogni
coppia di residui sono matrici
quadrate e simmetriche che
contengono 20x20=400 valori
Grafici che consentono di mettere in
evidenza zone di identità tra sequenze
diverse; se una sequenza è lunga m
caratteri e l’altra sequenza è lunga n
caratteri la matrice di punti sarà
rettangolare e di dimensione m x n
Per semplicità, estrapoliamo solo le righe e le colonne di una matrice di
sostituzione che ci servono per valutare un allineamento come quello scelto
Punteggio: 2+3+5+4+17=
Manca però ancora una cosa per avere uno schema di punteggi ideale: le
penalità per i gaps.
Come prima possiamo considerare:
Penalità per l'apertura di un gap = - 1
Penalità per l'estensione di un gap = - 0.
E’ comunque necessario evitare di considerare allineamenti in cui possano
essere avvenute sostituzioni multiple in determinate posizioni
Per cui questi calcoli devono venire effettuati su coppie di sequenze MOLTO
SIMILI tra loro, in modo ad esempio da poter assumere che nessuna posizione è
mutata più di una volta
La divergenza di due sequenze si può misurare in PAM:
1 PAM = 1 Percent Accepted Mutation
Due sequenze sono separate da 1 PAM se hanno il 99% di identità
La matrice così costruita da sequenze separate da 1 PAM è derivata dalle
probabilità di sostituzione di un singolo residuo su cento in sequenze omologhe,
ovvero un singolo passo evolutivo, per cui viene detta PAM1.
Ovviamente, a una distanza così piccola le sostituzioni saranno poche, in quanto
per ogni amminoacido sarà molto più probabile che esso non venga sostituito.
Poiché gli allineamenti vengono calcolati per sequenze molto più divergenti
dell’1%, sarebbe più opportuno utilizzare matrici che riassumano le probabilità
di sostituzione osservabili in sequenze meno conservate.
L’idea fu quella di simulare una serie di passi evolutivi successivi moltiplicando
la matrice PAM1 per se stessa, sotto l’assunzione di indipendenza tra tempi
evolutivi. Eseguendo questa operazione 100 volte otteniamo una matrice
PAM100, in cui la distanza evolutiva è appunto di 100 passi.
E’ importante precisare che questo non significa che il 100% delle sequenze sarà
mutato, ma che la matrice corrisponde alle sostituzioni trovate dopo 100 passi
evolutivi, in ognuno dei quali viene sostituito l’1% degli amminoacidi rispetto al
risultato del passo precedente – con la possibilità che molte sostituzioni cadano
su posizioni già variate ai passi precedenti.
La moltiplicazione di matrici è il prodotto righe per colonne tra due matrici, che
dà luogo ad un'altra matrice.
%identità 100 99 75 60 50 25 20
Se due sequenze sono filogeneticamente distanti è opportuno usare matrici
PAM con indici più alti, e viceversa
Le più usate matrici di sostituzione di tipo PAM sono la PAM120 e la PAM250,
che si utilizzano per ottimizzare allineamenti tra sequenze che abbiano circa il
50% o il 20% di identità di sequenza
La frequenza osservata q(i,j) con la quale gli aminoacidi i e j sono allineati è il
numero di volte in cui una coppia delle sequenze nell’allineamento ha quei due
aminoacidi allineati uno sull’altro
L’esempio ha 2 blocchi con in totale 8 colonne, formato da 3 coppie di sequenze
Gli aminoacidi C e D si trovano allineati in due coppie di sequenze, quindi fa
frequenza di avere C e D allineate q(C,D) = 2 / (8 * 3)
Si possono ottenere BLOSUM tarate per differenti distanze evolutive grazie al
raggruppamento di sequenze di blocchi identiche o simili, in modo da farle
pesare di meno nel computo totale, e scegliendo un rappresentante per ogni
gruppo (o una media)
Esistono quindi diverse BLOSUM, indicate da un numero che descrive il tasso di
similarità utilizzato per questo raggruppamento delle sequenze simili. Ad es. la
BLOSUM80 si ottiene raggruppando blocchi identici all’80%.
Più il numero della BLOSUM è grande, più è adatta a distanze evolutive piccole.
La BLOSUM62 equivale alla PAM250.
Al di là dei calcoli, le matrici PAM e quelle BLOSUM partono da due presupposti
diversi.
Nelle PAM, il modello assume che le sostituzioni osservate a grandi distanze
evolutive siano l’effetto di una serie di singole mutazioni indipendenti, stimando
la probabilità di ciascuna di esse. In questo modo, ad esempio, la matrice
PAM250 è ricavata da 250 applicazioni consecutive della matrice PAM1.
Viceversa, le matrici BLOSUM partono direttamente dall’osservazione di
sequenze conservate a diversi livelli di divergenza, senza ulteriori assunzioni
Inoltre, i numeri associati alle diverse matrici hanno significato diametralmente
opposto: maggiore sarà il numero di una matrice PAM, maggiore sarà la
divergenza tra le sequenze usate per stimare le probabilità di sostituzione,
mentre per le matrici BLOSUM al crescere del numero crescerà la similarità
(misurata come percentuale di identità) tra le sequenze utilizzate per la
costruzione della matrice.
In entrambi i casi, comunque, esiste un numero non trascurabile di sostituzioni
per cui il punteggio associato nella matrice è positivo, indice del fatto che,
sebbene sia avvenuta una mutazione, questa è solitamente trovata con
frequenza superiore al caso nell’evoluzione di sequenze omologhe appartenenti
alla stessa famiglia. Queste sono solitamente dette sostituzioni conservative.
A questo punto potrebbe sembrare complicato scegliere quale matrice sia più
adatta ai diversi casi di studio. Negli anni le diverse matrici sono state applicate
ai più disparati casi di studio: l’orientamento generale sembra essere di preferire
le matrici BLOSUM, soprattutto per quanto riguarda le ricerche in banca dati
basate su similarità di sequenza che costituiscono forse l’applicazione più
comune degli algoritmi di allineamento.
Tipicamente, tutti i programmi di allineamento hanno impostata una matrice di
sostituzione di default , che gli sviluppatori del metodo ritengono essere quella
più idonea per la maggior parte degli allineamenti calcolati.
Per la maggior parte delle applicazioni, i risultati possono essere ritenuti
affidabili mantenendo inalterata la scelta degli sviluppatori dei metodi di
allineamento, senza necessariamente dovere studiare in dettaglio la variazione
dei risultati a seconda delle matrici.
Ora che abbiamo migliorato il modo in cui misuriamo la similarità di sequenza,
possiamo riprendere il concetto di matrice a punti (dot matrix) ed estenderlo
Usando una matrice di sostituzione, possiamo tracciare un punto nella matrice
se la coppia di aminoacidi in esame ha un punteggio nella matrice di sostituzione
superiore a una certa soglia
Questa soglia è detta stringenza; maggiore è la stringenza, più si tenderà ad
accettare solo aminoacidi identici o molto simili nelle due sequenze da
confrontare
In ogni caso, si tracceranno molti più punti rispetto a una dot matrix basata solo
sull’identità fra aminoacidi
E’ necessario quindi utilizzare il criterio delle finestre per ripulire ed evidenziare
le regioni allineate
perché il numero di possibili allineamenti fra due sequenze lunghe n residui è
circa 2
n
Un algoritmo esaustivo per l’allineamento tra due sequenze che sfrutta un
approccio tipo dot-matrix si basa su una tecnica matematica nota come
programmazione dinamica
Algoritmi dinamici (tecnica di programmazione) di allineamento:
**1. Needleman e wunsch= ALLINEAMENTO GLOBALE
Si basano su due assunzioni: ogni colonna dell’allineamento è indipendente dalle
altre; se si estende un allineamento parziale in maniera ottimale di due sequenze
quello che si ottiene è sempre un allineamento ottimale.
Ogni possibile percorso corrisponde a un diverso allineamento.
I percorsi devono partire da una coppia di residui e arrivare all’ultima ( globale ).
Per muoversi da una cella ad un'altra si può andare solo in diagonale verso il
basso (allineare due residui), oppure in verticale verso il basso (quindi
aggiungere un gap alla sequenza Y orizzontale), oppure in orizzontale verso il
basso (aggiungere un gap alla sequenza X verticale).
Valore ottimale della cella: punteggio allineamento ottimale fra le sotto
sequenze.
GP: gap penalty
Score: punteggio della matrice di sostituzione
I valori nelle celle di prima riga e prima colonna conterranno la somma
progressiva della penalità lineare dei gap (es. penalità lineare di un gap è -
2..)àprocesso di INIZIALIZZAZIONE DELLA MATRICE
Si procede poi con la cella corrispondente al primo residuo e poi con tutte le
altre celle in ordine.
Seconda riga e colonna…
L’ultima cella in basso a destra conterrà il valore finale ottimale
dell’allineamento (score cumulativo).
Punteggi ottimali nelle celle.
Per ricostruire l’allineamento migliore si deve memorizzare il percorso disegnato
riempiendo la matrice ovvero qual è la direzione utilizzata per riempire ciascuna
cella.
Si ripercorre a ritroso il percorso dall’ultima cella in basso a destra fino alla prima
in alto a sinistraà BACKTRACKING o TRACEBACK
Confronto fra sequenze divergenti fra loro: uomo con Drosophila, le similarità di
un’origine evolutiva comune sono limitate a una o poche regioni delle sequenze
stesse.
L’allineamento GLOBALE non tiene conto della NATURA MODULARE di proteine
e geni.
Allineamenti locali servono a identificare similarità fra proteine anche diverse,
ma che contengono lo stesso dominio.
Similarità locali: introni/esoni, inserzioni/delezioni trasposoni..
Se due sequenze hanno una regione comune molto simile corta rispetto
all’intera sequenza un allineamento globale potrebbe non accorgersi di questa
regione comune e non includere il suo allineamento nell’allineamento globale
risultante.
Gli allineamenti locali hanno una migliore rispondenza con la realtà funzionale
ma la scelta dipende dal problema che si vuole affrontare.
Anche un allineamento locale può essere descritto come un percorso nella
matrice che però non necessariamente parte dalla prima cella e arriva all’ultima.
L’algoritmo introdotto da Smith e Waterman è basato su una semplice
considerazione: utilizzando matrici di sostituzione come le PAM e le BLOSUM i
punteggi negativi indicano sostituzioni che rendono probabile un’ipotesi di
omologia, viceversa similarità risultanti da una storia evolutiva comune
porteranno ad allineamenti con punteggi positivi.
Implementare nell’algoritmo il calcolo del punteggio dell’allineamento di tutte
le regioni di una sequenza con tutte quelle di una seconda scartando a priori
tutte le coppie che portino ad un allineamento con punteggio negativo:
restituendo come risultato la coppia di regioni il cui allineamento ha punteggio
massimo.
Se il punteggio dell’allineamento partendo da una qualsiasi delle tre alternative
dell’allineamento globale risulta negativo allora questo viene resettato a zero
senza collegare la cella a una di quelle adiacenti.
Identificazione
di
inserzioni/delezioni
ripetizioni
Identificazione
di relazioni evolutive di
omologia
Identificazione di relazioni
evolutive di omologia parziale
(dominio condiviso)
Identificazione
di inserzioni/delezioni
Occorre selezionare preliminarmente geni candidati omologhi e verificando che
la relativa similarità con il gene oggetto di studio sia tale da permettere di
confermare l’ipotesi di una storia evolutiva comune.
Allineare la sequenza da studiare con tutte le sequenze note dello stesso tipo:
scoprire quale sono omologhe a essa.
Per confrontare una sequenza di interesse con una banca dati di sequenze
occorrono approcci più rapidi: algoritmi euristici che permettono di selezionare
quali proteine della banca dati da considerare.
Metodi euristici : crescita esponenziale delle dimensioni delle banche dati ha
portato alla necessità di sviluppare programmi in grado di effettuare
velocemente ricerche di similarità; quindi, un metodo euristico è un metodo che
non garantisce di trovare la soluzione ottimale ma se le assunzioni su cui si basa
sono ragionevoli può comunque produrre soluzioni utili (ricerca veloce a scapito
della certezza di trovare la soluzione migliore).
Il processo è automatizzato è un programma che si occupa di calcolare ciascun
allineamento recuperando una per una le sequenze della banca dati.
I risultati vengono poi presentati in ordine decrescente di similarità: ovvero dalle
sequenze più simili e quindi con più elevata probabilità di essere omologhe fino
a quelle meno simili.
Ricerca per similarità in banca dati : la sequenza di partenza utilizzata come
chiave è detta query.
Programmi che adottano soluzioni di tipo euristico: FASTA e BLAST
FASTA : identificare regioni promettenti cioè porzioni di due sequenze da
confrontare che siano identiche da cui partire per ricostruire l’allineamento.
Se due sequenze non condividono queste regioni promettenti il loro
allineamento non viene portato avanti.
Se ci sono si rifinisce l’allineamento espandendo queste regioni.
In questo modo gli allineamenti si velocizzano e si allineeranno solo le coppie di
sequenze che più verosimilmente si somigliano.
Devo confrontare la query con tutte le sequenze nella banca dati Target.
Procedo confrontando una alla volta: arrivo ad effettuare l’allineamento vero
solo nei casi promettenti.
Solo potenziali omologhi della sequenza query (target) saranno considerati.
Se però c’è una sequenza target omologa alla query che a causa di forte
divergenza non condivide con essa nessuna regione promettente questa andrà
persa.
Bilanciati fra sensibilità e velocità di esecuzione: criteri di definizione delle
regioni promettenti.
La word (ricerca di parole contingue per sola identità) è k-tup che determina il
rapporto tra velocità di esecuzione del programma e sensitività.
Aumentare la k-tup porta a diminuire il background diminuire i tempi di calcolo
e aumentare il rischio di non identificare omologhi distanti.
Per ognuna delle regioni migliori (initial) si identifica un core match a punteggio
massimoàInit1 nell’output
Si valutano nuovi punteggi sommando punteggi delle regioni ottenute
congiungendo match separati e sottraendo eventuali gap penalties.
I nuovi punteggi sono initn.
Si sceglie una banda larga 32 residui intorno al match col migliore punteggio
init1.
Si calcola il nuovo punteggio per l’allineamento ottimale (opt).
o Numero di match migliori
o Banda intorno al match da allineare
o Soglia che decida la qualità minima degli allineamenti dell’output
o Lunghezza della parola con cui si effettua il primo passo
o Se la parola ha lunghezza=1 l’algoritmo diventa lento e funziona in modo
esaustivo, per parole di lunghezza crescente l’algoritmo diventa sempre
più veloce e diminuisce lo spazio degli allineamenti esplorato
PROBLEMA DELLA RIDONDANZA NELLE BANCHE DATI: contengono copie della
stessa sequenza, bisogna ridurre o eliminare la ridondanza per ricerche più
rapide e informative, sequenze che abbiano una percentuale di identità
superiore a una soglia data vengono raggruppate in clusters.