Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Bioinformatica appunti lezioni, Appunti di Bioinformatica

Appunti slide lezione del corso di Bioinformatica

Tipologia: Appunti

2022/2023

Caricato il 05/01/2023

martina-castellucci-1
martina-castellucci-1 🇮🇹

4.4

(7)

6 documenti

1 / 77

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BIOINFO
INTRO
Informazioni funzionali possono essere derivate dalla sequenza o dalla struttura
tridimensionale.
Sequenze note sono molte ma le strutture offrono un livello dettagliato
maggiore.
INFERENZA funzionale: se due entità biologiche di somigliano è verosimile che
abbiano anche funzione simile.
Maggiore è la SIMILARITÀ maggiore è la VEROSOMIGLIANZA che la funzione sia
la stessa.
Omologia= origine evolutiva comune
Analogia= evoluto indipendentemente una stessa soluzione a un problema.
Sequenze di geni di specie moderne sono ancora simili a geni di antenato
comune.
Valutazione statistica: valutare somiglianza quanto si somigliano e quanto la
somiglianza sia dovuta al caso.
Trasferimento dell’informazione: caratterizzazione funzionale di un bene è un
processo lungo e costoso, se si fa la caratterizzazione su una proteina omologa
di un’altra specie si può assumere che le caratteristiche valgono anche per la
proteina umana non caratterizzata.
Il confronto delle sequenze omologhe in più specie è utile per trovare aa
importanti associati alle funzioni poiché più conservati evolutivamente.
Alcune mutazioni possono non alterare la struttura di una proteina.
Es: emoglobina e mioglobina hanno 24% di identità di sequenza ma entrambe
legano gruppo eme e hanno funzioni simili.
Componenti fisiche computer CPU (hardware) programmi (software).
Un programma è una serie di istruzioni che la macchina può eseguire e capire.
Istruzioni> acquisizione input> elaborazione>generazione output
I programmi vengono scritti utilizzando linguaggi (comunicare istruzioni per
svolgere un compito) la macchina può capire istruzioni di livello molto basso.
Codice sorgente>interprete> codice oggetto>output
ALGORITMO: percorso logico, per risolvere un problema un programmatore
può ideare una serie di passaggi che partendo dall’imputato generi l’output
desiderato.
IMPLEMENTAZIONE: quando questo percorso logico viene messo in pratica
tramite software che possiede le istruzioni necessarie per compiere i passaggi.
Software rapidi con tempi di esecuzioni compatibili con progetto di ricerca.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d

Anteprima parziale del testo

Scarica Bioinformatica appunti lezioni e più Appunti in PDF di Bioinformatica solo su Docsity!

BIOINFO

• INTRO

Informazioni funzionali possono essere derivate dalla sequenza o dalla struttura

tridimensionale.

Sequenze note sono molte ma le strutture offrono un livello dettagliato

maggiore.

INFERENZA funzionale : se due entità biologiche di somigliano è verosimile che

abbiano anche funzione simile.

Maggiore è la SIMILARITÀ maggiore è la VEROSOMIGLIANZA che la funzione sia

la stessa.

Omologia = origine evolutiva comune

Analogia = evoluto indipendentemente una stessa soluzione a un problema.

Sequenze di geni di specie moderne sono ancora simili a geni di antenato

comune.

Valutazione statistica : valutare somiglianza quanto si somigliano e quanto la

somiglianza sia dovuta al caso.

Trasferimento dell’informazione : caratterizzazione funzionale di un bene è un

processo lungo e costoso, se si fa la caratterizzazione su una proteina omologa

di un’altra specie si può assumere che le caratteristiche valgono anche per la

proteina umana non caratterizzata.

Il confronto delle sequenze omologhe in più specie è utile per trovare aa

importanti associati alle funzioni poiché più conservati evolutivamente.

Alcune mutazioni possono non alterare la struttura di una proteina.

Es: emoglobina e mioglobina hanno 24% di identità di sequenza ma entrambe

legano gruppo eme e hanno funzioni simili.

Componenti fisiche computer CPU (hardware) programmi (software).

Un programma è una serie di istruzioni che la macchina può eseguire e capire.

Istruzioni—> acquisizione input—> elaborazione—>generazione output

I programmi vengono scritti utilizzando linguaggi (comunicare istruzioni per

svolgere un compito) la macchina può capire istruzioni di livello molto basso.

Codice sorgente—>interprete—> codice oggetto—>output

ALGORITMO : percorso logico, per risolvere un problema un programmatore

può ideare una serie di passaggi che partendo dall’imputato generi l’output

desiderato.

IMPLEMENTAZIONE : quando questo percorso logico viene messo in pratica

tramite software che possiede le istruzioni necessarie per compiere i passaggi.

Software rapidi con tempi di esecuzioni compatibili con progetto di ricerca.

La rapidità dipende da vari fattori: linguaggio abilità programmatore.

Complessità non si preferisce.

O(n): complessità

La complessità viene valutata stimando il numero di operazioni che l’algoritmo

deve seguire dato un certo input contenente n dati e si riporta il numero di

operazioni in funzione di n.

Ci sono algoritmi con complessità lineare o polinomiale (proporzionale a una

potenza di n).

• SIMILARITA’ FRA SEQUENZE

Algoritmi esponenziali: per una proteina di n residui il numero di operazioni

proporzionale a 2^n complessità O(k^n) tempi lunghi

Algoritmi che forniscono la soluzione ottimale: ESATTI

EURISTICI : complessità elevate permettono di sviluppare algoritmi basati su

assunzioni che non garantiscono di trovare la soluzione ottimale ma avviene in

tempi rapidi e buoni.

Similarità implica OMOLOGIA

Ma la similarità è un dato che prescinde da eventuali ipotesi sulla causa dell

similarità stessa e omologia significa che due sequenze condividono una stessa

origine filogenetica.

Ortologhe : sequenze omologhe che sono evolute dalla stessa caratteristica nel

loro ultimo antenato ma che non necessariamente mantengono la loro funzione

ancestrale.

Paraloghe : sequenze omologhe la cui evoluzione riflette eventi di duplicazione

genica (catena alfa e beta emoglobina).

Convergenza adattiva: la similarità può presentarsi anche per caso o per questi

fenomeni.

Es: ala di uccello e di pipistrello si sono evolute indipendentemente e di

conseguenza non sono omologhe

Le varianti dell’usato e H1 sono paraloghe fra di esse in uno stesso genoma.

Geni xenologi : dovute a trasferimento orizzontatale di geni.

Mutazioni sinonime: mutazioni che non cambiano L’aa codificato (3 base di un

codone)

Mutazioni non sinonime: mutazioni che alterano sequenza aa di una proteina.

Superficie: carica o polarità

Core: dimensione è importante

Mutazioni tra Arg lisina sono contro selezionate

Come tra F Y e W o tra Y S T

Allineamenti di sequenza: residui impilati gli uni sugli altri corrispondono a

residui evoluti da uno specifico residuo nella sequenza dell’antenato.

ATTCATAAGGGTCGTCAGTGCTGCAGT

Ma la situazione non è sempre così semplice e spesso è necessario generare tutti

i possibili allineamenti tra due sequenze per poter poi valutare quale sia

l’allineamento migliore

Un metodo semplice per generare tutti i possibili allineamenti tra due sequenze

consiste nel fare scorrere una delle due sequenze rispetto all’altra e nel valutare

la similarità di sequenza di ognuno degli allineamenti generati

Definiamo similarità di sequenza tra le due sequenze come il più alto dei

punteggi ottenibili

L’allineamento associato alla più alta valutazione della similarità di sequenza

verrà scelto come il migliore degli allineamenti possibili

Definiamo similarità di sequenza tra le due sequenze come il più alto dei

punteggi ottenuti (in questo caso = 4), che identifica anche il migliore

allineamento

AAKKQW

AAKQW

In tutto abbiamo valutato 10 (6+5-1) allineamenti e abbiamo fatto 30 (6x5)

confronti di caratteri

In generale, per confrontare due sequenze di lunghezza, rispettivamente m ed

n, senza considerare gaps, il numero degli allineamenti generati N all

è pari alla

somma della lunghezza delle sequenze meno 1

• N

all

= m + n – 1

Il numero dei confronti tra caratteri effettuati, N confronti

, è invece pari al

prodotto delle due lunghezze

N

confronti

= m x n

Quindi per allineare due sequenze di 200 aminoacidi, dobbiamo testare

200+200-1 = 399 allineamenti, e confrontare 200x200 = 40000 residui

Volendo scrivere un programma che faccia tutto questo, i suoi tempi di

esecuzione sarebbero comunque molto veloci

I problemi nascono perchè non stiamo contemplando ancora la possibilità che

nel corso dell’evoluzione ci siano state aggiunte o perdite di residui in una

sequenza rispetto all’altra

Inoltre spesso non vogliamo solo confrontare due sequenze, ma confrontare

una sequenza contro un’ampia collezione di sequenze in una banca dati

Questo è il migliore allineamento ottenibile facendo scorrere queste due

sequenze una sull’altra.

Considerando l’inserimento e/o la delezione di caratteri ( gaps ) l’allineamento

migliora:

IPLMTRWDQEQE--SIYTREWCTRG

VQRAASTRWDQEQEWWSIYTREWCTRG

Per il principio di parsimonia, preferiamo comunque allineamenti con pochi

gaps, quindi dobbiamo tenere conto di questo nella funzione di scoring

Potremmo aggiungere una penalità punteggio negativo) al nostro sistema di

punteggio per sfavorire allineamenti con tanti gaps, e bisognerebbe anche

tenere conto dell’estensione (quanto sono lunghi) dei gaps

Si vuole penalizzare l’apertura di un gap, ma anche la sua estensione

Una penalità da associare ai gaps in un allineamento deve tenere conto di questi

due fattori: numero di gaps e loro estensione

Possiamo associare un punteggio di penalizzazione (gap opening penalty) per

ogni gap aggiunto all’allineamento

E attribuire un punteggio di penalizzazione diverso per l’apertura di un gap

nell’allineamento o per il suo allungamento (gap extension penalty)

Il punto viene posizionato al centro della finestra.

La soglia minima di identità delle finestre è ovviamente importante per

identificare tratti simili fra di loro.

Proteine e soprattutto acidi nucleici contengono spesso sequenze che si

ripetono simili o anche identiche più volte nella sequenza

Nel genoma degli eucarioti superiori, circa metà della sequenza è ripetitiva, cioè

trova da qualche parte nel genoma almeno una sequenza simile

Nelle proteine, alcuni domini possono essere contenuti più di una volta nella

stessa proteina

Cosa succede quando si disegna una dot-matrix per due sequenze che hanno

entrambe lo stesso dominio presente due volte in ciascuna?

La presenza di regioni di sequenza ripetute in più punti della sequenza causa

segmenti nella dot-matrix paralleli alla diagonale

Riassumendo:

Abbiamo introdotto i concetti di similarità e di allineamento tra biosequenze

Abbiamo visto che per generare e valutare il miglior allineamento di due

sequenze di lunghezza m e n, è necessario effettuare mxn confronti fra caratteri

Il numero di operazioni da effettuare cresce e i tempi di calcolo di conseguenza

si allungano se si vogliono considerare anche i possibili gaps in tutte le posizioni

(e di tutte le lunghezze possibili) di entrambe le sequenze

Noi VOGLIAMO considerare i gap , ma non POSSIAMO permetterci algoritmi che

considerino tutti i possibili gaps in tutte le possibili posizioni e di tutte le

possibile lunghezze

Gli allineamenti possono essere visualizzati graficamente in modo rapido (con

algoritmi dell’ordine di mxn) con matrici di punti ( dot matrices )

Gli allineamenti migliori vengono visualizzati come segmenti di retta paralleli alla

diagonale della matrice e possono essere valutati con un punteggio correlato

alla loro lunghezza

I gaps negli allineamenti possono essere visualizzati come salti di diagonale nelle

matrici di punti

I gaps possono essere penalizzati con punteggi che dipendono dal numero e

dall’estensione dei gap stessi ( gap penalty e gap extension penalty )

Potremmo raggruppare residui in classi a seconda della similarità delle loro

caratteristiche chimico-fisiche, e sommare 1 al punteggio per appaiamenti di

residui della stessa classe e sottrarre 1 per residui di classi diverse

Possiamo però andare oltre: gli allineamenti e il calcolo della similarità

potrebbero essere notevolmente migliorati dall’introduzione di schemi di

punteggio diversi da 0 e da 1 per l’appaiamento di residui amminoacidici

Si potrebbero per esempio prevedere punteggi alti per l’identità tra coppie di

residui, punteggi un po’ più bassi ma >0 per residui simili dal punto di vista

chimico-fisico

Punteggi invece negativi (o uguali a 0) per residui diversi dal punto di vista

chimico-fisico

Vorremmo calcolare il costo di sostituire un aminoacido con un altro

guardandone la frequenza di sostituzione, cioè quante volte in proteine

omologhe queste sostituzioni avvengono e sono tollerate.

Dobbiamo calcolare questi valori in maniera opportuna e accurata e costruire

quella che si chiama Matrice di Sostituzione

Margaret Dayhoff raccolse statistiche sulle frequenze di sostituzioni

amminoacidiche nelle sequenze proteiche allora note

Via via che le sequenze divergono, le mutazioni si accumulano

Per misurare la probabilità relativa di una particolare sostituzione (per esempio

Asp--> Glu) possiamo contare quanti Asp sono diventati Glu in allineamenti di

sequenze omologhe

Per stabilire quali fossero le sostituzioni trovate più di frequente in sequenze

omologhe, furono analizzate 1572 mutazioni in alberi filogenetici di 71 diverse

famiglie di proteine. Due sequenze della stessa famiglia presentavano almeno

l’85% di identità.

Le sequenze erano sufficientemente simili da poter essere allineate

accuratamente “a mano”

Per ogni mutazione, calcola il log odd ratio: log (Osservati/attesi)

MATRICI DI SOSTITUZIONE MATRICI DI PUNTI

Associano un punteggio ad ogni

coppia di residui sono matrici

quadrate e simmetriche che

contengono 20x20=400 valori

Grafici che consentono di mettere in

evidenza zone di identità tra sequenze

diverse; se una sequenza è lunga m

caratteri e l’altra sequenza è lunga n

caratteri la matrice di punti sarà

rettangolare e di dimensione m x n

Per semplicità, estrapoliamo solo le righe e le colonne di una matrice di

sostituzione che ci servono per valutare un allineamento come quello scelto

A K Q R W

A 2 - 1 0 - 2 - 6

K 5 1 3 - 3

Q 4 1 - 5

R 6 2

W 17

Punteggio: 2+3+5+4+17=

Manca però ancora una cosa per avere uno schema di punteggi ideale: le

penalità per i gaps.

Come prima possiamo considerare:

Penalità per l'apertura di un gap = - 1

Penalità per l'estensione di un gap = - 0.

E’ comunque necessario evitare di considerare allineamenti in cui possano

essere avvenute sostituzioni multiple in determinate posizioni

Per cui questi calcoli devono venire effettuati su coppie di sequenze MOLTO

SIMILI tra loro, in modo ad esempio da poter assumere che nessuna posizione è

mutata più di una volta

La divergenza di due sequenze si può misurare in PAM:

1 PAM = 1 Percent Accepted Mutation

Due sequenze sono separate da 1 PAM se hanno il 99% di identità

La matrice così costruita da sequenze separate da 1 PAM è derivata dalle

probabilità di sostituzione di un singolo residuo su cento in sequenze omologhe,

ovvero un singolo passo evolutivo, per cui viene detta PAM1.

Ovviamente, a una distanza così piccola le sostituzioni saranno poche, in quanto

per ogni amminoacido sarà molto più probabile che esso non venga sostituito.

Poiché gli allineamenti vengono calcolati per sequenze molto più divergenti

dell’1%, sarebbe più opportuno utilizzare matrici che riassumano le probabilità

di sostituzione osservabili in sequenze meno conservate.

L’idea fu quella di simulare una serie di passi evolutivi successivi moltiplicando

la matrice PAM1 per se stessa, sotto l’assunzione di indipendenza tra tempi

evolutivi. Eseguendo questa operazione 100 volte otteniamo una matrice

PAM100, in cui la distanza evolutiva è appunto di 100 passi.

E’ importante precisare che questo non significa che il 100% delle sequenze sarà

mutato, ma che la matrice corrisponde alle sostituzioni trovate dopo 100 passi

evolutivi, in ognuno dei quali viene sostituito l’1% degli amminoacidi rispetto al

risultato del passo precedente – con la possibilità che molte sostituzioni cadano

su posizioni già variate ai passi precedenti.

La moltiplicazione di matrici è il prodotto righe per colonne tra due matrici, che

dà luogo ad un'altra matrice.

PAM 0 1 30 80 110 200 250

%identità 100 99 75 60 50 25 20

Se due sequenze sono filogeneticamente distanti è opportuno usare matrici

PAM con indici più alti, e viceversa

Le più usate matrici di sostituzione di tipo PAM sono la PAM120 e la PAM250,

che si utilizzano per ottimizzare allineamenti tra sequenze che abbiano circa il

50% o il 20% di identità di sequenza

A C D E F G H I K L

La frequenza osservata q(i,j) con la quale gli aminoacidi i e j sono allineati è il

numero di volte in cui una coppia delle sequenze nell’allineamento ha quei due

aminoacidi allineati uno sull’altro

L’esempio ha 2 blocchi con in totale 8 colonne, formato da 3 coppie di sequenze

Gli aminoacidi C e D si trovano allineati in due coppie di sequenze, quindi fa

frequenza di avere C e D allineate q(C,D) = 2 / (8 * 3)

Si possono ottenere BLOSUM tarate per differenti distanze evolutive grazie al

raggruppamento di sequenze di blocchi identiche o simili, in modo da farle

pesare di meno nel computo totale, e scegliendo un rappresentante per ogni

gruppo (o una media)

Esistono quindi diverse BLOSUM, indicate da un numero che descrive il tasso di

similarità utilizzato per questo raggruppamento delle sequenze simili. Ad es. la

BLOSUM80 si ottiene raggruppando blocchi identici all’80%.

Più il numero della BLOSUM è grande, più è adatta a distanze evolutive piccole.

La BLOSUM62 equivale alla PAM250.

Al di là dei calcoli, le matrici PAM e quelle BLOSUM partono da due presupposti

diversi.

Nelle PAM, il modello assume che le sostituzioni osservate a grandi distanze

evolutive siano l’effetto di una serie di singole mutazioni indipendenti, stimando

la probabilità di ciascuna di esse. In questo modo, ad esempio, la matrice

PAM250 è ricavata da 250 applicazioni consecutive della matrice PAM1.

Viceversa, le matrici BLOSUM partono direttamente dall’osservazione di

sequenze conservate a diversi livelli di divergenza, senza ulteriori assunzioni

Inoltre, i numeri associati alle diverse matrici hanno significato diametralmente

opposto: maggiore sarà il numero di una matrice PAM, maggiore sarà la

divergenza tra le sequenze usate per stimare le probabilità di sostituzione,

mentre per le matrici BLOSUM al crescere del numero crescerà la similarità

(misurata come percentuale di identità) tra le sequenze utilizzate per la

costruzione della matrice.

In entrambi i casi, comunque, esiste un numero non trascurabile di sostituzioni

per cui il punteggio associato nella matrice è positivo, indice del fatto che,

sebbene sia avvenuta una mutazione, questa è solitamente trovata con

frequenza superiore al caso nell’evoluzione di sequenze omologhe appartenenti

alla stessa famiglia. Queste sono solitamente dette sostituzioni conservative.

A questo punto potrebbe sembrare complicato scegliere quale matrice sia più

adatta ai diversi casi di studio. Negli anni le diverse matrici sono state applicate

ai più disparati casi di studio: l’orientamento generale sembra essere di preferire

le matrici BLOSUM, soprattutto per quanto riguarda le ricerche in banca dati

basate su similarità di sequenza che costituiscono forse l’applicazione più

comune degli algoritmi di allineamento.

Tipicamente, tutti i programmi di allineamento hanno impostata una matrice di

sostituzione di default , che gli sviluppatori del metodo ritengono essere quella

più idonea per la maggior parte degli allineamenti calcolati.

Per la maggior parte delle applicazioni, i risultati possono essere ritenuti

affidabili mantenendo inalterata la scelta degli sviluppatori dei metodi di

allineamento, senza necessariamente dovere studiare in dettaglio la variazione

dei risultati a seconda delle matrici.

Ora che abbiamo migliorato il modo in cui misuriamo la similarità di sequenza,

possiamo riprendere il concetto di matrice a punti (dot matrix) ed estenderlo

Usando una matrice di sostituzione, possiamo tracciare un punto nella matrice

se la coppia di aminoacidi in esame ha un punteggio nella matrice di sostituzione

superiore a una certa soglia

Questa soglia è detta stringenza; maggiore è la stringenza, più si tenderà ad

accettare solo aminoacidi identici o molto simili nelle due sequenze da

confrontare

In ogni caso, si tracceranno molti più punti rispetto a una dot matrix basata solo

sull’identità fra aminoacidi

E’ necessario quindi utilizzare il criterio delle finestre per ripulire ed evidenziare

le regioni allineate

perché il numero di possibili allineamenti fra due sequenze lunghe n residui è

circa 2

n

Un algoritmo esaustivo per l’allineamento tra due sequenze che sfrutta un

approccio tipo dot-matrix si basa su una tecnica matematica nota come

programmazione dinamica

• COME SI ALLINEANO DUE SEQUENZE?

Algoritmi dinamici (tecnica di programmazione) di allineamento:

**1. Needleman e wunsch= ALLINEAMENTO GLOBALE

  1. Smith e Waterman= ALLINEAMENTO LOCALE**

Si basano su due assunzioni: ogni colonna dell’allineamento è indipendente dalle

altre; se si estende un allineamento parziale in maniera ottimale di due sequenze

quello che si ottiene è sempre un allineamento ottimale.

Ogni possibile percorso corrisponde a un diverso allineamento.

I percorsi devono partire da una coppia di residui e arrivare all’ultima ( globale ).

Per muoversi da una cella ad un'altra si può andare solo in diagonale verso il

basso (allineare due residui), oppure in verticale verso il basso (quindi

aggiungere un gap alla sequenza Y orizzontale), oppure in orizzontale verso il

basso (aggiungere un gap alla sequenza X verticale).

Valore ottimale della cella: punteggio allineamento ottimale fra le sotto

sequenze.

GP: gap penalty

Score: punteggio della matrice di sostituzione

I valori nelle celle di prima riga e prima colonna conterranno la somma

progressiva della penalità lineare dei gap (es. penalità lineare di un gap è -

2..)àprocesso di INIZIALIZZAZIONE DELLA MATRICE

Si procede poi con la cella corrispondente al primo residuo e poi con tutte le

altre celle in ordine.

Seconda riga e colonna…

L’ultima cella in basso a destra conterrà il valore finale ottimale

dell’allineamento (score cumulativo).

Punteggi ottimali nelle celle.

Per ricostruire l’allineamento migliore si deve memorizzare il percorso disegnato

riempiendo la matrice ovvero qual è la direzione utilizzata per riempire ciascuna

cella.

Si ripercorre a ritroso il percorso dall’ultima cella in basso a destra fino alla prima

in alto a sinistraà BACKTRACKING o TRACEBACK

Confronto fra sequenze divergenti fra loro: uomo con Drosophila, le similarità di

un’origine evolutiva comune sono limitate a una o poche regioni delle sequenze

stesse.

L’allineamento GLOBALE non tiene conto della NATURA MODULARE di proteine

e geni.

Allineamenti locali servono a identificare similarità fra proteine anche diverse,

ma che contengono lo stesso dominio.

Similarità locali: introni/esoni, inserzioni/delezioni trasposoni..

Se due sequenze hanno una regione comune molto simile corta rispetto

all’intera sequenza un allineamento globale potrebbe non accorgersi di questa

regione comune e non includere il suo allineamento nell’allineamento globale

risultante.

Gli allineamenti locali hanno una migliore rispondenza con la realtà funzionale

ma la scelta dipende dal problema che si vuole affrontare.

Anche un allineamento locale può essere descritto come un percorso nella

matrice che però non necessariamente parte dalla prima cella e arriva all’ultima.

L’algoritmo introdotto da Smith e Waterman è basato su una semplice

considerazione: utilizzando matrici di sostituzione come le PAM e le BLOSUM i

punteggi negativi indicano sostituzioni che rendono probabile un’ipotesi di

omologia, viceversa similarità risultanti da una storia evolutiva comune

porteranno ad allineamenti con punteggi positivi.

Implementare nell’algoritmo il calcolo del punteggio dell’allineamento di tutte

le regioni di una sequenza con tutte quelle di una seconda scartando a priori

tutte le coppie che portino ad un allineamento con punteggio negativo:

restituendo come risultato la coppia di regioni il cui allineamento ha punteggio

massimo.

Se il punteggio dell’allineamento partendo da una qualsiasi delle tre alternative

dell’allineamento globale risulta negativo allora questo viene resettato a zero

senza collegare la cella a una di quelle adiacenti.

Identificazione

di

inserzioni/delezioni

ripetizioni

Identificazione

di relazioni evolutive di

omologia

Identificazione di relazioni

evolutive di omologia parziale

(dominio condiviso)

Identificazione

di inserzioni/delezioni

Occorre selezionare preliminarmente geni candidati omologhi e verificando che

la relativa similarità con il gene oggetto di studio sia tale da permettere di

confermare l’ipotesi di una storia evolutiva comune.

Allineare la sequenza da studiare con tutte le sequenze note dello stesso tipo:

scoprire quale sono omologhe a essa.

Per confrontare una sequenza di interesse con una banca dati di sequenze

occorrono approcci più rapidi: algoritmi euristici che permettono di selezionare

quali proteine della banca dati da considerare.

Metodi euristici : crescita esponenziale delle dimensioni delle banche dati ha

portato alla necessità di sviluppare programmi in grado di effettuare

velocemente ricerche di similarità; quindi, un metodo euristico è un metodo che

non garantisce di trovare la soluzione ottimale ma se le assunzioni su cui si basa

sono ragionevoli può comunque produrre soluzioni utili (ricerca veloce a scapito

della certezza di trovare la soluzione migliore).

Il processo è automatizzato è un programma che si occupa di calcolare ciascun

allineamento recuperando una per una le sequenze della banca dati.

I risultati vengono poi presentati in ordine decrescente di similarità: ovvero dalle

sequenze più simili e quindi con più elevata probabilità di essere omologhe fino

a quelle meno simili.

Ricerca per similarità in banca dati : la sequenza di partenza utilizzata come

chiave è detta query.

Programmi che adottano soluzioni di tipo euristico: FASTA e BLAST

FASTA : identificare regioni promettenti cioè porzioni di due sequenze da

confrontare che siano identiche da cui partire per ricostruire l’allineamento.

Se due sequenze non condividono queste regioni promettenti il loro

allineamento non viene portato avanti.

Se ci sono si rifinisce l’allineamento espandendo queste regioni.

In questo modo gli allineamenti si velocizzano e si allineeranno solo le coppie di

sequenze che più verosimilmente si somigliano.

Devo confrontare la query con tutte le sequenze nella banca dati Target.

Procedo confrontando una alla volta: arrivo ad effettuare l’allineamento vero

solo nei casi promettenti.

Solo potenziali omologhi della sequenza query (target) saranno considerati.

Se però c’è una sequenza target omologa alla query che a causa di forte

divergenza non condivide con essa nessuna regione promettente questa andrà

persa.

Bilanciati fra sensibilità e velocità di esecuzione: criteri di definizione delle

regioni promettenti.

La word (ricerca di parole contingue per sola identità) è k-tup che determina il

rapporto tra velocità di esecuzione del programma e sensitività.

Aumentare la k-tup porta a diminuire il background diminuire i tempi di calcolo

e aumentare il rischio di non identificare omologhi distanti.

Per ognuna delle regioni migliori (initial) si identifica un core match a punteggio

massimoàInit1 nell’output

Si valutano nuovi punteggi sommando punteggi delle regioni ottenute

congiungendo match separati e sottraendo eventuali gap penalties.

I nuovi punteggi sono initn.

Si sceglie una banda larga 32 residui intorno al match col migliore punteggio

init1.

Si calcola il nuovo punteggio per l’allineamento ottimale (opt).

o Numero di match migliori

o Banda intorno al match da allineare

o Soglia che decida la qualità minima degli allineamenti dell’output

o Lunghezza della parola con cui si effettua il primo passo

o Se la parola ha lunghezza=1 l’algoritmo diventa lento e funziona in modo

esaustivo, per parole di lunghezza crescente l’algoritmo diventa sempre

più veloce e diminuisce lo spazio degli allineamenti esplorato

PROBLEMA DELLA RIDONDANZA NELLE BANCHE DATI: contengono copie della

stessa sequenza, bisogna ridurre o eliminare la ridondanza per ricerche più

rapide e informative, sequenze che abbiano una percentuale di identità

superiore a una soglia data vengono raggruppate in clusters.