Scarica Appunti e dispense di Bioinformatica e più Appunti in PDF di Bioinformatica solo su Docsity!
Esempio di allineamento
- (^) Due regioni simili delle proteine di Drosophila
melanogaster Slit e Notch
970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC ..:.: :. :.: ...:.: .. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC 740 750 760 770 780 790 970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC ..:.: :. :.: ...:.: .. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC 740 750 760 770 780 790
Qualche definizione
Identity : Generalmente espressa come percentuale, proporzione degli amminoacidi identici tra due sequenze allineate. Fortemente dipendente dal modo in cui due sequenze sono state allineate. Similarity
Proporzione di amminoacidi simili. dipende dal criterio
utilizzato per definire amminoacidi simili e dal modo in cui le
due sequenze sono state allineate
Homology
Due proteine sono omologhe se hanno un progenitore in
comune.
non ci sono livelli di omologia: o due proteine sono omologhe o
non lo sono.
Proteine omologhe non necessariamente hanno la stessa
funzione e non necessariamente sono molto simili.
Numero di
allinemanti
ci sono molti modi di allineare due sequenze
ma anche:
CGATGCAGACGTCA
CGATGCAAGACGTCA
CGATGCAGACGTCA
CGATGCAAGACGTCA
CGATGCAGACGTCA
CGATGCAAGACGTCA
CGATGCAGACGTCA
CGATGCAAGACGTCA
- (^) Il numero di possibili allineamenti diversi per due sequenze di mille amminoacidi, se si consentono inserzioni e delezioni è 2 10^600
- (^) (nel giudicare questo numero tenete conto che il numero di atomi totali stimato nell’universo è 10^80 )
ma anche:
CGATGCA-GACGTCA
CGATGCAAGACGTCA
CGATGCA-GACGTCA
CGATGCAAGACGTCA
Valutazione di un
allineamento
intuitiavamente noi capiamo che questo allineamento
e’ meglio di:
CGAGGCACAACGTCA
CGATGCAAGACGTCA
CGAGGCACAACGTCA
CGATGCAAGACGTCA
ATTGGACAGCAATCAGG
ACGATGCAAGACGTCAG
ATTGGACAGCAATCAGG
ACGATGCAAGACGTCAG
- (^) Abbiamo applicato senza accorgercene un criterio di
valutazione o di punteggio che in iglese chiamiamo scoring
system.
Introduzione dell’informazione biologica Possiamo 1)creare una scala di punteggi basata sulle proprieta’ chimico-fisiche degli amminoacidi, tipo dimensioni (punteggio piu’ alto per la sostituzione di una amminoacido piccolo da parte di un altro amminoacido piccolo e piu’ basso per la sostituzione di un amminoacido piccolo con uno grande) idrofobicita’, etc
- osservare delle famiglie di proteine chiaramente omologhe e misurare con che frequenza l’evoluzione ha sostituito un amminoacido con un altro. In entrambi i casi si costruiscono delle matrici di sostituzioni
Matrici di sostituzione (log-odds matrices)
PAM
(Leu, Ile): 2 (Leu, Cys): - ...
- (^) Punteggi positivi:gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso.
- (^) Punteggi negativi:gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe expectedby chance observed log (^) expectedby chance observed log Per una famiglia di proteine ben conosciute: si allineano le sequenze si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr
Durante l’evoluzione di una proteina alcuni amminoacidi
possono essere stati deleti o inseriti.
I programmi di allineamnto devono prevedere la possibilita’
di introdurre gap
GCATGCATGCAACTGCAT
GCATGCATGGGCAACTGCAT
GCATGCATGCAACTGCAT
GCATGCATGGGCAACTGCAT
puo’ essere migliorato inserendo un gap
GCATGCATG--CAACTGCAT
GCATGCATGGGCAACTGCAT
GCATGCATG--CAACTGCAT
GCATGCATGGGCAACTGCAT
ma bisogna evitare troppi gap qualsiasi coppia
di sequenze si puo’ allineare inserendo
molti gap!
-ATG—-AKLPW-P
QA-GMMA---WIP
-ATG—-AKLPW-P
QA-GMMA---WIP
ATGAKLPWP
QAGMMAWIP
ATGAKLPWP
QAGMMAWIP
Gap opening and extension
penalties
CGATGCAGCAGCAGCATCG
CGATGC------AGCATCG
CGATGCAGCAGCAGCATCG
CGATGC------AGCATCG
CGATGCAGCAGCAGCATCG
CG-TG-AGCA-CA--AT-G
CGATGCAGCAGCAGCATCG
CG-TG-AGCA-CA--AT-G
gap opening Gap opening penalty
- (^) Contato ogni volta che si apre un gap gap extension Gap extension penalty
- (^) Contato ogni volta che viene allungato un gap
- (^) Gap opening penalty>> Gap extension penalty
L’apertura di gap deve essere penalizzata.
E ’piu’ ragionevole introdurre un gap piu’ lungo che molti gap corti
perche’ l’evoluzione puo’ aver introdotto o eliminato un certo
numero di amminoacidi in un loop per esempio ma difficilmente
elimina o inserisce un singolo amminoacido piu’ volte
Valutazione statistiva dei
risultati
Valori statistici derivati dagli « score »
- (^) p-value Probabilità che un allineamento con un
certopunteggio si trovi per caso in una certa banca
dati
Più basso è il p-value migliore l’allineamento
- (^) e-value Numero di casi con lo stesso punteggio che si
possono trovare per caso in una certa banca dati
Più vicino a 0 è le-value, migliore è l’allineamento
Tipi di
allineamento
Gli allineamenti possono essere:
Globali:si cerca di allineare tutta la sequenza A con
tutta la sequenza B e si calcola un punteggio
complessivo
Locali:si cerca di allineare dei “pezzi” di A con dei
“pezzi” di B.
ATYRDTYGGFSDRLPATFRETFGGFSDRLPCGATGCAAGACGTCA
ATFRETFGGFSDRLP---------------CGATGCSSA-CGTCA
Un allineamento globale penalizzerebbe troppo la
lunga delezione e ci farebbe perdere di vista la
forte somiglianza fra “i pezzi” blu e rosso