Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti e dispense di Bioinformatica, Appunti di Bioinformatica

Appunti e dispense di Bioinformatica

Tipologia: Appunti

2018/2019

Caricato il 31/08/2019

annalisa.capano
annalisa.capano 🇮🇹

2 documenti

1 / 14

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Esempio di allineamento
Due regioni simili delle proteine di Drosophila
melanogaster Slit e Notch
970 980 990 1000 1010 1020
SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC
..:.: :. :.: ...:.: .. : :.. : ::.. . :.: ::..:. :. :. :
NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC
740 750 760 770 780 790
970 980 990 1000 1010 1020
SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC
..:.: :. :.: ...:.: .. : :.. : ::.. . :.: ::..:. :. :. :
NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC
740 750 760 770 780 790
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Anteprima parziale del testo

Scarica Appunti e dispense di Bioinformatica e più Appunti in PDF di Bioinformatica solo su Docsity!

Esempio di allineamento

  • (^) Due regioni simili delle proteine di Drosophila

melanogaster Slit e Notch

970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC ..:.: :. :.: ...:.: .. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC 740 750 760 770 780 790 970 980 990 1000 1010 1020 SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC ..:.: :. :.: ...:.: .. : :.. : ::... :.: ::..:. :. :. : NOTC_DROME YKCECPRGFYDAHCLSDVDECASN-PCVNEGRCEDGINEFICHCPPGYTGKRCELDIDEC 740 750 760 770 780 790

Qualche definizione

Identity : Generalmente espressa come percentuale, proporzione degli amminoacidi identici tra due sequenze allineate. Fortemente dipendente dal modo in cui due sequenze sono state allineate. Similarity

Proporzione di amminoacidi simili. dipende dal criterio

utilizzato per definire amminoacidi simili e dal modo in cui le

due sequenze sono state allineate

Homology

Due proteine sono omologhe se hanno un progenitore in

comune.

non ci sono livelli di omologia: o due proteine sono omologhe o

non lo sono.

Proteine omologhe non necessariamente hanno la stessa

funzione e non necessariamente sono molto simili.

Numero di

allinemanti

ci sono molti modi di allineare due sequenze

ma anche:

CGATGCAGACGTCA

CGATGCAAGACGTCA

CGATGCAGACGTCA

CGATGCAAGACGTCA

CGATGCAGACGTCA

CGATGCAAGACGTCA

CGATGCAGACGTCA

CGATGCAAGACGTCA

  • (^) Il numero di possibili allineamenti diversi per due sequenze di mille amminoacidi, se si consentono inserzioni e delezioni è 2 10^600
  • (^) (nel giudicare questo numero tenete conto che il numero di atomi totali stimato nell’universo è 10^80 )

ma anche:

CGATGCA-GACGTCA

CGATGCAAGACGTCA

CGATGCA-GACGTCA

CGATGCAAGACGTCA

Valutazione di un

allineamento

intuitiavamente noi capiamo che questo allineamento

e’ meglio di:

CGAGGCACAACGTCA

CGATGCAAGACGTCA

CGAGGCACAACGTCA

CGATGCAAGACGTCA

ATTGGACAGCAATCAGG

ACGATGCAAGACGTCAG

ATTGGACAGCAATCAGG

ACGATGCAAGACGTCAG

  • (^) Abbiamo applicato senza accorgercene un criterio di

valutazione o di punteggio che in iglese chiamiamo scoring

system.

Introduzione dell’informazione biologica Possiamo 1)creare una scala di punteggi basata sulle proprieta’ chimico-fisiche degli amminoacidi, tipo dimensioni (punteggio piu’ alto per la sostituzione di una amminoacido piccolo da parte di un altro amminoacido piccolo e piu’ basso per la sostituzione di un amminoacido piccolo con uno grande) idrofobicita’, etc

  1. osservare delle famiglie di proteine chiaramente omologhe e misurare con che frequenza l’evoluzione ha sostituito un amminoacido con un altro. In entrambi i casi si costruiscono delle matrici di sostituzioni

Matrici di sostituzione (log-odds matrices)

PAM

(Leu, Ile): 2 (Leu, Cys): - ...

  • (^) Punteggi positivi:gli amminoacidi sono stati considerati simili dall’evoluzione e sono stati sostituiti l’uno nell’altro piu’ frequentemente di quando sarebbe accaduto per caso.
  • (^) Punteggi negativi:gli amminoacidi sono stati considerati dissimili dall’evoluzione e sono stati sostituiti l’uno nell’altro meno frequentemente di quanto sarebbe         expectedby chance observed log (^)        expectedby chance observed log Per una famiglia di proteine ben conosciute: si allineano le sequenze si contano le mutazioni ad ogni posizione si calcola il numero di volte che per esempio ser e’ sostiuta da thr e si divide per la frequenza di ser e di thr, cioe’ per la numero di volte atteso per una sostituzoione casuale di ser in thr

Durante l’evoluzione di una proteina alcuni amminoacidi

possono essere stati deleti o inseriti.

I programmi di allineamnto devono prevedere la possibilita’

di introdurre gap

GCATGCATGCAACTGCAT

GCATGCATGGGCAACTGCAT

GCATGCATGCAACTGCAT

GCATGCATGGGCAACTGCAT

puo’ essere migliorato inserendo un gap

GCATGCATG--CAACTGCAT

GCATGCATGGGCAACTGCAT

GCATGCATG--CAACTGCAT

GCATGCATGGGCAACTGCAT

ma bisogna evitare troppi gap qualsiasi coppia

di sequenze si puo’ allineare inserendo

molti gap!

-ATG—-AKLPW-P

QA-GMMA---WIP

-ATG—-AKLPW-P

QA-GMMA---WIP

ATGAKLPWP

QAGMMAWIP

ATGAKLPWP

QAGMMAWIP

Gap opening and extension

penalties

CGATGCAGCAGCAGCATCG

CGATGC------AGCATCG

CGATGCAGCAGCAGCATCG

CGATGC------AGCATCG

CGATGCAGCAGCAGCATCG

CG-TG-AGCA-CA--AT-G

CGATGCAGCAGCAGCATCG

CG-TG-AGCA-CA--AT-G

gap opening Gap opening penalty

  • (^) Contato ogni volta che si apre un gap gap extension Gap extension penalty
  • (^) Contato ogni volta che viene allungato un gap
  • (^) Gap opening penalty>> Gap extension penalty

L’apertura di gap deve essere penalizzata.

E ’piu’ ragionevole introdurre un gap piu’ lungo che molti gap corti

perche’ l’evoluzione puo’ aver introdotto o eliminato un certo

numero di amminoacidi in un loop per esempio ma difficilmente

elimina o inserisce un singolo amminoacido piu’ volte

Valutazione statistiva dei

risultati

Valori statistici derivati dagli « score »

  • (^) p-value Probabilità che un allineamento con un

certopunteggio si trovi per caso in una certa banca

dati

Più basso è il p-value migliore l’allineamento

  • (^) e-value Numero di casi con lo stesso punteggio che si

possono trovare per caso in una certa banca dati

Più vicino a 0 è le-value, migliore è l’allineamento

Tipi di

allineamento

Gli allineamenti possono essere:

Globali:si cerca di allineare tutta la sequenza A con

tutta la sequenza B e si calcola un punteggio

complessivo

Locali:si cerca di allineare dei “pezzi” di A con dei

“pezzi” di B.

ATYRDTYGGFSDRLPATFRETFGGFSDRLPCGATGCAAGACGTCA

ATFRETFGGFSDRLP---------------CGATGCSSA-CGTCA

Un allineamento globale penalizzerebbe troppo la

lunga delezione e ci farebbe perdere di vista la

forte somiglianza fra “i pezzi” blu e rosso