Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


BIOINFORMATICA BIOTECNOLOGIA, Apuntes de Bioinformática

Apunts biotecnologia de la Universitat de Barcelona

Tipo: Apuntes

2018/2019

Subido el 17/07/2019

julialcacer18
julialcacer18 🇪🇸

5

(1)

1 documento

1 / 121

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Bioinformàtica | Variació genètica i evolució molecular
1
1. INTRODUCCIÓ A LA BIOINFORMÀTICA
QUÈ ÉS LA BIOINFORMÀTICA?
Disciplina de la biologia que utilitza dades biològiques i tecnologia per tal d’extreure deduccions a partir
d’algoritmes matemàtics. El seu objectiu és descobrir nous coneixements biològics i crear una perspectiva
global des de la qual unificar els principis de la biologia. Els resultats obtinguts mitjançant aquestes tècniques
s’acceptaran o refutaran mitjançant l’ús d’estadística.
BIOINFORMÀTICA & OMICS
Les metodologies experimentals òmiques són emprades en bioinformàtica per obtenir els resultats que
posteriorment s’analitzaran. A partir d’aquestes tècniques s’obtenen resultats empírics que han de saber-se
interpretar: ni un informàtic ni un biòleg per separat tenen la capacitat de fer-ho. Així doncs, la bioinformàtica
inclou:
Genòmica: RNAseq assemblement
Fa referència a l’estudi massiu de gens; és a dir, a la seqüenciació complerta d’un individu mitjançant l’estudi
del RNA. Per fer aquesta seqüenciació s’agafen moltes mostres de genoma i s’inicia la seqüenciació des de
molts punts diferents. Una vegada seqüenciats diferents trossos del genoma, es busquen els punts de
solapament i s’aconsegueix, mitjançant l’ordenament dels petits fragments, de la seqüenciació complerta. Si
voleu ampliar: Tema 10 de Genètica Humana.
Existeixen dos tipus principals de tipus d’ensamblatge de RNAseq:
1. 454-based sequence data: una de les primeres tecnologies en desenvolupar-se. Aquestes màquines
eren capaces de seqüenciar unes 200.000 seqüències de DNA de 400 parells de bases cadascuna,
aconseguint així 80Mbp de DNA seqüenciat.
2. Illumina-based sequence data: metodologia més moderna i emprada actualment. És capaç de
seqüenciar 500.000.000 seqüències de DNA d’uns 100 parells de base en cada tirada, aconseguint així
unes 50Gbp de DNA seqüenciat. Aquesta màquina costa uns 15.000€.
1
Variació genètica i evolució molecular
BIOINFORMÀTICA
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Vista previa parcial del texto

¡Descarga BIOINFORMATICA BIOTECNOLOGIA y más Apuntes en PDF de Bioinformática solo en Docsity!

1. INTRODUCCIÓ A LA BIOINFORMÀTICA
QUÈ ÉS LA BIOINFORMÀTICA?

Disciplina de la biologia que utilitza dades biològiques i tecnologia per tal d’extreure deduccions a partir d’algoritmes matemàtics. El seu objectiu és descobrir nous coneixements biològics i crear una perspectiva global des de la qual unificar els principis de la biologia. Els resultats obtinguts mitjançant aquestes tècniques s’acceptaran o refutaran mitjançant l’ús d’estadística.

BIOINFORMÀTICA & OMICS

Les metodologies experimentals òmiques són emprades en bioinformàtica per obtenir els resultats que posteriorment s’analitzaran. A partir d’aquestes tècniques s’obtenen resultats empírics que han de saber-se interpretar: ni un informàtic ni un biòleg per separat tenen la capacitat de fer-ho. Així doncs, la bioinformàtica inclou:

Genòmica: RNAseq assemblement

Fa referència a l’estudi massiu de gens; és a dir, a la seqüenciació complerta d’un individu mitjançant l’estudi del RNA. Per fer aquesta seqüenciació s’agafen moltes mostres de genoma i s’inicia la seqüenciació des de molts punts diferents. Una vegada seqüenciats diferents trossos del genoma, es busquen els punts de solapament i s’aconsegueix, mitjançant l’ordenament dels petits fragments, de la seqüenciació complerta. Si voleu ampliar: Tema 10 de Genètica Humana.

Existeixen dos tipus principals de tipus d’ensamblatge de RNAseq:

  1. 454-based sequence data : una de les primeres tecnologies en desenvolupar-se. Aquestes màquines eren capaces de seqüenciar unes 200.000 seqüències de DNA de 400 parells de bases cadascuna, aconseguint així 80Mbp de DNA seqüenciat.
  2. Illumina - based sequence data : metodologia més moderna i emprada actualment. És capaç de seqüenciar 500.000.000 seqüències de DNA d’uns 100 parells de base en cada tirada, aconseguint així unes 50Gbp de DNA seqüenciat. Aquesta màquina costa uns 15.000€.

Variació genètica i evolució molecular

BIOINFORMÀTICA

El genoma humà té uns 3.000.000 de parells de bases, de manera que amb l’acció d’un Illumina es poden seqüenciar 15 genomes en cada tirada. Així, el cost de seqüenciació de un sol genoma és de 15.000€/ genomes. En contraposició, el primer genoma va costar 3.000.000.000€ de seqüenciar.

APLICACIONS DE LA BIOINFORMÀTICA

Seqüenciació de genomes

En aparèixer les tècniques de seqüenciació van iniciar-se dos tipus de projectes: el projecte genoma públic i el projecte genoma privat.

1. Projecte genoma públic

El projecte genoma públic volia seqüenciar tot el genoma complert. Degut a que això es complicat, la idea va ser fer seqüenciacions parcials, és a dir, fragmentar el DNA complert en petits fragments i seqüenciar individualment aquests fragments més petits.

El que s’havia de fer una primera ordenació d’inserts. És a dir, el DNA complert es fragmentava i es clonava en vectors YACs per tal de fer una posterior ordenació d’aquests inserts mitjançant la tècnica explicada anteriorment. Un cop ja s’havien ordenat aquests fragments més grans, i tenien com quedaven organitzats en tot el genoma els fragments dels quals disposaven, es va procedir a fer la seqüenciació parcial d’aquests fragments.

Aquests fragments, doncs, van ser fragmentats altra vegada donant fragments més petits i van ser clonats en vectors de menor capacitat que els YACs. En fer la ordenació d’aquests subinserts, com es coneixia el fragment gran del qual provenien, es va poder fer una seqüenciació completa del genoma

2. Projecte genoma privat

El projecte de genoma privat el que va fer va ser una fragmentació massiva general que va generar directament vectors petits, els quals es van clonar en vectors de baixa capacitat i es van seqüenciar directament. Posteriorment, gràcies a la bioinformàtica es van buscar els solapaments, no pas en el laboratori de la manera que hem dit abans. Com aquest projecte anava per darrera del públic va usar molta informació d’aquest d’aquests. Va servir, però, per demostrar la utilitat de les tècniques en bioinformàtica.

En els dos casos es va requerir molt de temps, especialment per a determinar els solapaments correctes. ESTRATÈGIES DE SEQÜENCIACIÓ: EL PASSAT

PROJECTE GENOMA PÚBLIC PROJECTE GENOMA PRIVAT

1965 - Formació del primer atlas de seqüències i estructures de proteïnes per Margaret O. Doyhoff. 1970 – Definició dels algoritmes per tal de realitzar aliniaments globals per part de Saul B. Needleman i Christian D- Wunsch.

BIOINFORMÀTICA

1981 – Definició dels algoritmes per realitzar aliniaments locals per part de Temple Smith i Michael Waterman.

1990 – Desenvolupament del logaritme anomenat BLAST. Van intervenir Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, David J. Lipman

1989-1991 – Desenvolupament del WWW per part de Tim Berners – Lee.

Una vegada desenvolupades totes aquestes tècniques van començar, l’any 2000, a seqüencia genomes de diferents espècies. La primera seqüenciació complerta es va acabar l’any 2000 i va ser de Drosophila. Un any més tard, al 2001, va seqüenciar-se per complert el genoma humà.

4. TAXA EVOLUTIVA

Fa referència a la velocitat a la qual varia una seqüencia (tant de DNA, RNA com de aminoàcids) i s’obté en funció de dos paràmetres: el valor corregit i el temps de divergència. Ens basarem en l’estudi de seqüències proteïques.

GENÈTICA DE DIVERGÈNCIA

S’estudia mitjançant taules que representen la proporció de diferències en seqüències aminoacídiques entre proteïnes de diferents espècies. D’aquesta taula, la meitat superior representa el percentatge de aminoàcids diferents (la fracció de diferències ), i la meitat inferior representa el valor corregit , que té un nombre generalment major a la fracció de diferències, es dóna en tant per u i representa la distància entre gens (distància evolutiva); així, com major és el percentatge de diferència, major és la distància entre els gens.

TEMPS DE DIVERGÈNCIA

S’estudia mitjançant una representació en forma d’arbre filogenètic que mostra els punts de divergència entre diferents espècies en funció d’un gen concret. El temps de divergència correspondrà als anys transcorreguts des de que es va donar la divergència entre els gens fins a l’actualitat. En l’exemple, el tiburó és l’espècie

ancestralment més antiga i que per tant es va divergir més anteriorment, i es troba a un temps de divergència 150 milions d’anys de totes les espècies representades.

Els resultats obtinguts per a l’estudi del temps de divergència normalment s’obtenen a partir de l’estudi de restes fòssils.

TAXA EVOLUTIVA

S’obté en representar el valor corregit (la mitjana de tots els valors corregits coneguts per al gen estudiat en cada moment en concret) respecte el temps de divergència s’obté la taxa evolutiva , la qual representa una gràfica recta. Aquesta taxa es pot representar per a totes les proteïnes (i, doncs, tots els gens), sempre és recta i l’únic que varia és la velocitat de canvi, és a dir, el pendent d’aquesta recta.

Normalment, existeix una relació directa entre nombre de substitucions d’aminoàcids cada any i el temps necessari per que es dongui el canvi en l’1% de les seqüències de dues espècies ja divergides.

Taxa evolutiva a nivell de DNA

A nivells del DNA, la regió codificadora pot patir dos tipus de canvis:

  1. Canvis sinònims : el canvi de nucleòtid no canvia l’aminoàcid; es dóna principalment en el tercer aminoàcid del codó.
  2. Canvis no sinònims : el canvi provoca canvi en el aminoàcid; el Triptòfan està codificat per un únic codó i qualsevol canvi és no sinònim.

Tal com s’observa, la taxa evolutiva no sinònima és menor que la sinònima. Això és així ja que quan és sinònima, la proteïna es sintetitza igual, permetent el manteniment de la mutació.

Taxa evolutiva a nivell de proteïna

Les proteïnes tenen taxes evolutives molt diferents. Això és així degut al sentit evolutiu, que és diferent en funció de la proteïna. És a dir, per exemple les histones pateixen molts pocs canvis i costa molt que mutin. La histona H2A, per exemple, haurà de d’interaccionar amb 7 altres proteïnes per formar l’octàmer funcional, de manera que molts dels aminoàcids d’aquestes histones estaran limitats a canvis deguts a que seran necessaris per a la interacció d’altres. Així, a major limitació funcional, menor és la taxa evolutiva.

Bioinformàtica J. Rozas

b) T bet (cyt

a)A

Am in o Acid Su bst it u t ion r a t e s

( a m on g m a m m a ls)

TEORIA NEUTRAL DE L’EVOLUCIÓ MOLECULAR

La Teoria neutral de la Evolució molecular considera que la majoria de canvis moleculars (nucleòtids o aa) són deguts a canvis genètics que poden haver-se donat per deriva genètica. Això pot donar-se a nivell intraespecífic (polimorfismes; mutacions segregades entre espècies) i interespecífic (divergència; substitucions) i es tracta de canvis radicals.

5. ELS PROBLEMES DE LA BIOINFORMÀTICA

Els principals problemes amb què es troba la bioinformàtica són:

  1. Reconstrucció filogenètica a. Sampling b. DNA extracció c. DNA sequencing --> assembling d. DNA Database Submission e. MSA (Multiple Sequencing Alignment) f. Interferèncie entre arbres filogenètics
  2. Interferència entre els arbres filogenètics a. Interferència estadística b. Models de DNA i evolució proteïca --> com es tria un model? c. Algoritmes i mètodes filogenètics d. Bases de l’arbre filogenètic
6. MUTACIONS I SUBSTITUCIONS MÚLTIPLES

Existeixen diferents tipus de mutacions, i la classificació més important distingeix entre dos tipus diferents en funció de la naturalesa dels nucleòtids mutats:

1. Transicions : de purina a purina o de pirimidina a pirimidina; el canvi nucleotídic no es important ja que el nombre d’enllaços dobles que es poden formar es manté. 2. Transversions : de purina a pirimidina o viceversa; el canvi nucleotídic és important ja que el nombre d’enllaços que es poden formar varia.

Malgrat això, les mutacions poden ser de molts tipus diferents en funció del canvi que s’observa en comparar dues seqüències ancestralment divergides:

  1. Substitucions simples : ens centrarem en aquestes. En una de les cadenes ha canviat un dels aminoàcids respecte la cadena ancestral.

Variació genètica i evolució molecular

BIOINFORMÀTICA

No es pot repetir la història evolutiva per tal d’estudiar el procés de substitució de nucleòtids, però confiem en models matemàtics que intenten explicar el procés de substitució de nucleòtids que ha portat a les seqüències actuals. Per estudiar aquestes dinàmiques es fan forces hipòtesis sobre la substitució d’un nucleòtid per un altre.

MODEL DE JUKES CANTOR (JC69)

El model de Jukes-Cantor (JC69) , també anomenat model d’un paràmetre, i establert al 1969, considera que cada nucleòtid té la mateixa probabilitat de ser substituït per un altre dels tres en un període determinat de temps. Per tant, determina un únic paràmetre al qual anomena alfa , i que representa la probabilitat de canvi des d’un nucleòtid cap a tots els altres en un període de temps determinat. Aquest model no està acceptat actualment.

En què es basa aquest model? Ens fixarem en dos exemples:

Imaginem que tenim una Adenina, de manera que la probabilitat de tenir Adenina és 1 (sabem que hi ha una Adenina). La probabilitat de que en un futur tornem a trobar Adenina en aquesta posició és 1 menys la probabilitat de que l’A hagi mutat cap a qualsevol dels altres nucleòtids; com la probabilitat de que muti cap a cada nucleòtid és de alfa i n’hi ha tres, tenim: 1 – 3alfa. La probabilitat de que encara més tard tornem a trobar Adenina serà (1-3a)^2 , ja que és la probabilitat de tenir A quan abans no ha mutat; és a dir, és la probabilitat condicionada.

Imaginem ara que volem calcular la probabilitat que en el temps 2 ja no tinguem A. Com la probabilitat de que muti cap a qualsevol altre nucleòtid és de alfa, la probabilitat de no tenir A en el temps 2 és de 3alfa. Per altra banda, la probabilitat de tenir més tard altra vegada A és alfa (ja que implica un únic canvi, des d’un aminoàcid concret a A). La probabilitat conjunta de que passin aquestes dues mutacions serà de 3a^2.

Quan no sabem què és el que ha passat, i volem saber la probabilitat de que en aquest t2 trobem una A, haurem de calcular la suma de la probabilitat de trobar A quan no s’ha donat cap mutació més la probabilitat de trobar A si s’han donat dues mutacions. Per tant, tindríem que la probabilitat de trobar A seria de (1-3a)^2 + 3a^2.

A la vida real observem que el que obtenim no s’ajusta a aquest model. Això és així ja que aquest considera un únic paràmetre, i realment la probabilitat que un nucleòtid muti cap a un altre és diferent en funció del tipus.

Representació del model JC

El model de Jukes-Cantor es basa en una representació de matrius en què s’hi representen les probabilitats de mutació des del nucleòtid representat en la fila cap al nucleòtid representat en la columna per unitat de temps; segons el model i el que s’ha explicat anteriorment, la suma de les files hauria de donar de valor 1.

Exemples de substitucions estudiats en matrius segons JC

MODEL KIMURA (K2P)

Model dels dos paràmetres que va sorgir per tal de explicar perquè el model teòric de Jukes-Cantor no corresponia a la realitat.

Es sap que les transversions muten més lentament que les transicions; és a dir, que les transicions es donen amb major freqüència que les transversions. Partint d’aquest coneixement, Kimura va establir un model per explicar més fiablement el què passava a la realitat, i va establir dos paràmetres. Aquests dos paràmetres, de la mateixa manera que l’alfa del model anterior, representen la probabilitat de canvi des d’un nucleòtid cap a un altre en un període de temps determinat: ßeta per a les transversions i alfa per a les transicions, i on a>ß.

MODEL GENERAL TIME-REVERSIBLE (GTR)

Aplicacions de la correcció de JC Si p=0’1 vol dir que si agafem una seqüència de 100 nucleòtids, 99 són idèntics i 1 és diferent. Si volem saber quants nucleòtids han mutat, sabem que 1 segur; per saber quants, assumint que tots els nucleòtids tenen la mateixa probabilitat de variar, sabem que K serà una mica major.

CANVIS, SUBSTITUCIONS I TAXES

Exemple pràctic: Aplicant la formula veiem que la K entre l’humà i el ximpanzé es de 0’1674, de manera que la distància entre aquestes dues espècies i l’ancestre comú serà la meitat. La taxa de mutació serà per definició la K entre el nombre de anys transcorregut, obtenint així el nombre de substitucions nucleotídiques per anys. En comparar unes altres espècies, el nombre de canvis variaran però la taxa evolutiva no hauria de variar, ja que s’accepta que els canvis moleculars evolutius són constants. Aquest valor de la taxa evolutiva serà constant quan es comparin les K, els valors corregits. oinformàtica J. Rozas

Juk e s a nd Ca nt or ( 1 9 6 9 ) cor r e ct ion

p = 0.01 - > K = 0.01001 (99% identical) p = 0.05 - > K = 0. p = 0.10 -> K = 0. p = 0.15 -> K = 0. p = 0.20 -> K = 0. p = 0.30 -> K = 0. p = 0.40 -> K = 0. p = 0.50 -> K = 0. p = 0.60 -> K = 1.21 (40% identical) p = 0.70 -> K = 2. p = 0.74 -> K = 3. p = 0.749 -> K = 4. Time^ p^ = 0.75 ->^ K : not applicable K p What is the range of p? What is the range of K? oinformàtica J. Rozas

Cha nge s, Subst it ut ions & Ra t e s

Ge n A; 1 2 0 0 bp Human Chimpanzee Mya Gibbon Nucleotide Differences Between Human & Chimpanzee: 180 bp Proportion of Differences Between Human & Chimpanzee: p = 180 / 1200 = 0. Number of Nucleotide Substitutions per site Between Human & Chimpanzee: K = 0.

Nucleotide Substitution Rate Between Human & Chimpanzee: r = 0.0837 / 6,000,000 = 1.395 x 10- Nucleotide Differences Between Human & Gibbon: 473 bp Proportion of Differences Between Human & Gibbon: p = 473 / 1200 = 0. Number of Nucleotide Substitutions per site Between Human & Gibbon: K = 0. Nucleotide Substitutions Rate Between Human & Gibbon: r = 0.279 / 20,000,000 = 1.395 x 10- Nucleotide Substitutions per nucleotide site and per year

Exemple pràctic 2:

En aquest cas abans de començar l’experiment sabem que l’orangutan presenta ancestre comú amb l’humà, però es sap que aquest és anterior al ximpanzé. Per calcular la K, com sabem que la taxa evolutiva és constant, fent comptatge de nombre de nucleòtids diferents, podrem calcular la distància genètica (K) i posteriorment el nombre d’anys passats des de la divergència.

MATRIUS PAM

PAM (Point Accepted Mutations) són matrius basades en l’associació global de proteïnes molt relacionades i defineix la taxa evolutiva de les proteïnes (és a dir, la velocitat de canvi donada com a nombre de nucleòtids canviats per unitat de temps ). Dit d’una altra manera, són matrius de puntuació per a l’alineament de cadenes peptídiques.

Els inventors d’aquestes matrius van definir 34 superfamílies de proteïnes en funció del grau de similitud. Un cop classificades aquestes proteïnes van obtenir les matrius PAM atenent a 71 grups de proteïnes amb més d’un 85% d’identitat (és a dir, de les 34 famílies van fer 71 grups menors amb proteïnes amb més d’un 85% de grau de similitud).

Degut a que els canvis observats són entre proteïnes estretament relacionades, aquests canvis representen substitucions d'aminoàcids que no canvieen de forma significativa la funció de la proteïna, motiu pel qual es coneixen com a mutacions acceptades. Aquestes són definides com a canvis aminoacidics acceptats per la selecció natural.

Un tipus concret de matriu PAM rep el nom de PAM1 i s’obté de la comparació de seqüències amb no més d’un 1% de diferències (99% d’identitat). Així doncs, aquestes matrius mostren la probabilitat de trobar canvis d’un únic nucleòtid en una seqüència de 100aa en una unitat de temps determinada. Si trobem un 8, per exemple, vol dir que tenim un 0’008 de M de canvi de probabilitat des d’un aminoàcid a un altre.

No hi ha cap altre tipus de matriu de puntuació que estigui basat en aquests canvis evolutius. El model evolutiu en que es basen assumeix que les substitucions dels residus observades en un periode breu de temps poden ser extrapolades cap a períodes de temps més grans.

La única matriu de tipus PAM que s’obté amb dades empíriques és la PAM1; totes les altres matrius de tipus PAM s’obtenen com a extrapolació d’aquesta PAM1. Per exemple, PAM250 s’obté multiplicant 250 vegades la PAM1 per si mateixa. El nombre que acompanya les matrius PAM indica la distància evolutiva. Atenent això si el que volem es alinear dues seqüències allunyades evolutivament ens interesa fer una matriu PAM amb un numero elevat, mentre que per alinear seqüències properes caldrà fer servir matrius PAM amb valors baixos.

En la representació d’aquestes matrius, la mitjana de la diagonal ha de donar aproximadament el mateix valor que la identitat que coneixes; i els valors que s’hi representen poden estar sobre 100 o sobre 10000.

Determinació de la substitució d’aminoàcids

Doyhoff’s el que volia era estudiar els canvis d’aminoàcids en contextos filogenètics. Gràcies a aquestes matrius, degut a que coneixem els temps de divergència de les proteïnes, actualment podem conèixer quin és el tipus de mutació que s’ha donat. Hem de tenir en compte que treballem amb seqüències molt conservades i per tant acceptem que no es donen canvis múltiples.

Utilitzant aquestes matrius, però, s’obté una estimació, la més probable, de manera que els resultats no són 100% fiables i pot tenir error.

Exemple:

Nombre de canvis observats (x10) – PAM

En aquesta taula s’hi observen els canvis que es donen d’un nucleòtid a un altre en comparar seqüències amb un 99% d’identitat; no es té en compte el punt del genoma, sinó que compara tots els casos en què s’ha donat substitució d’aa d’un a l’altre entre les seqüències que compares. No es té en compte la direcció de canvi, la filogènia. Així, és indiferent si el canvi s’ha donat des de l’aa1 cap al aa2 o al revés.

Nombre de mutacions puntuals acceptades

Degut a que el valor de substitucions pot estar influenciat pel tipus d’aa i com cada aa té una freqüència en concret, el que ens interessa és la mutabilitat relativa ; és a dir, quant muta un aminoàcid en concret. Aquesta es calcula dividint el nombre de substitucions observades en comparar les seqüències entre la freqüència relativa normalitzada d’un aminoàcid en concret.

Continuem amb la taula anterior, en què havíem determinat que el canvi des de qualsevol aminoàcid cap a Alanina es trobava representat 3644 vegades (inclous el canvi de Ala a Ala). En aquest cas, com coneixem que la freqüència de la Ala és del 87% en el proteoma, calcules: 3644/0’087 = 41885. Al valor de l’Ala se li dóna per conveni la mutabilitat relativa de 100, i les mutabilitats dels altres aminoàcids es determinaran en funció d’aquest valor. Així, com la Mutabilitat relativa de l’Arginina és 1037/0’041 = 25293 tenim que 25293/41885=60 --> mutabilitat relativa del 60% per a la Arginina.

Això ho veiem a continuació:

canvis en la estructura química de l’aminoàcid condicionaran canvis en l’estructura final terciària de la proteïna, de manera que en canviar la estructura final és menys probable que la mutació es mantingui.

IMPORTANT : una semimatriu no està polaritzada de manera que no coneixes la direcció del canvi, la filogènia; una matriu està polaritzada de manera que cada meitat de la matriu indica una de les direccions de canvi.

Matrius de substitució PAM

En aquesta matriu cada valor representa la probabilitat de que l’aminoàcid de la columna hagi estat substituït per l’aminoàcid de la fila en un temps determinat (1 PAM; 1% de canvis entre dues proteïnes). En aquestes, la diagonal que representa la probabilitat que no hi hagi canvi, de manera que la seva mitjana ha de donar 99 aproximadament.

Com hem dit anteriorment, la PAM1 és la única matriu de tipus PAM que s’obté amb dades empíriques. Totes les altres matrius s’obtenen com a extrapolació d’aquesta matriu.

Matrius de substitució PAM

Representa probabilitats del 0% de canvis, de manera que la identitat i, doncs, la diagonal ha de ser 100%.

Matrius de substitució PAM

S’obté multiplicant la matriu PAM1 unes 250 vegades per si mateixa. El que veiem és que com més augmentem el nombre de vegades que multipliquem el valor de PAM1, més augmenta la divergència, fet que s’explica perquè més com més temps passa (cada PAM1 és un temps definit i en multiplicar-la augmentem el temps), més probabilitat de mutació. Arriba un moment, però, en què la identitat i la divergència tendeixen a estabilitzar-se; això és així ja que les mutacions continuen donant-se però poden ser reversibles i per molt temps que passi, tendirem a no veure totes les mutacions que es donen. En les PAM250 assumeixes una identitat aproximada del 20% (és a dir, la identitat tendeix al 20%).

A partir d’aquests valors, calcularem el LODscore (que recordem que era el valor que volíem obtenir per determinar si les seqüències que estudiem són homòlogues o no). Fins ara hem estat definint matrius de substitució, en què determinavem el nombre de canvis observats. A partir d’ara parlarem de les matrius de puntuació a partir dels valors LODscore, en què determinarem la puntuació que s’assigna a cada canvi d’aminoàcid.

2. MESURES DE SIMILITUD: MATRIUS DE PUNTUACIÓ D’AMINOÀCIDS

El valor del LODscore s’obté mitjançant la fórmula de a continuació, on Qi,j fa referència al nombre de canvis observats, i on Pi,j fa referència a la freqüència normalitzada de canvis. Per entendre-ho millor ens basarem en un exemple:

Sabem de la matriu PAM250 que el canvi de W a W (o el que és el mateix, la probabilitat de mantenir la identitat en W) és de Qi,j=55, i per tant de 0’55. De la taula de freqüències normalitzades sabem que Pi,j per a W és de 0’01. Aplicant la fórmula per a Si,j, és a dir, per a Sw,w, obtenim el valor de 17 que quedarà representat en la taula de a continuació.

Aquests valors obtinguts ens serviran per saber si el fet de trobar determinats aminoàcids en comparar la seqüència que tenim amb la de la base de dades ens penalitza més o menys; és a dir, cada parella comparada d’aminoàcids tindrà un LODscore determinat. En sumar tots els valors (tan positius com negatius) obtindrem un valor final, que com major sigui, major serà la probabilitat de que les dues seqüències corresponguin.