Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Relazione Bioinformatica, Prove d'esame di Bioinformatica

relazione completa con esercizi e spiegazione tipologia C

Tipologia: Prove d'esame

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 19/05/2021

Aissela_3
Aissela_3 🇮🇹

4.5

(6)

5 documenti

1 / 27

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Università Politecnica delle Marche
Corso di Laurea Magistrale
Biologia Molecolare e Applicata
RELAZIONE BIOINFORMATICA
Tipologia C
Codice proteina: 1V7Z
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
Discount

In offerta

Anteprima parziale del testo

Scarica Relazione Bioinformatica e più Prove d'esame in PDF di Bioinformatica solo su Docsity!

Università Politecnica delle Marche

Corso di Laurea Magistrale

Biologia Molecolare e Applicata

RELAZIONE BIOINFORMATICA

Tipologia C

Codice proteina: 1V7Z

1. Riportare il nome della proteina e una breve descrizione della funzione

Il mio codice PDB corrisponde ad un complesso prodotto con creatininasi. Quest’enzima catalizza la conversione reversibile della creatinina in creatina ed è stato trovato in Pseudomonas putida. La creatina viene metabolizzata dalla creatinasi per produrre urea e sarcosina, che viene ulteriormente degradata dalla sarcosina deidrogenasi in glicina e formaldeide che sarà ossidata dalla formaldeide deidrogenasi. Poiché la concentrazione di creatinina è proporzionale alla massa muscolare e la creatinina viene filtrata solo glomerularmente, l'analisi delle concentrazioni di creatinina sierica e urinaria è importante per valutare la funzione renale.

2. Recuperare le sequenze amminoacidica e nucleotidica corrispondente

La creatinina amidoidrolasi è un omo-esamero le cui catene sono formate da una sequenza lunga 260 amminoacidi SEQUENZA AMMINOACIDICA

1V7Z_1|Chains A,B,C,D,E,F|creatinine amidohydrolase|Pseudomonas sp. (306) MSKSVFVGELTWKEYEARVAAGDCVLMLPVGALEQHGHHMCMNVDVLLPTAVCKRVAERIGALVMPGLQYGYKSQQKSGGGNHFP GTTSLDGATLTGTVQDIIRELARHGARRLVLMNGHYENSMFIVEGIDLALRELRYAGIQDFKVVVLSYWDFVKDPAVIQQLYPEGFLGW DIEHGGVFETSLMLALYPDLVDLDRVVDHPPATFPPYDVFPVDPARTPAPGTLSSAKTASREKGELILEVCVQGIADAIREEFPPT SEQUENZA NUCLEOTIDICA ENA|BAA08265|BAA08265.1 Pseudomonas sp. PS-7 creatinine amidohydrolase ATGAGCAAGAGTGTTTTTGTAGGTGAGCTGACCTGGAAGGAGTACGAGGCGCGTGTCGCG GCAGGTGACTGCGTGCTCATGCTGCCGGTCGGCGCCCTGGAACAGCACGGCCATCACATG TGCATGAACGTCGATGTGCTGCTGCCCACGGCGGTGTGCAAGCGGGTCGCCGAGCGCATT GGTGCGCTGGTCATGCCGGGGCTGCAGTACGGCTACAAGTCCCAGCAGAAGTCCGGCGGC GGCAATCACTTCCCCGGCACCACCAGCCTGGATGGCGCCACCCTGACTGGCACGGTGCAG GACATCATCCGCGAGCTGGCGCGCCATGGTGCGCGTCGCCTGGTACTGATGAACGGCCAC TACGAAAATTCCATGTTCATCGTCGAAGGCATCGACCTCGCCCTGCGCGAGCTGCGCTAT GCCGGCATCCAGGACTTCAAAGTGGTGGTGCTCTCCTACTGGGACTTCGTCAAGGACCCG GCTGTGATCCAGCAGCTCTATCCCGAGGGCTTCCTCGGCTGGGACATCGAGCACGGCGGC GTCTTCGAGACCTCCCTGATGCTGGCTTTGTACCCGGACCTGGTGGACCTGGACCGCGTC GTCGATCACCCACCTGCAACCTTCCCACCCTATGACGTGTTTCCGGTCGACCCGGCCCGT ACGCCGGCGCCGGGCACTCTGTCGTCGGCGAAGACGGCCAGCCGAGAGAAGGGCGAGTTG ATCCTGGAGGTCTGCGTCCAGGGCATTGCCGACGCTATCCGCGAGGAGTTCCCGCCCACC TGA

4. Descrivere la struttura 3D della proteina, evidenziando con immagini appropriate gli elementi di

struttura secondaria e la topologia. Riportare il plot di Ramachandran

Per osservare la struttura 3D della proteina uso SWISS PDB VIEWR e per distinguere le 6 catene con una colorazione diversa seleziono Color Chain. Per mettere in evidenza la struttura secondaria utilizzo una rappresentazione ribon e vado a colorare in funzione della secondary structure La struttura è rappresentata da una prevalenza di Alfa eliche e in numero minore abbiamo dei Beta strand Porzione rappresentativa del grafico presente nella sezione “sequence” di PDB

In questa immagine viene evidenziato il modo in cui gli elementi di struttura secondaria si legano tra di loro in successione: i colori utilizzati vanno da quelli più freddi (blu) a quelli più caldi (rosso), partendo dall’estremità N-terminale a quella C-terminale Un modo per evidenziare la connettività degli elementi di struttura, ovvero come questi sono connessi tra di loro nello spazio è la rappresentazione della Topologia. ( l’immagine è stata recuperata dal PDBsum nella sezione protein) Possiamo notare che c’è una separazione tra le porzioni Alfa e Beta ma queste comunque vanno a mescolarsi tra di loro , infatti come vedremo inseguito , questa proteina nella classificazione SCOP viene considerata di tipo “ a/b”

CATH : (C= classi, A= architettura, T= topologia, H= omologia) anche questa è una classificazione strutturale di tipo gererchico basata sul confronto di strutture simile. ( tabelle prese dalla sezione annotation di PDB) Da questa immagine presa dal PDBsum visualizzo meglio il tipo di architettura. Noto subito come ci sia un’alternanza tra alfa eliche e Beta strend, in particolare osservo come i primi 4 siano contraddististi dalla lettera A il che vuol dire che formano tutti lo stesso beta sheet.

6.effettuare ricerca di similarità in banca dati primaria (GenBank) utilizzando il programma BLAST sia per la sequenza amminoacidica sia per quella nucleotidica; per quest’ultima provare a cambiare i parametri di BLAST relativi a “Match/Mismatch Scores” e “Gap Costs”. Per effettuare una ricerca di similarità utilizzo protein BLAST che mi permette di confrontare la sequenze amminoacidica di interesse con altre contenute nel database. Dal grafico summary posso dedurre che la sequenza amminoacidica è molto conservata, questo perché le subjet sono colorate in rosso il che vuol dire che hanno tutte un punteggio maggiore di 200. In alcuni punti però noto che non tutte le sequenze sono perfettamente allineate, infatti ce ne sono alcune nella parte iniziale e finale che risultano più corte della mia query. Il fatto che sequenza sia molto conservata lo possiamo confermare andando a visualizzare l’identità delle sequenze presente nella “description”. Vediamo subito che la maggior parte delle sequenza ha un ID superiore all’80% e solo alcune hanno un ID compresa tra 60-70%

Nel calcolo dell’ID e della positività si tiene conto delle variazioni, infatti osservando un allineamento con ID dell80% posso vedere come prima cosa che la query e la subjet non sono perfettamente allineate. Poi oltre a trovare un maggior numero di + ho anche degli spazi vuoti che mi indicano la presenza di un amminoacido completamente diverso. Non sono presenti in questo caso ma potrei avere anche dei – (gap) che indicano la presenza di delezione/inserzione che vengono inserite al fine di migliorare l’allineamento. ALLINEAMENTO DELLA SEQUENZA NUCLEOTIDICA Inserisco la sequenza nucleotidica in BLASTn lasciando i vari parametri di default. Match/Mismatch : è un parametro riferito ai punteggi che vengono dati nella matrice d’identità alle mutazioni. Il programma utilizza come parametro di default 2, -3: il primo indica il punteggio che viene assegnato quando nell’allineamento si confrontano nucleotidi uguali, il secondo indica la penalità dello score quando il nucleotide della prima sequenza non corrisponde a quello delle altre sequenze. Gap Costs : valori di default sono Existence: 5, Extension: 2. Il primo indica il Gap Open ovvero il valore di penalità per inserire i gap, un valore più alto indica una maggiore penalità e quindi il programma inserisce meno gap, viceversa per valori più bassi. Il secondo valore indica quanti residui coinvolge l’estensione. Il primo valore è quello che ha un significato maggiore.

Con i parametri di default notiamo che le sequenze non sono perfettamente allineate e soprattutto nella parte finale abbiamo uno score di allineamento inferiore che varia da 80-200. In questo caso nonostante la linea sia caratterizzata da due colori diversi i due frammenti appartengono alla stessa sequenza, hanno solo uno score diverso. Cambiando i parametri può succedere che cambi il punteggio degli allineamenti e quindi la stessa sequenza può essere allineata in modo diverso.

  • Match/Mismatch: 2, -3 Match/Mismatch: 4, -
  • Gap Costs: Existence 2 Extension 4 Gap costs: Existence 6 Extension

Le principali differenze le troviamo con Match/Mismatch 1, -3 perché si va ad enfatizzare la differenza tra match e i mismatch. Considerando la penalizzazione dei gap, nel primo caso diamo la possibilità di mettere pochi gap e poco estesi, nel secondo caso più gap abbastanza estesi, nell’ultimo caso abbiamo la possibilità minore di inserire gap ma sono abbastanza estesi. Confrontando gli allenamenti vediamo come il migliore sia l’ultimo che da poca libertà di inserire gap ma questi saranno abbastanza estesi.

7. Selezionare tra le sequenze ottenute, oltre a quelle di partenza, almeno 3 sequenze sia nucleotidiche sia amminoacidiche appartenenti ad organismi diversi (Possibilmente con la “query cover” più alta possibile e con l’identità compresa tra il 90% e il 50%)

TGCCGGTGGGCGCCTTGGAGCAGCACGGTCATCACATGTGCATGGAAGTGGATGTGCTATTGCCTACCGC CCTGTGCAAGGCGGTAGCACGAGAAGTCGACGGTTTGGTGTTGCCCGCCTTGGCCTACGGCTACAAGTCA CAGCAGAAGTCCGGCGGCGGCAACCACTTCCCCGGCACCACCAGCCTGGATGGCGCAACGCTGACCCATA CCATCCAGGACATCATCCGCGAGCTCGCCCGGCATGGGGCGCGCAAGCTGGTCTTGATGAATGGCCATTA TGAAAACTCGATGTTCATCGTCGAAGGCATTGACCTGGCGCTGCGCGAACTGCGCTATGGCGGTATCACC GACTTCAAGGTGGTGGTTCTGTCCTACTGGGACTTCGTCAATGCGCCGGCGGTCATCGAAGAGCTCTACC CCGAAGGTTTCCTCGGTTGGGACATCGAGCACGGTGGCGTTTTCGAAACTTCATTGATGCTGGCCCTGCA CCCTGAAAAGGTCGACCTGAGCCGCGCCGTCGACCACCCACCGGCAAAATTCCCACCTTACGACGTCTTC CCCATCATCCCTGAACGCACCCCCGCCTGCGGAACGCTTTCCTCGCCCAAGGGCGCCAGCCGAGAAAAAG GCGAGTTGACTCTGCGGGTTTGCGTAGAGGGCAT >LR134391.1:786209-786673 Kocuria rosea strain NCTC7514 genome assembly, chromosome: 1 TACGGCTACAAGTCCCAGCCCCGCTCCGGGGGCGGCAACCACCGCGCCGGCACCACCAGTCTCTCGGCCC AGGCCCTCATCACGCAGACGAAGGACGTGGTCCTGGAGTTCTTCCGCCACGGCGTCCGCCGGATCGCGGT GGTCAACGGCCACTTCGAGAACTACCAGTTCCTCTACGAAGGACTCGACCTCGCGGTGCGCGAGGCCCGG GCCGGCGGCCTCGACGACAGCCGGGCCCTGCTGCTCTCGTACTGGGACTTCGTCGACGAGCAGACCCTGG CGGTCGTCTTCCCCGACGGCTTCCTCGGCTGGGACATCGAGCACGGAGGCGTCCTCGAGACCTCGCTGAT GCTCCACCTGCACCCCGAGAAGGTCGACATGTCCCGGGCCCCCGACCATCCCCCCGCTGACCTGGCCCCC TACGACGTTTTCCCCGAGGACCCCGCTCGCACCCCGAGCTCCGGG

Clustalw

Le zone conservate sono contraddistintine dagli *** , si può osservare una buona conservazione della sequenza nella zona centrale.

Muscle

Clustal omega

Dopo il confronto degli allineamenti con i vari programmi, oltre alla variazione dell’ordine in cui sono disposte le sequenze non si evidenziamo differenze importanti. In generale si osserva una maggiore conservazione delle sequenze nella zona centrale mentre la mancanza di allineamento nella parte iniziale e finale è dovuta alla diversa lunghezze delle varie sequenze.