Scarica PROVE D'ESAME BIOINFORMATICA e più Prove d'esame in PDF di Bioinformatica solo su Docsity!
ESAME BIOINFORMATICA
- Cercare in UniProt la sequenza P 08074. Riportare:
- Il nome
- La funzione della proteina
- L’organismo di provenienza
- La lunghezza in nucleotidi della CDS
- Il peso molecolare
- Il punto isoelettrico
- La percentuale di asparagina
- La percentuale di glicina
- È una proteina acida, basica o neutra? Suggerimento: salvare su PC la sequenza in formato fasta La proteina si chiama carbonil reduttasi (NADPH) 2 ed è un enzima appartenente alle ossidoreduttasi che opera su un ampio raggio di composti carbonilici, tra cui chinoni, aldeidi aromatiche, chetoaldeidi, daunorubicina e prostaglandine E and F, riducendoli al corrispondente alcol. Mus musculus (topo) CDS: 735 MW: 25958 Da pI: 9. Asn (N) 4.5% Gly (G) 8.2% Il pI è maggiore di 7, la proteina risulta carica positivamente a pH neutro, perciò è una proteina basica
- Riportare
- L’accession number refseq della sequenza proteica
- L’accession number refseq della sequenza genomica
- Il cromosoma su cui si trova il gene Refseq accession number proteina: NP_031647. L’accession number refseq della sequenza genomica: NM_ cromosoma su cui si trova il gene: 11
- Utilizzando la sequenza proteica fasta ottenuta da UniProt fare una ricerca di omologia nelle sequenze refseq dei mammiferi.
- Riportare il numero di hits con E < 10-^5
- Sono presenti sequenze con una funzione diversa?
- Delle 4 proteine con somiglianza più significativa nelle specie: Rattus rattus, Bos taurus, Sus scrofa, Cricetulus griseus , riportare: o Accession number o Valore di E o Percentuale di somiglianza
- Qual è il tipo di relazione evolutiva tra queste sequenze? Suggerimento: salvare le 4 sequenze in formato fasta. Indicare i nomi delle specie come nome della sequenza numero di hits con E < 10-^5 : 2 040 Sì, sono presenti sequenze con una funzione diversa, come ad esempio la Xilulosio reduttasi Rattus rattus o Accession number: XP_032769461. o Valore di E: 5 x10-^163 o Percentuale di somiglianza: 9 7 % Bos taurus
legame con il substrato: S136 nella sequenza di topo (e in tutte le sequenze dell’allineamento) In posizione 90 dell’allineamento troviamo una glutammina Q in tutte le sequenze tranne quella di toro, dove è presente una arginina R Pattern aa145-150: [GN]-L-[AIT]-[AT]-Y-S
- Fare un albero filogenetico con le 5 sequenze, indicando il nome della specie come nome delle sequenze. Visualizzare e salvare un’immagine dell’albero senza radice e una dell’albero con radice per midpoint. Riportare:
- La distanza in sostituzioni per sito tra la sequenza di ratto e quella di criceto
- La distanza in PAM tra la sequenza di topo e la radice dell’albero Caricare i due file separati. Un file per albero senza radice e uno per albero con radice. Formati accettati: pdf, jpeg, png. distanza in sostituzioni per sito tra la sequenza di ratto e quella di criceto: 0,0286+0,0205+0,0936= 0, distanza in PAM tra la sequenza di topo e la radice dell’albero: 0,0223+0,0205+0,0142=0,057x100= 5,
- A e B sono simili a. A e B hanno la stessa funzione b. A e B sono sicuramente omologhi c. A e B potrebbero essere imparentati
- Che punteggio ha l’allineamento del dipeptide LM con se stesso secondo la matrice Blosum62? a. 2 b. 20 c. 9
- Cosa si intende per CDS? a. La sequenza dell’mRNA compresa tra il primo ATG e il codone di stop b. Tutta la sequenza dell’mRNA c. La sequenza genica ottenuta dall’unione degli esoni
- Quale delle seguenti affermazioni riguardo il “motivo di sequenza” è falsa? a. Può essere composto da posizioni fisse o variabili b. La sua presenza in diverse sequenze non è mai casuale c. La sua presenza in diverse sequenze può indicare omologia
- Fare una predizione di localizzazione cellulare per la proteina.
- Qual è la localizzazione più probabile?
- È in accordo con quella della banca dati UniProt? La localizzazione più probabile per PsortII è il mitocondrio (69.6 %), mentre per UniProt è il nucleo
- Utilizzando la sequenza proteica fasta ottenuta da UniProt fare una ricerca di omologia nelle sequenze refseq delle piante.
- Riportare il numero di hits con E < 10-^3
- Delle 4 proteine con somiglianza più significativa riportare: o Nome dell’organismo o Valore di E o Percentuale di somiglianza
- Qual è il tipo di relazione evolutiva tra queste sequenze? N HITS: 171 Nome dell’organismo: Nymphaea colorata Valore di E: 10-^71 Percentuale di somiglianza: 58% Nome dell’organismo: Pistacia vera Valore di E: 4x10-^78 Percentuale di somiglianza: 58% Nome dell’organismo: Selaginella moellendorffii Valore di E: 10-^66 Percentuale di somiglianza: 56% Nome dell’organismo: Ananas comosus
Valore di E: 5x 10 -^66 Percentuale di somiglianza: 5 6 % Sono sequenze omologhe, in particolare ortologhe
- Fare un allineamento multiplo utilizzando la sequenza ottenuta da Uniprot e le 4 proteine con i seguenti accession number: XP_002983867.1, XP_020112085.1, XP_020688942.1, XP_009149691.1, anch’esse risultate dalla ricerca di omologia.
- Qual è il primo residuo che risulta conservato in tutte le sequenze nell’allineamento? Indicare aa e posizione riferita all’allineamento
- La posizione 219 dell’allineamento è conservata in tutte le sequenze? Indicare gli aa presenti e specificare dove presente l’aa diverso (posizione nella sequenza e organismo)
- Gli aa della colonna 219 sono considerati simili secondo la matrice Blosum62? Perché? Suggerimento: salvare le 4 sequenze in formato fasta. Indicare i nomi delle specie come nome della sequenza Primo residuo conservato in tutte le sequenze: prolina, in posizione 47 dell’allineamento La posizione 219 è conservata in tutte le sequenze tranne quella di Selaginella moellendorffii , dove si trova una istidina (H151), mentre nelle altre sequenze troviamo una asparagina ( Mus musculus N151 , Brassica rapa N165, Dendrobium catenatum N215, Ananas comosus N212). Sì, perché hanno tutti punteggi positivi
- Fare un albero filogenetico con le 5 sequenze, indicando il nome della specie come nome delle sequenze. Visualizzare e salvare un’immagine dell’albero senza radice e una dell’albero con radice per midpoint. Riportare:
- La distanza in sostituzioni per sito tra la sequenza di Ananas e quella di Brassica
1 DOMANDE TEORICHE Come vengono acquisite attualmente le sequenze dalla banca dati GenBank? 1) Sottomesse direttamente dagli autori
- Trascritte dagli articoli di letteratura
- Ottenute direttamente dai tecnici della banca dati Come sono memorizzati i record di sequenza nelle banche dati nucleotidiche?
- In formato binario leggibile solo con appositi software
- In un formato testo, caratteristico di ciascuna banca 3) In formato FASTA Una sequenza nucleotidica è memorizzata secondo la direzione: 1) 5'->3'
- a scelta dell'autore della sequenza
- 3'->5' Quale banca dati contiene sequenze amminoacidiche e nucleotidiche non ridondanti e maggiormente accurate?
- non redundant sequences (nr) 2) reference sequences (refseq)
- expressed sequence tag (est) Quale banca dati contiene strutture di proteine?
- UniProt
- Pfam 3) PDB La sequenza A è omologa alla sequenza B. Quale delle seguenti affermazioni è corretta? 1) A e B un tempo non erano distinte.
- A e B sono molto simili.
- Deve esistere una terza sequenza C omologa alle prime due La sequenza A è ortologa alla sequenza B. Quale delle seguenti affermazioni è corretta?
- A e B sono paraloghi.
- A e B sono significativamente simili. 3) A e B si sono separate per speciazione La sequenza A è paraloga alla sequenza B. Quale delle seguenti affermazioni è corretta?
- A e B sono ortologhi. 2) A e B sono omologhi
- A e B si sono separati per speciazione Cos'è una sostituzione sinonima?
- Una sostituzione in un sito non codificante
- Una trasversione 3) Una sostituzione che non cambia l'amminoacido
2 Con quale criterio due amminoacidi sono considerati simili in un allineamento a coppie?
- Quando hanno le stesse proprietà fisico-chimiche
- Quando hanno le stesse proprietà funzionali 3) Quando hanno un valore superiore a zero nella matrice di punteggio. Per la ricerca di omologia gli algoritmi per l'allineamento possono essere
- Locali o globali 2) Euristici o ottimali
- Markoviani o Euristici Quale tra le seguenti matrici potrebbe essere adatta per trovare omologhi nel lievito di un gene umano? 1) PAM
- La matrice sarebbe del tutto indifferente
- BLOSUM Quale programma di BLAST andrebbe usato per trovare omologia con una sequenza proteica nel database EST?
- Blastp 2) tBlastn
- tBlastx Quale delle seguenti affermazioni può descrivere un allineamento multiplo:
- La ricerca di somiglianza tra una sequenza e molte sequenze.
- Un allineamento tra sequenze ripetuto molte volte. 3) La sovrapposizione ottimale tra più di due sequenze Gli algoritmi euristici per gli allineamenti multipli possono usare metodi: 1) progressivi o iterativi
- markoviani o ottimali
- semplici o complessi Qual è la ragione per la quale si usano algoritmi euristici nell'allineamento multiplo:
- Perché garantiscono allineamenti ottimali.
- Perché gestiscono meglio le penalità per i gap. 3) Perché sono più veloci Per descrivere il metodo con cui si è realizzato un allineamento multiplo occorre: 1) Dichiarare la matrice usata e le penalità per i gap.
- Dichiarare la lunghezza delle sequenze.
- Dichiarare il particolare programma software utilizzato Indicare quale sequenza contiene il pattern [P]-X-[AC] 1)PATC; 2) APIAFT
- Nessuna delle due Che segnale è presente in una proteina del reticolo endoplasmatico? KDEL o HDEL? [KH]-D-E-L
4 Cosa si intende per CDS? 1)la sequenza dell’mRNA compresa tra il primo ATG e il codone di stop 2)la sequenza genica ottenuta dall’unione degli esoni 3)tutta la sequenza dell’mRNA A e B sono simili: 1)A e B potrebbero essere imparentati 2)A e B sono sicuramente omologhi 3)A e B hanno la stessa funzione Che punteggio ha l’allineamento del dipeptide LM con sé stesso secondo la matrice Blosum62?
- 2 2)
- 20 Quale di queste affermazioni riguardo al “motivo di sequenza” è falsa? 1)la sua presenza in diverse sequenze non è mai casuale 2)può essere composto da posizioni fisse o variabili 3)la sua presenza in sequenze diverse può indicare omologia Quali di questi metodi fornisce alberi con radice? 1)UPGMA 2)Neighbor-joining 3)Massima parsimonia Qual è la % di somiglianza di due sequenze con E < 10-^50? 1)Non è possibile stabilirlo 2)> 50% 3)> 80% Quale sequenza contiene il pattern A-x-[ALV]-V-N(2)? 1)ALVNNFVA 2)LAMVVTNN 3)LALVVNNA A e B sono proteine catalasi di 2 specie di primati, con quale matrice è meglio confrontarle? 1)BLOSUM 2)PAM 3)BLOSUM