Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Introduzione alla Bioinformatica: Analisi di Sequenze e Strutture Molecolari - Prof. Pasca, Appunti di Bioinformatica

Una panoramica introduttiva alla bioinformatica, concentrandosi sull'analisi delle sequenze di biomolecole come acidi nucleici e proteine. Vengono descritte le diverse tipologie di banche dati molecolari (primarie, secondarie e terziarie) e le problematiche relative alla loro efficienza, come ridondanze ed errori. L'allineamento di sequenze, evidenziando l'importanza dell'evoluzione molecolare e le metodologie di allineamento globale e locale. Inoltre, vengono trattate le strategie di ricerca in banche dati, l'uso di blast e altri programmi per la comparazione di sequenze, e l'analisi strutturale delle proteine tramite la protein data bank (pdb). Infine, vengono discussi i criteri energetici per la valutazione dei modelli proteici e l'uso di software come chimerax per la visualizzazione delle strutture. Una solida base per comprendere le tecniche e le risorse utilizzate in bioinformatica, rendendolo utile per studenti e ricercatori interessati al campo.

Tipologia: Appunti

2024/2025

In vendita dal 16/11/2025

matteo-muresu
matteo-muresu 🇮🇹

5

(1)

19 documenti

1 / 14

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Laboratorio di bioinformatica
Tale disciplina si occupa dell’analisi delle biomolecole (es.
acidi nucleici o proteine) a partire dalle loro sequenze rese
disponibili all’interno attraverso strumenti appositi.
Negli ultimi anni, a causa di un
incremento drastico dei dati biologici, molte istituzioni si
sono organizzate tramite banche dati di tipo MOLECOLARE
in grado di essere suddivise in più categorie:
- PRIMARIE = raccolgono i dati grezzi dai laboratori attuando un controllo per poi
organizzarli e distribuirli alle banche dati secondarie
- SECONDARIE = rielaborano le informazioni ottenute dalle banche primarie.
- TERZIARIE = sono coloro che si occupano di elaborare ulteriormente i dati
ottenuti dalle precedenti circoscrivendoli esclusivamente al settore specifico di
interesse.
L’efficienza stessa delle banche dati non è perfetta in quanto possono presentare dei
problemi come le RIDONDANZE oppure la presenza di veri e propri ERRORI di
catalogazione o bibliografici.
Tra le più importanti banche dati
NUCLEOTIDICHE si possono riconoscere
la EMBL oppure la GENBANK.
Istituita nel 1982 con sede negli stati
uniti, racchiude delle sequenze
nucleotidiche (DNA e mRNA) e le
relative PROTEINE derivanti.
Alcune caratteristiche che è possibile
riscontrare all’interno del sito sono:
1. ACCESSION CODE = codice
univoco associato ad un dato
specifico in modo da rendere la
sua ricerca più accessibile.
2. FORMATO FASTA = rende la consultazione del dato di interesse più facile poiché
vengono mostrate solo le informazioni fondamentali.
3. FORMATO GRAPHICS = fornisce uno schema del genoma tramite un grafico,
oltre a delle brevi informazioni che ne rendono agevole la lettura.
BANCA DATI = strutture che permettono
la catalogazione di diversi dati in modo
che possano essere ritrovati e consultati
facilmente.
Esempi molto comuni
possono essere le
agende oppure le
rubriche telefoniche.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe

Anteprima parziale del testo

Scarica Introduzione alla Bioinformatica: Analisi di Sequenze e Strutture Molecolari - Prof. Pasca e più Appunti in PDF di Bioinformatica solo su Docsity!

Laboratorio di bioinformatica Tale disciplina si occupa dell’analisi delle biomolecole (es. acidi nucleici o proteine) a partire dalle loro sequenze rese disponibili all’interno attraverso strumenti appositi. Negli ultimi anni, a causa di un incremento drastico dei dati biologici, molte istituzioni si sono organizzate tramite banche dati di tipo MOLECOLARE in grado di essere suddivise in più categorie:

  • PRIMARIE = raccolgono i dati grezzi dai laboratori attuando un controllo per poi organizzarli e distribuirli alle banche dati secondarie
  • SECONDARIE = rielaborano le informazioni ottenute dalle banche primarie.
  • TERZIARIE = sono coloro che si occupano di elaborare ulteriormente i dati ottenuti dalle precedenti circoscrivendoli esclusivamente al settore specifico di interesse. L’efficienza stessa delle banche dati non è perfetta in quanto possono presentare dei problemi come le RIDONDANZE oppure la presenza di veri e propri ERRORI di catalogazione o bibliografici. Tra le più importanti banche dati NUCLEOTIDICHE si possono riconoscere la EMBL oppure la GENBANK. Istituita nel 1982 con sede negli stati uniti, racchiude delle sequenze nucleotidiche (DNA e mRNA) e le relative PROTEINE derivanti. Alcune caratteristiche che è possibile riscontrare all’interno del sito sono:
  1. ACCESSION CODE = codice univoco associato ad un dato specifico in modo da rendere la sua ricerca più accessibile.
  2. FORMATO FASTA = rende la consultazione del dato di interesse più facile poiché vengono mostrate solo le informazioni fondamentali.
  3. FORMATO GRAPHICS = fornisce uno schema del genoma tramite un grafico, oltre a delle brevi informazioni che ne rendono agevole la lettura. BANCA DATI = strutture che permettono la catalogazione di diversi dati in modo che possano essere ritrovati e consultati facilmente. Esempi molto comuni possono essere le agende oppure le rubriche telefoniche.

ORTOLOGHE = se si trovano in organismi differenti e sono frutto di eventi di speciazione. PARALOGHE = se si trovano nello stesso organismo svolgendo funzioni differenti, perciò frutto di fenomeni di duplicazione genica. Una peculiarità che accomuna tutte le banche dati è l’utilizzo degli OPERATORI BULEANI (AND, OR e NOT) per rendere la ricerca più efficiente e filtrare quelli che sono di nostri interesse. Infine, è possibile distinguere il progetto REFSEQ atto a filtrare le banche dati da possibili errori o ridondanze per cui si usano dei CODICI UNIVOCI composti da 2 lettere ed un underscore (es. AC_) Per quanto riguarda le sequenze nucleotidiche si distingue anche la EMBL, adesso chiamata ENA, banca dati europea istituita nel 1980 e che adesso ha sede in Inghilterra. Per quanto riguarda le banche dati incentrate nella catalogazione delle proteine si distinguono:

  • PIR = acronimo di “proteine information resource” viene istituita nel 1984.
  • SWISS-PROT = istituita nel 1987, si distingue per la presenza di dati di elevata qualità poiché controllati da un team di esperti.
  • TrEMBLE = contiene un elevato numero di sequenze che tuttavia vengono aggiunte automaticamente senza effettivamente essere controllate. Queste tre banche dati citate verranno infine raggruppate nel 2003 all’interno di un unico progetto che prende il nome di UNIPROT caratterizzato dai punti di forza di tutte e tre. ALLINEAMENTO DI DUE SEQUENZE Il pensiero dietro a questa partica è la consapevolezza della presenza di un’evoluzione molecolare per cui ogni essere sul nostro pianeta deriva da un PROGENIOTORE COMUNE. La modificazione delle proteine può essere dovuta a sostituzioni amminoacidiche oppure a fenomeni di inserzione o delezione sul genoma. L’allineamento di due sequenze proteiche è quindi molto utile per studiare le rispettive caratteristiche avendo un’idea della loro funzione, oltre che della loro parentela evolutiva: Nel corso del tempo è avvenuta una modificazione del genoma in risposta a pressioni selettive e che si è riflettuta poi sulla struttura delle proteine. Sono dette OMOLOGHE due proteine che discendono dallo stesso gene ancestrale.

Un maggiore grado di divergenza tra due sequenze suggerisce un maggiore tempo trascorso dalla divergenza evolutiva. Il valore PAM può anche eccedere 100 poiché un amminoacido è in grado di mutare più volte considerando ogni mutazione indipendente dalla precedente. il PUNTEGGIO MASSIMO come somma dei punteggi ottenuti da tutte le coppie di amminoacidi accoppiati Una matrice di punteggio determina la tendenza che un amminoacido (A) sia sostituito da un altro (B) nell’evoluzione. Le più conosciute, PAM e BLOSUM, vengono calcolate con una logica simile:

  • Allineo due sequenze che sono sicuro siano omologhe contando le sostituzioni amminoacidiche.
  • Calcolo la probabilità di sostituzione con cui due amminoacidi si scambiano durante un evoluzione divergente. Tramite l’allineamento di diverse sequenze omologhe è stato possibile riconoscere che le probabilità di uno scambio amminoacidico AUMENTA all’aumentare del tempo trascorso dalla divergenza avvenuta dall’antenato comune. Tenendo in considerazione il tempo, i valori delle matrici devono quindi essere normalizzati in funzione delle sequenze che si vogliono analizzare. Se assumiamo 1 PAM come il tempo necessario ad introdurre in una sequenza una MUTAZIONE, all’aumentare di questo valore la percentuale di DIFFERENZA tra due sequenze aumenta. Poiché non possiamo sapere a priori se queste siano omologhe oppure no bisogna lavorare con le PROBABILITA’ RELATIVE per discriminare i casi in cui l’appaiamento sia avvenuto per CASO.

Come già anticipato, un secondo ingrediente fondamentale nell’allineamento di due sequenze è una FUNZIONE DI PENALIZZAZIONE INSERZIONI/DELEZIONI in modo che ad esse venga attribuito un punteggio negativo che incida sull’operato dell’algoritmo. In particolare, attraverso una programmazione dinamica è possibile effettuare allineamenti di tipo GLOBALE se comprendono intere sequenze amminoacidiche o LOCALI se vengono allineati solo i segmenti con una percentuale di omologia MAGGIORE. RICERCHE IN BANCHE DATI Se si lavora su una data sequenza amminoacidica è molto utile analizzarne la struttura e la funzione comparandola con altre sequenze simili/omologhe già conosciute e catalogate in banche dati. A causa della loro grandezza tale procedimento è molto lungo, perciò, è necessario trovare dei metodi che lo velocizzino. In condizioni reali, all’interno delle banche possono esserci diversi tipi di sequenze rispetto alla nostra:

  • OMOLOGHE
  • NON OMOLOGHE
  • Sequenze poste all’interno di una regione di confusione di cui non si è completamente certi. Per rendere la ricerca ancora più precisa è dunque necessario determinare un PUNTEGGIO SOGLIA (definito attraverso le relative matrici) sopra il quale una sequenza può essere definita omologa. In questo modo possono essere evitati degli errori corrispondenti ai falsi negativi o falsi positivi. SENSIBILITA’ = capacità di uno strumento di identificare i falsi negativi.

Queste regioni possono dar fastidio all’algoritmo che utilizza BLAST durante la ricerca in una banca dati poiché proteine non omologhe potrebbero essere scambiate come tali. Durante una ricerca è importante anche una conoscenza delle varie possibilità che diverse ramificazioni di BLAST possono offrire nella comparazione di due sequenze:

  • BLASTP = consente di effettuare allineamenti tra sequenze di tipo proteina/proteina.
  • BLASTN = consente di effettuare allineamenti tra sequenze di tipo DNA/DNA.
  • BLASTX = consente una ricerca incrociata tra diversi tipi di sequenze DNA/proteina.
  • TBLAST = consente una ricerca nel senso inverso al precedente proteina/DNA. Per velocizzare la ricerca possono essere impiegati anche altri programmi come BLAT (cercare somiglianze con circa 90% di identità) o CaBLAST/CaBLAT (lavorare su banche dati complesse. ALLINEAMENTI MULTIPLI E PROFILI Un allineamento multiplo tra diverse sequenze è utilizzato sia per riassumere la STORIA EVOLUTIVA di una famiglia di proteine o evidenziare le ZONE CONSERVATE/MODIFICATE durante l’evoluzione. Tale procedimento potrebbe essere effettuato tramite degli algoritmi di programmazione dinamica ma sorgerebbe un problema che lo renderebbe molto complicato:
  • All’aumentare del numero di sequenze da allineare aumenta anche la COMPLESSITA’ della matrice. Per tale motivo vengono usati degli algoritmi specifici che consentono una “ricerca” più veloce ma che perdono perciò in efficienza tramite opportune approssimazioni.

Ogni singola coppia viene considerata come UNA SOLA SEQUENZA ed allineata ad un’altra coppia attraverso l’algoritmo di programmazione dinamica. La grandezza delle lettere indica la FREQUENZA con cui ogni amminoacido può essere ritrovato all’interno di quella specifica colonna. Una delle strategie prevede un ALLINEAMENTO PROGRESSIVO attuato dal programma CLUSTAL, adesso aggiornato e sostituito da CLUSTAL-OMEGA. Il processo prevede la scomposizione del problema in piccole parti per poi procedere in diverse fasi:

  1. L’algoritmo analizza le mie sequenze utilizzando una MATRICE DELLE DISTANZE per determinare quanto sono simili tra loro.
  2. Tale informazione viene tradotta in un ALBERO GUIDA in modo da permettere la visione dei rapporti di somiglianza tra due sequenze.
  3. Le sequenze vengono quindi accoppiate in base alla loro somiglianza reciproca
    1. Compiuto il processo la prima volta le 4 sequenze totali accoppiate vengono considerate come UNA SINGOLA SEQUENZA, che verrà allineata con un’altra coppia. Il processo verrà ripetuto fino a quando le sequenze da allineare non saranno finite e verrà prodotta una matrice in cui saranno evidenziate le porzioni conservate e quelle modificate. Può succedere che l’algoritmo non riesca a trovare l’allineamento ottimale poiché gli errori di allineamento iniziali vengono propagati nei passaggi successivi senza poter essere corretti. Allo stesso modo bisogna stare molto attenti a come viene calcolato l’albero guida poiché a seconda dei primi allineamenti si può influenzare il risultato finale. Un metodo molto impiegato nella visualizzazione di allineamenti multipli per esaltare l’informazione che contengono sono i LOGO.

Usando RPS-BLAST posso allineare la mia sequenza sonda a tutti i profili contenuti nella banca dati e, come di consueto, a tale allineamento sarà attribuito un PUNTEGGIO ed un E-VALUE. Il numero delle strutture contenute è molto BASSO a causa della difficoltà nella loro determinazione Sono un numero ancora minore a causa della RIDONDANZA, poiché ogni proteina può essere vista in modi

ANALISI STRUTTURALE DELLE PROTEINE

Le informazioni strutturali delle proteine ottenute attraverso tecniche come la cristallografia a raggi X sono contenute all’interno della PROTEIN DATA BANK (PDB) Tale banca dati non contiene sequenze come osservato nelle precedenti ma COORDINATE SPAZIALI dei componenti della macromolecola di interesse. La struttura viene conservata sottoforma di tabelle contenenti la terna cartesiana della sequenza e che vengono lette da appositi programmi come CHIMERAX. MODELLIZZAZIONE PER OMOLOGIA Tecnica che consente di prevedere la struttura tridimensionale di una proteina dalla sola sequenza solo se si conosce la struttura di una proteina OMOLOGA.

Inoltre, consente di avere un’idea sulla struttura di una proteina in modo RAPIDO ed ECONOMICO nonostante i dati prodotti siano solo delle ipotesi teoriche che necessitano di una CONVALIDA postuma. Maggiore è questo numero MENO i due carboni α si sovrappongono. Minore è questo numero PIU’ i due carboni α si sovrappongono. Le due sono in un rapporto di PROPORZIONALITA’ INVERSA Tale processo è molto efficiente poiché nel corso dell’evoluzione la struttura di una proteina è più CONSERVATA della sua sequenza. Per applicare tale metodo è necessario quantificare la somiglianza di sequenza e di struttura di proteine omologhe:

  • La somiglianza strutturale tra due proteine viene calcolata tramite la RMSD. Il grafico in figura mostra la relazione che sussiste tra la somiglianza strutturale e quella di sequenza tra due proteine omologhe. In un esperimento di omologia è necessario seguire diversi passaggi:
  1. SELEZIONE DELLO STAMPO = ricerco nelle banche dati tutte le proteine che presentano una somiglianza molto elevata con quella di mio interesse.
  2. ALLINEAMENTO = passaggio chiave della procedura poiché nessun metodo di modellizzazione può correggere un errore di allineamento. È consigliato di partire da sequenze molto simili.
  3. MODELLO = viene costruito seguendo le equivalenze strutturali dell’allineamento. Si identifica nella distanza media tra due CARBONI α perciò:

Completato questo passaggio si utilizza l’opzione “SEARCH FOR TEMPLATE” in modo che la sequenza venga confrontata con una banca dati interna che deriva dalla PDB Il valore GMQE rappresenta la qualità attesa del modello: più è alto e più PRECISO sarà il modello. o POTENZIALE DI COPPIA determina la frequenza con cui due carboni α si trovano ad una certa distanza. o POTENZIALE DI SOLVATAZIONE misura quanto è frequente che un residuo sia esposto al solvente. Nel grafico sull’asse delle Y è misurata l’energia, perciò, dei picchi POSITIVI determinano delle INSTABILITA’ locali. Il programma impiegato nella costruzione di modelli per omologia è SWISS-MODEL. All’interno della pagina è possibile inserire manualmente la sequenza di cui si vuole costruire il modello oppure immettere il suo codice UNIPROT. Conclusa la ricerca il programma propone diversi modelli strutturali utilizzabili ordinati secondo la percentuale di IDENTITA’ con la proteina di nostro interesse. (il primo risultato NON deve essere tenuto in considerazione per costruire il modello poiché deriva da ALPHA FOLD) Nel caso volessimo usare come stampo le sequenze con una percentuale di identità molto BASSA si usa il comando HTML e con CTRL + F possiamo cercare lo stampo di nostro interesse. Una volta scelto lo stampo strutturale e ottenuto il modello, è possibile studiarlo attraverso diversi parametri:

  • Qmean Z-scores = valore risultante di diversi parametri strutturali del modello ottenuto (es. angoli di torsione, potenziale di solvatazione o distanza tra carboni α)

Se il valore Qmean del mio modello (stella rossa) ricade all’interno della nube allora può essere considerato accettabile. Nel caso rappresentato il modello generato è altamente instabile e non rappresenta la possibile struttura reale della proteina presa in considerazione. Maggiore è questo valore più è alta la qualità del modello prodotto. Nell’istogramma in figura viene rappresentata una distribuzione di proteine di cui si conosce la struttura che ricadono all’interno di una “nube” di valori Qmean