








Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica introduttiva alla bioinformatica, concentrandosi sull'analisi delle sequenze di biomolecole come acidi nucleici e proteine. Vengono descritte le diverse tipologie di banche dati molecolari (primarie, secondarie e terziarie) e le problematiche relative alla loro efficienza, come ridondanze ed errori. L'allineamento di sequenze, evidenziando l'importanza dell'evoluzione molecolare e le metodologie di allineamento globale e locale. Inoltre, vengono trattate le strategie di ricerca in banche dati, l'uso di blast e altri programmi per la comparazione di sequenze, e l'analisi strutturale delle proteine tramite la protein data bank (pdb). Infine, vengono discussi i criteri energetici per la valutazione dei modelli proteici e l'uso di software come chimerax per la visualizzazione delle strutture. Una solida base per comprendere le tecniche e le risorse utilizzate in bioinformatica, rendendolo utile per studenti e ricercatori interessati al campo.
Tipologia: Appunti
1 / 14
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!









Laboratorio di bioinformatica Tale disciplina si occupa dell’analisi delle biomolecole (es. acidi nucleici o proteine) a partire dalle loro sequenze rese disponibili all’interno attraverso strumenti appositi. Negli ultimi anni, a causa di un incremento drastico dei dati biologici, molte istituzioni si sono organizzate tramite banche dati di tipo MOLECOLARE in grado di essere suddivise in più categorie:
ORTOLOGHE = se si trovano in organismi differenti e sono frutto di eventi di speciazione. PARALOGHE = se si trovano nello stesso organismo svolgendo funzioni differenti, perciò frutto di fenomeni di duplicazione genica. Una peculiarità che accomuna tutte le banche dati è l’utilizzo degli OPERATORI BULEANI (AND, OR e NOT) per rendere la ricerca più efficiente e filtrare quelli che sono di nostri interesse. Infine, è possibile distinguere il progetto REFSEQ atto a filtrare le banche dati da possibili errori o ridondanze per cui si usano dei CODICI UNIVOCI composti da 2 lettere ed un underscore (es. AC_) Per quanto riguarda le sequenze nucleotidiche si distingue anche la EMBL, adesso chiamata ENA, banca dati europea istituita nel 1980 e che adesso ha sede in Inghilterra. Per quanto riguarda le banche dati incentrate nella catalogazione delle proteine si distinguono:
Un maggiore grado di divergenza tra due sequenze suggerisce un maggiore tempo trascorso dalla divergenza evolutiva. Il valore PAM può anche eccedere 100 poiché un amminoacido è in grado di mutare più volte considerando ogni mutazione indipendente dalla precedente. il PUNTEGGIO MASSIMO come somma dei punteggi ottenuti da tutte le coppie di amminoacidi accoppiati Una matrice di punteggio determina la tendenza che un amminoacido (A) sia sostituito da un altro (B) nell’evoluzione. Le più conosciute, PAM e BLOSUM, vengono calcolate con una logica simile:
Come già anticipato, un secondo ingrediente fondamentale nell’allineamento di due sequenze è una FUNZIONE DI PENALIZZAZIONE INSERZIONI/DELEZIONI in modo che ad esse venga attribuito un punteggio negativo che incida sull’operato dell’algoritmo. In particolare, attraverso una programmazione dinamica è possibile effettuare allineamenti di tipo GLOBALE se comprendono intere sequenze amminoacidiche o LOCALI se vengono allineati solo i segmenti con una percentuale di omologia MAGGIORE. RICERCHE IN BANCHE DATI Se si lavora su una data sequenza amminoacidica è molto utile analizzarne la struttura e la funzione comparandola con altre sequenze simili/omologhe già conosciute e catalogate in banche dati. A causa della loro grandezza tale procedimento è molto lungo, perciò, è necessario trovare dei metodi che lo velocizzino. In condizioni reali, all’interno delle banche possono esserci diversi tipi di sequenze rispetto alla nostra:
Queste regioni possono dar fastidio all’algoritmo che utilizza BLAST durante la ricerca in una banca dati poiché proteine non omologhe potrebbero essere scambiate come tali. Durante una ricerca è importante anche una conoscenza delle varie possibilità che diverse ramificazioni di BLAST possono offrire nella comparazione di due sequenze:
Ogni singola coppia viene considerata come UNA SOLA SEQUENZA ed allineata ad un’altra coppia attraverso l’algoritmo di programmazione dinamica. La grandezza delle lettere indica la FREQUENZA con cui ogni amminoacido può essere ritrovato all’interno di quella specifica colonna. Una delle strategie prevede un ALLINEAMENTO PROGRESSIVO attuato dal programma CLUSTAL, adesso aggiornato e sostituito da CLUSTAL-OMEGA. Il processo prevede la scomposizione del problema in piccole parti per poi procedere in diverse fasi:
Usando RPS-BLAST posso allineare la mia sequenza sonda a tutti i profili contenuti nella banca dati e, come di consueto, a tale allineamento sarà attribuito un PUNTEGGIO ed un E-VALUE. Il numero delle strutture contenute è molto BASSO a causa della difficoltà nella loro determinazione Sono un numero ancora minore a causa della RIDONDANZA, poiché ogni proteina può essere vista in modi
Le informazioni strutturali delle proteine ottenute attraverso tecniche come la cristallografia a raggi X sono contenute all’interno della PROTEIN DATA BANK (PDB) Tale banca dati non contiene sequenze come osservato nelle precedenti ma COORDINATE SPAZIALI dei componenti della macromolecola di interesse. La struttura viene conservata sottoforma di tabelle contenenti la terna cartesiana della sequenza e che vengono lette da appositi programmi come CHIMERAX. MODELLIZZAZIONE PER OMOLOGIA Tecnica che consente di prevedere la struttura tridimensionale di una proteina dalla sola sequenza solo se si conosce la struttura di una proteina OMOLOGA.
Inoltre, consente di avere un’idea sulla struttura di una proteina in modo RAPIDO ed ECONOMICO nonostante i dati prodotti siano solo delle ipotesi teoriche che necessitano di una CONVALIDA postuma. Maggiore è questo numero MENO i due carboni α si sovrappongono. Minore è questo numero PIU’ i due carboni α si sovrappongono. Le due sono in un rapporto di PROPORZIONALITA’ INVERSA Tale processo è molto efficiente poiché nel corso dell’evoluzione la struttura di una proteina è più CONSERVATA della sua sequenza. Per applicare tale metodo è necessario quantificare la somiglianza di sequenza e di struttura di proteine omologhe:
Completato questo passaggio si utilizza l’opzione “SEARCH FOR TEMPLATE” in modo che la sequenza venga confrontata con una banca dati interna che deriva dalla PDB Il valore GMQE rappresenta la qualità attesa del modello: più è alto e più PRECISO sarà il modello. o POTENZIALE DI COPPIA determina la frequenza con cui due carboni α si trovano ad una certa distanza. o POTENZIALE DI SOLVATAZIONE misura quanto è frequente che un residuo sia esposto al solvente. Nel grafico sull’asse delle Y è misurata l’energia, perciò, dei picchi POSITIVI determinano delle INSTABILITA’ locali. Il programma impiegato nella costruzione di modelli per omologia è SWISS-MODEL. All’interno della pagina è possibile inserire manualmente la sequenza di cui si vuole costruire il modello oppure immettere il suo codice UNIPROT. Conclusa la ricerca il programma propone diversi modelli strutturali utilizzabili ordinati secondo la percentuale di IDENTITA’ con la proteina di nostro interesse. (il primo risultato NON deve essere tenuto in considerazione per costruire il modello poiché deriva da ALPHA FOLD) Nel caso volessimo usare come stampo le sequenze con una percentuale di identità molto BASSA si usa il comando HTML e con CTRL + F possiamo cercare lo stampo di nostro interesse. Una volta scelto lo stampo strutturale e ottenuto il modello, è possibile studiarlo attraverso diversi parametri:
Se il valore Qmean del mio modello (stella rossa) ricade all’interno della nube allora può essere considerato accettabile. Nel caso rappresentato il modello generato è altamente instabile e non rappresenta la possibile struttura reale della proteina presa in considerazione. Maggiore è questo valore più è alta la qualità del modello prodotto. Nell’istogramma in figura viene rappresentata una distribuzione di proteine di cui si conosce la struttura che ricadono all’interno di una “nube” di valori Qmean