Altre attività di ambito informatico (2 CFU)

L’informatica è essenziale nelle biotecnologie moderne. Se per esempio pensiamo alla genomica in

senso lato o al classico assemblaggio di genomi, capacità di confronto tra sequenze, ma anche

farmacogenomica o ottenimento di enzimi con caratteristiche migliorate o bio-rimediation che

permette di ingegnerizzare microrganismi a livello della codificazione. Nella drug-design si fanno

un sacco di simulazioni ad esempio per vedere il potenziale delle molecole di avvicinarsi a

specifiche proteine recettrici. Nella reverse vacinology. Nella medicina rigenerativa, attraverso

l’utilizzo di cellule staminali.

Contenuti:

database biosequenze

data mining

accenno di allineamenti e come si lavora con marcatori di tipo funzionale

l’esame sarà in doppia modalità: parte pratica in team work+ prova orale

registrato come idoneità

se io devo dire come sono organizzate le sequenze dei geni e delle proteine nelle banche dati,

come reperire al meglio le informazioni e quelle più affidabili, sono cose che manterrei uguali per

tutti gli studenti. Esiste un algoritmo di confronto per le sequenze. Ci sono però delle cose in cui

divergono, per dare il massimo in entrambi. Infatti, il futuro evoluzionista è più indirizzato a

imparare le sequenze per trarne il massimo in termini di informazione dal punto di vista delle

correlazioni evolutive e quindi fornire informazioni dal punto di vista di divergenza, convergenza

etc., il biotecnologo invece è più intenzionato ad ottenere un’informazione di tipo funzionale, che

possa aiutarlo a capire come sta funzionando una proteina perché poi può capire come

modificarla. Nello specifico quando si arriva all’allineamento multiplo, per il biologo evoluzionistico

è soprattutto il punto di partenza per gli alberi filogenetici e per poter dire che sequenze analizzate

con interesse e dal confronto vedo in quale punto dell’albero si va a collocare, per vedere se

l’organismo è più simile ad un gruppo piuttosto che ad un altro. Il biotecnologo invece mira di più

a confrontare le sequenze per ricavarne le regioni conservate che cambiano di meno e quali solo le

zone di divergenza che spiegano la modulazione funzionale. Sopponiamo che stia allineamento 50

promotori, di cui 20 forti e 20 deboli, dall’allineamento troverò regioni uguali e regioni ce variano:

quelle uguali non possono rendere conto della forza del promotore. Andrò a cercare regioni

conservate nella categoria forte e nella categoria debole. Se sto cercando di rendere forte un

promotore per E. c., posso fare una mutagenesi mirata con il consensus di sequenza dei promotori

forti.

È fondamentale che il biotecnologo sia capace di impostare i processi attraverso lo smart design,

invece di andare a tentativi, si studiano le sequenze e si capiscono quali sono le parti rilevanti.

Sono ridotte all’osso le informazioni teoriche, metto indicazioni specifiche su tool e su come usarli

in modo pratico.

Anteprima parziale del testo

Scarica Principi di Bioinformatica e più Appunti in PDF di Bioinformatica solo su Docsity!

Altre attività di ambito informatico (2 CFU) L’informatica è essenziale nelle biotecnologie moderne. Se per esempio pensiamo alla genomica in senso lato o al classico assemblaggio di genomi, capacità di confronto tra sequenze, ma anche farmacogenomica o ottenimento di enzimi con caratteristiche migliorate o bio-rimediation che permette di ingegnerizzare microrganismi a livello della codificazione. Nella drug-design si fanno un sacco di simulazioni ad esempio per vedere il potenziale delle molecole di avvicinarsi a specifiche proteine recettrici. Nella reverse vacinology. Nella medicina rigenerativa, attraverso l’utilizzo di cellule staminali. Contenuti:  database biosequenze  data mining  accenno di allineamenti e come si lavora con marcatori di tipo funzionale l’esame sarà in doppia modalità: parte pratica in team work+ prova orale registrato come idoneità se io devo dire come sono organizzate le sequenze dei geni e delle proteine nelle banche dati, come reperire al meglio le informazioni e quelle più affidabili, sono cose che manterrei uguali per tutti gli studenti. Esiste un algoritmo di confronto per le sequenze. Ci sono però delle cose in cui divergono, per dare il massimo in entrambi. Infatti, il futuro evoluzionista è più indirizzato a imparare le sequenze per trarne il massimo in termini di informazione dal punto di vista delle correlazioni evolutive e quindi fornire informazioni dal punto di vista di divergenza, convergenza etc., il biotecnologo invece è più intenzionato ad ottenere un’informazione di tipo funzionale, che possa aiutarlo a capire come sta funzionando una proteina perché poi può capire come modificarla. Nello specifico quando si arriva all’allineamento multiplo, per il biologo evoluzionistico è soprattutto il punto di partenza per gli alberi filogenetici e per poter dire che sequenze analizzate con interesse e dal confronto vedo in quale punto dell’albero si va a collocare, per vedere se l’organismo è più simile ad un gruppo piuttosto che ad un altro. Il biotecnologo invece mira di più a confrontare le sequenze per ricavarne le regioni conservate che cambiano di meno e quali solo le zone di divergenza che spiegano la modulazione funzionale. Sopponiamo che stia allineamento 50 promotori, di cui 20 forti e 20 deboli, dall’allineamento troverò regioni uguali e regioni ce variano: quelle uguali non possono rendere conto della forza del promotore. Andrò a cercare regioni conservate nella categoria forte e nella categoria debole. Se sto cercando di rendere forte un promotore per E. c., posso fare una mutagenesi mirata con il consensus di sequenza dei promotori forti. È fondamentale che il biotecnologo sia capace di impostare i processi attraverso lo smart design, invece di andare a tentativi, si studiano le sequenze e si capiscono quali sono le parti rilevanti. Sono ridotte all’osso le informazioni teoriche, metto indicazioni specifiche su tool e su come usarli in modo pratico.

Lezione 1 Database parte 1 Cos’è l’informazione e come si deve gestire? Quando immettiamo una qualsiasi parola in un motore di ricerca e vediamo tutte le schede che vengono estratte e ci rimandano ad altre pagine web, possiamo dire che sia sempre “informazione”? dipende dalle fonti. Dipende dalla banca dati che noi andiamo a consultare, se utilizzo pubmed trovo sicuramente articoli scientifici che sono stati sottoposti a rigoroso controllo da parte di anonimi prima di dare il consenso della pubblicazione. Quindi nella maggior parte dei casi gli articoli sono affidabile. Ci sono diversi problemi che possiamo analizzare:  Info poco rilevanti-> Google è un motore di ricerca magnifico che utilizzando tutti anche nel mondo scientifico. È sicuramente in grado di fornire informazioni serie ed utili. Riesci ad estratte un grandissimo numero di informazione. Il problema non è l’assenza dell’informazione, ma che nella maggior parte dei casi sono estratte informazioni poco rilevanti. Mettendo una chiave di ricerca con una solo parola, andremo ad estrarre tutte fonti che citano quella parola. Molte volte succede che la parola compaia all’interno di un blog, articolo etc. ma che non è quello che stavamo cercando;  Fake news-> possono essere di vario tipo, quando uno nomina il termine troppo spesso si va a pensare al fatto che siano intenzionali e che siano state create dalla fonte diretta per confondere le idee e mistificare la realtà. In alcuni casi questo può essere valida, ma molte volte invece è una fake news anche qualcosa che rilancia una fonte fake. Ad esempio, un giornalista consulta una fonte sbagliata e la riporta, un altro legge la notizia e si accorge della falsità della notizia. Altre volte può dipendere dal fato che colui che legge l’informazione, un giornalista ed esempio laureato ed istruito, che legge un articolo scientifico e crea una fake news non in cattiva fede. Questi casi sono molto frequenti;  Ridondanza-> ho 20-50 giornali di diverse città riportano con titoli diversi la stessa notizia. Quando vado a cercare mi ritrovo sempre la stessa informazione girata. Rigirata in mille modi diversi. Siccome le notizie sono varie, se ci sono 10 notizie e sono state riportare da 10 giornali, mi trovo 1000 risultati che riguardano solo poche notizie. Info poco rilevanti, fake news e ridondanza portano al noise -> questo significa che si fa un rumore di fondo che tende ad affossare le notizie rilevanti. Si può pensare che questo noise riguardi soltanto le informazioni non scientifiche, ma in realtà non è del tutto vero. Per non essendoci molte meno fake news, soprattutto se si consultano data base specializzati, se si bada alla qualità della rivista scientifica (notorietà, impatto internazionale), ma nel momento in cui facciamo delle quick research (una parola chiave) abbiamo la probabilità di incontrare gli altri due problemi (info non rilevanti e ridondanti). Contrariamente a quello che si può pensare, che sia necessario imparare come estrarre l’informazione, la cosa importante è come difendersi dal rumore di fondo e selezionare le info varie. Questo si applica anche al campo scientifico. Data base: contenitori di informazioni che devono renderle fruibili alla comunità Ci sono tanti data base diversi, però prima che esistessero i computer, esistevano le biblioteche e gli schedari. Cosa li accomuna? Sicuramente la presenza di un grande numero di dati ma soprattutto l’ordine. Quando si parla di ordine non riguarda soltanto i differenti oggetti depositati, ma deve riguardare anche la struttura stessa delle informazioni all’interno di ogni singolo oggetto. Se stiamo facendo un database che riguarda le caratteristiche delle proteine, non dobbiamo preoccuparci che ci sia un ordine di classificazione, ma anche le specifiche informazioni che riguardo la singola proteina devono essere organizzate allo stesso modo.

codici alpha numerici. Non viene seguito soltanto dai data base bioinformatici, ma da qualunque tipo. Quali sono i campi fondamentali tipici di data base bioinformatico?  ID, identificativo. Accompagna la primary key, è il nome della scheda;  AC, numero di accesso. È la primary key, costituita da un codice che inizia con Q ed è seguito da un certo numero di cifre; Questi due campi caratterizzano solitamente tutti i data base bio-informatici, ma hanno un ruolo diverso. L’ID riflette il contenuto della scheda quindi può cambiare;  Insieme delle date: data di creazione, data di integrazione nel data base e versione più aggiornata. Una serie di link in cui si possono andare a vedere le sequenze precedenti. Se facessimo ora una ricerca, dopo aver fatto le analisi, non siamo d’accordo con i risultati di un’analisi pubblicata nel 2018. Si deve stare attenti perché se le persone hanno fatto analisi nel 2018, bisogna vedere la versione della sequenza che hanno utilizzato. Aggiungere versione e data consente di chiarire dei disaccordi;  Campo di definizione  Campo di classificazione tassonomica, organismo di appartenenza del gene o della proteina  Tipo di molecola  Tessuto dal quale viene estratto. Ci sono un sacco di sequenze predette che vengono definite mRNA, perché sono sequenze nucleotidiche che vengono predette a partire dalla sequenza genomica. Se stiamo facendo deduzioni, bisogna sapere da dove deriva. Se estratto da un tessuto retro-tradotto o predetto;  Tipo di documentazione disponibile in relazione alla sequenza depositata. Ad esempio, un riferimento ad una pubblicazione di un articolo su una rivista scientifica da validità alla sequenza. Bisogna andare a vedere anche la data perché la pubblicazione viene fatta dopo l’aggiunta della sequenza nel data base;  Serie di codici identificativi: primary key di altri data base, perché sono correlati. Se metto una sequenza di mRNA, corrisponderà ad una proteina e quest’ultima sarà una scheda presente in un altro data base. Quindi metto il link in riferimento alla proteina o al gene a cui si collega l’mRNA;  Caratteristiche non sperimentalmente dimostrate ma dedotte per similarità con altre entità. Bisogna stare attenti e controllare se queste informazioni sono sperimentalmente supportate o solo dedotte. Tocca fare un esperimento per vedere se sono vere;  Sequenza: a livello proteico ad esempio, corrispondenti al trascritto. Sopra la sequenza ci sono una serie di caratteristiche: numero di aa e peso molecolare;  Formato FASTA: entità trattata fino a questo momento è ridotta soltanto ad una riga e una sequenza, col segno maggiore inizia un’altra entry seguita dalla sequenza. Questo formato è una specie di riassunto che riporta la sequenza e con il segno maggiore riporta gli elementi minimi per dire a che cosa corrisponde quella sequenza (primary key, codice di accesso, suo numero identificativo). Serve a tutti i programmi bioinformatici che devono fare dei confronti. Ad esempio, nei programmi di allineamento: gestisce e confronta le sequenze. Per evitare di scorrere in una scheda troppo lunga e perdere tempo computazionale, utilizza questo formato sintetico che comprende solo la sequenza ed elimina il resto delle informazioni. Mantiene solo la linea identificativa, riconosciuta tramite il segno maggiore, in modo tale che quando vado ad ottenere risultati di questo software ottengo un output in cui posso risalire e cercare la scheda completa. Oppure i codici trovati vengono portati sotto forma di link diretti.

Data base parte II Ci siamo occupati nella lezione precedente di data base di tipo sequenziale, che si sviluppano come libri. Se inseriamo qualcosa all’interno di un libro informatico, succede che il testo dell’indice andrebbe modificato. Considerando il file sequenziale di un data base in cui vengono inserite delle schede, man mano aggiunte, l’intero indice dovrà essere continuamene aggiornato. Per questo motivo si ricorre a sistemi di data base gestiti in modo diverso: data base relazionali. Hanno un formato di tipo tabellare. Nell’equivalenza con programmi di uso comune, i data base sequenziali sono paragonabili ad un file di word, quelli relazionali ad un file excell. Dove in questa rappresentazione parziale con 4 entry, le righe corrispondono all’entry e le colonne ai campi del data base. Inoltre, sono gestiti da “data base management system” programma che consente la consultazione attraverso un linguaggio strutturato “structure query language”. Questo linguaggio viene fornito sia da programmi commercial che da programmi che sono stati free ma poi sono stati acquisiti da una company. Questo tipo di organizzazione può vedere le sue componenti fisicamente collocate in vari modi: possiamo avere sia il data management system sia il data base in un computer locale gestito da una persona con competenze informatiche, attraverso una comunicazione diretta con linguaggio SQL. Oppure sempre su computer locale e un computer remoto a cui tutti i computer terminali accedono (quello del gruppo). Sia primo che secondo esempio sono tipici di gruppi di ricerca di genomica informatica o proteomica. Il caso più comune di un biotecnologo è utilizzare il proprio computer collegato internet ad un server remoto che contiene entrambi. Un’altra cosa che differenzia l’utenza evoluta di settore e quella comune, dove si intende la stragrande maggioranza degli utilizzatori (gente che fa informatica, usa dati per elaborare ipotesi in lavori sperimentali). In tutti questi casi ci sono interfacce grafiche che rendono più fruibili le schede del database, e dividono graficamente in sezione e sottosezioni, però resta sempre fruibile la scheda con formato solo testo. Ci sono casi i cui non è sufficiente, chi visualizza un file del genere capisce che è il file di una struttura proteica, però le coordinate atomiche nel file sono ininterpretabili. Serve un visualizzatore molecola, un programma che legge il file: prende le coordinate atomiche e le trasforma in punti nello spazio, rappresentati da punti di un’immagine grafica. In questo modo viene fuori una rappresentazione cartoon da cui ricaviamo il fatto che ci siano -strand e -elica. Le banche dati informatiche sono divise in primarie e secondarie: o da un punto di vista biologico, l’informazione è primaria e quella proteica è secondaria, o informaticamente secondari data base che partono da geni e proteine e elaborano informazioni. Come per vedere cluster di geni co- espressi, domini proteici comuni, componenti di una via metabolica etc. Quello che è importante è capire quali dati siano predetti e quali siano certi sperimentalmente. Molti dati derivano da risultati prevalenti per numero di sequenze analizzate. Supponiamo di voler dedurre la lunghezza di un dominio proteico e se in una certa parte ci sono particolari strutture secondarie. Vengono prese 100 proteine, si confrontano e si deduce che in una certa posizione ci sia prevalentemente un foglietto- anziché elica, perché presente all’85%. Se vado poi a vedere nel data base e scopro che il 15% erano tutte proteine caratterizzate e validate sperimentalmente e le altre 85 proteine erano sequenze predette, derivate da traduzione di RNA messaggeri, i quali erano stati predetti mettendo insieme i putativi esoni, ci rendiamo conto che potrebbero essere frutto di una previsione sbagliata. Quindi è più affidabile l’-elica.

una agreement con l’EBI. EBI decise poi di dismettere l’SRS (sequence retrieval system ) e sostituirla con l’ENA (european nucleotide active). Purtroppo, la modifica, dopo ben 6 anni, non ha raggiunto l’organizzazione che aveva il vecchio SRS. In realtà però l’SRS è installato su vari server europei ed è possibile consultarlo presso alcune organizzazioni. Però siccome è utilizzabile attraverso library locali, lo utilizzano solo per consultazioni locali. Da una parte l’ENA è il più completo mentre il SRS non contiene l’intero panorama dei data base disponibili. Dipende sempre dalla ricerca che si sta facendo. La Library page dell’SRS fa scegliere dove state andando a cercare le cose, una prima misura di selezione. Quando fate una ricerca per parole chiavi e questa viene cercata su qualunque sezione, viene fuori di tutto. Se invece stiamo cercando qualcosa di specifico, è inutile che vengano restituite anche schede di proteine e dati genomici. Per rendere ancora più specifica si cercano per campo specifico. Quando non si sa che cosa si sta andando ad analizzare, ad esempio “karyn’s genomes”, passando con il cursore si apre una finestra esplicativa o anche link di riferimento. Inoltre, vengono presentati spesso elenchi di gruppi di database specifici. Interrogazioni più complesse: Query form. Qui si possono compilare una serie di campi che di solito vengono collegati tra loro con un operatore logico. L’operatore logico di default è “and” che cerca sia l’una che l’atra parola, oppure “or”. Abbiamo più caselle di ricerca con “alltext”. Significa che mettendo parole chiavi sulle varie caselle cercherà gli articoli che le contengono tutte e tre (selezionando l’operatore logico and) ma in tutto il testo, non sarà selettivo per campi. Se voglio combinare queste ricerche devo tenere conto del fatto che quando vado a limitare per tipo di campo, ci sono delle possibilità di scelta differenti a seconda dei database. Advanced query: esempio di ricerca sul canale del calcio in homo sapiens. Se avessi fatto una ricerca semplice avrei inserito human calcium channel incorrendo nel gran rumore di fondo. Questo sistema permette di fare ricerche molto sofisticate e precise. Panoramica dei principali tipi di data base e server per la bioinformatica Analisi di allineamento di DNA e proteine con le applicazioni di BLAST Come si possono confrontare e studiare queste sequenze: metodo di allineamento locale attraverso il software BLAST che sta per Basic local alignment search tool. Questi algoritmi di allineamento possono essere utilizzati in vari modi e con il tempo si sono create applicazioni specializzate di BLAST, un po’ come le versioni di un software che vengono ottimizzate per l’esigenza di una ditta, tipo i software gestionali. Dove fare comodamente BLAST? Faccio riferimento all’uso comune, di una persona che non ha competenze informatiche avanzate ed esigenze di analisi avanzate, un biotecnologo che fa lavoro di ricerca e se ne avvale per potenziarla. In questo caso si ricorre al GA, entrando nella pagina mostra 2 grandi riquadri riguardanti nucleotidi e proteine. Questi due tool sono applicazioni base di blast e confrontano set di dati omogenei. La sequenza dalla quale parto ( query ) e le sequenze del database sono dello stesso tipo. Lanciando una sequenza nucleotidica l’algoritmo mi confronterà la mia query con altre sequenze, o genomiche o trascritti. Stessa cosa per le proteine, cambiando però la sezione (tool). Esistono però anche applicazione di blast che consentono di confrontare tra loro sequenze nucleotidiche e proteiche, cioè set di dati eterogenei: posso farlo tra query nucleotidica e database di proteine oppure tra query proteica e genomi di trascritti (DNA e RNA).

Poi posso realizzare ricerche su uno specifico genoma, in particolare con le sequenze modello (organismo modello). Ma è possibile anche quando il genoma non è completamente sequenziato. Inoltre, si possono scaricare i blast se ho necessità di fare ricerche massive: se devo confrontare da 1 a 10 sequenze posso farlo direttamente tramite il web, se invece devo confrontare centinaia, migliaia e più, conviene scaricare le sequenze, perché sul web ogni sequenza viene messa in coda alle altre e questo porta a rallentare gli altri. Quindi si devono scaricare i data base e si fa tutto con il proprio computer. Esistono poi delle applicazioni specializzate derivate da blast che differiscono nei settings, sono ottimizzati per svolgere differenti tipi di analisi. BLASTN Cosa succede se selezioniamo nucleotide blast? Appare la pagina di ricerca della query, inserita nella finestra in alto, questa verrà confrontata con una data base. Si dice “ho lanciato blast contro il data base, specificando quale tipo di data base (menù a tendina)”. Se io però metto il segno di spunta a questa opzione specifica, succede che l’interfaccia cambia, compare una seconda finestra di immissione dove andrò a mettere il data set contro cui viene confrontare la sequenza query (confronto diretto tra le due). Se invece voglio confrontare la mia sequenza contro un data set di 50 sequenze, le metto nel formato corretto (FASTA). questo permette di confrontare sequenze non ancora depositato in data base perché magari le ha prodotte il mio gruppo di ricerca. Quando si fa il confronto ci sono ulteriori ottimizzazioni:

Megablast -> nel caso in cui il livello di identità delle sequenze è molto alto;
Discontiguous megablast - > variante di megablast che consente di confrontare sequenze molto simili ma con qualche mismatch in più. In genere è il caso del confronto tra ortologhi (stesso gene in specie diverse) e paraloghi (derivati da una duplicazione o triplicazione genica all’interno dello stesso organismo);
Blastn-> permette il confronto di sequenze nucleotidiche senza che siano particolarmente conservate. La differenza tra blastn e megablast e nella scelta del “ word size ”, ovvero la lunghezza minima della stringa di residui contigui considerata ai fini della valutazione di identità. Come sono stati ottimizzati? Usando due parametri w e s: w è il parametro della finestra con cui viene fatta la scansione della sequenza e s indica quanti residui all’interno della sequenza devono essere identici. Se con blastn prendo delle finestre di 10 residui e poi all’interno voglio che ce ne siano 4 di identici, ho una stringenza più bassa. Con mega blast, le finestre sono più grandi e chiederò che ce ne siano 28 identiche su 30. Mentre con discontiguous megablast ci sarà un numero di sequenze identiche più basso, questo mi consente di avere più mismatch, come accade tra gli ortologhi. BLASTP Come per blastn anche per blastp ( protein blast ) ci sono dei sotto algoritmi:
PHI-blast -> associato alla presenza di pattern. In particolare, oltre a cercare sequenze omologhe, devono contenere anche un pattern. Se sto cercando degli enzimi e voglio che le sequenze simili abbiamo la triade catalitica, perché non mi interessa una generica similarità, metto sia le sequenze dell’enzima che il pattern corrispondente alla triade catalitica. Così non mi troverò proteine che hanno similarità con alcune sequenze dell’enzima ma che non abbiano proprietà catalitiche.;

A cosa serve? Perché dovrei essere interessato al confronto? Se parto da una sequenza genomica o la sequenza di un trascritto e le confronto con le sequenze proteiche, posso vedere quale parte all’interno di quella sequenza genomica o di cDNA corrisponda alla parte codificante. Questa cosa mi può dire che tipo di proprietà produce e che cosa può comportare la sua capacità codificante o di trascrizione. Blast-x di fatto è come blast-p perché devo prima considerare che la sequenza nucleotidica può essere tradotta in proteica, ovviamente non so da quale punto sia codificante e da quale nucleotide devo partire. Se sbaglio nt vado fuori registro. La cosa che banalmente viene fatta è quella di tradurre in tutti i possibili registri di lettura. Quindi viene tradotto dal primo nucleotide poi si slitta di 1 e poi di un altro ancora (3 registri in una direzione” e poi per il reverse complement si va nelle 3 direzioni opposte. Di fatto nel momento in cui ottengo 6 traduzioni, queste vengono trasformate in sequenza proteica e vengono lanciate in data base proteico. È come se lo lanciassi 6 volte; Tblastn-> da sequenza proteica a nucleotidica. A cosa serve? Perché io posso andare a cercare partendo dalla sequenza della proteina dove si trova il gene che la codifica (lo lancio sul genoma). Oppure la confronto con il trascrittoma e posso vedere tutti i trascritti che contengono l’intera sequenza ma anche alcuni che ne contengono solo una parte e quindi potrei scoprire delle varianti di splicing negli organismi che lo fanno. Come funziona? È un blastp ma la sonda proteica non può essere retrotradotta in nucleotidica perché quando ho una sequenza proteica l’aa ha perso l’informazione del codone, gli unici che la mettono sono il triptofano e la metionina. Gli unici aa codificati da un solo codone. Tutti gli altri aa sono tradotti da una serie di codoni che possono essere 2-4 o anche di più. Ad esempio, la glicina a 4 codoni, se trovo g in una sequenza proteica non posso tradurla in un codone. Quindi posso mantenere la sequenza proteica e mantenere la traduzione nei 6 registri di lettura, non della query ma dei data base nucleotidici. Sono già presenti sui data base, sono già disponibili le 6 traduzioni proteiche. Esiste inoltre un’altra applicazione più sporadica: Tblastx A cosa serve? Parte da una sequenza nucleotidica e la confronta con altre sequenze nucleotidiche (confronto tra geni o tra trascritti). Però traduce la sonda nt in proteica e anche i data base in proteine. Ma se parti da nt e vuoi confrontare tra nt, perché non usare direttamente blastn? Quando si fa questo confronto lo si fa anche con blastn e si vede il profilo di confronto. Si fa un albero filogenetico ed escono fuori una serie di correlazioni. Queste pesano tutte le mutazioni: se una sequenza rispetto a quella più simili ha 25 mutazioni, con la seconda 27 e con la terza 29, viene fatta una graduatoria sulla base di chi ha più differenze e chi ne ha meno. Non è detto che da un punto di vista funzionale, la correlazione corrisponda a numero minore di mutazioni. Perché certe volte le mutazioni possono riguardare la terza base all’interno della sequenza codificante, quindi sono mutazioni che non hanno un effetto concreto in termine dell’aa che viene codificato. Potrei avere tra due proteine 6 cambiamenti silenti che fanno cambiare da un codone all’altro codone, sempre per lo stesso aa. Un’altra differenza potrebbe averne 4 mutazioni, ma queste potrebbero essere in grado di cambiare il codone. Con blastn risultano più vicini i geni che hanno le 4 mutazioni, con tblastx si vede la reale differenza da un punto di vista funzionale. Come funziona? Si traduce sia la sonda che il database e i 6 tradotti sono già disponile nel server. Questo confronto è il più pesante da un punto di vista di tempi. Non solo si lancia il confronto con le 6 versioni del database ma anche con le 6 traduzioni della sonda: sono 36 confronti.

Applicazioni basate su metodo di blast: utilizzati per aiutare fasi di clonaggio nella biologia molecolare. altre tipologie di tool:  Primer-BLAST-> utilizzato per ottimizzare la progettazione dei primer per PCR. Si possono utilizzare sia regioni genomiche che trascritti e si possono cercare i pattern per primer che sono già stati progettati oppure individuare una coppia di primer nuovi. Utile anche per la verifica della specificità. Spesso si concentra sul fatto che abbiamo una buona temperatura di melting e che non formino strutture tipo forcine. È importante anche vedere che non ci sia un’amplificazione di prodotti secondari, potrei trovare primer ottimi come caratteristiche ma che possono con una certa affinità riconoscere regioni all’interno di altri trascritti o di altri geni;  Vecscreen-> utilizzata tanto nelle fasi di clonaggio quando vengono sequenziate dei frammenti di Dna che sono stati clonati. A volte vengono sequenziati a partire da primer che sono all’interno del vettore e quindi viene sequenziato anche un pezzetto del vettore plasmidico stesso. In questo caso queste seguenze posso sottoporle a vec screen (possiede tutti i vettori di clonaggio), in modo da filtrare le sequenze di disturbo e lasciare solo la sequenza clonata che mi interessa;  CDART e CDsearch-> conservade domain, utilizzati per ricerche funzionali sulle proteine. Quando si cercano domini conservati all’interno di una sequenza proteica fornita oppure quando si vogliono trovare a partire da una sequenza altre proteine che possono avere un’organizzazione simile. Se ho una proteina con una regione refettoriale e un dominio con attività chinasica, lo sottopongo a CDART e mi vengono cercate non solo sulla base della similarità ma anche del profilo tipico recettoriale e del profilo tipico della chinasi. L’architettura di domini evidenziate in CDART è un concetto importante nelle biotecnologie, si impara a ragionare in termini di dissezione funzionale: non semplicemente in termini di gene, trascritto, proteina ma pezzetti lego di cui sono costituiti e che determinano la funzione complessiva;  Multiple alignment-> in questo caso la derivazione di blast consente l’allineamento multiplo ma nella maggior parte dei casi si usa un altro algoritmo clastal. Chi naviga nel portale di blast può comunque avvalersene;  IgBLAST-> specializzato per studi specifici sulle immunoglobuline e sequenze dei Tcell receptors. Una volta che BLAST ci ha fornito dei risultati, cosa faccio? BLAST è disponibile su molti server bioinformatici, non solo su NCBI. L’algoritmo di base è quello ma ci sono varie ottimizzazioni. Però ci sono anche team che possono avere filosofie diverse ed impostare le applicazioni di base con dei pre-set che nella pagina di partenza possono essere diversi. Si deve prendere nota di quali parametri ha utilizzato, esattamente come si fa con un esperimento al banco. Quando si lancia la sequenza si ottiene un output sia in termini di elenco delle sequenze e di allineamento tra query e le varia sequenze, ma si ottiene anche un output grafico.

riportato in ordine dall’alto verso il basso: sequenza query-> sequenza consensus-> sequenza lanciata. Con cosa ho trovato similarità? Nella descrizione viene definita come Hypothetical e poi c’è indicato l’organismo cui appartiene e la lunghezza. BLAST estrae dai database sequenze che non sono tutte possibili, ma sono quelle che ci mostra sulla base delle impostazioni che noi pur non sapendo gli abbiamo dato perché erano quelle pre- settate da altri. In particolare, la soglia di significatività statistica fa si che se viene mantenuto il pre-set, la ricerca avviene con una certa velocità ma si perdono alcune sequenze considerate sotto-soglia. Se riduco la stringenza, avrò dei cambiamenti nell’out put e nella velocità, avrò più risultati ma sarà più lenta, se aumento vado più veloce ma perdo sequenze. Dipende dai casi. La modulazione del parametro consente di reiterare le ricerche cercando di ottenere quello che nella prima ricerca non siamo riusciti ad ottenere. Nelle esercitazioni vedremo come utilizzare BLAST su delle sequenze di nostro interesse nella ricerca integrata in cui cerchiamo di mettere insieme una specie di mini review o analisi di geni o delle proteine di nostro interesse. Bioinformatica strutturale Nelle biotecnologie e negli studi funzionali è importante affiancare ricerche per confronto tra sequenze a ricerche per confronto delle strutture. Prima bisogna considerare che le analisi per allineamento posso essere guidate ed impiegate con analisi di tipo strutturale. Tenendo conto del fatto che nelle sequenze alcune mutazioni non hanno lo stesso peso e possono avere ricadute differenti sulla struttura. Quando si usa blast per studiare ed individuare sequenze omologhe, queste possono essere correlate e condividere la stessa funzione, ma l’omologia non è un’evidenza che confermi necessariamente questa visione. La probabilità è alta ma non è mai una certezza. Le sequenze omologhe infatti possono avere funzioni anche molto diverse. Questo perché la modulazione della struttura e delle interazioni mediate dalle mutazioni, può incidere anche profondamente sulla struttura e quindi sulle interazioni. Quando si pesano le mutazioni con sistemi di score basato su matrici di tipo “PAM” o “BLOSUM”, il risultato non corrisponde al peso che le mutazioni hanno dal punto di vista funzionale: i criteri delle due matrici sono comunque una fotografia della realtà in termini di frequenza con cui avvengono le sostituzioni tra proteine correlate o blocchi conservati (nelle due matrici rispettivamente). Come abbiamo detto alcune mutazioni possono incidere più di altre sulle strutture di una proteina. Le matrici di sostituzione hanno infatti un limite, applicano sempre lo stesso punteggio a un determinato tipo di sostituzione: se considero una sostituzione tra leucina e treonina, in queste matrici la sostituzione avrà sempre lo stesso punteggio. In realtà questa sostituzione può avvenire in un punto della proteina dove è quasi irrilevante, oppure in una posizione dove la conseguenza può essere drammatica. Matrice di tipo BLOSUM 62 Matrice utilizzata come preset nelle ricerche di blast. Consideriamo 3 tipi di sostituzioni che sono stati cerchiati: sostituzione di prolina con serina, che fa un punteggio di -1, poi F-Q di -3 e T-L di -1. Nel confronto di queste sequenze si considera una sequenza 1, che potrebbe essere la query sequence e altre 5 sequenze da 2 a 6. Nell’esempio vediamo che la sequenza 5 è identica, nella graduatoria per similarità avremo al primo posto la sequenza stessa e poi altre sequenze 2

e 6 che hanno sostituzioni P-S o S-P che hanno uno score di -1. Poi ci sarà la 4 che avrà uno score di -5 e infine la sequenza 3 con uno score di -7. Viene evidenziata in grigio la sequenza che per la BLAST è considerata più lontana dalla 1. Mentre le sequenze 1 e 5 identiche devono avere la stessa funzione. Sostenere invece che la sequenza 3, solo perché ha uno score più basso, sia più lontana dalla 1 non è necessariamente vero da un punto di vista funzionale. Ipotizziamo che a questa sequenza corrisponda una struttura basata su questi 5 foglietti  rappresentati dalle frecce e sono anche allineati con gli elementi di sequenza che li compongono. Il primo foglietto  è caratterizzato dai primi residui di istidina all’arginina. Il terzo va dalla valina all’istidina e così via. Cosa succede se evidenziamo il tipo di sostituzioni? Nella sequenza 3 ci sono sostituzioni che capitato tutte quante nelle regioni di loop, tra una struttura secondaria e l’altra. La prima sostituzione capita tra il primo e il secondo  strand, la seconda tra il secondo e il terzo e l’ultima nella parte C terminale non strutturata. In teoria dovrebbero essere abbastanza tollerate. Cosa succede se andiamo a vedere la sostituzione delle due sequenze più vicine della 3 alla sequenza 1? La sequenza 6 ha una prolina che capita all’interno del  strand numero 2, la prolina determina una rigidità e una piegatura e quindi questa potrebbe alterare tutta la struttura. Spesso i  strand vanno a formare  flat. Questo potrebbe distorcere tutto il fold e quindi alterare la funzione dell’intera proteina. Per chiarire perché una maggiore similarità non è necessariamente indice di una maggiore vicinanza funzionale, basta ricordare il concetto degli ortologhi in altre specie e delle mutazioni associate a malattie genetiche. Ricordiamoci che gli ortologhi sono i geni che in differenti specie derivano da un comune “ancestore”. Non è il numero di sostituzioni l’indice delle differenze funzionali Prendiamo in considerazione gli ortologhi di una serie di vertebrati (topo, cane e zebra fish) che avranno, negli animali wild type, tutta una serie di differenze che si saranno accumulate nella storia evolutiva, ma comunque manterranno funzione uguale o molto simile. Ad esempio, un enzima che serve per la funzionalità epatica, sicuramente in individui sani ma di differenti specie funzionerà più o meno alla stessa maniera. La stessa proteina umana con una sola mutazione potrebbe perdere la funzione. Come nell’esempio di prima, un aa di differenza farà apparire una similarità BLAST altissima, ma al contempo farà perdere la funzione, come accade in molte malattie genetiche. Se confrontiamo una proteina umana wild type con le proteine di topo e con la proteina umana mutante, associata alla malattia genetica, la proteina umana mutante risulterà ampiamente più vicina alla wild type perché avrà una sola sostituzione, mentre le proteine wild type delle altre specie avranno numerose mutazioni. In definita però le proteine wild type delle altre specie considerate, avranno la stessa funzione.

Predizione della struttura secondaria di una proteina Sistema altamente migliorato da quando sono stata depositate sempre più strutture tridimensionali. Originariamente, la predizione della struttura secondaria, si basava su considerazioni di carattere teorico: come determinate combinazioni di aa abbiano propensione o difficoltà a formare  eliche/  strand. Come sempre nella bioinformatica le considerazioni teoriche non riescono a prevedere tutte le possibilità di ciò che può accadere in natura. Come è successo con gli allineamenti, in cui è stato possibile sviluppare empiricamente delle matrici per dare i conteggi, anche con la predizione della struttura secondaria l’afflusso delle informazioni nelle banche dati, ha consentito di arricchire i data base di strutture secondarie. Perché per ogni struttura cristallizzata ci sono le informazioni su tutti gli elementi delle strutture presenti nella proteina specifica; se ha 3  eliche, 4  strand e una serie di loop, queste sequenze possono andare ad arricchire sia i database delle strutture secondarie che database delle regioni disordinate. La predizione di struttura secondaria può essere fatta perfino su una struttura tridimensionale già determinata. Che senso ha predirla quando ho già determinato la terziaria? Ha senso perché la struttura 3D è una magnifica rappresentazione della proteina e dei suoi dettagli, però la struttura che deriva dalla cristallografia e dall’NMR non tiene perfettamente conto di tutte quelle che sono le possibili conformazioni di una proteina. La predizione di struttura secondaria può aggiungere degli indizi sulla propensione che ha ciascuna parte della proteina a subire della transizioni conformazionali. Infatti, la dinamica di vita di una proteina è più assimilabile ad un filmato, la riproduzione della struttura è come una fotografia. Ovviamente questa la vediamo in modo statico. Il filmato ci fa capire anche la mobilità. I vincoli strutturali consentono di valutare la compatibilità di una determinata sequenza con i vari tipi possibili di struttura secondaria. Questi sono i parametri utilizzati nelle primissime predizioni, quando c’erano poche strutture risolte nelle banche dati. Questi vincoli si basavano sulle caratteristiche chimico-fisiche. La conoscenza empirica di varie strutture ha consentito di complementare e correggere la valutazione di compatibilità di regioni composte da un certo numero di sequenze. Possono essere calcolati come possibilità di stare in  o in  in base alle caratteristiche chimico-fisiche ma se poi esce fuori in banche dati che un peptide è frequentemente in struttura alfa, bisogna dare testo alla seconda ipotesi più reale. Come per blast, nelle analisi di allineamento, la valutazione di queste strutture ha consentito di attribuire dei punteggi e quindi questi consentono di calcolare degli score e quindi ci sono anche qui soglie che si ottengono per somma di punteggi. Quindi in base allo score viene considerata possibile una determinata struttura secondaria.

Ci sono molti tool per le predizioni delle strutture secondarie. Abbastanza utile da ricordare che il server dell’ExPASy è il più importante sito informatico per l’analisi funzionali delle proteine. Questi software sono continuamente aggiornati perché chi ha creato questi programmi (sono tantissimi) e li ha fatti collocare sul server per avere la massima fruibilità. Spesso si mantiene in contatto con i gestori del server e quando sviluppa una seconda/terza versione del software, la fornisce prontamente. Però questo portale non sempre ospita direttamente i programmi di predizione. Spesso ospita il link del server dove i programmi vengono gestiti. Se un gruppo qualsiasi al mondo sviluppa un software molto valido lo mette a disposizione sul proprio server, in questo modo lo si può trovare facilmente. I nomi non rendono conto sempre del tipo di algoritmo che viene utilizzato. Essendo una predizione, è opportuno utilizzare più di uno strumento predittivo. A cosa può essere utile predire la struttura secondaria? Aiuta anche in altre analisi. Non abbiamo ancora parlato dei marcatori funzionali, ovvero dei marcatori che derivano da allineamenti multipli e consentono di individuare all’interno di una sequenza proteica, la presenza di domini proteici, le regioni associate ad una determinata funzione, oppure un sito catalitico/sito di legame. Questi marcatori sono basati su una sequenza e hanno anche degli indici di precisione, cioè degli indicatori che dicono quanto sono più o meno affidabili. Nel momento in cui abbiamo un marcatore funzionale presente nella nostra sequenza e vogliamo avere qualche aiuto in più dagli strumenti bioinformatici, possiamo andare a vedere se per caso questi marcatori funzionali, qui si fa l’esempio di un pattern, ha una struttura secondaria conservata associata a quel tipo di sequenza. Perché se ha una struttura conservata si può andare a fare anche la predizione di struttura secondaria per vedere se viene confermata quella associata alla sequenza del marcatore funzionale oppure no. Situazione teorica in cui un’ipotetica regione è in grado di legare neuropeptidi: bisogna ricordarsi che i marcatori funzionali sono blocchetti di sequenza che possono essere riconosciuti da appositi programmi e che sono associati ad una determinata funzione. Quindi immaginiamo che esista un marcatore funzionale che si sa essere associato a queste regione di legame ai neuropeptidi. Però sappiamo anche che questo marcatore funzionale basato sulla sequenza ha blocchi di sequenza conservata su due elementi  di un  helping. In questo caso gli elementi conservati (box barrati nell’immagine) sono presenti e quando sono individuati in una sequenza mi danno predizione che questa regione che li contiene possa legare neuropeptidi. Se trovo questi pattern all’interno di una proteina, quando vado a fare la predizione posso trovare che le regioni dove si trovano i blocchi è esattamente predetta come struttura con foglietti  e quindi in questo caso ho due predizioni che vanno nello stesso senso. Nell’altra immagine ho un altro caso in cui posso trovare i blocchi di sequenza conservati, però la predizione di struttura mi dà un’ elica anziché 2  strand. Quindi questa potrebbe essere quello che si chiama un “falso positivo”.

Mentre invece per la regione che corrisponde sul grafico agli ultimi picchi, c’è un’intersezione tra plot di 3 tipi di struttura. Verosimilmente, mentre al centro del grafico abbiamo una struttura secondaria abbastanza preponderante, lì abbiamo una zona di probabile transizione conformazionale. Se applico questa predizione ad una proteina la cui struttura è nota, vedo la proteina come se fosse un oggetto fisso. Mentre associando la sua sequenza ad una predizione di struttura secondaria, posso vedere quali sono le regioni che hanno una propensione border line quindi non nettamente orientata. Quindi vado a rivedere questa regione in struttura tridimensionale e posso vedere che quella è la parte dove potrebbero esserci variazioni di conformazione. Per avere una predizione affidabile la cosa migliore è che usi più predittori basati su algoritmi diversi. In questo modo gli errori si diluiscono e quindi avrò un output più affidabile. Cenni sulle strutture tridimensionali Sono depositate nel protein databank, banca dati in cui non si depositano sequenze ma solo le coordinate strutturali e atomiche derivanti dalla risoluzione di strutture proteiche con X-ray o NMR. Le sequenze non sono necessariamente corrispondenti a proteine complete (possono essere anche solo domini) o wild type. Possono anche essere mutanti, trovati in natura o prodotti per fini biotecnologici. PDB entries: primary key a 4 caratteri alfanumerici. Questa cosa dà già l’idea che le strutture disponibili sono molto inferiori alle sequenze in cui il codice è più lungo. La quinta lettera indica la catena. Il file PDB è un file di testo e c’è bisogno di un visualizzatore molecolare per andare ad interpretare la struttura. In una scheda ci sono vari tipi di campi:  Campi ATOM con coordinate  Campo TER di fine catena  Campi HETATM con coordinate atomi non appartenenti alla catena polipeptidica  Campo END a fine informazioni Visualizzazione delle strutture Ci sono campi che sono assolutamente necessari ma altri che sono presenti solo nelle strutture risolte e caratterizzate. Quando si ottengono i modelli predetti, perché è possibile predire la struttura, si ottengono file PDB-like, cioè salvati come PDB ma non contengono tutte le informazioni. Sono visualizzabili solo con alcuni visualizzatori molecolari come Pymol e UCSF Chimera (c’è una pagina sul sito web del corso per il download). Una volta che uno ha scaricato le strutture può fare una sovrapposizione: carica le due strutture, le avvicina con il rotore di traslazione, con un numero di rotazione che minimizza le differenze.  Gli atomi considerati per la sovrapposizione sono C. Quindi il confronto riguarda i backbones;  Le proteine da sovrapporre sono trattate come corpi rigidi, ovvero indeformabili;  La sovrapposizione viene valutata dalla radice quadrata dello scarto quadratico medio (indicatore della vicinanza strutturale).

La percentuale di identità e la percentuale di aa compatibili ci danno un’indicazione della vicinanza in termini di sequenza, dalla sovrapposizione di strutture e dal calcolo dell’rmsd si ha un valore che indica la distanza media degli atomi strutturalmente equivalenti. Più è basso il valore, migliore è la sovrapposizione. La sovrapposizione può essere “ottimizzata”:  Variazione della distanza entro la quale gli atomi sono considerati strutturalmente equivalenti;  Scartati gli atomi con distanza maggiori;  Tali atomi esterni non influenzano la rmsd. Ci sono strategie per minimizzare la distanza: (non le chiede)

Algoritmo esplora tutto lo spazio rotazionale (più rigoroso)
Gli atomi sono ruotati seguendo l’aggiustamento di atomi di riferimento equivalenti Ciò che è fondamentale è imparare a confrontare le strutture e non solo le sequenze come con blast. È molto importante perché un errore molto frequente tra tanti colleghi è di confondere la vicinanza della sequenza con quella funzionale. Mentre invece piccoli cambiamenti possono alterare fortemente la struttura della proteina. Esistono anche dei tool per individuare delle similarità strutturali che invece non corrispondono ad un buon allineamento di sequenza:  quando ci sono permutazioni nella fusione o eventi di convergenza evolutiva, per cui proteine con origine differente hanno la stessa struttura. Con DALI server riusciamo ad individuare le proteine che sono simili strutturalmente a quella che noi stiamo utilizzando come query; Da ricordare il fatto che, così come possiamo lanciare una sequenza e trovare sequenze omologhe, possiamo lanciare una struttura e trovare delle strutture correlate. Anche se non sono correlate come sequenze. Infine, la sovrapposizione di strutture è importantissima nell’ingegneria proteica e in tutte le biotecnologie perché consente di vedere a livello sottile le differenze che ci sono, per esempio dovute all’effetto di mutazioni o naturali o introdotte.

Principi di Bioinformatica, Appunti di Bioinformatica

Documenti correlati

Anteprima parziale del testo

Scarica Principi di Bioinformatica e più Appunti in PDF di Bioinformatica solo su Docsity!