






































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Il file presenta basi abbastanza generali di informatica con alcuni esempi di esercizi informatici sempre con accenni alla bioinformatica, dopodiché vi è tutta una parte che riguarda la bioinformatica vera e propria
Tipologia: Appunti
1 / 46
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!







































Introduzione : La bioinformatica è il campo interdisciplinare per lo sviluppo di metodi e strumenti software finalizzato alla comprensione e l’analisi di dati biologici. Ovviamente esistono degli strumenti informatici che ci aiutano nell’interpretazione di tali dati. E’ possibile raggiungere tale obiettivo combinando informatica, statistica, matematica e ingegneria. Quindi l’obiettivo della bioinformatica è mettersi a fianco al medico e cercare di capire le sue esigenze, capire come poter utilizzare gli strumenti a disposizione nel modo più semplice possibile, quindi anche l’ingegnerizzazione buona fatta su un software è di fondamentale importanza. E’ spesso chiamata biologia computazionale , e l’interesse verso questo campo è cresciuto dopo il completamento del Progetto Genoma Umano e la produzione della sequenza completa del DNA umano e di altri organismi. I dati elaborati, interpretati e analizzati sono principalmente dati di genomica e proteomica. La genomica si occupa dello studio del degli organismi viventi. Cerca inoltre di comprendere come le variazioni del genoma possano influenzare gli organismi. Dal punto di vista informatico, la genomica è importante nel momento in cui bisogna analizzare un tessuto e si va a costruire quello che è il profilo di espressione, cioè di ogni gene si va a calcolare quella che è l’espressione di ognuno in quello specifico tessuto. Quindi, ogni tessuto avrà ogni gene col proprio valore di espressione. Dunque, per comprendere se un tessuto è patologico, si prende il tessuto sano insieme al profilo di espressione del tessuto sano e lo si confronta col profilo del tessuto malato. I geni che hanno una forte differenza si chiamano geni differenzialmente espressi e sono quelli che il bioinformatico va a comunicare al medico, lì deve essere bravo il medico a fare le proprie valutazione perché questi sono strumenti ma non esattezze. La proteomica studia il proteoma, ovvero l'insieme di tutte le proteine espresse in una cellula. Dinamico nel tempo :
perché le condizioni ambientali e cellulari possono cambiare costantemente, influenzando la produzione, degradazione e modifica della proteina. Differisce tra i diversi tipi cellulari di uno stesso organismo dovuta principalmente alla differenza nell’espressione genica e alla regolazione delle proteine tra le cellule. Quindi l’importante è riuscire a comprendere quali tipo di differenze si hanno rispetto a un profilo sano, perché il medico deve capire se un individuo è sano o malato. I problemi biologici da affrontare sono molteplici, pertanto è necessario sviluppare metodi, informatici e matematici, e algoritmi a supporto per dedurre ulteriori osservazioni o soluzioni. Ovviamente le risposte devono essere di elevata qualità perché se si danno delle risposte la cui qualità è molto bassa, è possibile mettere in crisi anche il medico, infatti gli strumenti informatici che vengono prodotti in questo contesto, associano sempre un fattore di qualità. Bisogna dire che ormai gli strumenti che vengono prodotti oggi, hanno una qualità così alta che riescono a dire se il risultato ottenuto è di bassa qualità, di media qualità o di alta qualità; ovviamente si cerca di fornire al medico un risultato che abbia una qualità più alta. Ovviamente è anche importante la preparazione del campione e l’utilizzo della macchina di sequenziamento che spesso può leggere male però il sistema, quando capisce che non ha letto bene, dà un feedback che ci permette di correggere il risultato. Le scienze biologiche si avvalgono oggi di strumenti computazionali. L’elevata mole di dati prodotta in ambito biologico, ha richiesto sistemi di storaging ed elaborazione sempre più prestanti. Cambiamenti nel tempo di performance e e memorizzazione: inizialmente esistevano delle macchine a bassa prestazione e anche dei dischi in cui era possibile salvare poche informazioni; con il tempo si ha avuto un incremento delle macchine che diventavano sia più performanti con dei dischi con capacità di memorizzazione molto più grande che ha permesso di migliorare anche le tecniche di
possono essere diverse perché anche se si ha lo stesso genoma ecc, è possibile avere un profilo di espressione differente, quindi in base ai geni che sono attivi o inibiti, si hanno delle caratteristiche diverse e questo è il motivo per cui le stesse cellule hanno delle conformazioni diverse. Quindi, il lavoro dell’informatico è quello di andare a cogliere queste differenze ed applicare degli algoritmi che possano dare delle risposte su queste differenze. Col termine espressione di un gene intendiamo quanto questo sia attivo, ovvero la quantità di RNA/proteina di quel gene prodotto dalla cellula in un dato momento. I dati di espressione di un gene in uno o più campioni si ricavano dall’analisi del trascrittoma. Esso è l’insieme dei trascritti (RNA) presenti nella cellula in un dato momento. I trascritti sono molecole di RNA prodotte durante il processo di trascrizione del DNA. Il profilo di espressione di un gene è l’insieme dei valori di espressione di un gene in diversi campioni di tessuto. Per mettere insieme tutte queste informazioni si crea una specie di matrice (una struttura bidimensionale in cui vi sono righe e colonne). Per esempio sulle righe vengono inseriti tutti i campioni e sulle colonne i geni, quindi il valore del profilo di espressione di ogni singolo gene; una volta messi i campioni sulle righe, se si prendono campione1 e campione2 si può percepire dalla matrice se le due righe sono colorate allo stesso modo o no, quindi questo significa che il profilo di espressione di tutti i geni di un dato campione, confrontati con quelli di un secondo campione, sono simili, quindi quando si fa un confronto con un sistema di riferimento lo si fa prendendo il profilo di espressione del campione considerato, lo si confronta con un campione di riferimento e si analizzano. Queste strutture vengono utilizzate moltissimo da chi fa bioinformatica proprio per trovare delle similarità. Alla fine il lavoro dell’informatico è quello di, a partire dalle strutture di clust accanto alla matrice, comprendere, attraverso la costruzione del dentogramma, quelle righe della matrice che hanno un profilo di
espressione pressoché simile. Per poter estrarre l’RNA dal tessuti/campioni vengono adottate le tecniche di sequenziamento di RNA (si possono riportare nel dentogramma). Il sequenziamento : Il sequenziamento È di fondamentale importanza perché a partire da un tessuto, se si vuole andare a costruire quella che è la sequenza di RNA ecc, bisogna sapere quello che è l'ordine delle basi nucleotidiche nelle molecole di RNA presenti in una cellula o in un campione biologico, così per andare a costruire la sequenza del campione e così via. È fondamentale per profili di espressione genica, l'identificazione di trascritti specifici e lo studio dei processi biologici che coinvolgono l'RNA. Principalmente si studiano due tecniche: Next Generation sequencing (NGS) e microarray→microarray è una tecnica che veniva utilizzata tanto tempo fa che ormai oggi si sta utilizzando un po’ meno, mentre adesso sta prendendo piede NGS. Next Generation Sequencing (NGS): L’NGS produce in poche settimane la stessa quantità di informazioni che le metodologie classiche hanno estratto in 10 anni. La prima fase è l’estrazione dell’ RNA dalla fonte biologica di interesse che può essere di un tessuto, del sangue o altro. La seconda fase è la purificazione che consente di ottenere RNA di alta qualità e privo di contaminazioni→ questo avviene tutto prima di iniziare il sequenziamento. Dopo si procede con la cancellazione dell'RNA ribosomiale (rRNA) che costituisce il 90% delle molecole di RNA in una cellula). Questo consente di focalizzarsi sullo studio degli mRNA (trascritti attivi), aumentare l'efficienza del sequenziamento, perché evita di sequenziare l’rRNA che costituirebbe la maggior parte dei dati prodotti. Lo step successivo è la frammentazione segmenta molecole di RNA in pezzi più piccoli, quindi poi alla fine ci permette di poter decifrare quella che è la sequenza della persona che stiamo andando a studiare. Una volta fatta questa operazione, si effettua quella che è la reverse transcription che converte l'RNA in DNA complementare (cDNA). Effettuata tale operazione si effettua il
omogeneizzato per rompere le membrane cellulari e liberare l'RNA. Dopo l'omogeneizzazione, l'RNA è estratto dalla matrice cellulare utilizzando reagenti come il fenolo-cloroformio. Una volta estratto l'RNA totale, l'mRNA è separato utilizzando cromatografia su colonne o utilizzando perle magnetiche con sonde oligo. L’mRNA estratto è sottoposto a una reazione di trascrizione inversa utilizzando un enzima chiamato transcriptasi inversa. Questo enzima converte l'RNA in DNA complementare (cDNA). Durante questa reazione, vengono incorporati marcatori tracciabili, come fluorofori nelle molecole di cDNA. I targets ottenuti vengono ibridati sullo stesso microarray. Questo consente il confronto tra due campioni e la rilevazione delle differenze nelle espressioni geniche. Un microarray è una piccola superficie solida, come un vetrino sulla quale vengono fissate migliaia di sequenze di DNA o RNA.
Abbiamo detto che il sequenziamento è importante perché da questo è possibile tirar fuori il profilo di espressione genica ad esempio di un campione: prendendo un campione, eseguendo il sequenziamento, una volta che si ottiene una sequenza, applicando il teorema di Trullo, si riesce a costruire il profilo di espressione. Dunque, con il termine profilo di espressione si intende quello che è il valore di espressione di ogni gene all’interno di quel determinato campione. Solitamente queste dati vengono messi all’interno di una matrice dove vengono riportati: sulle righe i campioni, sulle colonne i geni e ogni quadratino rappresenta il valore di espressione di geni in quel campione. Questa rappresentazione è importante perché, in ambito medico, o soprattutto per chi lavora nella bioinformatica, si fa un confronto tra campioni sani e campioni tumorali, dunque per il campione sano abbiamo il suo profilo di espressione, per il campione tumorale
abbiamo il suo profilo di espressione e messi insieme riusciamo a capire quelli che sono i cosiddetti geni differenzialmente espressi perché se nel campione sano e tumorale si hanno geni che hanno lo stesso valore di espressione, questi non danno nessun valore di espressione perché sia nel sano che nel malato si comportano allo stesso modo; se invece si prendono in considerazione quei geni che presentano una differenza nel valore di espressione abbastanza alta e quindi si fa la differenza tra il valore di espressione del gene nel tessuto sano e il valore di espressione del gene nel tessuto tumorale, si ottiene una differenza molto ampia e quindi questa lista di geni che vengono chiamati differenzialmente espressi sono di interesse per il medico; sulla base di ciò poi, effettuando ricerche su banche dati, riesce a capire se c’è qualche evidenza in letteratura e qualora ci fosse, egli cerca di capire come sono stati trattati i pazienti nelle differenze del valore di espressione. Dunque, grazie al sequenziamento riusciamo a derivare la matrice che viene utilizzata proprio per vedere a differenza tra campione sano e campione tumorale. Ovviamente questi possono essere usati anche per capire se si hanno pazienti che presentano un profilo di espressione simile e poi su quello si possono fare delle induzioni, cioè cercare di capire che terapia effettuare ad un paziente che probabilmente, avendo profilo di espressione simile, potrebbe rispondere anch’esso positivamente alla stessa terapia. È chiaro che tutte queste ricerche andavano condivise e quindi tutte le informazioni oggi vengono salvate in un database , questo non vale solo per i geni ma anche per gli studi clinici. Quindi sono nate tutta una serie di banche dati biologiche che contengono informazioni di varia natura. Alcune di queste sono per esempio: la Gene Ontology che contiene tutte le informazioni sui geni come KEGG che contiene tutte le patway e le informazioni sulle patway e come i geni vengono attivati o inibiti in quella patway; in TGCA vi è tutto ciò che riguarda dati clinici,
vivente, lo si deve c4ercare di provare sull’essere umano e quindi se si riesce a capire che vi sono delle sequenze con dei particolari aspetti, bisogna trovare delle sequenze analoghe nell’essere umano, di conseguenza dei geni che hanno caratteristiche simili, in maniera tale che anche su quest’ultimo si possa cercare di provare se si hanno degli effetti simili oppure no→ si applica la bioinformatica per trovare delle sequenze simili che possono essere o all’interno della stessa specie o all’interno di specie diverse. Allora, quel tool che permette di effettuare l’ allineamento e di conseguenza trovare sequenze simili è il tool BLAST (allineamento pairwise o coppie): verrà messa la sequenza di un dato gene e si cercheranno sequenze simili nell’essere umano e si intercetterà il gene. Con Query si indica la sequenza di riferimento e con Sbjct la sequenza da confrontare, poi si verifica la copertura che indica la similarità tra le due sequenze. Una volta avvenuto il sequenziamento abbiamo detto che vanno costruite le matrici di espressione, dove sulle righe vi sono i campioni e sulle colonne i geni, e a partire da ciò si cerca di capire tra tessuti sani e tumorali il valore di espressione dei vari geni e da questi si cerca di estrarre i geni differenzialmente espressi, cioè quei geni che, nel tessuto sano e nel tessuto tumorale, hanno valore di espressione completamente diverso. Nella matrice vengono utilizzati sempre due colori con gradazioni differenti ma non è detto che siano sempre gli stessi, solitamente viene utilizzato il rosso che indica che è fortemente positivo e fortemente negativo verde o blu, se il colore è più chiaro vuol dire che i valori di espressione sono più bassi. Un altro aspetto per il quale viene utilizzata la bioinformatica è studiare tutto ciò che è il microbiota di un organismo, cioè ogni qual volta per esempio vi sono dei pazienti che vengono sottoposti ad un trapianto, dopo il trapianto bisogna monitorare il paziente per capire se questo può avere un rigetto dell’organo oppure no e spesso le fonti di rigetto sono anche legate alle infezioni, quindi andando a studiare il
microbiota e quali sono i microorganismi che costituiscono il microbiota soprattutto dopo che questo è stato sottoposto ad un trapianto è di fondamentale importanza. Anche perché conoscere quello che è il microbiota dell’essere umano, la sua composizione e la quantità di microorganismi che lo compongono ci permette di dedurre quello che è il funzionamento del sistema immunitario. Ormai oggi giorno il microbiota lo si cerca di dedurre non in maniera invasiva ma utilizzando tecniche di sequenziamento, quindi ad oggi si sta cercando di spostare tutto verso il sequenziamento anche perché, se si riesce a sequenziare, si riesce a prevenire perché si riesce a sapere qualcosa in anticipo e quindi il medico può intervenire in anticipo per evitare la formazione di patologie, di rigetti e così via. Dal punto di vista informatico, per stimare l’abbondanza di microorganismi all’interno del microbiota, si parte da dati di sequenziamento, poi, oltre ad avere le sequenze ottenute dall’individuo, vi sono anche delle sequenze di riferimento perché si deve avere sempre un riferimento per tirar fuori delle conclusioni; di tutte queste sequenze, quelle che vengono selezionate, sono solo quelle che hanno un buon allineamento con quelle di riferimento, tutte le altre vengono eliminate. A questo punto entra in gioco un algoritmo (scrittura di codici basata su qualcosa) che si chiama Expectation Maximization (EM) che a partire dalle sequenze rimanenti non filtrate cerca di stimare quella che è l’abbondanza di microorganismi nel microbiota. Quindi la sequenza non è relativa all’uomo ma è relativa ai microorganismi, se si trovano sequenze di organismi che si matchano con quelle di riferimento allora significa che si ha quell’organismo. A tal proposito si sfrutta il DNA libero circolante. Il DNA libero circolante che troviamo nel corpo umano si riferisce al DNA che si trova nel sangue o in altri fluidi corporei senza essere confinato nella cellula, quindi se si prende il DNA libero che si trova nel sangue o in altri fluidi corporei, quest’ultimo contiene informazioni relative anche ai microbi
il sequenziato e una volta ottenuta una sequenza, nucleotidica o amminoacidica, l’obiettivo e quello di confrontarla con una sequenza di riferimento per ottenere possibili mutazioni genetiche e di conseguenza se si va incontro a patologie oppure no. Confronto tra sequenze: Il sequenziamento è di fondamentale importanza perché dal punto di vista fisica si sa che ci sono delle proprietà sulla materia che dicono che la materia non si può né creare né distruggere ma solo convertire in un’altra forma e proprio per il principio di conservazione della materia, se si vuole produrre dell’acqua, si sa che questo avviene per reazione chimica dell’idrogeno con l’ossigeno; dunque date date le proprietà della materia è importante andare ad effettuare il sequenziamento di un campione perché a partire dal suo sequenziamento è possibile tirar fuori quelle che sono le caratteristiche del tessuto e così via, ma al tempo stesso cercare di capire come quest’ultimo è sottoposto a mutazioni o meno, ma ci interessa anche per capire come si è evoluta la specie, quindi si parte da un antenato comune che ha una certa sequenza e si arriva a noi che siamo così perché sono avvenute delle mutazioni e dei cambiamenti. Quindi il sequenziamento è importante non solo per capire mutazioni ecc., ma anche per capire come le specie si sono evolute negli anni. Quando si ha una sequenza, si riesce a capire se una persona può andare incontro a patologie se quest’ultima ha avuto mutazioni. Possiamo avere diversi tipi di mutazione, quindi è importante sapere a quale tipo di mutazione l’individuo può andare incontro. Quando si parla di mutazioni, non vuol dire solo che una base amminoacidica o azotata è stata alterata durante la trascrizione ma può anche accadere che o vengono aggiunte nuove basi o rimosse altre. Possiamo avere: mutazione per inserzione quando riguarda l’aggiunta di una base; mutazione per delezione quando vi è l’eliminazione di una base; e mutazione per sostituzione , quindi la sostituzione di una base con un’altra. Una volta conosciuta il tipo di
mutazione è importante creare un algoritmo che prenda i dati e restituisca la giusta risposta. DOMANDA D’ESAME: Due sequenze si dicono omologhe se condividono un discendente comune, vuol dire che se si prende una sequenza x che si può replicare così si ottengono: replica 1 della sequenza di partenza e replica 2 della sequenza di partenza. Per fattori evolutivi ecc., le due sequenze possono subire mutazioni differenti, quindi nel tempo le due sequenze avranno caratteristiche completamente differenti però derivano dallo stesso antenato, dunque vengono chiamate sequenze omologhe. Le sequenze omologhe si dividono in: paraloghe e ortologhe. Due sequenze omologhe si dicono paraloghe se fanno riferimento alla stessa specie, quindi partendo da una sequenza comune, se ne ottengono due attraverso un processo evolutivo differente ma alla fine fanno riferimento alla stessa specie. Due sequenze invece relative a specie diverse, specie x e specie y, ma che derivano comunque da un parente comune, sono dette ortologhe. TIPICA DOMANDA: “Date due sequenze ortologhe, su BLAST viene inserito un “set flag” per dire di NON considerare le sequenze simili solo nell’uomo ma in un’altra specie, quindi tra due specie diverse.” Gli obiettivi di capire le sequenze sono: la filogenesi molecolare, cioè a partire da una sequenza è possibile notare come questa si replica e come si evolve in maniera diversa e di conseguenza quali potrebbe essere le specie che dà origine, e anche capire che tipo di mutazione abbiamo avuto per avere la formazione o di quella specie o magari della stessa specie ma con dei cambiamenti. Un altro aspetto importante del sequenziamento, di conseguenza dell'allineamento e di conseguenza di trovare sequenze omologhe ha anche un altro significato, cioè supponendo di prendere in considerazione una nuova proteina, quando viene scoperta una nuova proteina inizialmente non sia nessuna informazione su quelli che sono i processi biologici che si innescano; per cominciare a dare una certa caratterizzazione alla
più possibile il numero di combinazioni e gli algoritmi che sono scritti cercano di trovare l'allineamento, quindi quello dell'esempio è uno degli allineamenti possibili, poi l'algoritmo cerca di trovare il migliore, cioè colui che garantisce il maggior match di caratteri uguali. Che l'algoritmo di allineamento funziona che, partendo dalla prima sequenza, indichiamo il primo carattere, se questo carattere si sovrappone con il secondo carattere dell'altra sequenza metteremo un gap così shifto in avanti, cioè sposto il primo carattere affinché sia allineato con il secondo dell'altra sequenza, in questo modo ci ritroviamo il primo match di caratteri uguali e si fa così per tutta la sequenza perché compito dell'allineamento garantire più sovrapposizioni di caratteri uguali e quindi l'algoritmo funziona aggiungendo e togliendo gap in maniera tale da garantire tante sovrapposizioni ma chiaramente non è l'unico modo possibile per realizzare un allineamento. Quindi l'algoritmo cerca di allungare due sequenze finché diventano di uguale lunghezza e hanno il maggior numero di caratteri sovrapposti (corrispondenze) però questo è un modo tra i tanti. Una volta fatto l'allungamento quello che bisogna fare è cercare di capire se le due sequenze sono simili o meno. Due sequenze sono simili quando hanno un numero di gap tendente a zero perché significa che abbiamo avuto una sovrapposizione quasi esatta delle due sequenze a patto che si aggiungano 2 o pochi gap per avere una stessa lunghezza e quasi un'eguaglianza. In informatica si usa una misura che si chiama di similarità che, a partire dall'allineamento, ci dice se le due stringhe sono quasi uguali oppure no. Se la similarità è alta allora vuol dire che le due stringhe sono simili, se è bassa vuol dire che sono dissimili. ESERCIZIO ESAME: all'esame si partirà direttamente da due sequenze già allineate e ci verrà chiesto se sono simili oppure no, per farlo ci verrà dato un intestazione di assegnazione di punteggi in base al match o al mismatch (o indel). L'esercizio finisce facendo la somma dei
punteggi ottenuti, il risultato sarà pari alla similarità delle stringhe. Una cosa importante è che solitamente quando si fa l'allineamento, noi dove abbiamo dei mismatch è perché questi mismatch hanno magari un'importanza a livello biologico, quindi se vi è un'alterazione sinonima allora magari quel mismatch può andare bene, dove non ci può essere una compatibilità biologica bisogna mettere un gap per forza. In informatica vengono utilizzate due misure per valutare la bontà di un allenamento, quindi se sono simili o meno, oltre al concetto di similarità di anche il concetto di distanza , essa il reciproco della similarità, quindi 1/similarità è uguale ala distanza. La distanza è importante perché in informatica si prende una stringa e non si lavora con la stringa originaria ma si fa una sorta di proiezione della stringa rappresentandola come un punto in uno spazio n- dimensionale, e quindi se vengono presi due punti, che rappresentano punto relativo alla stringa uno e il punto corrispondente alla stringa 2, se questi due punti sono lontani in questo spazio n-dimensionale vuol dire che sono dissimili, se sono vicini vuol dire che sono simili. Solo che quando si parla di distanza bisogna far sì che se vi è un match esatto diamo un punteggio minore perché così danno vicinanza, se vi è un mismatch si dà un punteggio diverso. L'esercizio cambia perché non vuol dire che mismatch o indel abbiano lo stesso punteggio ma possono avere punteggi diversi, dipende dall’intestazione. Viene fatta la somma alla fine si ottiene il punteggio della distanza.
In informatica quando si vuole fare un confronto tra due stringhe per capire se sono fortemente simili oppure no si usa un'altra misura di distanza che si chiama distanza di editing. Quindi se vi sono due stringhe, stringa uno e stringa due, la distanza di editing è il numero di operazioni che bisogna fare sulla seconda stringa, cambiando
essere molto complicato perché spesso le sequenze sono lunghissime e quindi andare a trovare un allineamento completo, oltre ad essere molto oneroso dal punto di vista computazionale, spesso non porta mai a dei risultati. Allora dal punto di vista più informatico spesso noi siamo interessati alla ricerca di zone locali dove abbiamo una buona copertura o un buon allineamento e quindi un buon grado di similarità, su queste regioni è possibile andare ad effettuare le analisi. Infatti l'algoritmo BLAST , che è quello che viene utilizzato per fare l'allineamento a coppia, lavora sul trovare delle regioni di allineamento locali piuttosto che globali. BLAST è uno degli algoritmi più utilizzati per fare allenamento e addirittura c'è una pagina web dove è possibile accedere e fare allineamento di sequenze. Se si vuole fare un allineamento è chiaro che se si va ad utilizzare sequenze di appena 20 caratteri, sequenze molto piccole, andare ad effettuare l'allineamento richiede tempi che risultano essere inaccettabili, vuol dire che non solo è complicato ad andare ad estrarre delle informazioni ma addirittura si impiega troppo tempo e in un contesto dove il tempo è prezioso (con un paziente), è chiaro che bisogna accontentarci andando a ricercare delle regioni o delle zone che sono adatte a similarità e a quel punto su quello si vanno a fare degli studi per vedere se ci sono delle analogie o meno. Quindi diciamo che gli algoritmi solitamente di allineamento che vengono prodotti lavorano su allineamenti locali piuttosto che globali e BLAST è quello più popolare perché lavora su un allineamento locale, cerca di trovare delle zone simili o tra geni diversi oppure dello stesso gene ma su specie diverse. Funzionamento: Per prima cosa viene presa in considerazione una sequenza, quello che bisogna fare è capire se è una sequenza nucleotidica o amminoacidica perché in base al tipo di sequenza che consideriamo BLAST lavora in un certo modo. Dopo siccome noi vogliamo trovare un allineamento locale piuttosto che globale bisogna partire da un punto di partenza, quindi magari da una
regione molto piccola, e poi bisogna andare a espandere sempre di più finché non si garantisce un buon allineamento e una buona similarità in tutta quella regione; appena si ingrandisce ancora di più e il fattore di soglia, che dice similarità decresce o distanza cresce, bisogna interrompere perché magari andando avanti non ci porta a nulla la nostra analisi. È importante che ogni word della sequenza da esaminare viene costruita una lista di possibili words che, se confrontate con la word in questione, hanno un punteggio superiore ad un valore-soglia T calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame. Nel caso di una sequenza nucleotidica la finestra di lettura e molto ampia, con w-mer w=11. Nel caso di sequenze amminoacidiche vengono costruite parole di lunghezza 3 (basi azotate), w-mer, w=3. Dunque, una volta trovata la sequenza di parole, fatte da tot caratteri detti w- mer, bisogna prendere ognuna di queste sequenze di tot caratteri e si va a ricercare nel database che si ha a disposizione grazie a BLAST quelle sequenze che hanno un altro score di similarità a partire dai caratteri che noi ricerchiamo. Lo score inizia a diventare utile quando è compreso tra 11 e 15, quindi ricerchiamo quella sequenza di tot caratteri (3 o 11) che confrontati con quella della sequenza originale abbiano uno Score tra 11e 15. Per valutare la similarità esiste una tabellina che è stata fatta da studi, che va sotto il nome di BLOSUM , in cui riusciamo a calcolare questo numero (non c’è esercizio su questo all’esame). La matrice BLOSUM62 è una delle più comuni. Nella matrice BLOSUM62, la nostra sequenza di partenza fa riferimento alle righe della matrice, quelle trovate fanno riferimento alle colonne; si vanno a ricercare numeri nella matrice e viene fatta la somma dei punteggi. Una volta ottenuti tutti i punteggi si va a fare un ordinamento dal più grande al più piccolo e si vanno a selezionare tutti quelli che hanno uno Score superiore alla soglia t, tutto il resto sotto soglia va eliminato. Però, siccome consideriamo parole piccole, non è detto