

























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
dispensa per il corso di bioinformatica riguardante la parte del prof paolella
Tipologia: Dispense
1 / 33
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!


























In offerta
Genomica: disciplina interessata al sequenziamento e allo studio dei genomi. Una delle principali sfide alle quali la comunità scientifica è chiamata a rispondere consiste nell'integrare, organizzare e nel dare significato a un volume di dati che giorno dopo giorno si espande esponenzialmente, l'enorme mole di dati di sequenza che la genomica produce costantemente basta a far capire l'entità del problema e quindi il conseguimento di un tale obiettivo ha reso e rende tuttora necessario lo sviluppo e l'utilizzo di metodologie e strumenti computazionali, in grado di organizzare il dato grezzo per estrarre l'informazione contenuta in esso e permetterne la fruibilità; la bioinformatica è preposta a svolgere tale compito è può essere definita come la disciplina che applica alla biologia i principi della Scienza dell'informazione per rendere maggiormente comprensibile il complesso mondo delle Scienze della vita. Quindi in sintesi quando parliamo di bioinformatica ci riferiamo da un lato a tutto ciò che ci permette di conservare, organizzare e distribuire dati relativi agli esseri viventi che derivano per esempio dalla genomica e da discipline affini e dall'altro allo sviluppo di metodologie e all'implementazione di algoritmi per l'indagine in campo biomedico, cioè tali metodologie verranno utilizzate per l'estrapolazione dell'informazione biologica dai dati grezzi.
Una sequenza nucleotidica codificante per una proteina è delimitata da un codone d'inizio (codone codificante per una metionina) e da un codone di stop; tale sequenza è spesso definita ORF (Open reading frame). Una ORF insieme alle sequenze nucleotidiche necessarie alla sua regolazione trascrizionale (Promotore terminatori ecc) costituisce un gene. Un gene è quindi un frammento di DNA presente in una porzione fisica del genoma detta Locus genico che può essere trascritto in RNA messaggero e tradotto in una sequenza proteica. Sebbene i geni di cellule procariotiche ed eucariotiche siano sostanzialmente simili esistono alcune differenze degne di nota prima tra tutte la frammentazione delle ORF eucariotiche in porzioni codificanti dette esoni, intervallate da lunghe regioni nucleotidiche non codificanti, gli introni.
i programmi utilizzati in bioinformatica sono molti e variano per funzione e tipo di esecuzione. nel solo ambito di programmi di manipolazione di sequenze esempi di semplici operazioni di uso comune sono: editing di sequenze quindi calcolo della sequenza complementare, traduzione, visualizzazione delle ORF, ricerca di siti di restrizione eccetera. Per quanto riguarda la frequenza delle parole è importante precisare che i gruppi di nucleotidi vengono appunto definiti Word cioè parole e la determinazione della frequenza relativa di Word di due tre o più nucleotidi permette a volte di dare una grossolana valutazione sull'origine è funziona di una sequenza ad esempio nell'ambito di sequenze genomiche umane quelle ricche In AT e TA, AA eccetera sono spesso non codificante, mentre quelli in cui prevalgono le parole contenenti C e/o G sono spesso codificanti; sequenze ricche in CG potrebbero indicare la presenza di isole cpg. è importante precisare che più programmi che complessivamente svolgono operazioni diverse ma finalizzate ad un obiettivo comune sono riuniti in package, i programmi di uno stesso package rimangono separati ma tipicamente utilizzano nei comandi una sintassi simile e permettono di scambiare dati con facilità. un esempio di package è rappresentato da EMBOSS che è stato sviluppato per rispondere alle esigenze tipiche della comunità scientifica in ambito di biologia molecolare; è costituito da un gran numero di programmi originali sviluppati nell'ambito del progetto, ma Integra anche diversi programmi generati separatamente di uso comune. le aree di interesse sono piuttosto ampie e nell'ambito del package i vari programmi sono organizzati in gruppi omogenei per funzione, ad esempio il gruppo definito nucleic composition è costituito da programmi che analizzano la composizione in basi di una sequenza e fanno predizioni su questa base, il gruppo nucleic translation permette la traduzione di sequenze nucleotidiche in proteine con diverse modalità, invece il gruppo nucleic restriction contiene programmi utili alla ricerca di siti di restrizione.
Dobbiamo capire che qualora si abbiano a disposizione due sequenze di geni o proteine il primo fondamentale passo per studiare l'evoluzione delle due sequenze e stabilire se tra di esse sussiste una relazione di omologia cioè di discendenza da un comune antenato. Infatti qualsiasi evento spaziale o temporale che porti alla separazione fisica di due sequenze (speciazione, duplicazione genica) a partire da un comune antenato fa sì che le due sequenze smettano di scambiarsi il reciproco contenuto di informazione e che inizino a evolvere differentemente l'una dall'altra accumulando mutazioni in maniera indipendente. Alcune posizioni delle sequenze potranno conservare quindi il tratto caratteristico del comune antenato, altre potranno mutare conferendo possibilmente caratteristiche diverse alle 2 sequenze. Poiché naturalmente non è possibile seguire direttamente l'evoluzione di due o più sequenze l'unico metodo di cui si dispone per stabilire una relazione di omologia è il confronto delle sequenze attraverso un allineamento, ovviamente non tutti gli allineamenti di 2 sequenze hanno lo stesso valore nel darci informazioni sulle relazioni evolutive, infatti si cerca l'allineamento che identifica La corrispondenza biunivoca tra residui (nucleotidi o aa) che riflette nella maniera più accurata possibile l'accumulo di mutazioni e quindi la storia evolutiva delle sequenze; in molti casi si cerca l'allineamento che permette il
minor numero di cambiamenti per passare da una sequenza ad un'altra (minor numero di indel e maggior numero di match) che rappresenta in pratica il percorso evolutivo più breve. quando 2 sequenze vengono confrontate attraverso un allineamento È sempre possibile misurare la loro percentuale di identità, un parametro quantitativo che esprime il rapporto, espresso in percentuale, tra il numero di residui identici nelle due sequenze rispetto al totale dei residui allineati. nel caso di sequenze nucleotidiche l'allineamento di 2 sequenze evolutivamente non correlate genera mediamente un valore di identità intorno al 50%, nel caso di sequenze aa tale valore si attesta intorno al 20. È chiaro che man mano che ci si discosta da tali valori e si va verso percentuali sempre maggiori, crescerà di conseguenza la probabilità che 2 sequenze siano omologhe; occorre notare inoltre che minore è la lunghezza delle sequenze confrontate Maggiore sarà la probabilità di ottenere percentuale maggiori rispetto al valore medio atteso nel caso di sequenze non omologhe. è necessario sottolineare che non sempre l'evoluzione di 2 sequenze segue un andamento divergente (ad esempio un evento di speciazione separa 2 sequenze/specie a partire da un antenato comune), infatti in alcuni casi può avvenire una evoluzione convergente, che è il fenomeno per cui organismi diversi, che non possiedono un antenato comune, ma che vivono nello stesso tipo di ambiente, sulla spinta delle stesse pressioni ambientali, si evolvono sviluppando, per selezione naturale, determinate strutture o adattamenti che li portano ad assomigliarsi moltissimo. Un esempio è rappresentato dagli squali e dai delfini: gli squali, appartengono alla classe dei pesci cartilaginei, i delfini alla classe dei mammiferi, sotto la pressione dell'ambiente acquatico che li circonda, si sono evoluti assumendo una morfologia idrodinamica complessivamente molto simile. Analogamente ragionando da un punto di vista molecolare, quando 2 sequenze subiscono un’evoluzione convergente, in alcuni casi, Ad esempio se 2 proteine non omologhe svolgono all'interno della cellula una funzione simile, la pressione selettiva può far sì che 2 sequenze presentino un grado di somiglianza Maggiore rispetto a quello che ci aspetteremmo per il solo effetto del caso; quindi in questo caso si parla di evoluzione convergente e di omoplasia per ciò che concerne il processo e la relazione tra le due sequenze rispettivamente. tutto questo è importante per far capire che una relazione di similarità non implica necessariamente una relazione di omologia tra 2 sequenze, infatti la similarità è un parametro quantitativo, cioè indica la percentuale di residui identici tra le due sequenze, mentre l'omologia indica l'esistenza di un antenato Comune tra 2 geni o proteine, Quindi è un parametro qualitativo e se è vero che nella stragrande maggioranza dei casi l'omologia implica una similarità Non è detto il contrario, quindi quando tra 2 sequenze sono simili, ma non è stata stabilita una relazione di omologia, i termini similarità e omologia non devono essere confusi e usati come sinonimi, ma si parlerà solo di similarità. Quindi similarità non vuol dire omologia, poiché la similarità può essere il risultato di vari processi evolutivi o del caso e quindi indicare vari tipi di relazione e non solo quella di omologia.
una relazione di omologia tra 2 sequenze può essere ulteriormente classificate a seconda dell'evento che ha portato all'iniziale separazione delle 2, in paralogia ortologia E xenologia. due sequenze vengono definite paraloghe quando all'interno del medesimo genoma si verifica un evento di duplicazione genica, la duplicazione può essere di per sé dannosa all'organismo per esempio a causa di una sovraespressione del prodotto proteico ed essere quindi eliminata nelle generazioni successive. se al contrario l'evento viene tollerato e mantenuto nella popolazione ciascuna delle 2 copie del Gene diviene indipendente dall'altra nell' accumulo di mutazioni puntiformi, inserzioni E delezioni fino a quando almeno una delle 2 rimane funzionale. le mutazioni accumulate possono eventualmente far sì che uno dei due prodotti genici risulti Non funzionale, trasformandosi in uno pseudogene, oppure è possibile che in seguito all'accumulo di mutazioni uno dei due geni acquisisca una nuova funzione e diventi così parte integrante del patrimonio genetico di un organismo. 2 sequenze vengono definite ortologhe quando la loro separazione è avvenuta in seguito a un evento di speciazione ossia la formazione di una nuova specie. in questo caso sebbene i due geni possano indipendentemente accumulare mutazioni, la pressione selettiva che agisce sulle due specie fa sì che la funzione originaria del Gene progenitore, a partire dal quale le 2 sequenze sono derivate, sia mantenuta. questo vincolo funzionale, che si riflette naturalmente a livello strutturale e di sequenza, fa sì che generalmente l'allineamento e il confronto di 2 sequenze ortologhe restituisca un valore di percentuale di identità Maggiore rispetto a quello di 2 sequenze paraloghe. infine vengono definite xenologhe 2 sequenze omologhe che hanno avuto origine da un evento di trasmissione orizzontale di materiale genetico. la trasmissione genetica orizzontale è un evento evolutivo abbastanza raro e si verifica allorché parte del materiale genetico di un organismo, appartenente a una data specie, viene trasferito, solitamente attraverso un vettore virale, a una specie differente.dal confronto di due sequenze si deduce solitamente una relazione di xenologia se il valore di percentuale di identità misurato risulta essere molto maggiore, rispetto a quello atteso in base alla distanza evolutiva stimata tra gli organismi dai quali le sequenze provengono. solitamente sulla base della relazione evolutiva che sussiste, geni e proteine omologhi sono raggruppati in famiglie e super famiglia. Una famiglia annovera tra i suoi membri geni o proteine legate da un vincolo di ortologia o xenologia. due o più famiglie di geni o proteine ortologhe possono essere raggruppate in superfamiglia se viene individuata una relazione di paralogia tra esse. una volta che la relazione di omologia tra due o più sequenze è stata correttamente inferita è possibile attraverso un allineamento ricavare ulteriori informazioni utili alla caratterizzazione strutturale e funzionale nonché alla determinazione delle
stringhe (una qualunque sequenza di simboli presi da un alfabeto dato) di lettere che possono essere trattate come qualsiasi stringa di caratteri, usando programmi informatici. In questo modo risolviamo il problema centrale della bioinformatica, cioè come confrontare e allineare 2 sequenze proteiche o nucleotidiche. La stringa di caratteri è soltanto una rappresentazione semplificata del corrispondente acido nucleico o proteina. Per determinare quanto 2 sequenze siano simili è infatti essenziale trovare il migliore modo con cui esse possono essere allineate. Quando si ottiene (in qualche modo) una sequenza di DNA o aminoacidi si è interessati a capire cos’è quella sequenza (è già nota?) e a scoprire la sua funzione. Potrebbe anche capitare che la sequenza stessa sia presente nei database e già annotata (descritta la sua funzione).... Nel caso invece non si trovasse nei database esattamente la stessa sequenza, un modo semplice di ipotizzare la funzione della mia sequenza query è quello di cercare sequenze simili che invece siano già state annotate e quindi dicui si conosce già la funzione(è comunque una predizione, che dovrà poi essere confermata sperimentalmente). In base al grado di similarità trovato diventa possibile fare delle ipotesi più o meno probabili sulla funzione della sequenza query semplicemente “trasferendo” ad essa la funzione delle sequenze target simili ad essa identificate. Se le sequenze di due proteine (o di DNA) sono molto simili allora lo saranno anche le strutture e le funzioni. Non vale il viceversa! (Funzioni e strutture simili non implicano sequenze simili) Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza diversa.
Dato il grande numero di progetti di sequenziamento sistematico che vengono portati avanti in diversi istituti di ricerca il problema dell’assegnazione delle funzioni ai geni che vengono individuati diventa sempre più grande poiché il numero di geni che vengono identificati diventa sempre più grande. Per questo motivo la ricerca di similarità di sequenze assume un ruolo estremamente rilevante. Spesso si fa confusione tra similarità ed omologia! La similarità è un aspetto quantitativo che indica (fissato un criterio comparativo, % identità, % mutazioni conservative...) un livello di somiglianza tra le sequenze. L’ omologia è un aspetto qualitativo che riguarda più propriamente la “funzione” delle sequenze ed indica un’origine filogenetica comune. L'omologia presuppone l'esistenza di un organismo ancestrale comune da cui le strutture omologhe si sono evolute. Al contrario, il termine analogia indica che due strutture hanno una funzione simile, ma che si sono evolute indipendentemente: ad esempio l'ala di un uccello e quella di una farfalla. In questo caso la similarità è determinata da una convergenza adattativa anziché dalla stessa origine evolutiva. Il termine omologia si applica anche a sequenze di acidi nucleici e proteine. La similarità tra due sequenze è generalmente dovuta ad una origine evolutiva comune per cui molto spesso i termini "similarità" e "omologia" si confondono. Invece, quando non si è certi di un'origine evolutiva comune si dovrebbe parlare di similarità. Un errore ancora più grave è di parlare di percentuale di omologia, che non ha nessun senso. Considerando una visione estremamente semplificata si può dire che ci sono vari meccanismi responsabili della variabilità genetica che oggi possiamo osservare: Mutazioni puntiformi, delezioni, Inserzioni,•Inversioni La possibilità di inserire dei gap nelle sequenze da allineare è una esigenza irrinunciabile negli allineamenti delle sequenze biologiche. Nel corso dell’evoluzione a livello molecolare, oltre che mutazioni, è infatti frequente avere anche delle inserzioni e/o delezioni di parti di sequenza e ciò comporta una differente lunghezza di sequenze omologhe di DNA o proteine. Gli algoritmi di allineamento esatto (trovano sempre il miglior allineamento possibile), considerano in modo esaustivo tutte le possibilità di inserire gap. In generale gli allineamenti servono in situazioni molto varie come la comparazione di geni di identica funzione in organismi diversi, cioè i geni ortologhi, la ricerca di sequenze di DNA o proteine in banche dati, l'identificazione di frammenti contigui parzialmente sovrapposti nella procedura di assemblaggio di sequenze o più semplicemente generalizzando per determinare il grado di similarità tra 2 sequenze proteiche o aa. esistono vari algoritmi di allineamento che risultano utili in situazioni differenti e che portano in genere A risultati anche notevolmente diversi, per questo motivo è importante conoscere i principi su cui essi sono basati e le principali difficoltà derivanti dall'applicazione di algoritmi inadatti al problema da risolvere. 2 sequenze possono essere allineati in diversi modi: definiamo l'allenamento ottimale quello che rispetta al meglio alcuni criteri; la ricerca dell' allineamento ottimale può essere effettuata se definito l'insieme di tutti gli allineamenti possibili e il metodo per calcolare un punteggio che sia rappresentativo della qualità di un dato allineamento, se questi due aspetti sono definiti in maniera chiara il problema è facilmente risolto applicando il metodo per calcolare un punteggio a tutti gli allineamenti indicati in un insieme e scegliendo quello che dà il punteggio migliore. in sintesi il metodo proposto (esempio di un semplice algoritmo di allineamento)consiste nell'allineare una delle sequenze contro l'altra in tutte le possibili posizioni e per ciascuna valutare il grado di similarità contando ad esempio il numero di residui identici. Alla luce di tutto ciò Dobbiamo comprendere che l'allineamento definisce il numero di passi necessari per trasformare una sequenza nell'altra utilizzando le operazioni che ha a disposizione la natura:mutazioni, rimozione o aggiunta di nucleotidi all'interno di una sequenza. tra tutte le possibili vie che l'evoluzione può aver seguito per produrre le 2 sequenze a partire da un progenitore comune ci interessa trovare quella più breve, che risponde al principio della “massima parsimonia”(il più breve percorso evolutivo che separa una seq dall’altra), cioè quella che implica il minor
numero di operazioni. Nell’allineamento Si possono verificare 3 situazioni: 2 simboli in registro coincidono, due simboli in registro sono diversi, un simbolo non ha un corrispettivo nell'altra sequenza. Nel primo caso i residui o i nucleotidi in quella posizione sono rimasti invariati cioè conservati durante l'evoluzione E avremo quindi un match, Nel secondo caso durante l'evoluzione un residuo è stato sostituito dall'altro e si parla di mismatch, nel terzo caso per poter ottimizzare La corrispondenza tra aa o nucleotidi delle 2 sequenze si è dovuto inserire un'interruzione in una sequenza rispetto all'altra(GAP); durante l'evoluzione in quelle posizioni uno o più residui sono andati persi in una sequenza quindi è avvenuta una delezione, oppure si sono inseriti nell' altra sequenza ciòè avvenuto un'inserzione; poiché un'inserzione In una sequenza corrisponde a una delezione nell'altra si utilizza il termine indel dalla contrazione dei termini inglesi insertion e Deletion. Operativamente quindi allineare 2 sequenze vuol dire disporre In modo tale da porre in registro il maggior numero di simboli identici o simili utilizzando contestualmente il minor numero possibile di inserzione e delezione e rispettando alcuni vincoli. Che indicazioni si possono trarre da un allineamento? l'allineamento riassume la storia evolutiva delle 2 sequenze ed indica le zone più conservate e quelle più variabili che presumibilmente sono state sottoposte a diversa pressione selettiva proprio per il loro diverso ruolo funzionale e strutturale. quando si analizzano sequenze biologiche che possono essere lunghe anche diverse centinaia di simboli, il semplice confronto manuale non è più praticabile e si deve ricorrere necessariamente a sistemi automatici come la dot plot o dot Matrix. Comunque un concetto da tener sempre presente è che l’allineamento può essere globale (si cerca la corrispondenza ottimale tra tutti gli aa o nucleotidi di entrambe le sequenze) o locale (si cerca di individuare regioni locali di similarità).
La DOT MATRIX (matrice a punti o dot plot)è stato il primo semplice sistema di visualizzazione di allineamenti(1970) ed è un sistema relativamente semplice capace di identificare le zone di somiglianza locale tra due sequenze e di visualizzare una mappa grafica della loro localizzazione. Questo metodo non produce direttamente un allineamento tra le 2 sequenze, bensì una mappa delle loro zone di somiglianza e della localizzazione di duplicazioni, inserzioni, delezioni, inversioni ecc. Le 2 sequenze da confrontare sono ai margini di una matrice bidimensionale in cui le 2 sequenze sono scritte una in alto da sinistra a destra e l’altra a sinistra dall’alto in basso. La matrice viene riempita confrontando ciascuna delle basi della sequenza in alto con ciascuna base della sequenza di sinistra. Se le due lettere corrispondenti ad una casella sono uguali allora la casella viene colorata di nero o si inserisce un asterisco (match) ed apparirà come un punto (dot) all’interno della matrice. In una matrice del genere sequenze identiche, di una certa lunghezza, nelle 2 stringhe appaiono come una linea, definita ad esempio da asterischi disposti in diagonali e saranno immediatamente distinguibili visivamente. Se 2 residui(aa o nucleotidi), di sequenze diverse, corrispondenti alla stessa casella della matrice sono diversi questa differenza (mismatch) sarà visualizzata da un interruzione della diagonale. I gap(ad es delezione:assenza di una parola in una stringa rispetto all’altra) appaiono come salti in diagonale (diagonale spezzata). Le sequenze ripetute appaiono come segmenti diagonali paralleli. Alcuni aspetti dell'analisi visuale di una dot matrix: se analizzassimo due sequenze identiche (cioè usiamo la stessa sequenza sia come sequenza orizzontale che come sequenza verticale) allora otterremmo una diagonale continua che parte dall'angolo in alto a sinistra per arrivare a quello in basso a destra. Ovviamente oltre alla diagonale troveremmo molti altri puntini, sparsi nell’area della matrice al di fuori della diagonale principale. Si consideri che ci sono 20 aa diversi, quindi in una sequenza casuale ci dovremmo aspettare una casella positiva ogni 20. Similmente, con acidi nucleici dovremmo aspettarci una casella positiva ogni 4, con un notevole rumore di fondo. Quindi con il termine di “rumore di fondo” indichiamo quel fenomeno generato da match distribuiti sul piano della matrice al di fuori delle diagonali e che deriva dal fatto che, dato un insieme finito di caratteri componenti le stringhe, è inevitabile osservare corrispondenze casuali di simboli. Quindi in sintesi Siamo di fronte a un sistema molto semplice e utile Però nello stesso tempo la semplicità del sistema presenta dei limiti e degli svantaggi: per esempio se la matrice a punti viene utilizzata per confrontare 2 sequenze di acidi nucleici Non è difficile immaginare che otterremo delle matrici molto rumorose, nelle quali è ardua o del tutto impossibile la percezione del segnale, cioè l'individuazione delle zone di somiglianza significativa; l'alfabeto ridotto a 4 simboli, tanti Quante sono le basi nucleotidiche, rende Infatti più frequente l'appaiamento casuale di simboli identici, lo stesso problema si manifesterebbe anche nel confronto tra lunghe sequenze aa nonostante l'alfabeto utilizzato sia composto da 20 simboli diversi. Diversi ricercatori pertanto hanno messo a punto alcuni filtri che consentono di attenuare o rimuovere il rumore di fondo ed esaltare il segnale significativo; le strategie per ridurre il rumore di fondo utilizzano sostanzialmente 2 tecniche in combinazione: l'applicazione di finestre scorrevoli e l'adozione di sistemi di misura graduata della somiglianza tra simboli o per meglio dire dei sistemi di punteggio meno stringenti. Quindi il filtro più semplice è stato ideato partendo dalla constatazione che le zone più simili tra 2 sequenze possiedono identità o somiglianze di simboli consecutivi, che sulla matrice a punti determinano delle diagonali mentre le zone di rumore sono per lo più costituite da somiglianze puntiformi, distribuite casualmente, pertanto si è pensato di confrontare le sequenze non già per singole posizioni, ma per interi segmenti che per convenzione chiameremo finestre. per esempio si può confrontare la finestra di 5 residui di una sequenza con una finestra di 5 residui nell'altra sequenza e decidere di mettere un segno nella casella della matrice corrispondente ai centri delle 2 finestre, solo se tutte e 5 i simboli corrispondono. naturalmente vanno confrontate tutte le finestre di 5 residui presenti in una sequenza con tutte le finestre di 5 presenti nell'altra sequenza per essere certi di aver esplorato tutte le combinazioni possibili, a tale scopo si tiene ferma una finestra sulla sequenza verticale ad esempio, la si confronta con tutte le finestre di 5 residui sull'altra sequenza e così via fino alla fine, di fatto è come se una finestra di 5
linguaggio comune anche se l'uso di una sintassi rigorosa può aiutare ad evitare ambiguità. un'algoritmo è quindi una descrizione di una procedura; come si fa a passare da un algoritmo ad un programma in grado di funzionare e di generare un risultato? È necessario trascrivere l'algoritmo in una forma utilizzabile dalla macchina usando un linguaggio di programmazione, questa operazione può essere eseguita da un ricercatore anche se per i programmi di una certa complessità è necessaria la competenza di un programmatore. quindi l'algoritmo di per sé non può essere eseguito dalla macchina ma può essere utilizzato per generare un programma utilizzando un linguaggio di programmazione, l'esecuzione del programma poi produrrà il risultato desiderato. nello specifico un linguaggio di programmazione consiste in una serie di regole che definiscono Come scrivere il codice. un linguaggio di programmazione relativamente facile da usare è il PHP costituito da istruzioni in grado di Eseguire operazioni anche molto complesse, poi c'è anche il linguaggio C un linguaggio di più difficile utilizzazione, in quanto richiede più istruzioni per descrivere le stesse procedure. in realtà il processore presente in qualsiasi computer non esegue direttamente né il codice scritto in PHP né quello in C ogni processore è in grado di comprendere un solo linguaggio definito linguaggio macchina, costituito di un numero più limitato di istruzioni molto semplici come "sposta un numero in una casella di memoria" o "somma due numeri", per poter eseguire i programmi È necessario quindi convertire qualsiasi linguaggio in linguaggio macchina, questa operazione fatta da programmi definiti compilatore o interpreti che traducono il codice istruzione per istruzione e lo trasformano in linguaggio macchina. le istruzioni del linguaggio macchina sono di tipo numerico ma vengono di solito rappresentato in forma simbolica per renderle più comprensibili, una rappresentazione chiamata assembler. il linguaggio macchina è naturalmente di difficile comprensione, In genere anche programmatori professionisti tendono a non usarlo direttamente se non in casi particolari in cui questo Si rende necessario. l'uso del C e ancora più del linguaggio macchina presenta difficoltà notevoli ma il vantaggio di ottenere dal processore le migliori prestazioni. i linguaggi di programmazione possono quindi prevedere o un'ampia gamma di istruzioni diverse che corrispondono ad operazioni complesse o un piccolo numero di istruzione più semplice naturalmente i primi risultano in programmi più brevi e di più facile comprensione, Ma che richiedono traduzioni complesse per essere eseguite Quindi sono più lenti, i secondi risultano più difficili da utilizzare in fase di programmazione e producono programmi più lunghi ma sono molto efficienti e ottengono elevata velocità di esecuzione. I linguaggi del primo tipo sono definiti di alto livello, in contrasto con quelli di basso livello riportati in basso
L'allineamento mediante matrice di punti permette l'identificazione del path ottimale unendo segmenti di diagonale corrispondenti alle diagonali di Maggiore similarità. Bisogna notare però che l'algoritmo che permette la costruzione della matrice Non produce direttamente l'allineamento, ma piuttosto una rappresentazione grafica delle similarità tra 2 sequenze, che viene poi di fatto processata dal ricercatore. Un vero algoritmo di allineamento dovrebbe invece calcolare l’allineamento migliore, questo risulta tanto più importante quando la dimensione delle matrici cresce al crescere delle sequenze inoltre non è sempre immediatamente evidente quale sia la o le diagonali corrispondenti all’allineamento migliore. l'allineamento ha la forma di un tratto di diagonale quando esiste similarità o identità per un numero consistente di residui consecutivi Se però i tratti di similarità sono piuttosto corti, l'allineamento assume un aspetto più tortuoso. generalmente quindi un allineamento nella matrice ha la forma di un percorso (Path) più o meno tortuoso che unisce le caselle corrispondenti ai residui apppaiati, partendo da un punto del margine sinistro o di quello superiore o di entrambi, raggiunge un punto del margine inferiore o destro della matrice o entrambi; lungo questo percorso i tratti di diagonale rappresentano zone di allineamento o per meglio dire di identità o similarità, mentre i salti di diagonale rappresentano inserzioni o delezioni in una delle sequenze (gap) ed è sempre possibile rappresentare un percorso di questo tipo sotto forma di allineamento. in generale il modo semplice di trovare l'allineamento ottimale consiste nel calcolare un punteggio per tutti gli allineamenti possibili e scegliere quello che ha il punteggio più elevato, infatti in una matrice Esistono naturalmente molti allineamenti possibili e quindi il primo problema è quello di trovare un modo per calcolare il punteggio, infatti in generale nella descrizione semplificata ad esempio della matrice a punti, abbiamo utilizzato un metodo piuttosto semplice che consiste nel contare il numero di residui identici, tuttavia se sottraiamo un punto per ogni gap, lo stesso allineamento avrà un punteggio diverso rispetto a un criterio di punteggio in cui il gap non c'è, quindi quale sia il migliore allineamento dipende fortemente dai criteri utilizzati per calcolare il punteggio ed è quindi molto importante fare attenzione alla scelta di questi criteri(in definitiva per allineare 2 seq c’è bisogno di un algoritmo di allineamento e di un sistema di punteggio). In maniera indipendente dalla scelta dei criteri utilizzati per il calcolo del punteggio e però necessario definire la lista degli allineamenti possibili, che dobbiamo aspettarci essere composta da un numero elevato appunto di allineamenti, in quanto ad esempio uno stesso residuo può essere parte di allineamenti alternativi. alla luce di queste considerazioni appare chiaro che il numero degli allineamenti possibile È molto più alto del numero di diagonali e che cresce molto velocemente al crescere delle dimensioni della matrice; non tutti i path però costituiscono allineamenti possibili poiché alcuni percorsi prevedono il riutilizzo degli stessi residui in
posizioni diversi, Quindi per una qualsiasi casella della matrice passano molti path, tuttavia se ci limitiamo a pensare a quelli che proseguono a partire da una casella specifica ci rendiamo conto che essi devono tutti proseguire entrando all'interno di un rettangolo, che ha come vertice la casella in basso a destra rispetto ad essa e come colonna e riga quella rispettivamente immediatamente sotto e immediatamente a destra della casella che è posizionata in basso a destra (spostata di una posizione) rispetto alla casella che stiamo considerando. in pratica Il Path può continuare nella casella immediatamente in basso a destra senza introdurre gap oppure in una delle Caselle alla destra di quest'ultima introducendo così uno o più gap nella sequenza posta in verticale Oppure ancora in una di quelle sotto di essa, introducendo Gap nella sequenza orizzontale; questo è vero per qualsiasi altra casella della matrice. Tutte queste considerazioni sono alla base degli algoritmi dinamici o esaustivi che calcolano l'allineamento migliore soprattutto nello specifico Sono alla base dell' algoritmo needleman-wunsch che è uno degli algoritmi più famosi e importanti esaustivi. Allora innanzitutto prima di procedere con l'algoritmo la matrice va inizializzata con i punteggi ottenuti dal confronto di tutti i singoli aa delle sequenze, cioè è utile sostituire gli asterischi con dei valori numerici ad esempio Inserendo il numero 1 al loro posto e 0 o nulla negli altri e nello specifico nell' algoritmo di needleman e wunsch, in ciascuna casella, questo numero viene sostituito da valori che corrispondono al punteggio del miglior path (percorso) tra quelli che, passando per quella casella, proseguono fino alla fine della matrice, concludendosi sul suo margine destro o inferiore. ricordando che i path possibili continuano solo all'interno del rettangolo posto in basso a destra della Casella stessa, basta trovare nel rettangolo il valore più alto che si troverà lungo i margini alto e sinistro e sommarlo al valore contenuto nella casella in esame; in questo modo questi valori possono essere calcolati per tutte per tutte le caselle della matrice partendo dall'angolo in basso a destra e proseguendo fino ai margini superiore sinistro. Si ottiene così una nuova matrice con nuovi punteggi e per determinare il path ottimale si procede quindi a partire dai margini superiore sinistro della matrice, selezionando la casella con il punteggio Maggiore che sarà quella Dove termina il path(in realtà dovrebbe essere da dove inizia, non ho capito perché su federicaelearning è scritto così), a partire da questa casella si procede entrando nei rettangoli via via più piccoli scegliendo sempre il valore più elevato e terminando in una delle Caselle al margine inferiore o destro. Il path così determinato corrisponde all’allineamento ottimale; in qualche rettangolo potrebbero esserci più Caselle contenenti il valore più elevato, in questo caso il path si ramifica ed è poi possibile seguire i diversi rami, tutti questi path avranno però lo stesso punteggio che corrisponde a quello più elevato.
Un modo alternativo di procedere consiste nel rappresentare i Gap come un passo in verticale o in orizzontale, piuttosto che come un salto così facendo il calcolo risulta notevolmente semplificato perché basta considerare tre Sole Caselle: quella adiacente lungo la stessa riga, quella adiacente lungo la stessa colonna e quella ad una riga e ad una colonna di distanza. il calcolo è effettuato in maniera inversa alla precedente, partendo dall'angolo in alto a sinistra in pratica ogni Casella può essere raggiunta camminando in verticale o in orizzontale, con l'introduzione di un gap o in diagonale allungando l'allineamento, solo in quest'ultimo caso il valore della Casella potrà essere sommato al punteggio accumulato finora. dei tre punteggi ottenibili in questo modo viene scelto quello più elevato, se al Gap non si associa un punteggio il risultato è funzionalmente identico a quello ottenuto con il metodo precedente, Se invece si dà un valore negativo all'introduzione dei gap si sfavorisce la loro introduzione. Quindi ad esempio le stesse sequenze producono un allineamento meno tortuoso quando l'aggiunta di un Gap è associata ad un valore molto negativo o ha un punteggio molto negativo. l'introduzione di valori negativi pone il problema di Come gestire tratti relativamente lunghi privi di identità significativa, usando i metodi descritti finora il punteggio può diventare anche molto inferiore allo zero, Smith e Waterman (S e W algoritmo dinamico per allineamento locale) Hanno introdotto un ulteriore confronto Inserendo il valore 0 tra quelli da confrontare per cercare il valore da inserire nella casella, se gli altri punteggi sono inferiori allo zero Questo significa che la casella assumerà il valore 0 e non un valore negativo, in questo modo il valore di ogni casella non Dipenderà più dal punteggio accumulato lungo tutto il percorso ma solo da quello accumulato a partire da quando il punteggio ha superato lo zero, in sostanza punteggi elevati indicheranno regione di similarità locale piuttosto che l'allineamento globale delle 2 sequenze. la ricerca di allineamenti locali è importante quando si cerca di identificare delle piccole regioni di similarità tra 2 sequenze, Infatti ci possono essere delle similarità piuttosto elevate ma limitate in una sola regione delle sequenze, quindi un algoritmo di allineamento locale identifica correttamente le regioni di identità a livello locale, Infatti l'azzeramento del punteggio ogni volta che questo scende sotto lo zero permette alla regione di similarità di diventare visibile come valori positivi, ciò non avverrebbe in un algoritmo per allineamento globale Infatti in questo caso si potrebbe creare una situazione in cui un allineamento globale ha il punteggio più elevato tuttavia quel punteggio è stato ottenuto In modo tale da non evidenziare una regione locale di similarità elevata, poiché l'allineamento globale che la contiene ha punteggio inferiore rispetto a quello massimo e quindi questo farebbe perdere l'evidenziazione di un allineamento locale significativo. Quindi in pratica una regione di similarità locale molto elevata e quindi significativa potrebbe essere non individuata da un algoritmo dinamico per allineamenti globali poiché potrebbe far parte di un allineamento globale che non ha il punteggio massimo e quindi in questo ambito entrano in
Edit distance quindi indica gli eventi di mutazione che hanno differenziato due sequenze(Processo), mentre l’allineamento indica la relazione che intercorre tra due sequenze (Prodotto).
2)Hamming: tra due stringhe della stessa lunghezza è il numero di posizioni con caratteri non corrispondenti AGTC CGTA Distanza di Hamming: 2
Le distanze di Hamming e di Levenshtein sono distanze di dissimilarità. In bilogia molecolare si usa spesso una distanza di similarità. Punteggio di similarità: il punteggio dell’allineamento è frutto del calcolo della similarità tra le due sequenze allineate in questione. Ovvero si deve trovare l’allineamento con il punteggio più alto. Ai match si attribuisce un valore positivo. Processo addittivo, cioè il punteggio deriva dalla somma dei punteggi relativi alle singole coppie di residui appaiati.
Le matrici di similarità: A differenza degli acidi nucleici in cui gli appaiamenti tra basi complementari hanno tutti lo stesso valore di tipo tutto o niente: appaiamento o non appaiamento, infatti solitamente viene utilizzato una matrice molto semplice ad esempio +1 per un match -1 per un mismatch; nel caso delle proteine abbiamo 20 aa e le singole sostituzioni aa non hanno lo stesso peso. È intuitivo capire, per esempio che la sostituzione di una serina (S) con una treonina (T) oppure di un acido glutammico (E) con un acido aspartico (D) sono ben tollerate dalle proteine perché i corrispondenti amminoacidi sono molto simili tra loro. Su questi presupposti sono state costruite delle matrici di similarità costituite da tabelle in cui a ciascun tipo di sostituzione amminoacidica è assegnato un valore che ne indica il grado di similarità (quindi l’interscambiabilità). Sebbene queste matrici possano essere basate sulle proprietà chimico-fisiche dei singoli amminoacidi, le matrici più usate sono state sviluppate con metodi statistici che indicano la frequenza con cui un aa si sostituisce ad un altro in famiglie di proteine omologhe. Infatti ad esempio allineando famiglie di proteine omologhe, è possibile calcolare la frequenza con cui un certo aa viene sostituito con un altro, per esempio A V calcolato come numero di allineamenti A-V diviso il numero di sequenze allineate e si indica come f A V. Analogamente si calcolano la frequenza complessiva di A e di V, come fA e fV. Infine, da questi valori di frequenze si calcolano i valori delle matrici come log (f A V/(fA x fV) ). Il prodotto delle frequenze indica la probabilità che l’allineamento (sostituzione) tra V e A avvenga casualmente (l’atteso per eventi indipendenti) mentre il logaritmo si usa per avere quantità trattabili (numeri con molti decimali); quindi in pratica l’operazione consiste nel calcolare il log del rapporto tra la frequenza osservata di una determinata sostituzione e la frequenza attesa(frequenza osservata di mutazione/freq di mutazione attesa in base alle frequenze degli aa-quindi se il valore è superiore ad 1, ad esempio 1. questo numero indica che la sostituzione tra quei 2 aa avviene 1.6 volte di più che in un evento casuale). Quindi in pratica per le proteine esistono matrici di punteggio più complesse rispetto a quelle per i nucleotidi perché appunto le valutazioni delle sostituzioni amminoacidi che sono più articolate rispetto a quelle dei nucleotidi. In generale comunque le matrici più famose costruite con criteri statistici sono le PAM e le BLOSUM. Comunque è importante precisare che il modello evolutivo adottato dagli autori delle matrici di sostituzioni come le PAM, prevede che la probabilità che si verifichi la mutazione AB sia indipendente dalla posizione all’interno della sequenza proteica, ma in realtà questa assunzione non è corretta.
Matrici PAM: (Percent Accepted Mutation) PAM sono matrici basate su allineamenti globali di proteine strettamente correlate. Le matrici PAM1 ( Point accepted mutation) sono costruite su sequenze omologhe che presentano non più dell’1% di mutazioni accettate, dove per “accettate” si intende mutazioni che non alterano la funzione della proteina. Due sequenze sono dette a 1 PAM di
distanza se per convertirle l’una nell’altra si è verificata, in media, una mutazione ogni 100 aa. Ogni elemento della matrice rappresenta la probabilità dell`amminoacido nella colonna X di mutare nell’aa nella riga Y dopo una particolare periodo evolutivo, per esempio 1 PAM o 1% di divergenza, cioè in un periodo necessario al verificarsi di una mutazione ogni 100 residui (Sì noti che il periodo di 1 PAM non ha una durata esprimibile in unità di tempo ma fa riferimento all'intervallo, qualunque esso sia, necessario affinché sia introdotta in una proteina una mutazione ogni 100 residui, la durata reale di questo intervallo dipende dalla velocità di evoluzione della famiglia di proteine prese in considerazione). il modello evolutivo adottato per costruire la matrice Pam prevede che la probabilità che si verifichi la mutazione sia indipendente dalla posizione all'interno della sequenza proteica ma in realtà questa assumzione non è corretta. Da questi dati vengono inferiti tutti gli altri. Sapendo che la probabilità di due eventi indipendenti è uguale al prodotto delle probabilità, possiamo ricavarci valori corrispondenti a proteine molto più divergenti moltiplicando i valori tra loro. Per esempio per ricavarci i valori PAM 2, corrispondenti a due proteine con 2amminoacidi diversi/100 amminoacidi: moltiplichiamo tra loro i valori PAM1 x PAM1. Naturalmente man mano che le sequenze divergono aumenta la probabilità che singole mutazioni revertano da cui deriva che i valori non coincidono più; per esempio una matrice PAM 80 non identifica proteine che divergono per l’80% dei loro residui, ma solo del 50%. Per la PAM 250 in cui sono stati calcolati 250 passi evolutivi, ad esempio, il risultato è che le sequenze mantengono ancora un 20% di identità, in pratica il rapporto tra il “numero della PAM” e la differenza attesa non è lineare, cioè se chiamiamo il numero “K”, K non corrisponde direttamente al numero di mutazioni per 100 residui che cis si aspetta confrontando 2 sequenze distanti evolutivamente K PAM.
Quindi ricapitolando le matrici di tipo PAM si basano sul concetto di percent accepted mutation; 2 proteine distano un PAM se si differenziano per un aa su 100 e se la mutazione è accettata, cioè non ha portato a perdita di funzionalità, esempi di questo tipo sono proteine ortologhe, ma non mutazioni patologiche che si associano invece a perdita di funzionalità. per generare una matrice Pam si parte da proteine molto simili in cui l'allineamento può essere definito senza ambiguità, quindi ad esempio proteine che hanno una differenza di un amminoacido su 100, a partire da queste viene generata la matrice PAM1. le matrici Pam di ordine superiore vengono generate per successive moltiplicazione della matrice Pam 1 perché la probabilità di due eventi indipendenti è pari al prodotto della probabilità di ciascun evento singolo. Mentre per la matrice Pam uno è vero che un evento mutazionale corrisponde a una differenza del 1% questo non è vero per la matrice di ordine superiore, Infatti le successive mutazioni hanno una probabilità via via crescente di cadere in corrispondenza di aa già mutati; il grado di differenza aumenta con l'aumentare del numero di mutazioni, ma mentre quest'ultimo può aumentare all'infinito, la differenza tende asintoticamente al 100%. È importante precisare che i valori all'interno di una matrice si riferiscono a specifiche proteine Cioè nel senso che ad esempio i valori contenuti all'interno della Pam2 si riferiscono a proteine che distano evolutivamente di due PAM, nel senso che si sono differenziate per 2 amminoacidi ogni 100, ma quei valori non verranno per esempio per proteine che hanno un grado di similarità minore; in termini più rigorosi la mutabilità relativa di un aacambia a seconda del periodo evolutivo considerato, cioè la mutazione A-->B avrà una certa probabilità di verificarsi in un periodo di un PAM, ma avrà una probabilità diversa in un periodo più lungo, per esempio a 3PAM. La matrice Pam comunemente usata non contiene direttamente la probabilità della sostituzione di due aa, ma piuttosto il rapporto tra la frequenza osservata e la frequenza attesa calcolata sulla base delle frequenze relative degli aa coinvolti nella sostituzione, inoltre questi valori sono rappresentati come logaritmo del rapporto stesso, per evitare l'introduzione di numeri molto piccoli; un vantaggio di quest'operazione è che il punteggio può essere calcolato mediante somma piuttosto che per moltiplicazione( In pratica è il rapporto tra la probabilità di osservare lo scambio aminoacidico come evento evolutivo e la probabilità di osservarlo per caso, quest'ultima stimata dal prodotto delle frequenze dei singoli aminoacidi. Quindi nel caso in cui tale valore, cioè quella del log,sia maggiore di zero lo scambio si osserva più frequentemente di quanto atteso per caso,se il valore = 0 la frequenza è indistinguibile da quella casuale poiché il rapporto sarà 1; Se invece il valore del logaritmo che noi otteniamo è minore di zero lo scambio avviene meno frequentemente di quanto atteso per caso, cioè è più probabile che sia avvenuto epr caso che per un evento evolutivo). Osservando i valori riportati nelle Caselle della matrice è possibile notare innanzitutto che i valori più alti si trovano lungo la diagonale della matrice, là dove non c'è stata sostituzione valori elevati si riscontrano anche per sostituzione di alcuni amminoacidi dello stesso tipo come prevedibile, ad esempio sostituzione lisina arginina o glutammato aspartato hanno valori simili a quelli presenti sulla diagonale, valori piuttosto alti si osservono anche per sostituzione tra amminoacidi di dimensioni simili come alanina Serina e treonina, la sostituzione di aa idrofobici tra loro non sempre porta a valori elevati. infine anche i valori lungo la diagonale che indicano la conservazione di un aa non sono tutti ugualmente elevati, la conservazione di aa rari come il triptofano o di difficile Sostituzione come la cisteina danno punteggi molto elevati, mentre la conservazione di aa comuni e non richiesti per funzionalità specifica risulta in valori piuttosto bassi. In pratica il valore che noi osserviamo ad esempio in una Pam 250 indica il grado di intercambiabilità tra due amminoacidi, ovviamente se ci riferiamo a una PAM 250 il grado di intercambiabilità si riferisce a due proteine che sono simili solo per il 20%, o per meglio dire indica la probabilità di far avvenire uno scambio aa in un periodo evolutivo di 250PAM, cioè necessario a far avvenire 250 mutazioni ogni 100aa. Quindi generalizzando i valori contenuti all'interno della matrice di sostituzione rappresentano la misura della probabilità che due aa si scambino durante l'evoluzione divergente di proteine omologhe, in un determinato periodo evolutivo. pertanto quando si attribuisce Il punteggio a un allineamento di due sequenze in un certo senso si Sta misurando la probabilità che una sequenza si sia trasformata nell'altra, durante un determinato periodo evolutivo.
Una critica alle matrici Pam è che si finisce per usare matrici derivate da proteine molto vicine tra di loro, PAM1 per studiare il comportamento di proteine distanti, Pam 250. un modo alternativo di affrontare il problema consiste nel partire da allineamenti multipli di un gran numero di proteine che condividono una similarità maggiore di un valore soglia. Le matrici più comunemente usate, le BLOSUM sono state ottenute a partire da allineamenti del genere disponibili nel database BLOCKS, quindi a partire da regioni di proteine strettamente correlate, allineabile senza Gap sono stati calcolati i rapporti tra il numero di coppie di amminoacidi osservate in qualunque posizione e il numero di coppia attese in base alle frequenze complessive degli amminoacidi stessi. I risultati sono espressi in forma logaritmica. anche queste matrici costituiscono una famiglia in cui indici diversi indicano differenti percentuale di similarità tra proteine usate per generare la matrice per esempio blosum62 indica una matrice generati a partire da proteine aventi una similarità minima del 62% e che le frequenze ottenute non stimerebbero correttamente le frequenze degli scambi in sequenze evolutivamente più distanti,vale a dire simili per meno del 62% dei residui. È importante comprendere
distinguere l'appartenenza di ciascuna sequenza, qualunque soglia di punteggio si fissi non è possibile separare i due insieme. quasi sempre la rapidità di ricerca di un sistema euristico si paga con una minore sensibilità e selettività; la
sfida è quindi quella di produrre sistemi rapidi che abbiano sensibilità e selettività elevate. Uno dei primi metodi elaborati per eseguire ricerche rapide in banche dati è stato chiamato in origine FASTP, Ma oggi si chiama FASTA. l'esame dell'algoritmo(algoritmo euristico) su cui si basa questo programma tuttora molto utilizzato, ci permette di evidenziare la logica generalmente sottostante ad alcuni programmi di ricerca rapida nelle banche dati, che sono stati elaborati in seguito. ricordiamo che la motivazione principale alla base dello sviluppo dei programmi di scansione delle banche dati è il superamento dell'uso degli algoritmi dinamici per confrontare la sequenza sonda con le sequenze della banca. l'algoritmo di confronto su cui si basava FASTA utilizza una tecnica nota come lookup table o tavola di ricerca che permette di evidenziare rapidamente le zone di identità tra 2 sequenze. per illustrare questa tecnica basta fare un semplice esempio: date due sequenze non Allineate ma semplicemente sovrapposte per ognuna Si annota nella lookup table la posizione o le posizioni in cui si trova ciascuno dei 20 aa, per esempio il triptofano si osserva in posizione 3 e 6 nella prima sequenza e invece in posizione 2 e 5 nella seconda; si calcola poi la differenza tra le posizioni degli aa identici nelle due sequenze: ad esempio se ho un aa nella prima sequenza in posizione 7 e nella seconda in posizione 1 la differenza sarà 6. gli aa la cui posizione differisce per un numero identico di posizioni possono essere posti in registro, cioè allineati, facendo semplicemente slittare le due sequenze l’una rispetto all'altra per un numero di posizioni pari alla differenza stessa: ad esempio se ci sono 3 aa che distano una posizione, una treonina e due triptofani, i 3 aa possono essere allineati facendo slittare la sequenza 2 rispetto alla sequenza uno di una posizione. il tempo necessario per identificare le zone di somiglianza tra le due sequenze secondo la modalità illustrate cresce in modo approssimativamente proporzionale alla somma delle lunghezze delle due sequenze. Quindi in sintesi la tabella di ricerca è utilizzata dal programma per indicizzare in modo rapido le zone di identità tra due sequenze e lo fa dicendoci di quanto sono sfasati i residui identici nelle due sequenze e quindi ci fa capire di quanto le sequenze debbano slittare l'una rispetto all'altra per allineare i residui identici. il programma FASTA attraverso l'uso della lookup table Individua rapidamente le sequenze della banca dati che contengono brevi tratti di sottosequenze identiche a quella della sequenza seconda; in questa fase il programma può operare in due modi diversi e la scelta è sotto il controllo dell'operatore: può calcolare il punteggio iniziale, per identificare le regioni di maggior somiglianza, sulla base della appaiamento dei singoli residui K-upla= 1 oppure dell'appaiamento di dipeptidi K-upla= 2. Nel primo modo il programma è più lento cioè trovo un numero maggiore di appaiamenti di residui tra sequenze, ma più sensibile perché prende in considerazione un numero maggiore di sequenze e ha minor probabilità di tralasciare alcuni veri positivi, nel secondo è più veloce ma meno sensibile. schematicamente FASTA esegue questa serie di operazioni: 1) confronta la sequenza sonda con quelle Nella banca dati e identifica per ciascun confronto le 10 regioni di maggior somiglianza cioè contenenti un numero significativo di K-uple, localizzate attraverso la tecnica della lookup table, questo passaggio è molto rapido 2) riassegna alle 10 regioni individuate nel passaggio precedente un punteggio calcolato attraverso una matrice di sostituzione (PAM 250 o blosum 62) che tiene conto anche della sostituzioni aminoacidiche conservative; la regione con il miglior punteggio viene definita come la regione iniziale a cui corrisponde il punteggio iniziale; questo passaggio serve a valutare con più precisione il grado di somiglianza delle regioni selezionate e quindi ad aumentare la sensibilità e selettività di FASTA 3) cerca di unire le regioni a più alta somiglianze il cui punteggio è superiore a una soglia prefissata nel programma incorporandole in un allineamento alla quale viene associato un punteggio ottimizzato che tiene conto della penalizzazione delle eventuali Indel, il punteggio ottimizzato è utilizzato per ordinare le sequenze della banca dati secondo la somiglianza con la sequenza sonda; 4) le sequenze a più elevato punteggio sono riallineate alla sequenza sonda attraverso algoritmi dinamici rapidi, all'allineamento viene attribuito il punteggio ottimizzato finale S opt. è importante precisare che l'algoritmo dinamico viene applicato entro un'area della matrice delimitata, quindi non
in tutta l'area della matrice, in questo modo l'esecuzione più rapida. una volta assegnato Sopt a ciascuna sequenza delle banche dati, quelle che hanno il punteggio più elevato superiore a una certa soglia stabilità dall'utente, sono riportati in ordine decrescente e spesso il punteggio di S opt è sufficiente a discriminare le sequenze appartenenti alla stessa superfamiglia da quelle non correlate. quasi sempre però ci sono alcune sequenze il cui valore S opt non permette di decidere se siamo in presenza o in assenza di omologia; quando neanche le informazione biologica sulle proprietà delle sequenze che stiamo analizzando riesce a guidarci è utile prendere in considerazione la significatività statistica associata S opt sotto forma di E-value, per esempio se a un certo punteggio S è associato un E-value di 10 alla Meno 2 Questo vuol dire che ci aspettiamo di trovare in quella banca dati 0,01 sequenze non correlate alla nostra che ottengono un punteggio superiore ad S cioè falsi positivi.
il metodo Blast è stato elaborato per rendere ancora più rapide le ricerche nelle banche dati rispetto a FASTA senza perdere significativamente in sensibilità e selettività. anche in questo caso la filosofia seguita dagli autori di questo programma si basa sulla selezione rapida delle sequenze della banca dati potenzialmente simili alla sequenza sonda,
solo successivamente Queste sono confrontate più dettagliatamente con la sonda. l'algoritmo di Blast è finalizzato all'individuazione delle HSP (High scoring segment pairs), ovvero coppia di segmenti ad alo punteggio, che sono la coppia di segmenti di uguale lunghezza appartenenti a due sequenze che allineati senza indel mostrano un punteggio che non può essere ulteriormente aumentato dall'estensione dei segmenti stessi, per estensione si intende l’aggiunta progressiva di residui laterali all'estremità dei segmenti, la coppia di segmenti mostra un punteggio localmente Massimo che non necessariamente coincide con il massimo assoluto, ora se due sequenze contengono una HSP ad alto punteggio quindi sopra ad una certa soglia probabilmente sono correlate e quindi vanno Confrontate più in dettaglio, in questo modo Blast può minimizzare il tempo impiegato su sequenze verosimilmente non omologhe e concentrare l'attenzione su candidati più promettenti. sempre allo scopo di identificare rapidamente sequenze della banca dati che possono contenere HSP con punteggio P maggiore o uguale si S (punteggio al di sotto del quale la somiglianza osservato può essere casuale quindi chiaramente queste zone di somiglianza devono essere scartate), si assume che per soddisfare questa condizione le due sequenze debbano contenere almeno due parole di lunghezza w per esempio di 3 o 4 residui che confrontate tra loro diano un punteggio superiore alla soglia T. allora le due parole possono essere parte di una HSP con punteggio P maggiore o uguale di S, viceversa se le due sequenze non contengono le due parole probabilmente non contengono HSP con le caratteristiche necessarie. riassumendo la ricerca delle hsp ad alto punteggio quindi maggiore uguale di un punteggio S viene fatta cercando prima le parole w con punteggio P maggiore o uguale di T e poi estendendo le parole sul lato N e C terminale fino a localizzare la hsp con punteggio P maggiore o uguale di S. Questa è la strategia seguita dal programma, pertanto Blast consiste di tre fasi: 1) la sequenza sonda è scomposto in tutte le parole di lunghezza w( di 3 residui per proteine, di 11 per gli ac nucleici) Ivi contenute, per ogni parola si elencano le parole della medesima lunghezza che Allineate ad essa ottengono un punteggio maggiore o uguale di T secondo la matrice di sostituzione prescelta;2) vengono localizzate le parole simili nelle sequenze della banca dati attraverso un sistema ad alta efficienza. numero 3) si estendono le parole simile e si identificano delle hsp con punteggio maggiore uguale di S(l’estensione avviene a ciascuna estremità e termina quando il punteggio inizia a diminuire). le tre fasi sono schematizzate nella figura 5.7 del libro. nella sua versione originale Blast Ordina le sequenze della banca dati secondo il punteggio calcolato Durante l'esecuzione della Fase 3 e associa a questo una misura della sua significatività statistica, il programma alla fine presenta all'utente la lista delle hsp statisticamente più significative Allineate alla sonda e per definizione questi allineamenti locali non contengono Indel. Più recentemente è stata elaborata una versione migliorata di Blast detta Gapped-Blast, attualmente in uso e in distribuzione su internet. la nuova versione è più rapida nelle ricerche rispetto a quello originale e possiede un livello di sensibilità Maggiore Inoltre applica un algoritmo dinamico per calcolare l'allineamento locale tra la sonda e la sequenza della banca dati che include le eventuali Indel. in questo modo all'utente vengono presentati gli allenamenti locali con Indel tra la sonda e le sequenze in banca dati che hanno ottenuto un punteggio statisticamente significativo. le considerazioni che hanno suggerito la nuova formulazione più efficiente dell'algoritmo riguardano il fatto che la maggior parte del tempo è speso da Blast nella fase 3 di estensione delle parole w ad alto punteggio, tuttavia le hsp significative contengono almeno due parole w, quindi nella formulazione originale molto tempo viene speso nell'estensione di parole che non produrranno hsp. Inoltre la valutazione più precisa del grado di somiglianza di due sequenze deve essere fatta su allineamenti con Indel invece che su allineamenti locali senza indel. al fine di superare questi limiti la fase 3 di estensione nella versione più evoluta di Blast è attivata solo se il programma trova due parole w a una distanza l'una dall'altra inferiore al limite prefissato A, Se questo è vero Allora si attiva la procedura di estensione rappresentata dalla fase 4 nella figura 5. 8 del libro, se dopo l'estensione il punteggio della HSP è superiore ad una soglia prefissata S, allora è attivata un'ulteriore operazione, la fase 5 che consiste nell’estendere l’HSP attraverso l'applicazione di un algoritmo dinamico rapido che produce un allineamento contenente eventuali Indel. la somiglianza tra le due sequenze è quindi valutata statisticamente in base al punteggio ottenuto nell’allineamento, a questo punto i parametri in gioco sono 4: w(word size: maggiore è il numero, minore è il numero di parole generate, minore è il tempo di esecuzione. Ma la sensibilità decresce sensibilmente), T(threshold: minore è il numero, maggiore è il numero di parole inclusi nella lista, maggiore è il tempo di esecuzione. Si ha però un incremento di sensibilità), A e S (score: minore è il numero, maggiore sarà la lunghezza degli HSP) e il valore dei parametri è stato selezionato dagli autori in modo da avere un compromesso ottimale tra sensibilità e velocità di esecuzione dell'algoritmo. Quindi detto in parole povere BLAST permette di ricercare regioni di similarità locale tra una sequenza data e una collezione di sequenze in banca dati. una questione centrale nelle ricerche in banche dati è la valutazione della significatività statistica della somiglianza di sequenze. in effetti lo sviluppo di fasta e Blast è strettamente connesso alla trattazione teorica della valutazione della significatività statistica di allineamenti locali. come abbiamo visto a ogni confronto tra la sequenza sonda e ciascuna sequenza della banca dati si associa un punteggio che si forma sommando i punteggi delle singole coppie di aa appaiati nell'allineamento più eventuali penalizzazioni per le indel. l'entità della somiglianza spesso è di per sè sufficiente a concludere che le due sequenze siano omologhe o meno, allo stesso modo la conservazione di residui funzionalmente
L’allineamento multiplo di sequenze, sia proteiche che nucleotidiche, è decisamente più denso di informazioni rispetto ad un allenamento tra due sole sequenze e rappresenta in qualche modo un riassunto della storia evolutiva di una famiglia proteica. l'esame di un allineamento multiplo fornisce preziose indicazioni sulle zone che si sono maggiormente conservate durante l'evoluzione e che possono quindi avere un importante ruolo strutturale e funzionale, in virtù di queste proprietà gli allineamenti multipli possono essere utilizzati per costruire alberi filogenetici, per identificare motivi di sequenza comune e conservati, per prevedere la struttura secondaria delle proteine e così via; possono Inoltre essere utilizzati per Codificare le caratteristiche strutturali di una super famiglia proteica in modo tale da ottenere una sorta di impronta digitale che può essere utilizzata per cercare, nelle banche dati, altri membri evolutivamente distanti appartenenti alla medesima famiglia, altrimenti difficilmente individuabili. la grande utilità pratica degli allineamenti multipli ha stimolato lo sviluppo di tecniche di calcolo in grado di risolvere almeno in parte le difficoltà intrinseche alla costruzione di questi allineamenti, il primo tentativo più ovvio è stato estendere gli algoritmi dinamici, per l'allineamento di due sequenze, al caso di allineamenti multipli, Purtroppo gli algoritmi dinamici non possono essere semplicemente estesi all’allineamento di più sequenze a causa della complessità dell'algoritmo, infatti già per numeri relativamente piccoli il problema divenne intrattabile. di fatto gli algoritmi dinamici sono stati applicati solo al caso dell’allineamento di poche sequenze. per allineare efficientemente decine e decine di sequenze è stato necessario ricorrere ad algoritmi euristici Analogamente a quanto visto per la ricerca delle banche dati, questi algoritmi forniscono una soluzione approssimata, ma molto vicina a quella ottimale, anche se non possono garantire di raggiungerla completamente, l'utilità di tali metodi però è dimostrata dall'uso intensivo che ne fanno i ricercatori. negli anni sono state proposte diverse strategie euristiche ma forse quella che ha dato i maggiori risultati è l'allineamento progressivo; questa strategia consiste essenzialmente nel costruire progressivamente un allineamento multiplo di N sequenze a partire dagli allenamenti a coppie tra le sequenze i quali vengono ricombinato tra loro Seguendo le indicazioni di un albero filogenetico. uno dei programmi oggi più diffusi di allineamento multiplo che utilizzano una strategia di tipo progressivo è Clustal W abbiamo visto come gli algoritmi dinamici di allineamento di coppie di sequenze non siano facilmente applicabili all’allineamento multiplo poiché la complessità dell'algoritmo cresce enormemente al crescere del numero di sequenze da allineare. Clustal W evita questa trappola combinatoria applicando progressivamente e iterativamente l'algoritmo di allineamento dinamico a coppie di sequenze. descriviamo i passaggi chiave di cui consiste la versione base del metodo in modo da evidenziare le caratteristiche essenziali della strategia progressiva (figura 6.2 del libro):1)nella prima fase tutte le possibili coppie del gruppo iniziale di N sequenze sono allineati tra loro applicano un algoritmo dinamico classico naturalmente l'algoritmo utilizza una funzione di penalizzazione delle indel e una matrice di punteggio che può essere scelta dell'operatore 2) una volta ottenuti tutti i possibili allineamenti si misura il grado di somiglianza di ciascuna coppia di sequenze allineate, si possono utilizzare svariati sistemi di misura uno dei più semplice è la percentuale di residui identici, questa percentuale può essere convertita in distanza calcolando la percentuale di residui diversi (100 - percentuale di residui identici) ed essere inclusa in una matrice N x N, detta matrice delle distanze, all'interno di ciascuna cella c'è la percentuale di residui diversi o altra misura di distanza tra le sequenze corrispondenti
quando la maggior parte delle sequenze da allineare Mostra una percentuale di identità reciproca minore del 30% Clustal W produce allineamenti poco accurati.
Uno dei problemi principali da risolvere per ottenere allineamenti affidabili è il corretto posizionamento delle indel, cosa che a sua volta dipende dai parametri utilizzati nella funzione di penalizzazione cioè da gap opening e gap estende. ricordiamo che gap op rappresenta la penalizzazione per l'inserimento di Indel e Gap ex la penalizzazione per l'allungamento. abbiamo già detto, ma conviene ribadirlo che la difficoltà nel corretto posizionamento delle Indel aumenta con l'aumentare della distanza delle sequenze che si allineano. non è detto che la funzione di penalizzazione iniziale sia adeguata per tutti i passaggi successivi dell'allineamento progressivo e in tutte le zone delle sequenze, per questo motivo in Clustal W è stata prevista la variazione dinamica dei due parametri della funzione di penalizzazione delle Indel: 1)i parametri vengono variati a seconda della matrice di punteggio utilizzata 2) gap opening viene aumentato in modo proporzionale alla somiglianza delle sequenze da allineare, sequenze simili Tendono ad avere meno indel 3)gap opening diminuisce proporzionalmente alla lunghezza della sequenza più corta, Maggiore è lunghezza delle sequenze maggiore è il numero atteso di indel 4) gap extended è incrementato proporzionalmente alla differenza di lunghezza delle sequenze in modo da evitare che il programma inserisca indel troppo lunghe nella sequenza più corta. la funzione di penalizzazione Inoltre potrebbe non essere adeguata lungo tutta la lunghezza delle sequenze, nel senso che potrebbero esserci alcune zone in cui le indel sono più probabili che in altre, clastal w allora Può variare i pesi di penalizzazione in funzione della posizione dell'allineamento nella quale devono essere applicati secondo le seguenti modalità: il peso Gap opening è diminuito in corrispondenza di zone dell'allineamento in cui ci sono già indel, queste zone Infatti possono rappresentare anse esposte al solvente in cui si localizzano più probabilmente altre indel nelle sequenze che vengono aggiunte, gap opening è incrementato entro 8 posizioni ai lati di indel esistenti, è improbabile che si localizzano indel in prossimità di altre; Gap opening è diminuita se esistono 5 residui idrofilici conservati consecutivi, che possono rappresentare zone esposte al solvente nella struttura tridimensionale e quindi siti oggetti più facilmente a indel.
Abbiamo detto che le matrici di punteggio sono tarate per valutare le probabilità di sostituzione aminoacidica tra sequenze separate da un certo periodo evolutivo. la stima della probabilità per un dato periodo può non essere sufficientemente accurata per un diverso periodo evolutivo più breve o più lungo, questo problema può diventare critico durante l'allineamento progressivo: nelle prime fasi si allineano le sequenze più simili per le quali può essere adeguata la matrice di sostituzione scelta all'inizio, in seguito si incorporano nel allineamento le sequenze più distanti che presentano una dinamica di sostituzione non adeguatamente descritta dalle matrici utilizzata inizialmente. per questo motivo è stato incorporato in Clustal una funzione che sceglie le matrici di punteggio in base alla differenza attesa tra le sequenze o gruppi di sequenze che devono essere Allineate, per esempio se i due gruppi differiscono tra lo zero e il 20% dei residui si utilizza PAM20 se differiscono tra il 40 e il 60 si seleziona PAM120 e così via; si utilizza lo stesso criterio per le matrici delle serie blosum. grazie a questi accorgimenti CLustal W fornisce allineamenti multipli affidabili Tuttavia è bene sottolineare che quando la maggior parte delle sequenze è dissimile per più del 30% dei residui Allora il programma perdi in accuratezza ed è necessario utilizzare i metodi più sofisticati. in ogni caso è consigliabile considerare l'allineamento ottenuto con senso critico e alla luce delle informazioni biologiche posseduti sulle sequenze allineate; in alcuni casi può essere necessario utile effettuare una correzione manuale.
La filogenesi molecolare studia l'evoluzione Delle specie a partire da dati molecolari e una delle tecniche usate in questa disciplina è la costruzione degli alberi filogenetici, a partire da allineamenti multipli di sequenza. Allora innanzitutto per capire cos'è un albero filogenetico Dobbiamo capire cosa si intende per albero; allora un modo per rappresentare sinteticamente i rapporti evolutivi tra le sequenze (proteine o acidi nucleici) e quindi tra le specie a cui appartengono è attraverso l'uso di alberi. un albero è un grafico formato da nodi e da Rami, un nodo può rappresentare un gene una proteina una popolazione a seconda del tipo di analisi che si sta conducendo e i rami rappresentano i rapporti topologici cioè la connessione evolutiva tra i diversi nodi, Al Ramo può essere anche associata una lunghezza proporzionale alla distanza evolutiva dei due nodi connessi. i nodi possono essere esterni oppure interni i nodi esterni rappresentano le sequenze moderne mentre i nodi interni rappresentano gli antenati che hanno dato origine alle sequenze odierne Ma che oggi non possiamo conoscere direttamente. gli alberi possono essere con o senza radice: la radice è l'origine dell'albero a partire dalla quale si misurano le distanze tra le sequenze e rappresenta l'organismo o il gene ancestrale da cui tutti gli altri organismi o geni discendono. un albero è quindi caratterizzato dalla topologia Cioè dalla connettività dei rami e dalla lunghezza corrispondente alla somma delle lunghezze dei singoli rami, la radice rappresenta l'antenato comune a tutti i nodi dell'albero e in un certo senso ne costituisce l'origine e punto di riferimento. un albero con radice e con lunghezze dei rami specificate si può definire propriamente albero filogenetico
profilo produce Alla fine un punteggio S che misura il grado di somiglianza della sequenza bersaglio al profilo sonda. Adesso abbiamo tutto ciò che serve per utilizzare il profilo per le ricerche in banche dati, una volta costruito un profilo si possono cercare altri membri evolutivamente distanti appartenenti alla stessa famiglia attraverso il confronto sistematico con ciascuna sequenza nella banca dati, utilizzando un algoritmo dinamico ciascun confronto produce un punteggio S, dalla distribuzione dei punteggi S si può calcolare la media e la deviazione standard ed esprime, i punteggi in termini di Z Score i punteggi che possiedono z-score elevato, si suggerisce di considerare valori superiori a 10, sono indice di relazione evolutiva. questa procedura anche se molto sensibile e selettiva è dispendiosa da un punto di vista della quantità di calcoli richiesti e ha quindi bisogno di potenza di calcolo non sempre reperibile nei personal computer. nella figura 8.6 del libro viene schematizzata la procedura per allineare un profilo a una sequenza, la matrice dinamica è inizializzata con i punteggi prelevati dal profilo in ciascuna riga per gli amminoacidi corrispondenti della sequenza bersaglio, una volta che la matrice dinamica è stata completata, su di essa si applica un algoritmo dinamico per esempio quello di Smith e Waterman che Calcola il percorso ottimale corrispondente al migliore allineamento tra la sequenza bersaglio e le colonne dell' allineamento multiplo che ha generato il profilo, quando l'algoritmo dinamico inserisce un indel la funzione di penalizzazione Viene modulata secondo i fattori di moltiplicazione trovati nella riga corrispondente del profilo.
La tecnica dei profili è stata introdotta in uno dei sistemi di ricerca in banche dati più diffuso cioè BLAST e questo ha fatto sì che la metodologia fosse facilmente accessibile anche agli utenti meno esperti. la versione di Blast che incorpora il metodo dei profili è detta psi-blast, il programma si differenzia da Blast perché utilizza per la ricerca non una singola sequenza sonda ma una pssm, questa matrice è costruita a partire da un allineamento multiplo contenente le sequenze simili a quella sonda. I passaggi utilizzati da psi-blast sono i seguenti: 1) iniziale ricerca Blast con una singola sequenza sonda 2) le sequenze della banca dati significativamente simili a quella sonda per esempio che hanno E- Value minore o uguale di 0,001 sono Allineate a quest'ultima( il valore di Questo limite può essere modificato dall'utente) 3) l'allineamento multiplo è utilizzato per calcolare un PSSM, la matrice così calcolata viene utilizzata per una seconda ricerca in banca dati utilizzando una versione di BLAST opportunamente adattata, questa seconda ricerca in genere rileverà un numero maggiore di sequenze simili per esempio con E-Value inferiore ad esempio alla soglia prefissata di 0,001 che verranno inglobate in un nuovo allineamento multiplo, a sua volta utilizzato per costruire una nuova matrice e così via. il processo iterativo si ferma dopo un numero prefissato di passaggi oppure quando non si riescono più a reclutare nuove sequenze della banca dati, la matrice pssm è costruita in modo molto simile a quanto visto nel caso dei profili ma ci sono alcune differenze caratteristiche del sistema psi-blast. Quindi schematicamente psi- blast nel primo ciclo fa in modo che la sequenza sonda scandaglia la banca dati con l'algoritmo Blast, le sequenze il cui E-value è al di sotto della soglia prefissata sono raccolte e utilizzate per costruire un PSSM, nel secondo ciclo di ricerca psi-blast scandaglia la banca dati con la pssm calcolata al termine del primo ciclo, la seconda ricerca troverà probabilmente più sequenze rispetto alla prima, queste saranno incorporate in nuovo allineamento multiplo contenente le vecchie e le nuove sequenze al fine di calcolare una pssm in cui i punteggi degli amminoacidi sono stimati su un numero maggiore di residui e poi il ciclo viene ripetuto. nella PSSM non sono previsti fattori di modulazione della funzione di penalizzazione delle indel che è fissa per PSI Blast, la valutazione della significatività statistica di un confronto utilizza ancora l’E-value, Sebbene non ci sia una teoria esatta che ne giustifichi l'uso anche nell'ambito di un allineamento tra una sequenza è una pssm. psi-blast mantiene Inoltre la possibilità di mascherare zone a bassa complessità attraverso il programma SEG.L’uso di PSI-BLAST nel corso degli anni ha dimostrato che il sistema riesce ad identificare omologhi distanti di una certa sequenza sonda che invece sfuggono a Blast e questo ha aiutato a identificare relazioni evolutive molto interessanti e ipotizzare funzioni per prodotti genici non caratterizzati.
Ensembl (banca dati bioinformatica allestita con lo scopo di fornire informazioni aggiornate sui principali genomi
i frammenti derivanti dal sequenziamento vengono assemblati Annotati e Resi disponibili sotto forma di genomi, i genomi completi sono organizzati in cromosomi Quelli incompleti vengono strutturati in scaffolds cioè contings di dimensioni piuttosto grandi, ma inferiori a quelle di un cromosoma. le dimensioni di un genoma dipende da: 1)poliploidia, Infatti genomi eucariotici sono spesso diploidi Tuttavia esistono organismi e cellule aploidi o con grado di ploidia maggiore di 2, questo risulta in aumentata ridondanza più che in un aumento delle informazione; per favorire il confronto tra specie diverse si usa il C Value che corrisponde alla quantità di Dna di un genoma aploide espresso in picogrammi 2)Oltre alla poliploidia la dimensione di un genoma dipende dalla frazione di contenuto informazionale: anche in un genoma aploide Oltre alle regioni codificanti per l' RNA messaggero e per altri tipi di RNA esistono larghe
zone di sequenze ripetute in tandem o comunque a più basso contenuto informativo. è importante comprendere l'effetto ipercromico, la denaturazione del DNA rende le basi più accessibili e provoca un aumento della assorbanza a 260 nanometri questo effetto può essere utilizzato per seguire la denaturazione valutando la frazione di DNA denaturato come incremento di assorbanza, le coppie GC formano tre legami idrogeno, conferiscono quindi stabilità alla doppia elica in misura maggiore delle coppie AT, per questo motivo la temperatura di melting risulto più alta in funzione della quota di GC. L’organizzazione dei genomi è piuttosto variabile, nel genoma umano La maggior parte della sequenza Cioè più del 90% non è codificante mentre in lievito e in Escherichia coli il grado di compattazione dei geni è piuttosto elevato con solo il 10% di regioni non corrispondenti a Open reading frame (ORF), negli insetti la situazione è intermedia, mentre nelle piante è molto frequente osservare larghe regioni ripetute con scarso contenuto informativo con dimensioni totali spesso superiore a quello di genomi di vertebrati. nello specifico il cariotipo umano è costituito da 46 cromosomi ciascuno composto di regioni contenenti geni e di elementi strutturali coinvolti nella replicazione e divisione del patrimonio genetico come telomeri, centromeri, origini di replicazione eccetera. i geni sono distribuiti in maniera diffusa Ma talvolta geni legati si trovano riuniti in una stessa regione come le globine. vari tipi di sequenze ripetitive sono classificate sulla base della frequenza e delle dimensioni oltre che del tipo di ripetizione. i genomi procariotici sono compatti di dimensioni variabili da un minimo di 400000 basi a circa un milione, le regioni codificanti sono raggruppate in operon separati da piccole regioni non codificanti, tipicamente il genoma è costituito da un unico cromosoma e complessivamente il DNA non codificante è intorno al 10% distribuite in un gran numero di regioni spaziatrice. Cos’è una mappa genomica? Allora innanzitutto dobbiamo dire che la conoscenza completa della sequenza di un genoma permette di avere informazioni dettagliate su ciascuna regione cromosomica, anche in assenza di tali informazioni è però possibile ottenere mappe di elementi genomici noti dette mappe genomiche che rappresentano con un grado variabile risoluzione la sua organizzazione strutturale. una mappa genomica consiste in un elenco di marcatori per i quali È nota la posizione del genoma, le mappe possono essere utilizzate per assegnare regioni genomiche a specifiche aree del genoma completo. si può definire marcatore qualunque elemento strutturale che possa essere facilmente identificabile e a cui si possa attribuire una specifica posizione lungo il genoma, un gene è tipicamente un marcatore, una specifica sequenza può essere un marcatore, così come una mutazione puntiforme, una sequenza ripetuta non è un buon marcatore in quanto riscontrabile in punti diversi del genoma. oltre ai geni anche altre sequenze di DNA aventi almeno due forme alleliche diverse sono utilizzabili come marcatore esempi di tali polimorfismi sono rflp sslp e gli snp. gli rflp restriction fragment length polymorphism consistono in polimorfismi a carico di un sito di restrizione caratterizzate dalla perdita del sito. Gli SSLP single sequence length polymorphism sono sequenze polimorfiche caratterizzate dalla ripetizione in numero variabile di volte di un pattern definito come ad esempio specifici di o tri nucleotidi e l'identificazione di questi marcatori viene eseguita mediante amplificazione per PCR della Regione contenente l’sslp seguita da corsa elettroforetica che evidenzia il polimorfismo come differenza di lunghezza. gli snp sono invece polimorfismi caratterizzate dalla mutazione di singoli nucleotidi essi possono essere riconosciuti mediante ibridazione usando oligonucleotidi complementare ai diversi alleli e valutando la stabilità degli ibridi formati, In alternativa possono essere riconosciuti attraverso il sequenziamento delle Regioni.
le mappe genetiche sono rappresentazioni ottenute determinando la distanza tra geni vicini mediante tecniche genetiche, si utilizzano diversi approcci sperimentali anche in dipendenza dal tipo di organismo oggetto di studio per esempio tecniche di incrocio vengono utilizzate per organismi in cui la genetica è ampiamente studiata come per esempio i lieviti o alcune piante. le mappe genetiche si basano sulle leggi di Mendel: gli alleli segregano in modo casuale cioè di una coppia di alleli ciascuna ha la medesima probabilità di essere ereditata (Prima legge), coppia di alleli segregano in modo indipendente cioè gli alleli del Gene a vengono ereditati in modo indipendente dagli alleli del gene B (seconda legge). le leggi di Mendel si applicano correttamente a geni localizzati su cromosomi diversi, geni localizzati sullo stesso cromosoma tendono invece a essere ereditati insieme, il fenomeno È noto come linkage. in realtà un linkage completo si osserva solo per geni molto vicini, mentre geni progressivamente più lontani mostrano il fenomeno in grado via via decrescente, geni localizzati sullo stesso cromosoma ma molto lontani possono arrivare a comportarsi come se fossero su cromosomi distinti. Il grado di linkage riflette quindi la distanza fisica di due geni localizzati sullo stesso cromosoma e il Crossing over durante la meiosi è il principale evento responsabile del fenomeno. la determinazione di mappe genetiche nell'uomo mediante calcolo delle frequenze di ricombinazione è ottenuto esaminando i genotipi di membri di generazioni successive di famiglie, malattie a trasmissione genetica vengono spesso utilizzate come marcatori genetici essendo spesso associate ad una specifica locazione cromosomica tipicamente una famiglia oggetto di analisi è composto da almeno tre generazioni Inoltre Maggiore è il numero di figli più affidabile sarà il risultato dell'analisi. ovviamente importante comprendere i limiti di una mappa genetica, per far ciò dobbiamo dire innanzitutto che la risoluzione di una mappa genetica indica il numero di Marker e il grado di precisione con cui è possibile determinare la posizione sul cromosoma, essa dipende dal numero di Crossing over che è