





























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Una panoramica completa sull'analisi bioinformatica di sequenze e strutture, con un focus sulle metodologie di allineamento, l'uso di banche dati e la filogenesi. Vengono discusse le tecniche per la ricerca di omologia, l'importanza della conservazione delle sequenze e le applicazioni dei modelli markoviani. Il documento include anche informazioni sulle modalità d'esame e le risorse utilizzate in bioinformatica, rendendolo utile per studenti e ricercatori nel campo. Approfondisce l'analisi bioinformatica di geni e proteine, l'uso di database di sequenze e le tecniche di allineamento multiplo. Esplora anche i modelli markoviani e la filogenesi, fornendo una solida base per lo studio della bioinformatica.
Tipologia: Appunti
1 / 37
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!






























La bioinformatica studia:
Bioinformatica
Posso anche non basarmi sull’omologia ma su altre evidenze. Queste di solito sono associazioni funzionali con altri geni e proteine. Tipi di evidenza per le associazioni:
Co-occorrenza o profili filogenetici Si va a guardare la presenza o l’assenza di un gene e si costruiscono questi profili filogenetici. Si osserva se un gene tende ad essere presente quando anche un secondo lo è, o viceversa, se l’assenza di uno è correlata all’assenza dell’altro. Non funziona bene per i geni universali (presenti praticamente in ogni organismo). Ad esempio, nella degradazione delle purine, l’essere umano degrada direttamente dall’urea, il resto dei mammiferi arriva prima all’allantoina, mentre piante, funghi ed alcuni microrganismi usano le purine come riserva di ammoniaca. All’homo sapiens manca tutto il pathway metabolico che parte dall’urato ossidasi. DALLA FUNZIONE ALLA SEQUENZA So che esiste una certa funzione in alcuni organismi e voglio trovarne il gene. Per aiutarsi si usano i pathway holes, dove manca il gene codificante per un enzima facente parte del pathway. È il metodo più semplice, rispetto a sequenza-funzione. NETWORK Simili agli alberi, ma i secondi presentano una gerarchia tra i nodi in un rapporto antenato- discendente. Le reti sono utilizzate per relazioni contemporanee. Come gli alberi sono composti da bracci e nodi; i bracci, che collegano i nodi fra loro, possono essere orientati o meno. I network possono essere regolari o randomici , con connessioni casuali. Le applicazioni dei network sono nelle interazioni geniche, nell’analisi della co-espressione, della funzione di geni e proteine, o dei pathway metabolici (es: KEGG) dove i nodi rappresentano i metaboliti e i bracci rappresentano le reazioni con l’enzima catalizzante. È utile introdurre sue parametri:
Verrebbe naturale pensare che la fissazione delle mutazioni sia dovuta all’evoluzione e alla selezione naturale, quindi che abbia un senso adattativo. In realtà la teoria più quotata è quella delle mutazioni neutrali (teoria neutrale dell’evoluzione), formulata per la prima volta da Motoo Kimura. Egli sosteneva che il numero di mutazioni osservate era troppo massiccio per poter essere ricondotto alla selezione naturale, la deriva genetica è quindi la favorita. La sua teoria è riassumibile in 3 punti:
Effetto hitchiking: la tendenza di trovare più mutazioni fissate insieme, per effetto della ricombinazione (che raramente intacca punti vicini dello stesso gene). Effetto del linkage (assenza di ricombinazione) sul destino di alleli alternativi. A) i tre loci sotto selezione sono completamente legati. Si assume che il vantaggio complessivo dell'allele azzurro (vantaggioso) e dell'allele nero (svantaggioso) sia maggiore dell'allele verde (deb. vantaggioso). Le mutazioni vantaggiose, svantaggiose e neutrali sono fissate insieme (effetto hitchhiking). La mutazione vantaggiosa in verde è eliminata. B) i tre loci sono indipendenti. Entrambe le mutazioni vantaggiose sono fissate, la mutazione svantaggiosa è eliminata. Quando le dimensioni del genoma aumentano tendono ad aumentare anche le regioni non- codificanti. Perché tutto questo DNA “inutilizzabile”? Paradosso del valore C: per ragioni storiche il contenuto di DNA nel genoma di un organismo è riferito come C-value, ovvero come constant-value, dall'osservazione che il peso in pg del DNA è costante negli individui di una stessa specie. Il paradosso deriva da due osservazioni:
Il fatto che le catene alfa e beta siano separate ci fa capire che è avvenuta duplicazione; tutti i confronti alfa-beta sono confronti tra paraloghi. In-paralogs e out-paralogs: nei primi la duplicazione avviene in seguito alla speciazione, nei secondi la duplicazione precede la speciazione. In generale, l’omologia non garantisce che la funzionalità sia mantenuta. Nell’ortologia è più probabile che lo sia, rispetto alla paralogia, ma non è mai detto. Comunque, in entrambi i casi, la struttura dei prodotti proteici di due geni omologhi rimane sempre simile. Metodi per la distinzione di tipi diversi omologia:
Nel 1965, con Pauling, sorse la teoria delle mutazioni come orologio molecolare, ossia la possibilità di un loro utilizzo per misurare i tempi evolutivi. L’ipotesi è di una relazione lineare tra tempo evolutivo e numero di mutazioni accumulate; si tratterebbe di un orologio stocastico, somigliante al decadimento radioattivo, cioè non si può calcolare esattamente il momento in cui la mutazione accadrà ma posso ipotizzare che se ne verifichi una ogni X anni. L'orologio necessita di una calibrazione attraverso un riferimento indipendente (es. Reperti fossili). Una volta conosciuta la velocità dell'orologio, la divergenza tra sequenze può essere usata per stimare il tempo di separazione, considerando anche quelle non visibili. La distanza si misura in PAM (numero di mutazioni puntiformi ogni 100 siti), normalizzando anche il numero di siti per ogni organismo. Prendiamo in esempio le distanze evolutive delle emoglobine di mammifero, dove T è il tempo ed R (Rate) è la velocità espressa in PAM su My (million years). R = PAM / 2T T = PAM / 2R Si moltiplica per due poiché si considerano due linee separate, ciascuna con il suo tempo T. R (α) = 20 PAM / 280 My = 0. R (β) = 20 PAM / 280 My = 0. T (α,β) = 110 / (2* 0.12) = 458 My Il problema è che ho assunto che il rate osservato nei mammiferi degli ultimi 80 My sia sempre stato lo stesso, anche nei primi organismi. Innanzitutto, ogni proteina ha un suo rate di evoluzione, quindi non posso usarli intercambiabilmente. L’orologio va ri-calibrato per ogni proteina in esame. Ad esempio, gli istoni sono estremamente conservati (rate = 0%), l’emoglobina presenta un rate del 18%, mentre i fibrinopeptidi sono estremamente veloci nell’accumulare mutazioni con un rate pari all’86%. Questa velocità mi va ad indicare anche le regioni che sopportano meno le mutazioni, in cui la perdita o modifica della funzione risulti estremamente pericolosa. Più una proteina ha porzioni neutrali e più evolverà velocemente.
appaiamento ottimale che conservi l’ordine delle lettere ammettendo l’introduzione di elementi vuoti in modo da produrre un punteggio totale più alto. Per quanto riguarda il confronto di sequenze nucleotidiche questo tipo di assegnazione di punti è corretto ma nelle sequenze amminoacidiche l’identità deve essere accompagnata dalla somiglianza e il mantenimento della funzione degli aminoacidi coinvolti. Il primo criterio oggettivo usato per definire la somiglianza tra aminoacidi dipendeva dalle loro caratteristiche chimico-fisiche, anche se non è semplice stabilire aprioristicamente quali siano più importanti per ogni proteina. Il criterio empirico migliore per farlo è stato ideato da Margaret Dayhoff, grazie alle matrici empiriche di somiglianza. Calcolò tutte le sostituzioni osservate tra set di proteine molto simili (identità>85%), poi costruì una matrice di sostituzione A(i,j) con le probabilità che un aminoacido Aj muti in un aminoacido Ai in una unità evolutiva (1 PAM), per poi derivare le matrici di sostituzione per diverse intervalli evolutivi tramite moltiplicazione della matrice unitaria. Così nacquero le matrici PAM, le quali illustrano le probabilità che un aminoacido di una colonna j sia sostituito da un aminoacido di una riga i in un intervallo evolutivo di una singola mutazione su 100 residui. Le matrici utilizzate attualmente sono le log-odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall’evoluzione e le probabilità di sostituzione date dal caso (logaritmo della frequenza osservata di sostituzione i↔j / frequenza attesa Fi x Fj). Un valore positivo indica una somiglianza, lo zero indica una neutralità, mentre un valore negativo indica una dissomiglianza. Quindi, alcuni valori saranno effettivamente in accordo con le proprietà chimico-fisiche ma avremo un dato molto più puntuale. In generale, le matrici derivano da sostituzioni che si osservano in sequenze omologhe. Poi esistono anche le matrici BLOSUM (BLOck SUbstitution Matrix) che hanno preso in considerazione anche proteine molto distanti, senza usare GAP. Le due matrici non sono tanto diverse a livello di risultati, cambiano solo i numeri che le accompagnano (es PAM250, BLOSUM62). Vanno utilizzate quindi in base alla distanza delle sequenze da analizzare. Blast usa BLOSUM62 perché è media. Ad esempio una PAM10 (10 sostituzioni su 100 siti) equivale ad una BLOSUM dal numero piuttosto alto, a significare che le sequenze sono molto simili. Per intervalli medio-distanti vengono solitamente utilizzate PAM120 e BLOSUM62 oppure, se ancora più distanti, PAM250 e BLOSUM45. L’ideale è sempre usare la matrice più adatta al confronto che si deve andare a fare. Prendendo come esempio
Per stabilire quale sia la situazione con il miglior punteggio ho bisogno di impostare un algoritmo. In questi casi lo schema da seguire prevede l’inserimento dei dati iniziali, le due sequenze, e l’utilizzo di una funzione matematica che mi permetta di ottenere l’allineamento: sarà lo score. La ricerca combinatoria dell'allineamento ottimale non è un algoritmo efficiente; infatti, i programmi di allineamento non esplorano tutte le combinazioni possibili per trovare la sovrapposizione ottimale, i tempi di calcolo sarebbero infiniti anche per sequenze di modesta lunghezza. La soluzione più efficiente sembra essere quella della “programmazione dinamica” (il calcolo di combinazioni possibili passa da 2nxm^ a nxm), la quale si divide a sua volta in:
Altro parametro è la significatività: questo presuppone che la somiglianza sia dovuta esclusivamente a due fattori, l’omologia o il caso. Essendo l’omologia non determinabile livello probabilistico, bisogna attuare il processo inverso, ossia determinare la probabilità che quella somiglianza sia casuale: se la probabilità è molto bassa (<10-^5 ) allora accetto l’ipotesi di omologia. Per calcolarla vengono simulati allineamenti con sequenze casuali registrandone il punteggio, il cui score finale viene confrontato con quello di interesse (tra le due o più sequenze che voglio studiare): se quello reale non si ottiene facilmente mediante le associazioni randomiche allora l’allineamento è significativo. Per definirne la statistica e determinare la probabilità casuale si usa la curva dei valori estremi che è asimmetrica verso i valori più alti. La significatività (E) si calcola con la seguente formula (importantissima): E è il numero di segmenti attesi con un punteggio maggiore di un dato score S, n e m sono le lunghezze delle due sequenze e K e λ sono parametri stimati con fitting da allineamenti di sequenze casuali per una determinata matrice di somiglianza e penalità di gap. Questa statistica è pienamente valida solo per gli allineamenti locali. Al crescere di S la probabilità casuale di ottenere un determinato allineamento diminuisce; per S pari a zero il valore di E sarebbe: Allineamenti più lunghi producono somiglianze più significative; allineamenti lunghi risultano significativi anche in presenza di identità basse. Tuttavia al di sotto del 20% di identità diventa difficile la distinzione tra somiglianze casuali e somiglianze per omologia. RMSD è una misura in Angstrom della distanza media tra gli atomi di una catena principale di due strutture; in generale va ad indicare la somiglianza strutturale tra due proteine. Abbinando questo tipo di somiglianza a quella genetica posso coprire anche la zona di mezzanotte per descrivere un eventuale omologia di omologhi evolutivamente distanti. È molto probabile, quando due proteine hanno forti somiglianze strutturali ma poche a livello di sequenza genica, che abbiano funzioni nettamente diverse (divergenza funzionale). Esiste anche il caso di proteine che hanno la stessa
Le RefSeq sono sequenze di riferimento, definite da annotatori, per una data porzione genomica, di mRNA o proteica (NC interi genomi, NM sono mRNA, NP proteine). Nei profili di espressione con RNAseq, in particolari organismi molto studiati come l’uomo, posso anche osservare l’espressione nei diversi distretti corporei. Subentra l’unità di misura RPKM, Reads Per Kilobase of transcript, per Million mapped reads. RICERCA DI OMOLOGIA IN BANCA DATI Ricerca di omologia di sequenza: data una sequenza (query), una banca dati, un sistema di confronto e una soglia statistica, trovare le sequenze della banca dati più somiglianti alla data query ordinate per significatività. I software per la ricerca di omologia in banca dati possono sfruttare algoritmi ottimali (ha un tempo di esecuzione proporzionale a N x M, lunghezza della sequenza per dimensione della banca dati) e algoritmi euristici (usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale). Le varie sequenze vengono indicizzate e si può, grazie ad essi, tentare la ricerca di omologia tramite il confronto tra gli indici (metodo euristico); si vanno a calcolare gli offset, ossia le differenze tra gli indici e si compila un vettore di questi offset che ci mostra segmenti simili. Segmenti simili corrispondono a diagonali con il medesimo offset (la sequenza in ascissa è quella di database, quella in ordinata è la query (quella inserita). In FASTA la lunghezza delle sequenze è indicata dal valore k-tuple=lunghezza delle parole nell’indice.