




























































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti presi a lezione e integrati con slide della prof. Citterich su tutto il programma. Ci sono immagini e spiegazioni di tutto
Tipologia: Appunti
1 / 113
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!





























































































Info sul corso Libro: Fondamenti di bioinformatica (Zanichelli) Esercitazioni: lunedì lab. obbligatorio —> sistema operativo Linux Esame: parte pratica (con tablet) e teorica orale
Il BIOLOGO esegue esperimenti per produrre dei dati (sequenze, strutture, genomi, interazioni) che devono essere analizzati per sviluppare nuove teorie. Il BIOINFORMATICO gestisce ed interpreta i dati biologici attraverso lo sviluppo di programmi che servono a rianalizzare i dati e generare nuovi dati. La maggior parte degli esperimenti che la biologia moderna porta avanti sono di tipo high-throughput (ad alto flusso), ovvero producono molti dati, ma per comprenderli è indispensabile un’ analisi statistica e l’uso di strumenti informatici. Il biologo moderno quindi si avvale della collaborazione con il bioinformatico, anche se ce ne sono pochi. Con l’avvento della bioinformatica il lavoro del biologo non si divide più tra laboratorio e biblioteca (per consultare la letteratura), ma tra laboratorio e computer. Il computer è uno strumento indispensabile per il lavoro di un biologo moderno ed è diventata una nuova disciplina che coniuga lo studio del vivente con l’informatica. Gli strumenti sviluppati dai bioinformatici per analizzare i dati di interesse biologico sono:
che serve ad organizzare i dati e renderli accessibili. Esiste un’importante parte della biologia sperimentale che può svilupparsi e dare risposte solo mediante l’uso strumentale dell’informatica, la cosidetta “omica” in cui rientrano la: genomica , genomica comparata , genomica strutturale , proteomica , interattomica e la biologia dei sistemi. Il bioinformatico si occupa dell’analisi delle sequenze (geni, trascritti, proteine, regioni regolative) che vengono inserite nelle banche dati. La prima sequenza depositata è stata nel 1977. La bioinformatica segue l’ annotazione funzionale , ovvero associare la sequenza di un gene con determinate informazioni, tra cui l’identificazione di motivi funzionali e di domini , analisi filogenetiche per ricostruire la storia evolutiva dei geni e degli organismi. Con la bioinformatica strutturale riusciamo a ricostruire la struttura tridimensionale di proteine e classificarle in base alla loro funzione. Quindi a partire da una sequenza è possibile predire la struttura 3D di una proteina. Tecniche utilizzate per queste simulazioni al computer sono drug design , protein design e docking.
La GENOMICA riguarda l’ analisi dei genomi (sequenze di geni) degli organismi , contenuti all’interno di diverse banche dati. I genomi noti attualmente sono 5 centinaia e sono distribuiti tra archeobatteri, virus umani e metagenomica La METAGENOMICA invece è lo studio di tutti i genomi degli organismi appartenenti a un unico sistema (microbiota dell’intestino umano o di terreno) per capirne il funzionamento. Alcune date importanti da ricordare:
La maggior parte delle banche dati di interesse biologico è disponibile in formato flat-file , ovvero in un formato di semplice testo. A differenza dei file generati in formato word, in questo formato non ci sono caratteri speciali per ciò consente un’immediata e facile lettura dei dati anche attraverso l’uso di programmi per calcolatore e altri algoritmi. Esistono delle relazioni dette cross-reference tra banche dati diverse che trattano informazioni riguardanti gli stessi oggetti o oggetti correlati. I riferimenti crociati permettono di passare dall’entry di un gene a quello di una proteina e viceversa. Nelle banche dati ci sono dei link che permettono di passare ad altre banche dati, contenenti informazioni diverse relative allo stesso argomento che sto analizzando. Rendono possibili i passaggi di informazione tra banche dati diverse e favoriscono la loro integrazione. La maggior parte delle banche dati di interesse biologico è accessible in rete mediante un qualsiasi browser. All’interno di una banca dati poso fare una ricerca generica (tutte le proteine) oppure avanzata , aggiungendo informazioni in più nella mia ricerca (tutte le proteine di topo). Nel caso di una banca dati di sequenze nucleotidiche o proteiche è importante eseguire ricerche con parole-chiave che aiutino ad indentificare tutte le sequenze che ci interessano o solo quella che possiede tutte le caratteristiche che siamo pronti a specificare. Bisogna quindi conoscere gli operatori booleani (da George Boole) che consentono ricerche che soddisfano più criteri:
Gli operatori logici si possono anche utilizzare per effettuare relazioni di tipo complesso, ad esempio unendo più insiemi. Se si vuole che certe operazioni ne precedano altre, si devono usare le parentesi. Inoltre le ricerche delle banche dati biomediche devono essere fatte solo in inglese. Se inserisco due o più parole-chiave nella mia ricerca avanzata, automaticamente il sistema riconosce come operatore logico AND.
Effettuando una ricerca in modo generico però, si selezionano anche entries in cui è presente una parola legata ad altri campi e non quella che interessa a noi. Per evitare questo tipo di problemi si effettuano advanced research di determinate parole-chiave che debbano trovarsi in specifici campi dove i campi corrispondono alle varie parti dell’entry identificate nell’header.
Le banche dati di acidi nucleici (DNA e RNA) sono spesso definite primarie e che al mondo ce ne sono solo tre:
Gli articoli scientifici hanno lo scopo di divulgare la conoscenza acquisita da un gruppo di ricerca su un determinato argomento e utilizzare quelle conoscenze come punto di partenza per altri gruppi di ricerca. Un articolo scientifico contiene per primo l’abstract, dopo troviamo l’ introduzione in cui vengono inserite le referenze , ovvero citazioni a lavori correlati, che vengono individuate con parentesi e numeri. Alla fine di ogni articolo troviamo la bibliografia delle referenze con le citazioni numerate. Quando un gruppo di ricerca pubblica un articolo scientifico su un determinato argomento, ma questo argomento è già stato trattato in un precedente lavoro da altri ricercatori, una parte di questo lavoro può essere citato nel nuovo articolo. Lo scopo delle citazioni è quello di informare il lettore dell’articolo che una parte delle informazioni scritte sono state prese da altri lavori. In genere una citazione contiene varie informazioni tra cui il titolo dell’articolo citato, il nome della rivista scientifica, gli autori che hanno contribuito alla scrittura ecc. Se un articolo riporta dati utili alla comunità scientifica, verrà citato nei lavori successivi da altri scienziati. Le citazioni vengono usate come ottimo criterio di valutazione per stabilire la qualità di un articolo scientifico. Le ricerche scientifiche non sono tutte uguali, ce ne sono di più e meno citate. Un buon articolo scientifico in genere finisce per essere citato in moltissimi altri lavori e il suo numero di citazioni tende ad aumentare nel tempo. Non a caso, gli articoli scientifici di grande impatto vengono sempre pubblicati in riviste scientifiche popolari e note a livello mondiale. Gli articoli presenti in queste riviste sono quelli più citati. Esiste un parametro l’ impact factor (IF), che serve per valutate le riviste. E’ un valore che descrive in media la frequenza con cui gli articoli di una rivista scientifica vengono citati in un anno. L’IF essendo un valore ottenuto da una media matematica ci da delle ottime indicazioni sull’ andamento complessivo di una rivista , ma non sull’andamento dei singoli articoli pubblicati in essa: maggiore è il valore di impact factor di una rivista scientifica, maggiore sarà la qualità complessiva dei suoi articoli. Ogni anno esce l’elenco dell’IF di una rivista relativo a due anni prima. Le riviste a più alto impact factor in campo biomedico sono Cell, Nature e Science.
Anche le review , ovvero i lavori di rassegna sono molto citate negli articoli scientific. In Pubmed esiste un filtro che possiamo utilizzare per identificare il numero di review pubblicate da un determinato autore. Dobbiamo effettuare sempre una ricerca per campi e inserire nel campo (Author) la parola- chiave che stiamo cercando. Otteniamo il totale dei lavori pubblicati da quell’autore, ma se clicchiamo sul filtro Review otteniamo quali di questi articoli sono review. Per ottenere dati sulle citazioni di un articolo è necessario avere accesso al Citation index di Scopus il cui uso non è aperto a tutti. Scopus è una banca dati (non pubblica) che consente di vedere le citazioni di tutti i lavori. Un ottimo sostituto di Scopus è Scholar Google un sito web gratuito utilizzato per
ottenere utili informazioni sui lavori scientifici pubblicati da un determinato autore. Questi articoli oltre al titolo presentano una serie di informazioni aggiuntive tra cui il numero di citazioni. Google Scholar è in grado di darci delle informazioni su quanto volte è stato citato l’articolo su ricerche effettuate in rete. Inoltre in Google Scholar ogni autore può definire un suo profilo personale , una schermata in cui sono riportati tutti i lavori pubblicati con il numero di citazioni e l’anno di pubblicazione e l’H-index L’ H-index è uno dei parametri più utilizzati per la valutazione di un autore di lavori scientifici. Prendo tutti i lavori di un autore, li ordino in maniera decrescente partendo da quello più citato e comincio a contare il suo numero di lavori procedendo dall’alto e verso il basso. La conta prosegue fino a quando il numero dei lavori diventa maggiore o uguale al numero delle citazioni, dopodiché mi fermo. Il valore di N che si ottiene corrisponde all’H-index di quell’autore. Man mano che le citazioni aumentano l’H-index cresce, ma più lentamente nel tempo.
Conoscere la struttura di un calcolatore è utile per:
In bioinformatica il sistema operativo più utilizzato è Linux. Fu scritto danno studente 21enne in Compiter Science, Linus Torvalds e poi migliorato da una grande quantità di persone in tutto il mondo. E’ un sistema operativo particolarmente stabile rispetto ad altri, meno soggetto a problemi quali la pirateria informatica e i virus, è anche gratuito. Siccome è open source rinuncia ai diritti di copyright, quindi tutti possono aggiungere modifiche per implementare questo sistema operativo senza costi. Esistono diverse versioni di Linux, dette distribuzioni , tra cui “red hat”, “mandrake”, “suse”, “debian” ecc. Questa procedura da a chiunque l’ opportunità di modificare e ridistribuire ogni software open source. Sourceforge.net è il maggior sito mondiale dedicato allo sviluppo e alla distribuzione di software open source. Offre la più ricca raccolta di codice open source e di programmi al mondo e offre servizi gratuiti agli sviluppatori.
ALLINEMANTI TRA SEQUENZE In Bioinformatica, gli allineamenti tra sequenze nucleotidiche e proteiche trovano diverse applicazioni nelle banche dati, ci permettono di:
Confrontando due sequenze è sempre possibile stabilire quanto queste siano simili tra loro, ma non possiamo stabilire la causa della loro similarità.
ALLINEAMENTI E SIMILARITÀ Effettuare un allineamento tra coppie di sequenze significa prendere due sequenze, posizionarle l’una sopra l’altra come stringhe (o vettori) di caratteri a singola lettera e valutare la loro similarità con un punteggio.
caratteri. Un programma per calcolatore ha un tempo di esecuzione che in generale dipende dal numero di operazioni necessarie per eseguirlo. Un programma che calcoli la similarità di sequenze tra due sequenze date deve effettuare un numero di confronti che dipende dal rapporto della lunghezza delle due sequenze : O (nm) oppure O (n^2) (si legge l’ordine di n x m oppure ordine di nquadro). Quando si deve effettuare una ricerca per similarità di sequenze in una banca dati, l’operazione di confronto tra due sequenze deve inoltre essere ripetuta per ogni copia di sequenza:
D’altra parte però, ad ogni gap aggiunto all’allineamento è sempre associato un punteggio negativo di gap penalty (o punteggio di penalizzazione), per evitare che vengono aggiunti troppi gap. Se il gap che viene aggiunto è l’estensione di un gap già aperto, si parla di gap extension penalty. Questi due punteggi sono entrambi negativi (-), ma il punteggio di penalizzazione per l’apertura di un gap è sempre più alto dl punteggio di penalizzazione perl’estensione di un gap: gap creation penalty > gap extension penalty L’apertura di un gap in una struttura proteica comporta uno stress che in realtà dipende soprattutto dalla regione strutturale in cui avviene l’inserimento o la delezione. Inserzioni e delezioni sono fortemente penalizzate all’interno delle α-eliche e filamenti β, in quanto costringono alla modifica delle interazioni con le strutture secondarie circostanti. Inserzioni e delezioni in generale avvengono all’interno dei loop esposti alla superficie della proteina. Ogni volta che vengono aggiunti gap ad un allineamento, al suo nuovo punteggio devono essere anche sommati i singoli punteggi di gap penalty, che avendo un segno negativo vengono sottratti a questo valore. Quindi assegno un punteggio di
penalizzazione =1 a ciascun gap di apertura e un punteggio di penalizzazione =0.1 a ciascuna estensione di gap.
Algoritmi di allineamento basati sullo scorrimento di una sequenza sull’altra, sono estremamente lenti e inefficaci se prendiamo in considerazione anche tutti i possibili gap che possono essere aggiunti in ogni possibile posizione delle due sequenze. Nasce quindi la necessità di trovare soluzioni alternative, ovvero nuovi algoritmi per l’allineamento di sequenze, in grado di generare nella maniere più immediata possibile il miglior allineamento tra due sequenze (tenendo conto anche dei possibili gap)
MATRICI DI PUNTI (o dot matrix) La generica matrice è una tabella con due indici, m righe e n colonne , che identificano gli elementi della matrice. Una dot matrix è appunto una matrice su cui vanno inseriti gli amminoacidi delle due sequenze che vogliamo allineare. La prima cosa da fare è inserire la sequenza1 nella prima riga in alto da sx a dx, mentre la sequenza2 nella prima colonna a sx, scritta dall’alto verso il basso. Successivamente in ogni punto in cui la sequenza nella riga e nella colonna coincido, metto un punto (asterisco). Le regioni delle sequenze che possono essere allineate senza introdurre gap emergono come una serie contigua di punti sulla diagonale. Ogni volta che identifichiamo una diagonale di punti , identifichiamo le regioni che si allineano. I salti di diagonale (quando le due diagonali sono separate) identificano le regioni dell’allineamento in sui sono inseriti i gap. In questo esempio i primi due caratteri e gli ultimi tre della prima sequenza si allineano con i corrispettivi della seconda sequenza. Inoltre abbiamo inserito un gap nella seconda sequenza: AAKQW AA-KQW In un altro esempio la sequenza1 è margaretoakleydayhoff inserita nella prima riga, mentre la sequenza2 è margaretdayhoff si trova nella prima colonna. I gap da inserire sono in totale 6 e tutti localizzati nella seconda sequenza.
Un approccio di questo tipo, ci permette di passare da un grafico con molto rumore di fondo, ad un grafico più pulito in cui vengono evidenziate con maggiore chiarezza le diagonale nel nostro allineamento.
In questo esempio, l’allineamento risulta ancora più evidente utilizzando una finestra di 15 residui.Vediamo che la sequenza in cui mancano residui è quella sulle colonne e vediamo anche due diagonali simili, questo vuol dire che c’è una duplicazione della sequenza in una delle due (diagonali parallele, sequenze ripetute). Metodi per calcolare la similarità I punteggi di similarità ci dicono se in una determinata posizione dell’allineamento si trovano due residui simili, non necessariamente identici. E’ corretto valutare un allineamento con un punteggio correlato solo al numero i residui identici appaiati? NO Poiché gli amminoacidi vengono classificati in diversi gruppi sulla base delle loro similarità chimico-fisiche , non sarebbe corretto assegnare un punteggio =0 a copie di amminoacidi diversi, ma che appartengono allo stesso gruppo. Un minimo di similarità dal punto di vista chimico-fisico la possiedono. Nasce quindi il bisogno di generare nuovi criteri di similarità per valutare gli allineamenti di due sequenze proteiche. Primo criterio di valutazione Consiste nel raggruppare gli amminoacidi in classi sulla base delle loro similarità chimico-fisiche e assegnare:
Secondo criterio di valutazione Consiste nell’utilizzare delle matrici di sostituzione per assegnare i punteggi alle coppie di amminoacidi. E’ il criterio maggiormente in uso.
Una matrice di sostituzione è un tabella nella quale vengono riportati i punteggi di sostituzione relativi a ciascuna coppia di amminoacidi. Ci sono 20 residui nelle proteine biologiche, per cui una matrice di sostituzione è quadrata di 20x20 (=400 valori). 210 sono i valori indipendenti all’interno di una matrice di sostituzione. A ciascuna coppia di residui amminoacidici è associato un punteggio. Questo punteggio può essere:
Questo punteggio tiene conto della possibilità di avvenire di determinate sostituzioni. Riassumendo, abbiamo definito un0 schema di punteggi per la valutazione della similarità tra due sequenze:
METODI ESAUSTIVI PER L’ALLINEAMENTO Metodi che esplorano tutto il campo dei possibili risultati richiedono però molto tempo, anche se ci danno risultati certi. Occorre trovare un algoritmo che generi il miglior allineamento possibile tra due sequenze, tenendo conto anche delle possibili inserzioni e delezioni. Parliamo degli algoritmi di allineamento dinamici , algoritmi di allineamento esaustivi che utilizzano delle tecniche matematiche di programmazione dinamica per generare il miglior allineamento possibile tra due sequenze biologico, considerando anche tutti i possibili gap. Tuttavia, spesso l’output mostra più allineamenti diversi col massimo punteggio e ci impiega troppo
tempo perché deve esplorare tutti i possibili risultati. La programmazione dinamica sfrutta un approccio di tipo dot-plot , cioè prevede l’utilizzo di particolari matrici, chiamate matrici di programmazione dinamica. Diversamente dalle Dot Matrix, nelle matrici di programmazione dinamica non vengono inseriti punti o asterischi ogni volta che abbiamo delle corrispondenze tra coppie di residui, ma le caselle di queste matrici vengono riempite con dei punteggi , ricavati sempre da una matrice di sostituzione.
ALGORITMI DINAMICI DI ALLINEAMENTI Per effettuare un allineamento devo prima di tutto definire una matrice di sostituzione (solitamente la PAM) per valutare gli appaiamenti tra residui e definire dei punteggi di penalizzazione per i gap che vengono inseriti nell’allineamento. Algoritmi di allineamento che utilizzano una tecnica di programmazione dinamica sono:
Cominciamo a calcolare il punteggio di questo allineamento usando lo schema di programmazione dinamica. Tutti gli allineamenti che facevo spostandomi di un residuo per volta, ora li ho tutti in un’unica matrice e sono identificati da una diagonale (tutte parallele tra loro): calcolando le somme lungo le diagonali, effettuiamo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra. Il punteggio di ogni allineamento sarà la somma dei numeri su una diagonale, in questo modo posso capire quello migliore.