Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti di Bioinformatica, Appunti di Bioinformatica

Appunti presi a lezione e integrati con slide della prof. Citterich su tutto il programma. Ci sono immagini e spiegazioni di tutto

Tipologia: Appunti

2025/2026

In vendita dal 03/01/2026

begiulia.23
begiulia.23 🇮🇹

4.2

(30)

67 documenti

1 / 113

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Lezione 2/10
Info sul corso
Libro: Fondamenti di bioinformatica (Zanichelli)
Esercitazioni: lunedì lab. obbligatorio —> sistema operativo Linux
Esame: parte pratica (con tablet) e teorica orale
Introduzione
Il BIOLOGO esegue esperimenti per produrre dei dati (sequenze, strutture,
genomi, interazioni) che devono essere analizzati per sviluppare nuove teorie. Il
BIOINFORMATICO gestisce ed interpreta i dati biologici attraverso lo sviluppo di
programmi che servono a rianalizzare i dati e generare nuovi dati.
La maggior parte degli esperimenti che la biologia moderna porta avanti sono di tipo
high-throughput (ad alto flusso), ovvero producono molti dati, ma per
comprenderli è indispensabile un’analisi statistica e l’uso di strumenti
informatici. Il biologo moderno quindi si avvale della collaborazione con il
bioinformatico, anche se ce ne sono pochi.
Con l’avvento della bioinformatica il lavoro del biologo non si divide più tra
laboratorio e biblioteca (per consultare la letteratura), ma tra laboratorio e
computer. Il computer è uno strumento indispensabile per il lavoro di un biologo
moderno ed è diventata una nuova disciplina che coniuga lo studio del vivente con
l’informatica.
Gli strumenti sviluppati dai bioinformatici per analizzare i dati di interesse biologico
sono:
- Banche dati: depositi di dati biologici
- Programmi: algoritmi per l’analisi delle sequenze e strutture di acidi nucleici e
proteine
- Screening o Simulazioni di processi biologici per fare predizioni:
dall’interazione tra coppie di proteine ai pathways metabolici (systems biology).
Utilizzare metodi computazionali può servire a ridurre gli esperimenti da fare in
laboratorio.
BANCHE DATI
Le banche dati possono contenere dati di interesse biologico di diverso tipo:
- Dati di espressione
- Sequenze nucleotidiche
- Sequenze proteiche
- Motivi funzionali
- Letteratura scientifica
- Farmaci
- Strutture 3D
Le banche dati ci consentono di inserire molti dati in poco spazio, consultabili con
facilità. Inoltre è possibile utilizzare altri strumenti informatici per l’analisi dei dati
stessi. Le banche dati sono collezioni strutturate di dati organizzate in tabelle
informatiche e gestite da un sistema detto DBMS (Data Base Management System)
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Anteprima parziale del testo

Scarica Appunti di Bioinformatica e più Appunti in PDF di Bioinformatica solo su Docsity!

Lezione 2/

Info sul corso Libro: Fondamenti di bioinformatica (Zanichelli) Esercitazioni: lunedì lab. obbligatorio —> sistema operativo Linux Esame: parte pratica (con tablet) e teorica orale

Introduzione

Il BIOLOGO esegue esperimenti per produrre dei dati (sequenze, strutture, genomi, interazioni) che devono essere analizzati per sviluppare nuove teorie. Il BIOINFORMATICO gestisce ed interpreta i dati biologici attraverso lo sviluppo di programmi che servono a rianalizzare i dati e generare nuovi dati. La maggior parte degli esperimenti che la biologia moderna porta avanti sono di tipo high-throughput (ad alto flusso), ovvero producono molti dati, ma per comprenderli è indispensabile un’ analisi statistica e l’uso di strumenti informatici. Il biologo moderno quindi si avvale della collaborazione con il bioinformatico, anche se ce ne sono pochi. Con l’avvento della bioinformatica il lavoro del biologo non si divide più tra laboratorio e biblioteca (per consultare la letteratura), ma tra laboratorio e computer. Il computer è uno strumento indispensabile per il lavoro di un biologo moderno ed è diventata una nuova disciplina che coniuga lo studio del vivente con l’informatica. Gli strumenti sviluppati dai bioinformatici per analizzare i dati di interesse biologico sono:

  • Banche dati : depositi di dati biologici
  • Programmi : algoritmi per l’analisi delle sequenze e strutture di acidi nucleici e proteine
  • Screening o Simulazioni di processi biologici per fare predizioni: dall’interazione tra coppie di proteine ai pathways metabolici (systems biology). Utilizzare metodi computazionali può servire a ridurre gli esperimenti da fare in laboratorio. BANCHE DATI Le banche dati possono contenere dati di interesse biologico di diverso tipo:
  • Dati di espressione
  • Sequenze nucleotidiche
  • Sequenze proteiche
  • Motivi funzionali
  • Letteratura scientifica
  • Farmaci
  • Strutture 3D Le banche dati ci consentono di inserire molti dati in poco spazio , consultabili con facilità. Inoltre è possibile utilizzare altri strumenti informatici per l’analisi dei dati stessi. Le banche dati sono collezioni strutturate di dati organizzate in tabelle informatiche e gestite da un sistema detto DBMS (Data Base Management System)

che serve ad organizzare i dati e renderli accessibili. Esiste un’importante parte della biologia sperimentale che può svilupparsi e dare risposte solo mediante l’uso strumentale dell’informatica, la cosidetta “omica” in cui rientrano la: genomica , genomica comparata , genomica strutturale , proteomica , interattomica e la biologia dei sistemi. Il bioinformatico si occupa dell’analisi delle sequenze (geni, trascritti, proteine, regioni regolative) che vengono inserite nelle banche dati. La prima sequenza depositata è stata nel 1977. La bioinformatica segue l’ annotazione funzionale , ovvero associare la sequenza di un gene con determinate informazioni, tra cui l’identificazione di motivi funzionali e di domini , analisi filogenetiche per ricostruire la storia evolutiva dei geni e degli organismi. Con la bioinformatica strutturale riusciamo a ricostruire la struttura tridimensionale di proteine e classificarle in base alla loro funzione. Quindi a partire da una sequenza è possibile predire la struttura 3D di una proteina. Tecniche utilizzate per queste simulazioni al computer sono drug design , protein design e docking.

La GENOMICA riguarda l’ analisi dei genomi (sequenze di geni) degli organismi , contenuti all’interno di diverse banche dati. I genomi noti attualmente sono 5 centinaia e sono distribuiti tra archeobatteri, virus umani e metagenomica La METAGENOMICA invece è lo studio di tutti i genomi degli organismi appartenenti a un unico sistema (microbiota dell’intestino umano o di terreno) per capirne il funzionamento. Alcune date importanti da ricordare:

  • 30 luglio 2007 è stato pubblicato il primo genoma di un essere umano singolo
  • Nel 2014 sono stati pubblicati i genomi di 2600 individui appartenenti a 26 popolazioni diverse.
  • 31 marzo 2022 è tanto pubblicato la sequenza completa del genoma umano: i metodi di sequenziamento si sono evoluti
  • A partire dal 2012 è diminuito il costo per poter ottenere una sequenza di un genoma (genoma umano in un giorno1000$). Questa è la conseguenza del fatto che le tecnologie per il seguenziamento sono diventate più veloci ed efficaci. Gene Myers ha introdotto un approccio rivoluzionario per sequenziale il DNA senza usare gli enzimi di restrizione. Il metodo shotgun utilizza strumenti fisici come gli ultrasuoni per spezzare in maniera casuale il DNA in frammenti di diversa lunghezza. Questi poi vengono clonati o sequenziati direttamente e il computer li ricompone, sfruttando le regioni di sovrapposizione. I Browser genomici è una grossa banca dati in cui sono presenti i genomi degli organismi. Funzionano come un microscopio che ingrandisce i dati genomici, per avvicinarci sempre di più alla sequenza di interesse. La System Biology (biologia dei sistemi) è una disciplina che studia i processi biologici considerati sistemi composti da molte parti interagenti, come un’analisi su larga scala.

La maggior parte delle banche dati di interesse biologico è disponibile in formato flat-file , ovvero in un formato di semplice testo. A differenza dei file generati in formato word, in questo formato non ci sono caratteri speciali per ciò consente un’immediata e facile lettura dei dati anche attraverso l’uso di programmi per calcolatore e altri algoritmi. Esistono delle relazioni dette cross-reference tra banche dati diverse che trattano informazioni riguardanti gli stessi oggetti o oggetti correlati. I riferimenti crociati permettono di passare dall’entry di un gene a quello di una proteina e viceversa. Nelle banche dati ci sono dei link che permettono di passare ad altre banche dati, contenenti informazioni diverse relative allo stesso argomento che sto analizzando. Rendono possibili i passaggi di informazione tra banche dati diverse e favoriscono la loro integrazione. La maggior parte delle banche dati di interesse biologico è accessible in rete mediante un qualsiasi browser. All’interno di una banca dati poso fare una ricerca generica (tutte le proteine) oppure avanzata , aggiungendo informazioni in più nella mia ricerca (tutte le proteine di topo). Nel caso di una banca dati di sequenze nucleotidiche o proteiche è importante eseguire ricerche con parole-chiave che aiutino ad indentificare tutte le sequenze che ci interessano o solo quella che possiede tutte le caratteristiche che siamo pronti a specificare. Bisogna quindi conoscere gli operatori booleani (da George Boole) che consentono ricerche che soddisfano più criteri:

  • OR : somma
  • AND : intersezione tra insiemi
  • NOT : esclusione

Gli operatori logici si possono anche utilizzare per effettuare relazioni di tipo complesso, ad esempio unendo più insiemi. Se si vuole che certe operazioni ne precedano altre, si devono usare le parentesi. Inoltre le ricerche delle banche dati biomediche devono essere fatte solo in inglese. Se inserisco due o più parole-chiave nella mia ricerca avanzata, automaticamente il sistema riconosce come operatore logico AND.

Effettuando una ricerca in modo generico però, si selezionano anche entries in cui è presente una parola legata ad altri campi e non quella che interessa a noi. Per evitare questo tipo di problemi si effettuano advanced research di determinate parole-chiave che debbano trovarsi in specifici campi dove i campi corrispondono alle varie parti dell’entry identificate nell’header.

Le banche dati di acidi nucleici (DNA e RNA) sono spesso definite primarie e che al mondo ce ne sono solo tre:

  • EMBL datalibrary : europea
  • GenBank : americana
  • DDBJ : giapponese Le tre banche si scambiano i dati che raccolgono dai laboratori e offrono servizi simili: tutte le banche devono mettere in comune i risultati dei loro dati, spesso diverse banche hanno gli stessi risultati. L’ ENA (European Nucleotide Archive) è un grande database europeo di sequenze genetiche gestito dall’EMBL-EBI. Raccoglie, organizza e distribuisce informazioni su dati di sequenze nucleotidiche provenienti da laboratori di ricerca di tutto il mondo. Permette come tutte le altre banche dati di fare una ricerca coon parole- chiave e una avanzata per campi. ELIXIR è una infrastruttura europea di ricerca che si occupa della manutenzione dei dati e dei strumenti bioinformatici di ENA. Il NLM (National Library of Medicine) è un insieme di banche dati gestite dal National Institute of Health ( NIH ) e con accesso di tipo generico. I risultati della nostra ricerca sono divisi per tipo di banca dat (letteratura, geni, proteine, genomi). Le banche dati di proteine contengono sia dati ottenuti direttamente dalla sequenza di proteine che dalla traduzione di sequenze geniche di cui sia stata individuata o predetta la funzione. La più importante è la UniProt composta da:
  • Swiss-Prot : seguenze proteiche annotate manualmente
  • TrEMBL : predizioni computazionali di sequenze proteiche non ancora annotate manualmente Oggi la UniProt contiene circa 253.600.000 proteine, tra cui tutte quelle degli organismi modello. Le informazioni più importanti di una sequenza sono pubblicate prima nella letteratura e poi riportate manualmente nell’intestazione della entry e inserite nella Swiss-Prot (procedura lunga e ad alto costo). Le altre informazioni

GLI ARTICOLI SCIENTIFICI

Gli articoli scientifici hanno lo scopo di divulgare la conoscenza acquisita da un gruppo di ricerca su un determinato argomento e utilizzare quelle conoscenze come punto di partenza per altri gruppi di ricerca. Un articolo scientifico contiene per primo l’abstract, dopo troviamo l’ introduzione in cui vengono inserite le referenze , ovvero citazioni a lavori correlati, che vengono individuate con parentesi e numeri. Alla fine di ogni articolo troviamo la bibliografia delle referenze con le citazioni numerate. Quando un gruppo di ricerca pubblica un articolo scientifico su un determinato argomento, ma questo argomento è già stato trattato in un precedente lavoro da altri ricercatori, una parte di questo lavoro può essere citato nel nuovo articolo. Lo scopo delle citazioni è quello di informare il lettore dell’articolo che una parte delle informazioni scritte sono state prese da altri lavori. In genere una citazione contiene varie informazioni tra cui il titolo dell’articolo citato, il nome della rivista scientifica, gli autori che hanno contribuito alla scrittura ecc. Se un articolo riporta dati utili alla comunità scientifica, verrà citato nei lavori successivi da altri scienziati. Le citazioni vengono usate come ottimo criterio di valutazione per stabilire la qualità di un articolo scientifico. Le ricerche scientifiche non sono tutte uguali, ce ne sono di più e meno citate. Un buon articolo scientifico in genere finisce per essere citato in moltissimi altri lavori e il suo numero di citazioni tende ad aumentare nel tempo. Non a caso, gli articoli scientifici di grande impatto vengono sempre pubblicati in riviste scientifiche popolari e note a livello mondiale. Gli articoli presenti in queste riviste sono quelli più citati. Esiste un parametro l’ impact factor (IF), che serve per valutate le riviste. E’ un valore che descrive in media la frequenza con cui gli articoli di una rivista scientifica vengono citati in un anno. L’IF essendo un valore ottenuto da una media matematica ci da delle ottime indicazioni sull’ andamento complessivo di una rivista , ma non sull’andamento dei singoli articoli pubblicati in essa: maggiore è il valore di impact factor di una rivista scientifica, maggiore sarà la qualità complessiva dei suoi articoli. Ogni anno esce l’elenco dell’IF di una rivista relativo a due anni prima. Le riviste a più alto impact factor in campo biomedico sono Cell, Nature e Science.

Anche le review , ovvero i lavori di rassegna sono molto citate negli articoli scientific. In Pubmed esiste un filtro che possiamo utilizzare per identificare il numero di review pubblicate da un determinato autore. Dobbiamo effettuare sempre una ricerca per campi e inserire nel campo (Author) la parola- chiave che stiamo cercando. Otteniamo il totale dei lavori pubblicati da quell’autore, ma se clicchiamo sul filtro Review otteniamo quali di questi articoli sono review. Per ottenere dati sulle citazioni di un articolo è necessario avere accesso al Citation index di Scopus il cui uso non è aperto a tutti. Scopus è una banca dati (non pubblica) che consente di vedere le citazioni di tutti i lavori. Un ottimo sostituto di Scopus è Scholar Google un sito web gratuito utilizzato per

ottenere utili informazioni sui lavori scientifici pubblicati da un determinato autore. Questi articoli oltre al titolo presentano una serie di informazioni aggiuntive tra cui il numero di citazioni. Google Scholar è in grado di darci delle informazioni su quanto volte è stato citato l’articolo su ricerche effettuate in rete. Inoltre in Google Scholar ogni autore può definire un suo profilo personale , una schermata in cui sono riportati tutti i lavori pubblicati con il numero di citazioni e l’anno di pubblicazione e l’H-index L’ H-index è uno dei parametri più utilizzati per la valutazione di un autore di lavori scientifici. Prendo tutti i lavori di un autore, li ordino in maniera decrescente partendo da quello più citato e comincio a contare il suo numero di lavori procedendo dall’alto e verso il basso. La conta prosegue fino a quando il numero dei lavori diventa maggiore o uguale al numero delle citazioni, dopodiché mi fermo. Il valore di N che si ottiene corrisponde all’H-index di quell’autore. Man mano che le citazioni aumentano l’H-index cresce, ma più lentamente nel tempo.

ELEMENTI DI INFORMATICA

Conoscere la struttura di un calcolatore è utile per:

  • Riconoscere l’origine di eventuali problemi nell’utilizzo
  • Comprare lo strumento più adatto all’utilizzo che se ne vuole fare
  • Esser aggiornati nell’uso di nuove tecnologie Un personal computer è un piccolo calcolatore che viene utilizzato da un utente alla volta e presente sempre due componenti:
  • HARDWARE: pezzi fisici che compongono il computer, come lo schermo , tastiera , mouse , processore (CPU), RAM (memoria ad accesso rapido che ospita i miei lavori) e Hard disk (memoria esterna, più stabile)
  • SOFTWARE: la parte logica del computer e comprende:
  1. Sistema operativo
  2. File
  3. Directory (o un folder)
  4. Programmi per calcolatori Il SISTEMA OPERATIVO è il programma per eccellenza di un computer, ovvero quello che coordina e gestisce tutte le attività che gli chiediamo di svolgere.

LINUX

In bioinformatica il sistema operativo più utilizzato è Linux. Fu scritto danno studente 21enne in Compiter Science, Linus Torvalds e poi migliorato da una grande quantità di persone in tutto il mondo. E’ un sistema operativo particolarmente stabile rispetto ad altri, meno soggetto a problemi quali la pirateria informatica e i virus, è anche gratuito. Siccome è open source rinuncia ai diritti di copyright, quindi tutti possono aggiungere modifiche per implementare questo sistema operativo senza costi. Esistono diverse versioni di Linux, dette distribuzioni , tra cui “red hat”, “mandrake”, “suse”, “debian” ecc. Questa procedura da a chiunque l’ opportunità di modificare e ridistribuire ogni software open source. Sourceforge.net è il maggior sito mondiale dedicato allo sviluppo e alla distribuzione di software open source. Offre la più ricca raccolta di codice open source e di programmi al mondo e offre servizi gratuiti agli sviluppatori.

ALLINEMANTI TRA SEQUENZE In Bioinformatica, gli allineamenti tra sequenze nucleotidiche e proteiche trovano diverse applicazioni nelle banche dati, ci permettono di:

  • Fare associazioni funzionali
  • Costruire di alberi filogenetici
  • Identificare di domini funzionali
  • Costruire modelli per omologia in 3D Omologia e similarità sono due concetti completamente diversi: la SIMILARITÀ è un dato quantitativo , ci dice quanto due sequenze sono simili tra loro a prescindere dalla causa della loro similarità. La similarità viene espressa con dei parametri in percentuale. L’OMOLOGIA invece ci dice se due sequenze condividono o meno una stessa origine filogenetica. Non esiste nessun parametro che descrive la percentuale di omologia tra due sequenze. In genere due sequenze omologhe sono anche simili, ma ciò non significa che due sequenze simili debbano essere necessariamente omologhe. Possiamo avere anche casi di sequenze non omologhe, che sono simili tra loro per caso o per convergenza adattativa Un esempio è confrontare l’ala dell’uccello e quella del pipistrello. Queste due strutture si sono evolute separatamente, per cui non sono omologhe, tuttavia presentano una certa percentuale di similarità, si dicono analoghe.

Confrontando due sequenze è sempre possibile stabilire quanto queste siano simili tra loro, ma non possiamo stabilire la causa della loro similarità.

  • Sequenze ortologhe : due sequenze omologhe, la cui divergenza dall’antenato comune ha avuto origine a seguito di eventi di speciazione , interessano diverse specie. Le sequenze ortologhe non necessariamente mantengono la funzione ancestrale del loro antenato.
  • Sequenze paraloghe : due sequenze omologhe, la cui divergenza dall’antenato comune ha avuto origine a seguito di eventi di duplicazione genica. Le sequenze paraloghe interessano una stessa specie. Per esempio, la catena β dell’emoglobina è un paralogo della catena α dell’emoglobina e della mioglobina, dal momento che ambedue si sono evolute dallo stesso gene ancestrale attraverso ripetuti eventi di duplicazione genica.
  • Sequenze omologhe : sequenze che si sono originate per divergenza dall’antenato comune, condividono la stessa origine filogenetica Non si possono allineare due sequenze senza aver definito criteri di similarità. Allo stesso tempo per valutare la similarità tra due sequenze, dobbiamo prima allinearle.

ALLINEAMENTI E SIMILARITÀ Effettuare un allineamento tra coppie di sequenze significa prendere due sequenze, posizionarle l’una sopra l’altra come stringhe (o vettori) di caratteri a singola lettera e valutare la loro similarità con un punteggio.

  • Per le sequenze nucleotidiche abbiamo a disposizione 4 possibili caratteri ad singola lettera che identificano gli acidi nucleici
  • Per le sequenze proteiche abbiamo a disposizione 20 possibili caratteri a singola lettera che identificano gli amminoacidi I trattini invece, rappresentano le singole corrispondenze tra gli amminoacidi o i nucleotidi delle due sequenze. Non possiamo effettuare un allineamento tra due sequenze, senza prima stabilire un criterio di similarità. Però non possiamo neanche calcolare la similarità tra due sequenze, senza prima allinearle. Similarità e allineamento sono due concetti che non possono esistere l’uno in assenza dell’altro. Un primo modo per misurare la similarità è contare il numero di caratteri delle due sequenze che si corrispondono , ovvero residui identici che si appaiono esattamente. Prima bisogna generare tutti i possibili allineamenti di due sequenze, poi assegno un punteggio di similarità in ciascun allineamento. L’allineamento

caratteri. Un programma per calcolatore ha un tempo di esecuzione che in generale dipende dal numero di operazioni necessarie per eseguirlo. Un programma che calcoli la similarità di sequenze tra due sequenze date deve effettuare un numero di confronti che dipende dal rapporto della lunghezza delle due sequenze : O (nm) oppure O (n^2) (si legge l’ordine di n x m oppure ordine di nquadro). Quando si deve effettuare una ricerca per similarità di sequenze in una banca dati, l’operazione di confronto tra due sequenze deve inoltre essere ripetuta per ogni copia di sequenza:

  • Sequenza in input (query sequence)
  • Ognuna delle sequenze della banca dati Esiste quindi una forte necessità di utilizzare algoritmi rapidi. E non abbiamo ancora considerato tutte le ulteriori complicazioni legate alla possibile presenza di gap nell’allineamento tra due sequenze. Nel corso dell’evoluzione ci possono essere modifiche nelle sequenze ( inserzioni e delezioni ) ed è una cosa di cui devo tener conto quando effettuo allineamenti. Nel caso di allineamenti di sequenze non simili, aggiungo dei gap per guadagnare dei nuovi appaiamenti tra residui e indurre un aumento significativo del punteggio di similarità. Se considero tutti i gap inseriti in tutte le possibili posizioni degli allineamenti generati, il numero di operazioni da effettuare cresce e i tempi di calcolo si allungano. Inoltre esiste il rischio che il mio allineamento non abbia un senso biologico.

D’altra parte però, ad ogni gap aggiunto all’allineamento è sempre associato un punteggio negativo di gap penalty (o punteggio di penalizzazione), per evitare che vengono aggiunti troppi gap. Se il gap che viene aggiunto è l’estensione di un gap già aperto, si parla di gap extension penalty. Questi due punteggi sono entrambi negativi (-), ma il punteggio di penalizzazione per l’apertura di un gap è sempre più alto dl punteggio di penalizzazione perl’estensione di un gap: gap creation penalty > gap extension penalty L’apertura di un gap in una struttura proteica comporta uno stress che in realtà dipende soprattutto dalla regione strutturale in cui avviene l’inserimento o la delezione. Inserzioni e delezioni sono fortemente penalizzate all’interno delle α-eliche e filamenti β, in quanto costringono alla modifica delle interazioni con le strutture secondarie circostanti. Inserzioni e delezioni in generale avvengono all’interno dei loop esposti alla superficie della proteina. Ogni volta che vengono aggiunti gap ad un allineamento, al suo nuovo punteggio devono essere anche sommati i singoli punteggi di gap penalty, che avendo un segno negativo vengono sottratti a questo valore. Quindi assegno un punteggio di

penalizzazione =1 a ciascun gap di apertura e un punteggio di penalizzazione =0.1 a ciascuna estensione di gap.

Algoritmi di allineamento basati sullo scorrimento di una sequenza sull’altra, sono estremamente lenti e inefficaci se prendiamo in considerazione anche tutti i possibili gap che possono essere aggiunti in ogni possibile posizione delle due sequenze. Nasce quindi la necessità di trovare soluzioni alternative, ovvero nuovi algoritmi per l’allineamento di sequenze, in grado di generare nella maniere più immediata possibile il miglior allineamento tra due sequenze (tenendo conto anche dei possibili gap)

MATRICI DI PUNTI (o dot matrix) La generica matrice è una tabella con due indici, m righe e n colonne , che identificano gli elementi della matrice. Una dot matrix è appunto una matrice su cui vanno inseriti gli amminoacidi delle due sequenze che vogliamo allineare. La prima cosa da fare è inserire la sequenza1 nella prima riga in alto da sx a dx, mentre la sequenza2 nella prima colonna a sx, scritta dall’alto verso il basso. Successivamente in ogni punto in cui la sequenza nella riga e nella colonna coincido, metto un punto (asterisco). Le regioni delle sequenze che possono essere allineate senza introdurre gap emergono come una serie contigua di punti sulla diagonale. Ogni volta che identifichiamo una diagonale di punti , identifichiamo le regioni che si allineano. I salti di diagonale (quando le due diagonali sono separate) identificano le regioni dell’allineamento in sui sono inseriti i gap. In questo esempio i primi due caratteri e gli ultimi tre della prima sequenza si allineano con i corrispettivi della seconda sequenza. Inoltre abbiamo inserito un gap nella seconda sequenza: AAKQW AA-KQW In un altro esempio la sequenza1 è margaretoakleydayhoff inserita nella prima riga, mentre la sequenza2 è margaretdayhoff si trova nella prima colonna. I gap da inserire sono in totale 6 e tutti localizzati nella seconda sequenza.

Un approccio di questo tipo, ci permette di passare da un grafico con molto rumore di fondo, ad un grafico più pulito in cui vengono evidenziate con maggiore chiarezza le diagonale nel nostro allineamento.

In questo esempio, l’allineamento risulta ancora più evidente utilizzando una finestra di 15 residui.Vediamo che la sequenza in cui mancano residui è quella sulle colonne e vediamo anche due diagonali simili, questo vuol dire che c’è una duplicazione della sequenza in una delle due (diagonali parallele, sequenze ripetute). Metodi per calcolare la similarità I punteggi di similarità ci dicono se in una determinata posizione dell’allineamento si trovano due residui simili, non necessariamente identici. E’ corretto valutare un allineamento con un punteggio correlato solo al numero i residui identici appaiati? NO Poiché gli amminoacidi vengono classificati in diversi gruppi sulla base delle loro similarità chimico-fisiche , non sarebbe corretto assegnare un punteggio =0 a copie di amminoacidi diversi, ma che appartengono allo stesso gruppo. Un minimo di similarità dal punto di vista chimico-fisico la possiedono. Nasce quindi il bisogno di generare nuovi criteri di similarità per valutare gli allineamenti di due sequenze proteiche. Primo criterio di valutazione Consiste nel raggruppare gli amminoacidi in classi sulla base delle loro similarità chimico-fisiche e assegnare:

  • Un punteggio =1 alla coppie di amminoacidi che appartengono alla stessa classe
  • Un punteggio = -1 alle coppie di amminoacidi che appartengono a due classi diverse

Secondo criterio di valutazione Consiste nell’utilizzare delle matrici di sostituzione per assegnare i punteggi alle coppie di amminoacidi. E’ il criterio maggiormente in uso.

Una matrice di sostituzione è un tabella nella quale vengono riportati i punteggi di sostituzione relativi a ciascuna coppia di amminoacidi. Ci sono 20 residui nelle proteine biologiche, per cui una matrice di sostituzione è quadrata di 20x20 (=400 valori). 210 sono i valori indipendenti all’interno di una matrice di sostituzione. A ciascuna coppia di residui amminoacidici è associato un punteggio. Questo punteggio può essere:

  • Positivo (> 0)
  • Uguale a zero
  • Negativo (< 0) In una matrice di sostituzione prevedo punteggi:
  1. Positivi più alti : per le coppie di amminoacidi che presentano identità
  2. Leggermente più bassi (ma comunque positivi): per le coppie di amminoacidi che presentano delle similarità chimico-fisiche
  3. Negativi o uguali a zero : per residui diversi o molto diversi dal punto di vista chimico-fisico Comunque a residui dello stesso gruppo sono associati valori positivi , mentre per quelli che appartengono a classi chimico-fisiche diverse avremo un punteggio negativo. Bisogna non confondere le matrici di sostituzione con le dot matrix, che hanno dimensioni variabili (m x n) e dipendono dalla lunghezza delle due sequenze che sto confrontando. Sono matrici che mettono in evidenza zone di identità tra sequenze diverse. Al contrario, le matrici di sostituzione associano un punteggio ad ogni coppia di residui. Lungo la diagonale della matrice vengono riportati i valori più alti e positivi perché sono punteggi di sostituzione del residuo con se stesso. Ma ci sono corrispondenze tra amminoacidi che sono rari, sono difficili da sostituire. Margaret Dayhoff è stata la prima ricercatrice a costruire delle matrici di sostituzione, effettuando degli allineamenti tra sequenze di proteine omologhe. Margaret Dayhoff ha preso tutte le sequenze omologhe che presentavano il 99% di identità e l’ 1% di divergenza , le ha allineate e ha visto in quali posizioni le sequenze presentando delle sostituzioni di amminoacidi. Dopo ha valutato le frequenze con cui si presentavano tutte le possibili sostituzioni e sulla base dei risultati ottenuti ha associato un punteggio di sostituzione a ciascuna coppia di residui.
  • Se vedo tante volte in natura una sostituzione di un amminoacido con un altro in sequenze omologhe, avrò un punteggio positivo
  • Se non vedo mai in natura quella sostituzione, avrò un punteggio negativo

Questo punteggio tiene conto della possibilità di avvenire di determinate sostituzioni. Riassumendo, abbiamo definito un0 schema di punteggi per la valutazione della similarità tra due sequenze:

  • Una matrice di sostituzione per valutare l’appaiamento tra qualsiasi coppia di residui
  • Penalizzazioni appropriate per l’apertura o l’estensione di un gap Ci sono algoritmi che effettuano delle ricerche esaustive ed esplorano tutto lo spazio degli allineamenti possibili. Ad esempio algoritmi che sfruttano lo schema tipo “matrice di punti” ci consentono di avere risultati esaustivi, perchè esplorano tutte le possibili sostituzioni e tutti i possibili gap tra due sequenze. Si tratta di algoritmi di ordine n^2 , ovvero per allineare due sequenze lunghe ognuna 1000 residui, effettuando 1000x1000=1.000.000 di confronti.

METODI ESAUSTIVI PER L’ALLINEAMENTO Metodi che esplorano tutto il campo dei possibili risultati richiedono però molto tempo, anche se ci danno risultati certi. Occorre trovare un algoritmo che generi il miglior allineamento possibile tra due sequenze, tenendo conto anche delle possibili inserzioni e delezioni. Parliamo degli algoritmi di allineamento dinamici , algoritmi di allineamento esaustivi che utilizzano delle tecniche matematiche di programmazione dinamica per generare il miglior allineamento possibile tra due sequenze biologico, considerando anche tutti i possibili gap. Tuttavia, spesso l’output mostra più allineamenti diversi col massimo punteggio e ci impiega troppo

tempo perché deve esplorare tutti i possibili risultati. La programmazione dinamica sfrutta un approccio di tipo dot-plot , cioè prevede l’utilizzo di particolari matrici, chiamate matrici di programmazione dinamica. Diversamente dalle Dot Matrix, nelle matrici di programmazione dinamica non vengono inseriti punti o asterischi ogni volta che abbiamo delle corrispondenze tra coppie di residui, ma le caselle di queste matrici vengono riempite con dei punteggi , ricavati sempre da una matrice di sostituzione.

ALGORITMI DINAMICI DI ALLINEAMENTI Per effettuare un allineamento devo prima di tutto definire una matrice di sostituzione (solitamente la PAM) per valutare gli appaiamenti tra residui e definire dei punteggi di penalizzazione per i gap che vengono inseriti nell’allineamento. Algoritmi di allineamento che utilizzano una tecnica di programmazione dinamica sono:

  1. Needleman e Wunsch (1970): per cercare allineamenti globali
  2. Smith e Waterman (1981): per cercare allineamenti locali Un allineamento globale vede nel complesso due sequenze quanto sono simili tra loro, mentre un allineamento locale confronta le due sequenze con lo scopo di identificare una sottoregione che è uguale p simile tre le due sequenze (evidenzia dei motivi funzionali o dei domini). Allineamento globale Dividiamo la procedura in tre passi successivi:
  3. Considero due sequenze da allineare : prendo dalla matrice di sostituzione solo i punteggi che interessano i residui delle mie sequenze. Gli allineamenti si trovano sulle diagonali, ognuna rappresenta lo slittamento di un residuo di una sequenza su un residuo di un’altra.

Cominciamo a calcolare il punteggio di questo allineamento usando lo schema di programmazione dinamica. Tutti gli allineamenti che facevo spostandomi di un residuo per volta, ora li ho tutti in un’unica matrice e sono identificati da una diagonale (tutte parallele tra loro): calcolando le somme lungo le diagonali, effettuiamo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra. Il punteggio di ogni allineamento sarà la somma dei numeri su una diagonale, in questo modo posso capire quello migliore.