Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


INTERO CORSO DI BIOINFORMATICA, Appunti di Bioinformatica

Lezione 1. RELAZIONI: - La biologia e la bioinformatica ha dei rapporti, il biologo, si occupa di effettuare esperimenti che hanno a che fare oggetti, esplorano la vita in diversi livelli gerarchici: popolazioni, organismi, cellule e molecole.

Tipologia: Appunti

2021/2022

In vendita dal 22/06/2022

sara-vecchi
sara-vecchi 🇮🇹

15 documenti

1 / 66

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BIOINFORMATICA
Lezione 1.
RELAZIONI:
- La biologia e la bioinformatica ha dei rapporti, il biologo, si occupa di effettuare esperimenti che
hanno a che fare oggetti, esplorano la vita in diversi livelli gerarchici: popolazioni, organismi, cellule
e molecole. Gli esperimenti producono dati, quali sequenze, strutture, genomi, interazioni e
letteratura ovvero si può esplorare la letteratura per tirare fuori nuove interazioni.
Il biologo analizzando dati, produce teorie e le scrive, facendole divenire nuove teorie.
- Bioinformatico, gestisce i dati ricavati dal biologo, li può analizzare e conservare. Il bioinformatico,
scrive dei programmi con nuove tecnologie e tecniche astute. Una volta prodotto lo strumento,
questo dura. I programmi analizzano i dati prodotti dai biologi. Il bioinformatico quindi analizza i
dati prodotti dai programmi. Il bioinformatico ottenuti i dati li passa al biologo e si producono
nuove teorie.
I biologi ad oggi sono più dei bioinformatici.
LA MAGGIOR PARTE DEGLI ESPERIMENTI PORTATI AVANTI OGGI SONO HIGH-THROUGHPUT ovvero con
molti dati per comprendere anche gli strumenti informatici da usare. Il biologo moderno al momento si
avvale della collaborazione col bioinformatico, ma i bioinformatici sono POCHI.
Il lavoro quotidiano del biologo fino a 30 anni fa si divideva tra laboratorio e biblioteca. Oggi tutti quelli
che sono in laboratorio passano buona parte del loro tempo al pc.
COMPUTER strumento di lavoro indispensabile.
Un bioinformatico, scrive programmi, deve costruire e progettare banche dati di interesse biologico.
Sequenze di acidi nucleici, proteine, farmaci e dati clinici devono essere ben organizzate in BANCHE
DATI. Si devono inoltre cercare regole, dette algoritmi che poi diventano programmi per analizzare i
dati. Il bioinformatico inoltre simula con il pc dei processi biologici: dall’interazione tra coppie di
proteine ai pathways metabolici (biologia dei sistemi o system biology).
BANCHE DATI
SI DISEGNANO COME UN CILINDRO DB (data base) le più importanti sono quelle delle sequenze
nucleotidiche, sono enormi ma abbiamo a disposizione tante banche dati quali: sequenze proteiche, si
prendono proteine e si fa la sequenze di amminoacidi. Motivi funzionali, studiando le sequenze una
volta che ho residui nt o amminoacidici in sequenza. Strutture 3D, farmaci, letteratura scientifica.
Le banche dati possono contenere tantissimi dati in pochissimo spazio. In queste DB c’è una facilità di
accesso e una volta estratto ciò che mi interessa posso analizzare con strumenti informatici immediati.
Le banche dati sono collezioni strutturate di dati che sono organizzati in tabelle e gestite da un sistema
detto DBMS (data base managment system) esiste un’importante parte della biologia sperimentale, –
omica/ e tutta la biologia sperimentale high-troughput , che può svilupparsi e dare risposte solo con
l’uso strumentale della informatica.
La genomica, la genomica comparata e strutturale la proteomica, l’interattomica e la biologia dei
sistemi fanno parte di queste discipline biologiche che hanno bisogno di strumenti informatici.
- Le sequenze si ricavano con metodi più lenti e precisi su pezzi piccoli di DNA. Altri sono più rapidi e
automatizzati in larga parte. Ogni picco del diagramma corrisponde un NT e ogni colore è associato
allo specifico NT. La prima banca dati nasce nel 1977.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42

Anteprima parziale del testo

Scarica INTERO CORSO DI BIOINFORMATICA e più Appunti in PDF di Bioinformatica solo su Docsity!

BIOINFORMATICA

Lezione 1. RELAZIONI:

  • La biologia e la bioinformatica ha dei rapporti, il biologo, si occupa di effettuare esperimenti che hanno a che fare oggetti, esplorano la vita in diversi livelli gerarchici: popolazioni, organismi, cellule e molecole. Gli esperimenti producono dati, quali sequenze, strutture, genomi, interazioni e letteratura ovvero si può esplorare la letteratura per tirare fuori nuove interazioni. Il biologo analizzando dati, produce teorie e le scrive, facendole divenire nuove teorie.
  • Bioinformatico, gestisce i dati ricavati dal biologo, li può analizzare e conservare. Il bioinformatico, scrive dei programmi con nuove tecnologie e tecniche astute. Una volta prodotto lo strumento, questo dura. I programmi analizzano i dati prodotti dai biologi. Il bioinformatico quindi analizza i dati prodotti dai programmi. Il bioinformatico ottenuti i dati li passa al biologo e si producono nuove teorie. I biologi ad oggi sono più dei bioinformatici. LA MAGGIOR PARTE DEGLI ESPERIMENTI PORTATI AVANTI OGGI SONO HIGH-THROUGHPUT ovvero con molti dati per comprendere anche gli strumenti informatici da usare. Il biologo moderno al momento si avvale della collaborazione col bioinformatico, ma i bioinformatici sono POCHI. Il lavoro quotidiano del biologo fino a 30 anni fa si divideva tra laboratorio e biblioteca. Oggi tutti quelli che sono in laboratorio passano buona parte del loro tempo al pc. COMPUTER strumento di lavoro indispensabile. Un bioinformatico, scrive programmi, deve costruire e progettare banche dati di interesse biologico. Sequenze di acidi nucleici, proteine, farmaci e dati clinici devono essere ben organizzate in BANCHE DATI. Si devono inoltre cercare regole, dette algoritmi che poi diventano programmi per analizzare i dati. Il bioinformatico inoltre simula con il pc dei processi biologici: dall’interazione tra coppie di proteine ai pathways metabolici (biologia dei sistemi o system biology). BANCHE DATI SI DISEGNANO COME UN CILINDRO DB (data base) le più importanti sono quelle delle sequenze nucleotidiche, sono enormi ma abbiamo a disposizione tante banche dati quali: sequenze proteiche, si prendono proteine e si fa la sequenze di amminoacidi. Motivi funzionali, studiando le sequenze una volta che ho residui nt o amminoacidici in sequenza. Strutture 3D, farmaci, letteratura scientifica. Le banche dati possono contenere tantissimi dati in pochissimo spazio. In queste DB c’è una facilità di accesso e una volta estratto ciò che mi interessa posso analizzare con strumenti informatici immediati. Le banche dati sono collezioni strutturate di dati che sono organizzati in tabelle e gestite da un sistema detto DBMS (data base managment system) esiste un’importante parte della biologia sperimentale, – omica / e tutta la biologia sperimentale high-troughput , che può svilupparsi e dare risposte solo con l’uso strumentale della informatica. La genomica, la genomica comparata e strutturale la proteomica, l’interattomica e la biologia dei sistemi fanno parte di queste discipline biologiche che hanno bisogno di strumenti informatici.
  • Le sequenze si ricavano con metodi più lenti e precisi su pezzi piccoli di DNA. Altri sono più rapidi e automatizzati in larga parte. Ogni picco del diagramma corrisponde un NT e ogni colore è associato allo specifico NT. La prima banca dati nasce nel 1977.
  • Nasce nell’NBL con un gruppo di informatici. Nel 1977 si inizia con una singola sequenze che diventano duemila nel 1983 fino ad arrivare ad oggi con molti milioni. Una volta che so fare una sequenza nucleotidica, faccio il genoma, per fare il genoma di un batterio medio ci vuole circa 1h. una volta avuta la sequenza in lettere del genoma ho degli strumenti di identificazione di ciò che ho estrapolato dalle mie ricerche. Le ricerche nelle banche dei dati si fanno con le sequenze che ho trovato, la lancio in banca dati per vedere se trovo qualcosa di simile. I motivi funzionali: una volta che ho sequenze NT o proteiche esistono banche dati che mi dicono che un certo motivo è legata a una certa funzione. Quando si parla di batteri i geni sono semplici non ho introni ecc. nel mondo degli eucarioti posso fare confusioni perché trovo dei domini in condivisione quindi analizzarli diviene più complesso. La bioinformatica strutturale significa capire la struttura delle proteine. Predire la struttura: dalla sequenza della proteina tirare fuori la struttura 3D. c’erano metodi che basandosi sull’omologia (con antenato comune). I genomi completi in genomica sono detti completi anche se non sono completi, perché ci sono zone con sq ripetute di cui non so esattamente la sequenza. I genomi procariotici sono tantissimi. I genomi completi noti sono centinaia di migliaia. I genomi noti sono distribuiti con batteri, metagenomi, gli archea che sono i meno sequenziati. I metodi di sequenza sono veloci, si possono fare in 10h, 400 milioni di basi. Metagenomi: prendo una cellula la clono e ho il suo genoma, il metagenoma è il sequenziamento di tutto quello che trovo. Genoma umano 2001 più utile per comprendere le relazioni. Genoma persona 2007  col genoma della persona singola non ci facciamo nulla. Nel genoma umano posso decidere anche di sequenziare solo l’esoma quindi gli esoni. Si punta ad una medicina personalizzata che si punti sui dati genomici. La medicina personalizzata non esiste se non ci sono bioinformatici o bioinformatica.
  • APPROCCIO SHOTGUN (sparo di pistola) per risolvere i genomi, spacchiamo tutto il genoma a caso in molti pezzi, li sequenzio e li faccio rimettere insieme dal pc. Una volta ricostruito i genoma faccio l’annotazione genomica identificando i geni e i trascritti e mettendoli in ordine.
  • BROWSER GENOMICI usati per entrare nei genomi anche attraverso il cariotipo e si può ingrandire fino a vedere in specifico le sequenze. Genomica comparata: mette a confronto genomi diversi che possono anche somigliarsi tra loro. Si possono analizzare i dati di espressione che ci segnalano le differenze. SYSTEMS BIOLOGY: lo studio di processi biologici (spesso a livello cellulare e molecolare) considerati come sistemi composti da molte parti integranti, studiando i complessi vuol dire vedere un tutt’uno. Si raccolgono dati, modelli matematici, simulazioni e previsioni ma anche verifiche. Le reti di interazioni si possono tirare fuori da banche dati. Le reti metaboliche sono di ricche di risorse. CELLULE VIRTUALI: cellule interamente ricostruite nel pc. Esperimenti possono essere fatti in vivo, in vitro, in silicio.
  • Una banca dati contiene di solito molte info per es da quale organismo ho estratto la sequenza, in quali articoli la sequenza è stata pubblicata, quali sono le caratteristiche funzionali della sequenza stessa.
  • Ognuno di noi ha esperienza di rubriche telefonica ha come entry il numero e il nome di telefono. La nostra rubrica deve essere progettata in modo da prevedere lo spazio per le informazioni che possono essere utili. Con quelle info faccio ricerche nella banca dati,
  • ENTRY DI RUBRICA:
  • NOME
  • LAVORO
  • INDIRIZZO
  • NUMERO
  • EMAIL
  • Le intestazioni sono HEADERS scritte in azzurro e corrispondono alla descrizione della scheda ENTRY. Le banche dati devono avere una determinata e precisa struttura. Da una buona organizzazione di una banca dati, l’intestazione è uno dei determinanti che farà si che il tutto funzioni. In una banca dati di sequenze come quelle di acidi nucleici o di proteine, la scheda risulterà diversa ma pensata a ospitare l’oggetto. ID  EDENTIFICATIVO. AC NUMERO O CARATTERE ALFANUMERICO. DT  IN CHE GIORNO MESE O ANNO è STATA INSERITA LA SEQUENZA. OS  NOME DEGLI ORGANISMI. OC  DATI TASSONOMIA. SQLA SEQUENZA. AC ed SQ sono fondamentali.

ACCESSION NUMBER AC: indicatore unico associato ad una data sequenza nucleotidica o proteica in una banca dati al momento della sottomissione.  Ac consente di tracciare la storia di una determinata sequenza nelle sue diverse versioni (anche in correzione)  Una sequenza può essere associata a più AC, di cui uno solo risulterà primario. ENTRY RAPPRESENTATIVA: QUANDO ACCEDIAMO AD UNA ENTRY IL FILE RISULTERA’ LUNGO, ci sono altre informazione FT sono le caratteristiche per esempio  FEATURES tra queste troviamo la traduzione del NT per esempio e sono info che uno ritrova nell’Entry con la sequenza nucleotidica. La sequenza SQ ci è indicata quanto è lunga di solito in formato è poi scritta la sequenza.

  • La maggior parte delle banche dati di interesse biologico è disponibile o anche disponibile in frmato flat-file (file piatto, di semplice testo) e mantiene minima l’ocupazione dello spazio sul disco a parità del contenuto e ci consente che si possa avere un’immeditata lettura del contenuto della banca dati, eventualmente anche mediante l’uso di programmi per calcolatore sviluppato ad un determinato scopo; è molto importante è che nelle banche dati ci siano delle relazioni e noi dobbiamo saperle usare: le banche dati sono rappresentati come cilindri: NELLA BANCA DATI DI ACIDI NUCLEICI DEVE AVERE UNA RELAZIONE CON LA SUA TRADUZIONE PROTEICA

 Effettuando una ricerca con l’operatore AND, otterremo una lista di entries ognuna delle quali dovrà necessariamente contenere entrambi i termini della ricerca.  Se uso OR ottengo una lista di 10.00 diverse myoglobine appartenenti a diversi organismi più tutte le proteine.  Se uso AND ottengo solo 33 diverse myoglobine appartenenti a diverse specie di balena MA OTTENIAMO ANCHE ALTRE MYOGLOBINE CHE NON SONO DI BALENA, ATTENIONE!!! Il motore di ricerca mi ha fregato perché ho fatto una ricerca con parole in generico e possono stare in tutta l’intestazione. Es. similar to whale sequence; noi faremo le ricerche per campi con parole scritte in posti specifici. Le parole chiave devono trovarsi in specifici campi. Campi sono quelli che corrispondono al singolo headers. La ricerca mirata è più veloce e più precisa. BANCHE DATI PRIMARIE E BANCHE DATI SPECIALIZZATE. Le primarie sono solo quelle degli acidi nucleici (DNA RNA). CI SONO 3 BANCHE DATI NEL MONDO DI ACIDI NUCLEICI:

  1. EUROPEA  vicino Cambridge
  2. AMERICANA
  3. GIAPPONESE È importante che i dati siano presenti in più sedi perché è un rischio averne un singolo che potrebbe essere perduto o non più accessibile. Le banche dati non sono identiche magari gli haeder sono diversi seppur simili. La notte si scambiano i dati, i dati quindi sono gli stessi ma il tutto non è istantaneo. EMBL datalibrary, GenBank e DDBJ sono i nomi delle 3 banche dati di SQ nucleotidiche. ENA European Nucleotide Archive raccoglie info su dati di sequenze NT comprendenti informazioni sull’assemblaggio delle sequenze e su annotazione funzionale. Le ricerche possono essere fatte con pezzi di sequenza o parola chiave. Non c’è bisogno che scrivo AND nell’intestazione posso anche lanciare una ricerca senza specificare AND. Banche dati di sequenze proteiche: le banche dati di sequenze proteiche contengono sia dati ottenuti direttamente dalla sequenza di proteine, che dalla traduzione di seq geniche di cui sia stata individuata o predeta la funzione. La più importante è a UniProt (uni sta per unione di banche dati e prot per proteine) è composta da SWISS-PROT E TrEMBL UNIPROT: CIRCA 90.600.000 proteine con ogni entry con la sua specifica forma. SWISS-PROT annotato manualmente 555.000 sequenze. Proteomi e genomi completi, gli organismi modello sono tutti presenti. Tutto il resto sta in trEMBL TrEMBL 90.050.000 annotato in modo automatico. ANNOTAZIONE: arricchimento con informazioni di qualsiasi tipo. Le sequenze per divenire annotate seguono due strade:
  • Persone esperte aggiornano ENTRY della banca dati manualmente. Caratterizzate da una stella d’oro.
  • Annotazione automatica con programmi. Si usa la stellina argento. SWISS PROT nasce a Ginevra presso il gruppo SIB ( swisss institute of bioinformatics, nel gruppo di Amos Bairoch; UNIPROT è LA Più IMPORTANTE BANCA DATI DI PROTEINE DISPONIBILE IN EUROPA; Per avere la ricerca per camp clicco sulla barra principale  advanced Il nome della specie si scrive in latino, vicino al nome della specie è fondamentale che ci sia il numero vicino. BIOINFORMATICA LEZIONE 3  Per usare la ricerca per campi nell’interfaccia di UNIPROT seguo il link advanced e scelgo i vari campi nel menù a tendina. Se non trovo la proteina col nome in cui la conosco, la cerco nel gene name o provo con altri nomi.  FASTA: più comune usato. Nella prima colonna della pima riga si mette > di qualcosa e dalla riga 2 ogni residuo, senza spazi o divisione lunghe di solito 60-70 caratteri.  Per accedere al FASTA basta seguire il link sopra la sequenza. Visto che il files sono molto grandi, basta fare trova e selezionare FASTA. Può essere copiato ed incollato. PubMed è una banca dati di lettura biomedica; una parte della conoscenza acquisita nel corso della storia della scienza sta nei libri, un’altra parte sta nelle review (RASSEGNA) ci sono spesso autori che lavorano in un determinato campo che vengono contattati dalle riviste per scrivere le review. Nelle review si mettono le ultime notizie appartenute alla review e le cose che sono successe fino al momento di stesura per controllare i progressi degli studi e delle ricerche. Ci sono diverse riviste, con diversi impatti, di solito i lavori si trovano in biblioteche in siti, a pagamento o gratuitamente. ASPETTO: titolo, autori, dove lavorano e poi c’è un abstract ovvero il riassunto di ciò che ho fatto in quel lavoro per ottenere le info.
  • Abbiamo poi l’introduzione dell’argomento, ciò che si sa, ciò che si è capito per poi seguire con la descrizione-
  • I lavori si trovano su PubMed Esisteva una banca dati di letteratura scientifica detta Medline ed era la più completa di bibliografia biomedica. Medline è STATA INCORPORATA DA PUBED; nell’anno 2000 ci fu una grande svolta (esisteva il problema del copy right) open access in cui gli autori se il loro lavoro viene accettato, pagano qualcosa e poi il lavoro è gratuito per tutti. Dal 2000 pubmed si divide in pubmed e pubmed central dove trovo articoli gratuiti e gratuiti ma anche a pagamento su pubmed normale. Posso fare ricerche generiche, le entry vengono elencate 20 a pagina e ci sono dati caratteristici di questi lavori, per esempio, abbiamo il titolo, il nome degli autori di solito il primo autore è quello che ha fatto il 90% del lavoro e l’ultimo è quello che ha avuto l’idea e la finanzia e in centro tutti quelli che hanno dato una mano. Nella 3 riga troviamo gli estremi di referenza, nome rivista e data. Abbiamo a seguire il codice PMID identificativo del tutto; se aggiungiamo + parole chiave, invece di trovare 8555 cose ne troviamo sempre meno.

STRUTTURA DI UN PERSONAL PC: sono piccoli calcolatori che possono offrire un’ampia gamma di potenze di calcolo, ma che si definiscono personal perché possono essere usati da una persona alla volta. PERSONAL PC FATTO DI HARDWERE: FATTO DEI PEZZI: schermo tastiera mouse processore o PCU la RAM (memoria a accesso casuale) e hard disk. La tastiera basta che funziona; il processore: ne ho di tanti tipi e marche ed è difficile confrontare processori con nomi diversi a meno che non faccio il confronto sui tempi di funzione. Il processore usa la potenza del computer. La RAM è la memoria del pc dove metto programmi e dati, è come se fosse la scrivania di lavoro, l’aspetto della memoria sono i dati interna. Se mentre lavoro va via la corrente, tt ho che ho la memoria si perde. Se voglio mantenere tutto lo salvo sul disco che è una memoria che non va a zero. I dischi ora sono flash, hanno velocità alta, occupano poco spazio e costano molto. SOFTWERE lezione 4 elementi di informatica:  SOFTWERE:

  • Hardwere senza softwere non serve a nulla. Il sistema operativo è un enorme programma. Il programma per eccellenza, costituito da diversi sottoprogrammi o moduli. Serve a coordinare e sovraintendere all’esecuzione di tutte le attività del calcolatore e può essere considerato come l’interfaccia uomo-macchina. Nei fatti:
  1. Registra i nomi dei files sui dischi;
  2. Controlla tutti i comandi che diamo al pc che parte dalla tastiera o dal mouse;
  3. Gestisce la RAM in modo che ogni processo e ogni pogramma possa averne allocata una porzione sena sovrapposizioni o perdite di tempo.
  4. Risponde alle richieste degli utenti.
  5. Controlla l’uso di risorse e altre funzioni di manutenzione.
  6. Gestisce la rete Quali sono? Nei personal computer sono windows, macintosh e linux. Pe pc multiutente sono: linux unix e altri… FILE  è una porzione di spazio sul disco sul quale è possibile immagazzinare le info. Il più semplice tipo di file, file di testo, può venire salvato, citato, modificato e cancellato usando gli appropriati comandi del sistema operativo. Ogni file è definito da nome e contenuto. I file sono tanti e diversi; DIRECTORY:  è una cartella dove posso organizzare i file e altre cartelle. Nei sistemi operativi con interfaccia grafica le cartelle e i files sono rappresentati da icone.

Nei sistemi operativi di tipo unix, linux o macintosh le cartelle sono rappresentati con nomi ed elenchi di nomi. PROGRAMMA PER CALCOLATORE: è un oggetto informatico in cui si introducono dati (IMPUT) che il programma elabora e restituisce modificati nell’OUTPUT. I programmi vengono scritti da programmatori usando linguaggi di programmazione quali il FORTAN il C, C++, Java, il BASIC e altri. Consistono nella successione di istruzioni che consentono l’acquisizione di input e la sua elaborazione e generazione dell’output. Es. PROGRAMMA SOMMA: prende in input due numeri li elabora facendone la somma e ci da l’output. I programmi vengono scritti in linguaggi di alto livello (che noi comprendiamo e il calcolatore no) detti SORGENTE. I sorgente, vengono poi tradotti in moduli eseguibili e i trasformatori sono programmi compilatori, che trasformano. PROGRAMMA SORGENTE IL LINGUAGGIO C  COMPILATORE C ESEGUIBILE. Esistono diversi compilatori per i diversi linguaggi di programmazione. I compilatori sono anche specifici per i vari sistemi operativi. I compilatori generano degli eseguibili che funzionano (girano, corrono) solo nelle macchine coi sistemi operativi per i quali sono stati compilati. Input [sorgente in C]  compilatore C per windows  output eseguibile per windows  compilatore C per linux  output eseguibile per linux  compilatore C per macintosh output eseguibile per macintosh. Se noi abbiamo world su windows non posso fare copia e incolla su macintosh perché non funzionerebbe. LINUX: scritto da uno studente 21 enne nel 1991 in computer science, è stato poi implementato e migliorato da una grande quantità di persone di tutto il mondo. Il softwere open source è definito dalla sua licenza che rinuncia ai diritti di copyright che di solito spettano al creatore del softwere e da a chiunque la possibilità di modificare o ridistribuire ogni softwere open source. ALLINEAMENTO DI SEQUENZE E ACIDI NUCLEICI E PROTEINE:

La similarità è misurabile se riesco a fare un abbinamento quindi allineandole. Non si possono allineare due sq senza definire criteri di similarità. Per valutare la similarità tra due sequenze dobbiamo prima allinearle. È diverso se parlo di sequenze nt o proteiche. Allineare sequenze nt è difficile perché dal punto di vista statistico quello che si stacca dal fondo fa fatica a farlo perché ci possono essere sq che si somigliano molto più facilmente, essendo 4 a differenza delle proteine che sono 20. La bioinformatica tratta questi problemi in forma analoga come stringhe di caratteri. Se ho un allineamento, calcolo la similarità contando quanti numeri di sequenze si appaiono. Se le due sequenze non si somigliano, si generano tutti i possibili allineamenti, valuto le relaite similarità e vedo il miglior tipo di allineamento. Un buon metodo è prendere una sequenza e tenerla ferma e far scorrere la relativa sequenza. Similarità di sequenza tra le 2 sq come il + alto dei punteggi ottenuti. L’allineamento associato alla più alta valutazione della similarità di sequenza verrà scelto come il migliore degli allineamenti. Perché 30 caratteri? 1+2:3/ 3+3:6/ 6+4:10 ecc.. In generale, per confrontare due sequenze di lunghezza m e n, il num degli allineamenti generati è pari alla somma della lunghezza delle sequenze meno 1 M+N- IL NUMERO DEI CONFRONTI: MXN

Un programma per calcolatore ha un tempo di esecuzione che in generale dipende dal numeo di operazioni necessarie per eseguirlo. Un programma che calcoli similarità di sequenza tra due sequenze date deve effettuare un numero di confronti che dipende dal prodotto della lunghezza delle due sequenze. O(nm) o ordine n2 che è l’ordine dei programmi che trattano i confronti di sequenze; quando si deve effettuare una ricerca per similarità di sequenza in una banca dati l’operazione tra due sequenze deve essere ripetuta per ogni coppia di sequenza: 1 sequenza input (query sequence) 2 ognuna delle sequenze dati della banca dati. Esiste la necessità di usare algoritmi rapidi. Ci dobbiamo ricordare che però esistono le GAP ovvero la necessità di trattare l’inserimento e o la delezione dei caratteri. Se permetto al mio algoritmo di considerare inserzioni e delezioni le gap aumentano la similarità. Possiamo associare un punteggio di penalizzazione per ogni gap aggiunto all’allineamento ( gap penalty) oppure posso attribuire un punteggio di penalizzazione per ulteriori gap esteso quindi gap extension penalty; l’apertura della gap in una struttura proteica comporta uno stress che in realtà dipende soprattutto dalla regione strutturale in cui avviene l’inserimento o la delezione. Inserzioni o delezioni sono fortemente penalizzate all’interno delle regioni di struttura secondaria, in quanto costringono alla modifica delle interazioni con le strutture secondarie circostanti. Inserzioni e delezioni in generale avvengono all’interno dei loop esposti alla superfice della proteina. L’apertura di un gap non può venire penalizzata come ogni sua estensione, ma di più. Una volta che la sequenza abbia accettato una inserzione o una delezione, la penalizzazione non deve essere legata necessariamente alla sua lunghezza. È noto che esistono diversi casi in cui ci possono essere inserzioni più o meno lunghe in posizioi corrispondenti di un loop. MATRICE DI PUNTI: è una matrice dove confronto le due sequenze Lezione 5 H-index: si chiama così perché ideato da Hirsch. È uno dei parametri più usati per la valutazione di un autore di lavori scientifici. Un autore ha un h index pari a n se almeno n lavori tra quelli che ha pubblicato sono stati citati almeno n volte ciascuno.

esempio prevedere punteggi alti per l’identità tra coppie di residui, punteggi bassi ma >0 per residui simili dal punto di vista fisico chimico e negativi o uguali a zero per i diversi. MATRICE DI SOSTITUZIONE in cui ci sono tutti i residui sopra e accanto e per ogni coppia mettiamo un valore che è deciso. La matrice è una tabella che associa un valore ad ogni coppia di residui. Posso allineare: R-R:10 R-K(SIMILI):7 R-A: Ci sono 20 residui nelle proteine biologiche per cui una matrice di sostituzione è una matrice quadrata 20x20 con 400 valori che sono parzialmente ridondanti ed è SIMMETRICA. I valori più alti sono quelli della diagonale ma sono diversi. Quelli con valori più alti come il TRIPTOFANO hanno un valore elevato perché ha un grossa catena laterale idrofobica, se tolgo il triptofano scasso la proteina se cambio la ALANINA cambia poco e niente. Il punteggio più alto della colonna è quella dell’identità. Non significa che non possano esserci altri allineamenti simili.

  • NON BISOGNA CONFONDERE LE MATRICI DI PUNTI CON LE MATRICI DI SOSTITUZIONE. LA MATRICE DI PUNTI CONFRONTA LE SEQUENZE E QUELLA DI SOSTITUZIONE DA SOLO I VALORI.
  • LE MATRICI DI PUNTI SONO GRAFICI CHE CONSENTONO DI METTERE IN EVIDENZA ZONE DI IDENTITA’ TRA SQ DIVERSE CON M COLONNE E N RIGHE.
  • LE MATRICI DI SOSTITUZIONE ASSOCIANO UN PUNTEGGIO AD OGNI COPPIA DI RESIDUI, sono matrici quadrate e simmetriche, che contengono 20x20:400 valori, parzialmente ridondanti. Perché quei valori nelle matrici di sostituzione? Le matrici sono tante, non solo una. Margaret Dayoff, raccolse statistiche sulle frequenze di sostituzioni amminoacidiche nelle sequenze proteiche allora note (prima matrice ideata da lei). Via via che le sequenze divergono, le mutazioni si accumulano. Per misurare la probabilità relativa di una particolare sostituzione (per esempio Asp Glu) possiamo contare quanti Asp sono diventati Glu in allineamenti di sequenze omologhe. Bisogna porre attenzione perchè se confronto sequenze omologhe divise da tanto tempo non vedo più i salti e vedo qualcosa di complicato. È necessario evitare di considerare allineamenti in cui possano essere avvenute sostituzioni multiple in alcune posizioni. Per cui questi calcoli devono essere effettuati su coppie di sequenze simili. La divergenza di due sequenze può essere misurata in PAM: 1PAM: 1 PERCENT ACCEPTED Due sequenze sono separate da 1 PAM se hanno il 99% di identità. Frequenze di sostituzione amminoacidiche per sq + divergenti possono essere calcolate da partire da queste, moltiplicando le matrici di sostituzione 1 PAM per se stesse, fino ad ottenere matrici PAM 250 corrispondenti a similarità di sequenza al 20%. La frequenza di sostituzioni amminoacidiche può essere calcolata in coppie di sequenze poco divergenti (PAM1). La similarità di residui di 2 sequenze filogeneticamente distanti è meglio descritta da matrici PAM CON INDICI ALRI, la similarità di residui di due sequenze simili si usano matrici con INDICI BASSI. PAM120 allineamenti del 50% PAM 250 20% identità Si privilegiano cose simili anche se sono diverse in matrici pam con indici più alti. VALUTAZIONI DI PUNTEGGI: prima di introdurre le matrici di sostituzione, avevamo definito un criterio di valutazione della similarità tra due sequenze come la somma dei residui uguali nelle stesse posizioni dell’allineamento. Esistono algoritmi che sfruttano lo schema tipo matrice di punti in modo completo.

METODI ESAUSTIVI: ci serve un algoritmo che generi il miglior allineamento possibile tenendo conto di inserzioni e delezioni valutandole in ogni loro possibile dimensione e posizione di allineamento e useremo la PROGRAMMAZIONE DINAMICA che ci consente di usare la dot-plot per allineare. Il metodo trova il miglior allineamento ma spesso l’output mostra allineamenti simili più di uno e può essere lento. Per fare l’allineamento trovo la matrice di sostituzione e dare i punteggi. Due sono molto conosciuti: Needleman e Wunsh 1970 Simith e Waterma n l’algoritmo di programmazione dinamica può essere studiato facendo 3 passaggi. Lezione 6 METODI ESAUSTIVI PER ALLINEAMENTO DI SEQUENZE: ovvero generiamo ogni possibile allineamento e non lascio niente di non guardato.

  • Si parla di allineamenti di coppie di sequenze: ci serve un algoritmo per generare il miglior allineamento possibile tra due sequenze, tenendo conto delle inserzioni e delezioni.
  • Una cosa del genere si può sfruttare usando la matrice di punti; inserzioni e delezioni si trivano nello schema come salti di diagonale. I segmenti di diagonale ci dice che c’è corrispondenza tra le sequenze.
  • Un algoritmo esaustivo per l’allineamento tra 2 sq che sfrutta un approccio dot-plot si basa su una tecnica matematica nota come PROGRAMMAZIONE DINAMICA. Good news: la programmazione trova il miglior allineamento globale tra due sequenze. Bad news: 1. Spesso l’output mostra più allineamenti diversi con il max punteggio
  1. è troppo lento. CI SERVE: uno schema di punteggi adeguato, ovvero una matrice di sostituzione per valutare gli appaiamenti tra residui e definire i punteggi di penalizzazione per i gap. Algoritmi di allineamento che usano la tecnica di programmazione dinamica: Needleman e Wunsch 1970 Smith e Waterman 1981 Parlami dell’algoritmo della programmazione dinamica: DIVIDIAMO LA PROCEDURA IN 3 PASSI.
  1. Consideriamo le due sq da allinere in una specie di dot plot: nelle caselle, invece dgli asterischi o dei punti, scriviamo i punteggi in rosso, derivati dalla matrice di sostituzione scelta (residui identici o siili saranno caratterizzati, all’incrocio tra righe e colonne da punteggi più alti e viceversa). PAM250 tra le più usate, trova gli omologhi lontani in modo efficace. Ha punteggi sia positivi che negativi. Facendo l’allineamento sulla diagonale ho i numeri non gli asterischi. Calcolando le somme lungo le diagonali, effettuiamo un’operazione equivalente al calcolo dei punteggi ottenuto facendo scorrere le due sequenze l’una sull’altra. I gap sono i salti di diagonale, come li calcolo? La somma meno la gap penalty, si propone il punteggio di penalizzazione che vada bene per i miei allineamenti.
  2. ricerca del percorso che consente di ottenere il massimo punteggio in base alle regole stabilite, tenendo anche conto dei gap. (se una sequenza è scritta da destra a sinistra e l’altra dall’alto verso il basso,

Una volta effettuato l’allineamento, mi cerco il valore più alo che di solito si trova alla fine dell’allineamento, ripercorrendo il percorso al contrario in modo decrescente.

  • Per ricostruire l’allineamento migliore si deve memorizzare il percorso disegnato riempendo la matrice e ripercorrendola dall’indietro alla fine bisogna partire dalla casella a punteggio max e ricostruire a ritroso il percorso seguendo le frecce. ALLINEAMENTO GLOBALE O LOCALE? A volte interessa più l’uno, alle volte più l’altro. Il globale, va dall’inizio delle 2 sq fino alla fine. Locale: privilegio il punteggio relativo di una zona più simile e contenuta nello spazio. Similarità locali servono a identificare proteine anche diverse che contengono lo stesso dominio. Anche nel DNA troviamo regioni con similarità locali che riflettono situa interessanti: introni/esoni o inserzioni e delezioni, trasposoni ecc.. Per la costruzione di allineamenti globali è necessario usare matrici di sostituzioni contenenti esclusivamente valori positivi:
  • Non avrò zeri nella matrice
  • Il valore max della matrice si trova sempre nell’ultima riga o colonna. Il percorso che si ricostruisce per decidere l’allineamento migliore parte dall’ultima riga o colonna e può procedere fino alla prima riga o colonna. Per costruire un locale: ho valori sia positivi che negativi, posso aumentare e diminuire ma se continuo a detrarre valori, quando inizierà un aumento buono prima che ritorno al positivo devo sommare tanto allora: quando devo scrivere un punteggio negativo scrivo zero per poter ritornare subito su’ e ripartire. Con queste due semplici variazioni rispetto alla programmazione dinamica di allineamento globale posso avere i valori più alti che non iniziano per forza all’inizio o alla fine ma al centro. Il valore assoluto di un allineamento dipende dalla matrice di sostituzione che usiamo. Importante è il punteggio massimo in seno negativo.
  • Algoritmo di Needleman e Wunsch sviluppato per globale, quello di Smith e Waterman per il locale. Ciò che fa diventare l’allineamento veramente globale o locale è la matrice che si usa. Valori +: globali
  • Valori-/+: locale

Quello a cui punto è il confronto tra una sequenza e una banca dati di sequenze (un qualcosa di più grade). Per effettuare ricerche di similarità in banche dati, c’è comunque necessità di algoritmi più veloci di quelli in ordine n2. Metodi euristici per l’allineamento: LA CRESCITA ESPONENZIALE delle dimensioni delle banche dati di sequenze biologiche ha portato alla necessità di sviluppare programmi in grado di effettuare velocemente ricerche di similarità, grazie a soluzioni euristiche basate su assunzioni non certe ma estremamente probabili. Programmi che usano soluzioni euristiche sono FASTA E BLAST. FASTA Fondamentali Parametri:

  • La lunghezza della parola (word o k-tup) con cui si effettua il primo passo dell’algoritmo.
  • Una soglia che decida la qualità minima degli allineamenti dell’output. Ho la matrice di punti e le due sequenze. Inizio guardando solo l’dentità e fregandomene della matrice di sostituzione. Cerco per sole identità. Cerco la lunghezza minima (se 10, non troverò nulla sotto 10). Per sequenze proteiche si suggerisce di mantenere una word o k-tup:2 per sequenze nt di k-tup: La k tup decide del rapporto tra velocità di esecuzione del programa e la sua sensitività. Se aumento la k-tup:
  • Diminuisce il background.
  • Diminuisco i tempi di calcolo
  • Aumento del rischio di identificare omologhi distanti. Step2: Calcolo d punteggi con matrice di sostituzione selezionando i 10 migliori puntegi. Prendo i 10 + lunghi (migliori match) che vengono valutati nuovamente, considerando eventuali residui da aggiungere con k-tup: 1 e sostituzioni conservative. Per ognuna delle 10 regioni si identifica un core match a punteggio più massimo e questi punteggi iniziali li troveremo nell’output col nome init1.ù Step3: valuto dopo aver tolto ciò che non ha il punteggio sufficiente, se le diagonali rimanenti possono essere unite per ottenere un allineamento decente. I nuovi punteggi si chiamano initn. Nel primo passaggio considero solo l’identità, nel secondo anche la similarità e si taglia, nel terzo si considerano anche i gap. Nell’ultimo step, step4. Prendo l’unione delle diagonali, compresi i gap e considerando la fascia ottenuta uso la programmazione dinamica rifacendo il tutto in modo esaustivo. Calcolo il nuovo punteggio opt. Lezione 7 La programmazione dinamica è un algoritmo esaustivo; il problema del confronto ha una certa dimensione e dal punto di vista computazionale è di ordine n2. FASTA  pubblicato nel 1985 da Lipman e Pearson. Algoritmi euristici  invece di guardare l’intero piano delle sequenze si trovano sistemi per risparmiare tempo.