


























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Lezione 1. RELAZIONI: - La biologia e la bioinformatica ha dei rapporti, il biologo, si occupa di effettuare esperimenti che hanno a che fare oggetti, esplorano la vita in diversi livelli gerarchici: popolazioni, organismi, cellule e molecole.
Tipologia: Appunti
1 / 66
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



























































Lezione 1. RELAZIONI:
ACCESSION NUMBER AC: indicatore unico associato ad una data sequenza nucleotidica o proteica in una banca dati al momento della sottomissione. Ac consente di tracciare la storia di una determinata sequenza nelle sue diverse versioni (anche in correzione) Una sequenza può essere associata a più AC, di cui uno solo risulterà primario. ENTRY RAPPRESENTATIVA: QUANDO ACCEDIAMO AD UNA ENTRY IL FILE RISULTERA’ LUNGO, ci sono altre informazione FT sono le caratteristiche per esempio FEATURES tra queste troviamo la traduzione del NT per esempio e sono info che uno ritrova nell’Entry con la sequenza nucleotidica. La sequenza SQ ci è indicata quanto è lunga di solito in formato è poi scritta la sequenza.
Effettuando una ricerca con l’operatore AND, otterremo una lista di entries ognuna delle quali dovrà necessariamente contenere entrambi i termini della ricerca. Se uso OR ottengo una lista di 10.00 diverse myoglobine appartenenti a diversi organismi più tutte le proteine. Se uso AND ottengo solo 33 diverse myoglobine appartenenti a diverse specie di balena MA OTTENIAMO ANCHE ALTRE MYOGLOBINE CHE NON SONO DI BALENA, ATTENIONE!!! Il motore di ricerca mi ha fregato perché ho fatto una ricerca con parole in generico e possono stare in tutta l’intestazione. Es. similar to whale sequence; noi faremo le ricerche per campi con parole scritte in posti specifici. Le parole chiave devono trovarsi in specifici campi. Campi sono quelli che corrispondono al singolo headers. La ricerca mirata è più veloce e più precisa. BANCHE DATI PRIMARIE E BANCHE DATI SPECIALIZZATE. Le primarie sono solo quelle degli acidi nucleici (DNA RNA). CI SONO 3 BANCHE DATI NEL MONDO DI ACIDI NUCLEICI:
STRUTTURA DI UN PERSONAL PC: sono piccoli calcolatori che possono offrire un’ampia gamma di potenze di calcolo, ma che si definiscono personal perché possono essere usati da una persona alla volta. PERSONAL PC FATTO DI HARDWERE: FATTO DEI PEZZI: schermo tastiera mouse processore o PCU la RAM (memoria a accesso casuale) e hard disk. La tastiera basta che funziona; il processore: ne ho di tanti tipi e marche ed è difficile confrontare processori con nomi diversi a meno che non faccio il confronto sui tempi di funzione. Il processore usa la potenza del computer. La RAM è la memoria del pc dove metto programmi e dati, è come se fosse la scrivania di lavoro, l’aspetto della memoria sono i dati interna. Se mentre lavoro va via la corrente, tt ho che ho la memoria si perde. Se voglio mantenere tutto lo salvo sul disco che è una memoria che non va a zero. I dischi ora sono flash, hanno velocità alta, occupano poco spazio e costano molto. SOFTWERE lezione 4 elementi di informatica: SOFTWERE:
Nei sistemi operativi di tipo unix, linux o macintosh le cartelle sono rappresentati con nomi ed elenchi di nomi. PROGRAMMA PER CALCOLATORE: è un oggetto informatico in cui si introducono dati (IMPUT) che il programma elabora e restituisce modificati nell’OUTPUT. I programmi vengono scritti da programmatori usando linguaggi di programmazione quali il FORTAN il C, C++, Java, il BASIC e altri. Consistono nella successione di istruzioni che consentono l’acquisizione di input e la sua elaborazione e generazione dell’output. Es. PROGRAMMA SOMMA: prende in input due numeri li elabora facendone la somma e ci da l’output. I programmi vengono scritti in linguaggi di alto livello (che noi comprendiamo e il calcolatore no) detti SORGENTE. I sorgente, vengono poi tradotti in moduli eseguibili e i trasformatori sono programmi compilatori, che trasformano. PROGRAMMA SORGENTE IL LINGUAGGIO C COMPILATORE C ESEGUIBILE. Esistono diversi compilatori per i diversi linguaggi di programmazione. I compilatori sono anche specifici per i vari sistemi operativi. I compilatori generano degli eseguibili che funzionano (girano, corrono) solo nelle macchine coi sistemi operativi per i quali sono stati compilati. Input [sorgente in C] compilatore C per windows output eseguibile per windows compilatore C per linux output eseguibile per linux compilatore C per macintosh output eseguibile per macintosh. Se noi abbiamo world su windows non posso fare copia e incolla su macintosh perché non funzionerebbe. LINUX: scritto da uno studente 21 enne nel 1991 in computer science, è stato poi implementato e migliorato da una grande quantità di persone di tutto il mondo. Il softwere open source è definito dalla sua licenza che rinuncia ai diritti di copyright che di solito spettano al creatore del softwere e da a chiunque la possibilità di modificare o ridistribuire ogni softwere open source. ALLINEAMENTO DI SEQUENZE E ACIDI NUCLEICI E PROTEINE:
La similarità è misurabile se riesco a fare un abbinamento quindi allineandole. Non si possono allineare due sq senza definire criteri di similarità. Per valutare la similarità tra due sequenze dobbiamo prima allinearle. È diverso se parlo di sequenze nt o proteiche. Allineare sequenze nt è difficile perché dal punto di vista statistico quello che si stacca dal fondo fa fatica a farlo perché ci possono essere sq che si somigliano molto più facilmente, essendo 4 a differenza delle proteine che sono 20. La bioinformatica tratta questi problemi in forma analoga come stringhe di caratteri. Se ho un allineamento, calcolo la similarità contando quanti numeri di sequenze si appaiono. Se le due sequenze non si somigliano, si generano tutti i possibili allineamenti, valuto le relaite similarità e vedo il miglior tipo di allineamento. Un buon metodo è prendere una sequenza e tenerla ferma e far scorrere la relativa sequenza. Similarità di sequenza tra le 2 sq come il + alto dei punteggi ottenuti. L’allineamento associato alla più alta valutazione della similarità di sequenza verrà scelto come il migliore degli allineamenti. Perché 30 caratteri? 1+2:3/ 3+3:6/ 6+4:10 ecc.. In generale, per confrontare due sequenze di lunghezza m e n, il num degli allineamenti generati è pari alla somma della lunghezza delle sequenze meno 1 M+N- IL NUMERO DEI CONFRONTI: MXN
Un programma per calcolatore ha un tempo di esecuzione che in generale dipende dal numeo di operazioni necessarie per eseguirlo. Un programma che calcoli similarità di sequenza tra due sequenze date deve effettuare un numero di confronti che dipende dal prodotto della lunghezza delle due sequenze. O(nm) o ordine n2 che è l’ordine dei programmi che trattano i confronti di sequenze; quando si deve effettuare una ricerca per similarità di sequenza in una banca dati l’operazione tra due sequenze deve essere ripetuta per ogni coppia di sequenza: 1 sequenza input (query sequence) 2 ognuna delle sequenze dati della banca dati. Esiste la necessità di usare algoritmi rapidi. Ci dobbiamo ricordare che però esistono le GAP ovvero la necessità di trattare l’inserimento e o la delezione dei caratteri. Se permetto al mio algoritmo di considerare inserzioni e delezioni le gap aumentano la similarità. Possiamo associare un punteggio di penalizzazione per ogni gap aggiunto all’allineamento ( gap penalty) oppure posso attribuire un punteggio di penalizzazione per ulteriori gap esteso quindi gap extension penalty; l’apertura della gap in una struttura proteica comporta uno stress che in realtà dipende soprattutto dalla regione strutturale in cui avviene l’inserimento o la delezione. Inserzioni o delezioni sono fortemente penalizzate all’interno delle regioni di struttura secondaria, in quanto costringono alla modifica delle interazioni con le strutture secondarie circostanti. Inserzioni e delezioni in generale avvengono all’interno dei loop esposti alla superfice della proteina. L’apertura di un gap non può venire penalizzata come ogni sua estensione, ma di più. Una volta che la sequenza abbia accettato una inserzione o una delezione, la penalizzazione non deve essere legata necessariamente alla sua lunghezza. È noto che esistono diversi casi in cui ci possono essere inserzioni più o meno lunghe in posizioi corrispondenti di un loop. MATRICE DI PUNTI: è una matrice dove confronto le due sequenze Lezione 5 H-index: si chiama così perché ideato da Hirsch. È uno dei parametri più usati per la valutazione di un autore di lavori scientifici. Un autore ha un h index pari a n se almeno n lavori tra quelli che ha pubblicato sono stati citati almeno n volte ciascuno.
esempio prevedere punteggi alti per l’identità tra coppie di residui, punteggi bassi ma >0 per residui simili dal punto di vista fisico chimico e negativi o uguali a zero per i diversi. MATRICE DI SOSTITUZIONE in cui ci sono tutti i residui sopra e accanto e per ogni coppia mettiamo un valore che è deciso. La matrice è una tabella che associa un valore ad ogni coppia di residui. Posso allineare: R-R:10 R-K(SIMILI):7 R-A: Ci sono 20 residui nelle proteine biologiche per cui una matrice di sostituzione è una matrice quadrata 20x20 con 400 valori che sono parzialmente ridondanti ed è SIMMETRICA. I valori più alti sono quelli della diagonale ma sono diversi. Quelli con valori più alti come il TRIPTOFANO hanno un valore elevato perché ha un grossa catena laterale idrofobica, se tolgo il triptofano scasso la proteina se cambio la ALANINA cambia poco e niente. Il punteggio più alto della colonna è quella dell’identità. Non significa che non possano esserci altri allineamenti simili.
METODI ESAUSTIVI: ci serve un algoritmo che generi il miglior allineamento possibile tenendo conto di inserzioni e delezioni valutandole in ogni loro possibile dimensione e posizione di allineamento e useremo la PROGRAMMAZIONE DINAMICA che ci consente di usare la dot-plot per allineare. Il metodo trova il miglior allineamento ma spesso l’output mostra allineamenti simili più di uno e può essere lento. Per fare l’allineamento trovo la matrice di sostituzione e dare i punteggi. Due sono molto conosciuti: Needleman e Wunsh 1970 Simith e Waterma n l’algoritmo di programmazione dinamica può essere studiato facendo 3 passaggi. Lezione 6 METODI ESAUSTIVI PER ALLINEAMENTO DI SEQUENZE: ovvero generiamo ogni possibile allineamento e non lascio niente di non guardato.
Una volta effettuato l’allineamento, mi cerco il valore più alo che di solito si trova alla fine dell’allineamento, ripercorrendo il percorso al contrario in modo decrescente.
Quello a cui punto è il confronto tra una sequenza e una banca dati di sequenze (un qualcosa di più grade). Per effettuare ricerche di similarità in banche dati, c’è comunque necessità di algoritmi più veloci di quelli in ordine n2. Metodi euristici per l’allineamento: LA CRESCITA ESPONENZIALE delle dimensioni delle banche dati di sequenze biologiche ha portato alla necessità di sviluppare programmi in grado di effettuare velocemente ricerche di similarità, grazie a soluzioni euristiche basate su assunzioni non certe ma estremamente probabili. Programmi che usano soluzioni euristiche sono FASTA E BLAST. FASTA Fondamentali Parametri: