Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Schemi Bioinformatics Algorithms (italiano), Schemi e mappe concettuali di Bioinformatica

Dispensa comprendente argomenti quali: - allineamento sequenze biologiche - algoritmi euristici per la ricerca di una sequenza - allineamento multiplo sequenze biologiche

Tipologia: Schemi e mappe concettuali

2020/2021

In vendita dal 22/02/2023

chiara-angileri
chiara-angileri 🇮🇹

15 documenti

1 / 7

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Sequence alignment Boonformatica
DistanzadiHammingla
distanza
di
Hamming
tra
due
stringhe
di
uguale
lunghezza
corrispondealnumero
di
posizioni
in
cui
sihanno
caratteri
diversi
istanza
diedit
misura
quanto
sono
diverse
due
stringhe
contandoil
numero
minimo
di
operazioni
richieste
per
trasformare
una
stringa
nell'altra
Le
operazioni
consentite
sono
sostituzione
delezioneeinserzione
di
un
carattere
Programmazione
dinamica ls.tnIsa
km
1Sicostruisceuna
matrice
conIsitirighe
eI
salti
colonne
2
Ogni
riga
colonnaè
etichettata
con
un
carattere
diSalsa
tranne
larigaelaicolonna
che
sono
etichettate
3Si
inizializza
la
matriceriga
0Ele
says
tg
colonna
0Es.cieti
1ECSiSay1
asi
riempie
la
matrice
Els min
ses.cisays
SE
ScieSay
nsesicit
says
5La
cellanom
conter
il
valore
della
distanza
diedit
traSieSy
Ogni
cella
avrai
un
puntatore
alla
cella
precedente
da
cui
deriva
ripercorrendo
ipuntatori
dalla
cella
cn.ms
alla
cellao.o
è
possibile
costruire
l'allineamento
delle
due
stringhe
Complessità
Oca
mcnn.cm
scelte
da
riempire
LCSuna
stringa
dilunghezzanha2sotto
sequenze
viene
calcolata
lasimilarità
tra
due
stringhe
Programmazione
dinamica 15
knIsa
km
1Sicostruisceuna
matrice
conIsitirighe
eI
salti
colonne
2
Ogni
riga
colonnaè
etichettata
con
un
carattere
diSalsa
tranne
larigaelaicolonna
che
sono
etichettate
3Si
inizializza
la
matrice la
prima
riga
ela
prima
colonna
sono0Lcs
s.ciet
ohiLeste
salato
tg
4Si
riempie
la
matriceL
csls.cisa
gmaxLCSSiliaSagi
µsu
IL
CSISin Say
nsesi
lite
say
5La
cellanom
conter
lalunghezza
dellaLcs
Ogni
cella
avrai
un
puntatore
alla
cella
precedente
da
cui
deriva
ripercorrendo
ipuntatori
dalla
cella
cn.ms
alla
cella
o.o è
possibile
costruire
l'allineamento
delle
due
stringhe
un
carattere
appartiene
alla
soluzione
sesi
ha
un
movimento
diagonale
associato
ad
un
aumento
di
punteggio
ComplessitàOnem teniamo
celle
da
riempire
pf3
pf4
pf5

Anteprima parziale del testo

Scarica Schemi Bioinformatics Algorithms (italiano) e più Schemi e mappe concettuali in PDF di Bioinformatica solo su Docsity!

Sequence alignment

Boonformatica

Distanza

diHamming la

distanza

di

Hamming tra

duestringhe

di

ugualelunghezzacorrisponde

al

numero

diposizioniincui si

hanno

caratteri

diversi

istanza

diedit

misura

quanto

sono

diverse

due

stringhe

contando

il

numero

minimo

di

operazioni

richieste

per

trasformare

una

stringa

nell'altra

Le

operazioni

consentite

sono

sostituzione delezione

e

inserzione diun

carattere

Programmazione

dinamica

ls.tn

Isa km

Si

costruisce

una

matrice

con

I sitirighee Isalti

colonne

2 Ogni riga

colonna

è

etichettata

con

un

carattere

di

Salsa

tranne

la

riga

elai

colonna

chesono

etichettate

Si

inizializza

la

matrice

riga

Ele

says

tg

colonna

0 Es.ci

e

ti

ECSi

Say

1

a

si

riempie

la

matrice

Els

min

se

s.ci

says

SE

Scie

Say

n se sicit

says

La

cella

nom

conterrà

il

valore

della

distanza

di

edit

tra

Sie

Sy

Ogni

cella avrai

un

puntatore

alla

cellaprecedente

dacui

deriva ripercorrendo

i

puntatori

dalla

cellacn.ms

alla

cella

o.o

è

possibile

costruire

l'allineamento

delle

due

stringhe

Complessità

Oca

m cnn.cmscelte

da

riempire

LCSuna

stringa di

lunghezza

n ha

sotto

sequenze

viene

calcolata

la

similarità

tra

duestringhe

Programmazione dinamica

15 knIsakm

1 Si

costruisce

una

matrice

conIsitirighee Isalti

colonne

2 Ogniriga

colonna

è

etichettata

conun

carattere

di

Salsa

tranne

la

riga

elai

colonna

che sono

etichettate

Si

inizializza

la

matrice

laprima

riga

e laprima

colonna

sono 0 Lcs

s.ciet

ohiLeste

salato

tg

Si

riempie

la

matrice

Lcsls.ci

sa

g

max

LCS

Silia

Sagi

μ

su

IL

CSIS

in

Say

n se

si

lite

say

La

cella

nom

conterrà

la

lunghezza

della

Lcs

Ogni

cella

avrai un

puntatore

alla

cella

precedente

da

cui

deriva ripercorrendo

i

puntatori

dallacella

cn.ms

alla

cella

o.o

è

possibile

costruire

l'allineamento

delle

duestringhe

un

carattere appartiene

alla

soluzione

sesi

ha un

movimento

diagonale

associato

adun

aumento

di

punteggio

Complessità

O

nem

teniamo celle

dariempire

Globalalignmentvienedefinita

una

funzione

di

somiglianza

che

tieneconto

in

modo negativodelle

differenze

edin

modopositivodelle

lettereconservate

Algoritmoottimo

Needleman Wunsch

Programmazione

dinamica

15 knIsa km

Si

costruisce

una

matrice

con

I sitirighee Isalti

colonne

2 Ogni riga

colonna

è

etichettata

con

un

carattere

di

Salsa

tranne

la

riga

elai

colonna

che sono

etichettate

3 Si

inizializza

la

matrice

cella0,

riga

cella

o

ftp.gap

colonna

cellai

okin

gap

tSilia

Sagi

gap

si

riempie

la

matrice

Elsa

s.sk

ma

È

III

match

ses.ci

says

ESilia

Say

it

mismatch

se

si

il

say

La

cella

n m

conterrà

il

punteggio

dell'allineamento

dellestringhe

Ogni

cella avrai

un

puntatore

alla

cella

precedente

dacui

derivaripercorrendo

i

puntatori dallacella

cn.ms

alla

cella

o.o

e

possibile

costruire

l'allineamento

delle

due

stringhe

Complessità

Onm

teniamo celle

da

riempire

Ocnaquadratico

nella

lunghezza

delle stringhe

Localalignment

trovare

due

sottostringhe

una da

s e

una

dasailcui

allineamento

produce

il

migliorpunteggio

se

due

stringhe

non

sonouguali

ci

saranno operazioni

che

possono

portare

adun

punteggionegativo

inquelcasola

soluzione

migliore

è

datadalledue

stringhe

vuote

e

il

cui

punteggio

di

allineamento

è 0

Algoritmo

ottimo.SmithWaterman

Si

costruisce

una

matrice

con

I sitirighee Isalti

colonne

2 Ogniriga

colonna

è

etichettata

conun

carattere

di

Salsa

tranne

la

riga

elai

colonna

che sono

etichettate

Si

inizializza

la

matrice

o

nella prima

riga

eprima

colonna

iii

Mia

gli

gap

a

si

riempie

la

matrice

Misma

nata

se

scusarsi

I

greci

is

ii

match

se

s.ci

t.s.gl

Se

tutte

le

possibilitàportano

adun

punteggionegativo

è

meglio

resettare

e

cominciare

un

nuovo

potenziale

allineamento

I

puntatori

di

traceback

vengono

inseriti soloquando non

si

resetta

e per

costruire

l'allineamento

si

seguono i

puntatori

dalla

cella

con

punteggio

maggiore

fino

allaprima

cella

con

punteggio

che

nonha

nessun

puntatore

Complessità

Onm

teniamo celle

da

riempire

Ocna

quadratico

nella

lunghezza

delle stringhe

3W T

Costruzione

modo

1 si

formanotutte

le

rotazioni della stringa di

input t

2 si

ordinanolessicograficalmente

le

rotazioni

ottenute

in

questomodo

si

ordinano anche i

suffissi

si

ottiene

la

matrice

BN

l'ultima

colonna

della

matrice

ela

trasformata

di

Burrows

Wheeler

modo

si

parte

dal

suffix

array

della

stringaTla

posizione

i

della

But

corrisponde

al

carattere

che

nella stringa

originale

ea

sinistra

dell'i

esimo

suffisso

nelsuffix

array

BUT

t

il

TESAi

1 sesati so

se

salito

Tempo

richiestolineare

Proprietà

LEmapping

per

ogni

carattere

il trankingdei

caratteri

nella

prima

colonna

f

della

matrice

Bw

e

ugualeall'ordine

dei

caratterinell'ultima

colonna

l E

numero

di

volte

che uno

stesso

carattere

e

stato

incontrato

fino

ad

una

certa

posizione

data

una

stringa

Sabaabasi

numeri

amo le

occorrenze

di

ogni

lettera

S a

b

a

arbia

ashalo

stesso ordinenella

prima

e

nell'ultimacolonna

Inverso

data

la

But

ricostruiamo

la

prima

colonna

della

matriceordinando

lain

ordinealfabetico

ricostruiamo

la

stringa

originale

da

dx

asx

sappiamo

che

l'ultimocarattere

è ed

inizializziamo

la

stringa

di

conseguenza Il

carattere

che precede

nella

stringa e

nell'ultima

colonna

ea

causa

dellerotazioni

sarai

nella

riga

cheinizia con

Graziealla

proprieta

di

LFmapping

cerchiamo

il

carattere trovato

nella

prima

colonna

il

carattere che

lo

precede sarai

nell'ultimacolonna

della

riga

corrispondente

si

continua

fino a

che non

si

incontra

nell'ultimacolonna

si

saranno

trovati tutti

i

caratteri

Ricerca

esatta

il

matching si

fa

dall'ultimocarattere

alprimodel

patterndato

l'ultimo

carattere

si

trova

il range

dirighe

della

matrice

che

iniziano

conil

carattere

dato

tra

queste

si

selezionano quelle

ilcui

ultimo

carattere

corrisponde

al

penultimo

carattere

del

pattern

Datii

caratteri trovati

si

risale

allerigheche

iniziano

conil

carattere trovato

grazie

alla

proprietà

LF

mapping

si

iterail

procedimento

cercando

la

letteraprecedente

a

quella

trovata

nel

pattern

Al

termine

del

matching

ci

saranno

tante

righe

quante

sonole

occorrenze

del

pattern

e

sfruttando

lemappingè

possibilerisalire

alle

loro

posizioni

all'interno

della

stringa

FM

index

tally

table

perogni

riga

e

per

ogni

carattere

memorizza il

numero

dioccorrenzefinoa

quella

riga

per

risparmiarespazio

si

inseriscono

dei

checkpoint

si

memorizza

il

valore

ogni

righe se

siamo

inuna

riga

incuinonci

memorizza

il

valore

si

sommano

le

occorrenze

dei

caratteri

risalendo

al

checkpoint

più

vicino

suffix

array

memorizza

le

posizioni dei

suffissi

per

risparmiarespazio

si

inseriscono

dei

checkpoint

si

memorizza

il

valore

ogni

posizioni

della stringa

originale Per

trovare

la

posizione

del

match

si

sfrutta

la

proprietà

Fmapping

ci

dice

dove

trovare

il

carattere

nella

prima

colonna

e

successivamente

lo

cerchiamo

nelsuffix

array

selettivoconsiderando

che ci

siamo

spostati

diuna

posizione verso

sifa

buia

matching

esatto

una

sottostringa

w

può

essererappresentata come

un

intervallo

nelsa

E

cmremi

l'intervallo

può

essere

calcolato

in

modo

iterativo partendo dalla

fine

diW

e

wa

Clark

Ocalan

Elwin

EwaClan

Ocalan

EWei

valori iniziali

El

l 0 E 1

It 1 1

C

an

di

caratteri

inttoma

più

piccoli

di

an

occlar.itarinBwtto

il

prefix

trie

inexact

matching suffix

trie

dell'inversa

diTunpercorso

da

unafoglia

alla

radice

daun

prefisso

dit

la

ricercaviene

fatta

partendo

dall'ultimocarattere

della

sottostringa

e

procedendo

conuna

ricerca

in

profondità

dell'albero

ammettendo

dmax

mismatches

bwa

matching

approssimato

IEEE

Toma

Dei

limiteinferiore

di

errori con

cuiil

pattern

matcha

il

genoma

Multiple

sequence

alignment

Global

Un

allineamento

multiplo

dik

stringhe

sisaSeeun

insieme

di

k

stringhe

con

gap

sisi si

tale

che

il

sitIsik si 1

ii

ogni

stringa

siè

ottenuta

dallastringa

si

con

l'inserimento

di

gap

L'allineamento

è

dato dalle

stringhe

si

scritte

una

sotto l'altra

in

qualsiasi

ordine

Score

un

allineamento multiplo induce

allineamenti

a

coppie

trale

stringhe

si

sa

edè

possibile

calcolare

il

punteggio

per

ogni

allineamento

Datii

punteggidelle

coppie

di

allineamenti

ali

g

ne

calcoliamo

la

somma SP

FI È

aci.gl

Si

tratta dunque

diun

problema

di

ottimizzazione massimizzazione

trovare

l'allineamento

che

massimizza

il

punteggio

La

soluzione

può

essere

trovatatramite

programmazione

dinamica

k

stringhe

di

lunghezza

n

nuk

celle

da

riempirespazio

only

per

riempire una

cella

trovare

il

massimo

tra 2 1

alternative tempo

2 n

il

problema

è

NPhard

Center

star

input

ok

stringhe

si

saSe

si

calcolano

gli

allineamenti

perogni

coppia

di

stringhe

sia

Als

sa

il

punteggio

dell'allineamento

trale

stringhe

si

sa

esia

spisitealsisa

si

sceglie

la

stringa

siconil

massimovalore

di

spesi cla

stringa

più

simile

alle

altre

esaràil

centro

stella

l'allineamento

è

costruito partendo

da

si

ed

aggiungendo

ogni

stringa

per

come era

allineata

consi

nonsi

confrontano

tutte

le

stringhe

tradi

loro

si

confronta

una

singola stringaa

tutte

le

altre

Complessita

k

stringhe

di

lunghezza

n

al

primo passo

calcoliamo

È

i

allineamenti

locks

allineamenti

ogni

allineamento

richiede

Ong

tempo e

spazio

in

complessitatotale

Ohki

Performance garantital'algoritmo

center

star è un

algoritmo

di

approssimazione

con

performance garantita

per

ogni

istanza

del

problema

il

valore

dellafunzione

da

ottimizzaretrovato dall'algoritmorispetto

a

quello

ottimale

non

e mai

oltre

una

certa

di stay

al

più

la

somma

delle

distanze

trovata dall'algoritmo

è il

doppio

di

quella

ottimale

Gg ftp.f

lineamento

progressivo

1 si

calcolano

gli

allineamenti

tra

tutte

le

coppie

di

sequenze

marito

trale

coppie cheverra

utilizzato

comeguida

per

caricamento

3 si

sceglie la

coppia

di

sequenze

conil

più

altogrado

di

similarità

e si

raggruppanoin un

clusterfissandone

l'allineamento

Profilo un

modocomodo

per

rappresentare

un

allineamento

multiplo

è

attraverso

il

suo

profilo

rappresentacolonna

per

donna la

frequenza

concuisi

trova

ogni

simbolo

dell'alfabeto

più

il

gap

nell'allineamento

Allineamento

profilo

sequenza

tramite

una

matrice

di

programmazione

dinamicasequenzasulle

righee

profilo sulle

colonne

inizializzazione

e riga

pesatadatoche il

profilo

contiene

gap

Aci

p

ma

I

È

ematchesluismatchemismatch

l'algoritmo

procede

come

nell'allineamento

tradue

stringhe

Allineamento

profilo profilo

variante doppiamente

pesatadellaregola

dell'allineamento

globale

Aasiaat

p

Aria

gas

plmatchkwatch Pistmismatch

mismatch

Algoritmo

greedy

ad

ognipasso

si

sceglie la

soluzione

migliore non

garantisce

la

soluzioneottimale

allafine

tid

den

Markov

Model

Un

modello

di

Markovnascosto

è

definito come una

tripletta

M 2 Qa

dove

2 è

l'alfabeto sucui

sono

costruite

le

stringhe

che

rappresentano

le

osservazioni

Qe

l'insieme

finito

di

stati

Neiun

insieme

di

probabilità

i

Probabilità

di

transizione

an perogni

coppiadi

stati

k.la

a

d

Probabilità

di

emissione

ex

b

perogni

keQe

be

l

modello

e

nascosto

perché

gli

stati sono

nascostidietro

alle

osservazioni

Un

percorso èuna

sequenza

di

stati

la

probabilità

di

muoversi

verso

un

dato

stato dipende dallo

stato

precedente

an

Patel

liti k

La

probabilità cheuna

datasequenza

xsia

generata

dal

modello

dato

il

percorso

te

PXII

an

IIe

kit

aria

Algoritmo di

Viterbiritorna

la

sequenza

di

statiche

massimizza

la

probabilità che una

stringa

di

osservati

sia

generata

dal

modello

l'algoritmo

si

basa

sullaprogrammazione

dinamica

ela

stringadata

vieneprocessata

da

sinistra

a

destra

matrice

conle

colonne

una

per

ogni

carattere

dellastringa

e la

righe una

perogni

stato

o

la

cella

veli

contiene

la

probabilità

del

percorso

più

probabile

degli

statiche

terminano

conil

simbolo

x

allo

stato

te

si

aggiunge lo

stato

iniziale

che

genera

il

prefisso

vuoto

con

probabilità

1 ele

altrecellenella

riga

avrannoprobabilità

o

si

assume che la

probabilità

di

transizione

dallo

stato iniziale verso un

altrostato

è

Mai

siaggiungonoi

puntatori

dopo aver

riempito

la

colonna

i la

soluzione ottima

per

il

prefisso

x

è

il

massimo

valore

veci

nella

colonna

riempimento

veli

t.ee

ti

ma

urinare

Complessità

Olris_

celle stati

Forward probabilitiesdata

una

particolare osservazionepiuttosto che

lo

stato

più

probabile vogliamo

conoscere

la

probabilità

di

essere

in

uno

stato

Q

considerando

tutte le

possibili

alternative

damax

a

somma

L

lite

a

f

friulane

probabilità

di

trovarmi

in

uno

stato

e

quando

sto

guardando

il

simbolo

i

esimodella stringa

forward

probability

Ptikka sei

E

probabilita che

il

modello

sia

nellostato

quando

il

carattere

è

osservato

edati

normalizzazione

e

fa

i

precedenti

sea a

Backward

probabilities

si

inizia a

riempire

la

tabella

dall'ultimacolonna

belli

io

cisi

muove

dadxasx

finché

nonsi

raggiunge la

colonna

be

like

brin

aereelei i

esimo

della stringa

backward

probability

P

Tekkaman

baci probabilità che

il

modello

sia

nellostato quando

il

carattere

è

osservato

e

dati

If

i

successivi

seiseia

a

normalizzazione

E

baita

Unsupervised learning

si

cercano i

parametri

che

massimizzano la

probabilità cheil

modello

generi le

stringhe

osservate

NP

hard

fa

targmax

PSi

Se

8