



Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Dispensa comprendente argomenti quali: - allineamento sequenze biologiche - algoritmi euristici per la ricerca di una sequenza - allineamento multiplo sequenze biologiche
Tipologia: Schemi e mappe concettuali
1 / 7
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!




Boonformatica
diHamming la
distanza
di
Hamming tra
di
ugualelunghezzacorrisponde
al
numero
diposizioniincui si
hanno
caratteri
diversi
diedit
misura
quanto
sono
diverse
stringhe
contando
numero
minimo
di
operazioni
richieste
per
trasformare
una
stringa
nell'altra
Le
operazioni
consentite
sono
sostituzione delezione
e
inserzione diun
carattere
Programmazione
dinamica
ls.tn
Isa km
Si
costruisce
una
matrice
con
I sitirighee Isalti
colonne
2 Ogni riga
colonna
etichettata
con
un
carattere
di
Salsa
tranne
la
riga
elai
colonna
chesono
etichettate
Si
inizializza
la
matrice
riga
tg
colonna
e
ECSi
1
si
riempie
la
matrice
Els
min
se
SE
La
nom
conterrà
il
valore
della
distanza
di
tra
Sy
Ogni
cella avrai
un
puntatore
cellaprecedente
dacui
deriva ripercorrendo
i
puntatori
dalla
cellacn.ms
cella
possibile
costruire
l'allineamento
delle
stringhe
Complessità
Oca
m cnn.cmscelte
riempire
LCSuna
stringa di
lunghezza
n ha
sotto
sequenze
viene
calcolata
la
similarità
tra
duestringhe
Programmazione dinamica
15 knIsakm
1 Si
costruisce
una
matrice
conIsitirighee Isalti
colonne
2 Ogniriga
colonna
etichettata
conun
carattere
di
Salsa
tranne
la
riga
elai
colonna
che sono
etichettate
Si
inizializza
la
matrice
laprima
e laprima
colonna
s.ciet
ohiLeste
salato
tg
Si
riempie
la
matrice
sa
g
max
LCS
μ
IL
in
Say
n se
say
La
nom
conterrà
la
lunghezza
Ogni
cella
avrai un
puntatore
cella
precedente
da
cui
deriva ripercorrendo
i
puntatori
dallacella
cn.ms
cella
possibile
costruire
l'allineamento
delle
carattere appartiene
alla
soluzione
ha un
movimento
diagonale
associato
adun
aumento
di
punteggio
Complessità
O
nem
teniamo celle
una
funzione
somiglianza
che
tieneconto
modo negativodelle
differenze
edin
modopositivodelle
lettereconservate
Algoritmoottimo
Needleman Wunsch
Programmazione
dinamica
15 knIsa km
Si
costruisce
una
matrice
con
I sitirighee Isalti
colonne
2 Ogni riga
colonna
etichettata
con
un
carattere
di
tranne
la
riga
elai
colonna
che sono
etichettate
3 Si
inizializza
la
matrice
cella
o
colonna
tSilia
si
riempie
la
matrice
Elsa
s.sk
ma
È
III
match
ESilia
it
mismatch
se
say
La
n m
conterrà
punteggio
dell'allineamento
dellestringhe
Ogni
cella avrai
un
puntatore
cella
precedente
dacui
derivaripercorrendo
i
puntatori dallacella
cn.ms
cella
possibile
costruire
l'allineamento
delle
stringhe
Complessità
Onm
teniamo celle
riempire
Ocnaquadratico
nella
lunghezza
delle stringhe
trovare
due
sottostringhe
una da
una
dasailcui
allineamento
produce
migliorpunteggio
se
due
stringhe
non
sonouguali
saranno operazioni
che
possono
portare
punteggionegativo
inquelcasola
soluzione
migliore
stringhe
vuote
e
cui
punteggio
allineamento
Algoritmo
ottimo.SmithWaterman
Si
costruisce
una
matrice
con
I sitirighee Isalti
colonne
2 Ogniriga
colonna
etichettata
conun
carattere
di
tranne
la
riga
elai
colonna
che sono
etichettate
Si
inizializza
la
matrice
nella prima
riga
eprima
colonna
iii
gli
gap
si
riempie
la
matrice
Misma
se
I
greci
match
se
t.s.gl
Se
tutte
le
possibilitàportano
punteggionegativo
meglio
resettare
e
cominciare
un
nuovo
potenziale
allineamento
I
puntatori
traceback
vengono
inseriti soloquando non
resetta
e per
costruire
l'allineamento
seguono i
puntatori
dalla
cella
con
punteggio
maggiore
cella
con
punteggio
che
nessun
puntatore
Complessità
Onm
teniamo celle
riempire
Ocna
quadratico
nella
lunghezza
delle stringhe
3W T
Costruzione
modo
formanotutte
le
rotazioni della stringa di
input t
ordinanolessicograficalmente
le
rotazioni
ottenute
questomodo
ordinano anche i
suffissi
ottiene
la
matrice
l'ultima
colonna
della
matrice
ela
trasformata
Burrows
Wheeler
modo
parte
dal
suffix
array
della
stringaTla
posizione
della
corrisponde
carattere
che
nella stringa
originale
ea
sinistra
dell'i
esimo
suffisso
array
t
TESAi
se
Tempo
richiestolineare
Proprietà
per
ogni
carattere
il trankingdei
caratteri
nella
prima
colonna
della
matrice
e
ugualeall'ordine
caratterinell'ultima
colonna
l E
numero
volte
che uno
stesso
carattere
e
stato
incontrato
fino
una
certa
posizione
data
una
stringa
numeri
amo le
occorrenze
ogni
lettera
a
ashalo
stesso ordinenella
prima
e
nell'ultimacolonna
Inverso
la
ricostruiamo
la
prima
colonna
della
matriceordinando
lain
ordinealfabetico
ricostruiamo
la
stringa
originale
asx
sappiamo
che
l'ultimocarattere
inizializziamo
la
stringa
conseguenza Il
carattere
che precede
nella
stringa e
nell'ultima
colonna
ea
causa
dellerotazioni
sarai
nella
cheinizia con
proprieta
di
cerchiamo
carattere trovato
nella
prima
colonna
il
carattere che
precede sarai
nell'ultimacolonna
della
corrispondente
continua
fino a
che non
si
incontra
nell'ultimacolonna
saranno
trovati tutti
caratteri
Ricerca
esatta
matching si
fa
dall'ultimocarattere
patterndato
l'ultimo
carattere
trova
il range
della
matrice
che
iniziano
conil
carattere
dato
queste
selezionano quelle
ilcui
ultimo
carattere
corrisponde
penultimo
carattere
pattern
Datii
caratteri trovati
risale
iniziano
conil
carattere trovato
grazie
proprietà
mapping
iterail
procedimento
cercando
la
letteraprecedente
a
quella
trovata
pattern
Al
termine
matching
saranno
tante
righe
quante
sonole
occorrenze
pattern
e
sfruttando
possibilerisalire
loro
posizioni
all'interno
della
stringa
FM
index
table
perogni
e
per
ogni
carattere
memorizza il
numero
quella
riga
per
risparmiarespazio
inseriscono
checkpoint
si
memorizza
il
valore
ogni
righe se
siamo
memorizza
valore
sommano
le
occorrenze
dei
caratteri
risalendo
checkpoint
vicino
suffix
array
memorizza
le
posizioni dei
suffissi
per
risparmiarespazio
inseriscono
checkpoint
si
memorizza
il
valore
ogni
posizioni
della stringa
originale Per
trovare
la
posizione
del
match
si
sfrutta
la
proprietà
dice
dove
trovare
il
carattere
nella
prima
colonna
e
successivamente
lo
cerchiamo
array
selettivoconsiderando
che ci
siamo
spostati
posizione verso
sifa
buia
matching
esatto
una
sottostringa
può
essererappresentata come
un
intervallo
nelsa
l'intervallo
può
essere
calcolato
modo
iterativo partendo dalla
e
Ocalan
Elwin
EwaClan
Ocalan
EWei
valori iniziali
El
l 0 E 1
C
caratteri
piccoli
an
occlar.itarinBwtto
prefix
inexact
matching suffix
dell'inversa
unafoglia
radice
prefisso
la
ricercaviene
fatta
partendo
dall'ultimocarattere
della
sottostringa
e
procedendo
conuna
ricerca
profondità
dell'albero
ammettendo
dmax
mismatches
matching
approssimato
IEEE
Toma
limiteinferiore
errori con
pattern
matcha
il
genoma
Multiple
sequence
alignment
Global
allineamento
multiplo
stringhe
insieme
k
stringhe
con
gap
tale
che
il
sitIsik si 1
ogni
stringa
ottenuta
dallastringa
con
l'inserimento
gap
L'allineamento
è
dato dalle
stringhe
scritte
una
sotto l'altra
qualsiasi
ordine
Score
un
allineamento multiplo induce
allineamenti
a
coppie
stringhe
sa
possibile
calcolare
il
punteggio
per
ogni
allineamento
punteggidelle
coppie
di
allineamenti
g
ne
calcoliamo
la
somma SP
FI È
aci.gl
Si
tratta dunque
problema
di
ottimizzazione massimizzazione
trovare
l'allineamento
che
massimizza
il
punteggio
La
soluzione
può
essere
trovatatramite
programmazione
dinamica
k
stringhe
lunghezza
n
celle
riempirespazio
per
riempire una
cella
trovare
il
massimo
tra 2 1
alternative tempo
2 n
il
problema
è
NPhard
Center
star
input
ok
stringhe
si
calcolano
gli
allineamenti
perogni
coppia
stringhe
sia
punteggio
dell'allineamento
trale
stringhe
sa
spisitealsisa
si
sceglie
stringa
massimovalore
spesi cla
stringa
più
simile
altre
esaràil
centro
stella
l'allineamento
è
costruito partendo
aggiungendo
ogni
stringa
per
come era
allineata
confrontano
tutte
stringhe
loro
si
confronta
una
singola stringaa
tutte
le
altre
Complessita
k
stringhe
lunghezza
n
primo passo
calcoliamo
È
i
allineamenti
locks
allineamenti
ogni
allineamento
richiede
tempo e
spazio
complessitatotale
Ohki
Performance garantital'algoritmo
center
star è un
algoritmo
approssimazione
con
performance garantita
per
ogni
istanza
problema
il
valore
dellafunzione
ottimizzaretrovato dall'algoritmorispetto
a
quello
ottimale
non
e mai
una
certa
di stay
la
somma
delle
distanze
trovata dall'algoritmo
è il
doppio
quella
ottimale
Gg ftp.f
lineamento
progressivo
calcolano
gli
allineamenti
tutte
le
coppie
sequenze
marito
trale
coppie cheverra
utilizzato
comeguida
per
caricamento
sceglie la
coppia
sequenze
similarità
e si
raggruppanoin un
clusterfissandone
l'allineamento
Profilo un
modocomodo
per
rappresentare
un
allineamento
multiplo
è
attraverso
suo
profilo
rappresentacolonna
per
donna la
frequenza
concuisi
trova
ogni
simbolo
dell'alfabeto
più
il
gap
nell'allineamento
Allineamento
profilo
sequenza
tramite
una
matrice
programmazione
dinamicasequenzasulle
righee
profilo sulle
colonne
inizializzazione
e riga
pesatadatoche il
profilo
contiene
gap
Aci
p
ma
I
È
ematchesluismatchemismatch
l'algoritmo
procede
come
nell'allineamento
stringhe
Allineamento
profilo profilo
variante doppiamente
dell'allineamento
globale
Aasiaat
plmatchkwatch Pistmismatch
mismatch
Algoritmo
greedy
ognipasso
sceglie la
soluzione
migliore non
garantisce
la
soluzioneottimale
tid
Markov
Model
Un
modello
Markovnascosto
è
definito come una
tripletta
dove
2 è
l'alfabeto sucui
sono
costruite
stringhe
che
rappresentano
le
osservazioni
l'insieme
finito
stati
Neiun
insieme
probabilità
i
Probabilità
di
transizione
an perogni
stati
k.la
Probabilità
di
emissione
perogni
l
modello
e
nascosto
perché
gli
stati sono
nascostidietro
osservazioni
percorso èuna
sequenza
stati
la
probabilità
muoversi
verso
un
dato
stato dipende dallo
stato
precedente
probabilità cheuna
datasequenza
generata
modello
dato
il
percorso
PXII
IIe
Algoritmo di
Viterbiritorna
la
sequenza
statiche
massimizza
la
probabilità che una
stringa
osservati
generata
modello
l'algoritmo
si
basa
sullaprogrammazione
dinamica
stringadata
vieneprocessata
sinistra
a
destra
matrice
colonne
una
per
ogni
carattere
dellastringa
righe una
stato
o
la
cella
contiene
la
probabilità
percorso
probabile
degli
statiche
terminano
simbolo
x
stato
si
aggiunge lo
stato
iniziale
che
genera
il
prefisso
vuoto
con
probabilità
1 ele
altrecellenella
avrannoprobabilità
assume che la
probabilità
transizione
dallo
stato iniziale verso un
altrostato
è
puntatori
dopo aver
riempito
la
colonna
i la
soluzione ottima
per
prefisso
x
è
massimo
valore
veci
nella
colonna
riempimento
urinare
Complessità
celle stati
Forward probabilitiesdata
una
particolare osservazionepiuttosto che
lo
stato
probabile vogliamo
conoscere
la
probabilità
essere
uno
stato
Q
considerando
tutte le
possibili
alternative
a
somma
L
a
f
friulane
probabilità
trovarmi
in
uno
stato
quando
guardando
simbolo
esimodella stringa
forward
probability
Ptikka sei
E
probabilita che
modello
nellostato
quando
carattere
è
osservato
normalizzazione
e
fa
precedenti
sea a
Backward
probabilities
inizia a
riempire
la
tabella
dall'ultimacolonna
io
muove
finché
raggiunge la
colonna
like
brin
esimo
della stringa
backward
probability
P
Tekkaman
baci probabilità che
modello
nellostato quando
carattere
è
osservato
e
dati
If
successivi
seiseia
a
normalizzazione
E
baita
Unsupervised learning
cercano i
parametri
massimizzano la
probabilità cheil
modello
generi le
stringhe
osservate
hard
fa
targmax
PSi
8