Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


principi di bioinformatica, Sintesi del corso di Bioinformatica

Utili per passare un esame universitario, facili da comprendere

Tipologia: Sintesi del corso

2025/2026

In vendita dal 05/02/2026

sofia-campagnolo-2
sofia-campagnolo-2 🇮🇹

2 documenti

1 / 19

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Le Macromolecole Biologiche: logiche comuni 🧬
Breve richiamo alle proprietà strutturali che influenzano funzione e stabilità.
Legame peptidico: possiede un parziale carattere di doppio legame, che limita la rotazione
e conferisce rigidità alla catena polipeptidica.
Purine vs Pirimidine: le purine (adenina, guanina) hanno due anelli eterociclici; le
pirimidine (citosina, timina, uracile) ne hanno uno solo.
Impilamento delle basi: stabilizza la doppia elica tramite interazioni idrofobiche (una
forma di van der Waals); l’impilamento contribuisce più dei soli legami H alla stabilità
globale del DNA.
Solchi maggiore/minore: l’attacco asimmetrico delle basi allo scheletro zucchero-fosfato e
l’angolo glicosidico diverso sui due lati generano un solco maggiore e uno minore, con
rilevanza per il riconoscimento proteico.
Struttura del DNA: elementi chiave 🧬
Filamenti antiparalleli: il DNA duplex è formato da due filamenti che corrono in direzione
opposta (5’→3’ contro 3’→5’).
Complementarietà delle basi: A-T (2 legami H) e G-C (3 legami H); il contenuto in G+C
influisce sulla stabilità termica.
Notazione delle sequenze: un singolo filamento si legge 5’→3’; per scrivere il filamento
complementare si riporta anch’esso 5’→3’. Esempio:
oFilamento: 5’-AGCATTCG-3’
oComplementare scritto 5’→3’: 5’-CGAATGCT-3’
Unità di lunghezza del DNA
Unità Valore
bp (base pair) 1
Kbp (kilobase) 10^3 bp
Mbp (megabase) 10^6 bp
Gbp (gigabase) 10^9 bp
Proprietà fisico-chimiche degli acidi nucleici 🧬
Assorbanza a 260 nm: gli acidi nucleici assorbono UV a 260 nm; la denaturazione aumenta
l’assorbanza (~+40%) — hyperchromic shift.
Tm (temperatura di melting): temperatura a cui i filamenti si separano; dipende da:
ocontenuto in G+C (più G+C → Tm più elevata);
oforza ionica della soluzione (cazioni schermano cariche negative);
olunghezza della sequenza;
opresenza di gap o mismatches.
Agenti denaturanti: DMSO, formammide e pH elevato riducono legami H e abbassano il
Tm.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13

Anteprima parziale del testo

Scarica principi di bioinformatica e più Sintesi del corso in PDF di Bioinformatica solo su Docsity!

Le Macromolecole Biologiche: logiche comuni 🧬

Breve richiamo alle proprietà strutturali che influenzano funzione e stabilità.  Legame peptidico : possiede un parziale carattere di doppio legame, che limita la rotazione e conferisce rigidità alla catena polipeptidica.  Purine vs Pirimidine : le purine (adenina, guanina) hanno due anelli eterociclici; le pirimidine (citosina, timina, uracile) ne hanno uno solo.  Impilamento delle basi : stabilizza la doppia elica tramite interazioni idrofobiche (una forma di van der Waals); l’impilamento contribuisce più dei soli legami H alla stabilità globale del DNA.  Solchi maggiore/minore : l’attacco asimmetrico delle basi allo scheletro zucchero-fosfato e l’angolo glicosidico diverso sui due lati generano un solco maggiore e uno minore, con rilevanza per il riconoscimento proteico.

Struttura del DNA: elementi chiave 🧬

Filamenti antiparalleli : il DNA duplex è formato da due filamenti che corrono in direzione opposta (5’→3’ contro 3’→5’).  Complementarietà delle basi : A-T (2 legami H) e G-C (3 legami H); il contenuto in G+C influisce sulla stabilità termica.  Notazione delle sequenze : un singolo filamento si legge 5’→3’; per scrivere il filamento complementare si riporta anch’esso 5’→3’. Esempio: o Filamento: 5’-AGCATTCG-3’ o Complementare scritto 5’→3’: 5’-CGAATGCT-3’

Unità di lunghezza del DNA

Unità Valore bp (base pair) 1 Kbp (kilobase) 10^3 bp Mbp (megabase) 10^6 bp Gbp (gigabase) 10^9 bp

Proprietà fisico-chimiche degli acidi nucleici 🧬

Assorbanza a 260 nm : gli acidi nucleici assorbono UV a 260 nm; la denaturazione aumenta l’assorbanza (~+40%) — hyperchromic shift.  Tm (temperatura di melting) : temperatura a cui i filamenti si separano; dipende da: o contenuto in G+C (più G+C → Tm più elevata); o forza ionica della soluzione (cazioni schermano cariche negative); o lunghezza della sequenza; o presenza di gap o mismatches.  Agenti denaturanti : DMSO, formammide e pH elevato riducono legami H e abbassano il Tm.

Il Dogma centrale e la replicazione del DNA 🧬

Dogma centrale (Crick, 1957) : informazione → DNA → RNA → proteine; il DNA serve sia alla duplicazione sia alla sintesi degli RNA.  Replicazione semiconservativa : ad ogni duplicazione ogni doppia elica genera una molecola figlia contenente un filamento vecchio e uno neo-sintetizzato.  Chimica della polimerizzazione del DNA :

  1. Attacco nucleofilo del gruppo 3’ OH sull’alfa-fosfato del dNTP in entrata.
  2. Allungamento al terminale 3’ con rilascio di pirofosfato (PPi).
  3. Idrolisi del PPi che rende irreversibile la reazione.

Genomi: organizzazione e contenuto 🧬

Genoma nucleare e degli organelli

Genoma nucleare : nei eucarioti è costituito da molecole lineari (cromosomi) fortemente compattate in cromatina (≈50% DNA : 50% proteine).  Organelli : mitocondri e plastidi hanno genomi tipicamente piccoli, circolari, molte copie per cellula e meccanismi replicativi simili ai batteri.  Genoma umano : o ~3 Gbp nel nucleare (23 paia di cromosomi; 22 autosomi + cromosomi sessuali). o Genoma mitocondriale: molecola circolare di 16.569 bp, molte copie per mitocondrio. o Numero di geni: ~25–30.000; solo ≈3% del genoma codifica proteine; 40–50% è ripetitivo.

Compattamento e densità genica

 Genomi più complessi tendono ad avere minore densità genica (meno geni per Mbp) a causa di introni più lunghi, regioni regolatrici estese e sequenze intergeniche.  Componenti di un genoma complesso: o DNA altamente ripetitivo (R >100.000) — bassa complessità informativa. o DNA moderatamente ripetitivo (10 < R < 10.000). o DNA a singola copia (R = 1–2) — alta informazione (geni e elementi funzionali).

Esempi di organizzazione genomica nei procarioti

Specie Molecole di DNA Dimensione (Mb) N° di geni Escherichia coli K12 1 molecola circolare 4.639 4397 Vibrio cholerae 2 molecole circolari (cromosoma + megaplasmide)

Deinococcus radiodurans 4 molecole circolari

Borrelia burgdorferi cromosoma lineare + plasmidi circolari/lineari

Genetica del codice e questioni pratiche

Codice genetico : degenerato (più codoni codificano lo stesso amminoacido).  Geni interrotti : presenza di introni e esoni ; tipico degli eucarioti.  Quanti tRNA esistono? o Esistono 61 codoni sensi per amminoacidi, ma il numero di specie di tRNA è minore grazie al wobble nella terza posizione del codone. o Tipicamente: batteri ~30–40 tRNA differenti; eucarioti variano (anche >40); il mitocondrio umano ne ha 22. Il numero esatto dipende dall’organismo e dal genoma tRNA codificante.

Trascrizione e processamento degli RNA 🧬

Trascrizione : sintesi dell’RNA a partire dal DNA; meccanismo generale coinvolge un promotore, sito di inizio (start), unità trascrizionale e terminatore.  Componenti dell’unità trascrizionale : o Promotore : elemento regolatore a cui si legano fattori e RNA polimerasi. o Sito d’inizio : posizione +1 dove inizia la sintesi dell’RNA. o Trascritto : sequenza sintetizzata (pre-mRNA negli eucarioti). o Terminatore : segnala la fine della trascrizione.  Regolazione : la trascrizione è un punto cruciale per controllare l’espressione genica (attivatori, repressori, rimodellamento della cromatina).  Processing degli RNA (eucarioti) : o 5’ capping del pre-mRNA per stabilità e riconoscimento da ribosoma. o Poliadenilazione 3’ per stabilità e esportazione. o Splicing : rimozione degli introni; gli snRNP e il spliceosoma catalizzano il processo. o Splicing alternativo : genera isoforme multiple proteiche da uno stesso gene aumentando la diversità proteica.

Proteine: organizzazione strutturale e sintesi 🧬

Strutture proteiche : primaria (sequenza), secondaria (α-eliche, β-foglietti), terziaria (ripiegamento), quaternaria (multiproteine).  Cenni su sintesi proteica: traduzione dell’mRNA in polipeptide sui ribosomi; richiede tRNA, fattori di traduzione, GTP/ATP.

Tecniche di ibridazione e principi sperimentali 🧬

Ibridazione liquido/liquido : sonda e target in soluzione; usata in tecniche come PCR e sequenziamento.  Ibridazione solido/liquido : target immobilizzato su supporto; usata in Southern blot e screening di librerie.  Principio della Tm usato per ottimizzare condizioni di ibridazione e stringenza.

Bioinformatica: banche dati e strumenti 🧬

Banche dati 

Classificazione : o Primarie : depositi di sequenze grezze (es. GenBank, EMBL, DDBJ). o Secondarie : annotazioni e database derivati (es. RefSeq). o Specializzate : famiglie proteiche, domini, strutture, pathway.  Inserimento dati : procedure di submission che richiedono metadati; aggiornamenti e annotazioni aggiuntive nelle BD secondarie.  Programmi di ricerca : interfacce web e tool per ricerca testuale e per sequenza (BLAST, FASTA).

Allineamento di sequenze e significato biologico 🧬

Significato : l’allineamento identifica omologia, conservazione funzionale, relazioni evolutive e possibilità di predire struttura/funzione.  Metodologie principali : o Dot-plot : rappresentazione grafica per visualizzare regioni di similarità/riarrangiamento. o Allineamento globale : allinea sequenze per tutta la loro lunghezza — algoritmo di Needleman–Wunsch. o Allineamento locale : identifica regioni simili all’interno di sequenze più lunghe — algoritmo di Smith–Waterman. o Allineamenti rapidi per BD : FASTA e BLAST (heuristiche per ricerca veloce di omologia). o Allineamento multiplo : programmi come ClustalW e T-Coffee per più sequenze contemporaneamente.  Matrici di sostituzione : es. PAM, BLOSUM — forniscono punteggi per sostituzioni residue/amminoacidiche basate su statistiche evolutive.  Uso nello screening : BLAST/FASTA cercano sequenze simili in grandi database; Smith– Waterman è usato per confronto accurato fra due sequenze; Needleman–Wunsch per confronti globali di qualità.

Programmi e algoritmi (sintesi)

Scopo Programmi/Algoritmi Allineamento globale Needleman–Wunsch Allineamento locale Smith–Waterman Ricerca su DB (heuristica) BLAST, FASTA Allineamento multiplo ClustalW, T-Coffee Visualizzazione similitudini Dot-plot Matrici di sostituzione PAM, BLOSUM

rotture. Formazione di dimeri di timina Ponti tra timine adiacenti (UV) che bloccano replicazione/causano errori. Formazione di addotti (alchilazione) Modificazioni covalenti delle basi che impediscono appaiamenti corretti.

Fattori ambientali responsabili di danni al DNA ⚠️ 🧬

Agenti chimici mutageni : alchilanti, intercalanti, composti reattivi.  Radiazioni : UV (dimeri di T), raggi X e ionizzanti (rotture a singolo/doppio filamento).  Dieta e fumo : generano stress ossidativo che causa danni ossidativi e addotti.

Splicing dell’RNA e organizzazione genica ✂️

Negli eucarioti la maggior parte del DNA genico non è codificante: in media solo il 5% di un gene codifica la proteina; il resto sono introni e sequenze regolatorie. Dallo stesso gene possono derivare più proteine tramite splicing alternativo.  Splicing : rimozione degli introni dall’RNA primario e giunzione degli esoni per formare mRNA maturo.  Splicing alternativo : combinazioni diverse di esoni producono isoforme proteiche diverse da un unico gene (aumenta la diversità proteica senza aumentare il numero di geni).

Struttura di un gene e segnali regolatori 🧬

Regione codificante : dirige la sintesi del polipeptide.  TSS (Transcription Start Site) : sito di inizio della trascrizione.  Promotore : regione a monte del TSS che funge da piattaforma per l’assemblaggio della RNA polimerasi e fattori.  UTR 5' e 3' : regioni non tradotte nell’mRNA che regolano stabilità, traduzione e localizzazione.  Terminatore (TTS) : segnale per arrestare la trascrizione.  Unità trascrizionale : tratto di DNA copiato in un singolo trascritto primario. Differenze chiave:  Geni procariotici : generalmente continui, spesso organizzati in operoni (più geni sotto controllo di un unico promotore).  Geni eucariotici : di solito discontinui, con introni; mRNA subiscono maturazione e processamento. La scoperta che l’RNA citoplasmatico degli eucarioti non corrispondeva sempre direttamente alla sequenza genica nucleare (introni/esoni) portò alla riformulazione dell’idea di struttura genica. I geni non sono tutti orientati nello stesso senso e hanno dimensioni altamente variabili.

Relazione tra GENI, mRNA e PROTEINE

Co-direzionalità : direzione di trascrizione e traduzione correlate.

Procarioti : spesso co-lineari (un gene → una proteina).  Eucarioti : mRNA maturi possono derivare da un gene e generare più prodotti proteici tramite splicing alternativo (un gene → molte proteine).

Il codice genetico 🧬🧬

Il codice traduce triplette di nucleotidi ( codoni ) in amminoacidi. È basato su triplette (3 basi → 1 aa), non ha punteggiatura e presenta proprietà peculiari che riducono l’impatto delle mutazioni.  Codoni totali : 64 possibili combinazioni (4^3). o 61 codoni codificano amminoacidi. o 3 codoni standard di stop: UAA, UAG, UGA. o Start canonico : AUG (codifica Met); nei batteri anche GUG o UUG possono funzionare come start.  Degenerazione : la maggior parte degli amminoacidi è codificata da più codoni (sinonimi); Met e Trp hanno un unico codone.  Wobble (oscillazione) : variazioni soprattutto nella terza posizione del codone spesso consentono lo stesso amminoacido, riducendo l’effetto delle mutazioni e degli errori di lettura.  Proprietà chimico-funzionali correlate : o Codoni con pirimidina (Pyr) in 2ª posizione tendono a codificare aa idrofobici. o Codoni con purina (Pur) in 2ª spesso codificano aa polari. o Se le prime due basi sono C o G, la terza base spesso non influenza l’amminoacido (es. prolina, alanina, arginina, glicina).

Eccezioni: il codice mitocondriale 🧬

Nel mitocondrio alcune regole cambiano:  UGA codifica Trp invece di stop.  AUA può specificare Met (interno).  In alcuni mitocondri sono usati come stop anche AGA e AGG.

Esperimenti che hanno definito il codice (storia) 🧬

Marshall Nirenberg : sintetizzando RNA omopolimeri, dimostrò che poli(U) dirigeva la sintesi di polifenilalanina → primo indizio sul legame codone→aa.  Usando polinucleotidi ripetuti di lunghezza 2 o 3 si mostrò che il codice è formato da triplette e privo di punteggiatura.  Crick e Sydney Brenner : esperimenti genetici con virus dimostrarono che inserzioni/delezioni di 1 o 2 basi causano frameshift e fenotipi mutanti; inserzioni/delezioni multiple di 3 mantenevano in gran parte il frame e il fenotipo.

Effetto delle mutazioni sul prodotto proteico (frameshift e

non) 🧬

NCBI (GenBank) — USA "Sequence Databases = the Book of Life" Le basi di sequenze rappresentano l’archivio pubblico delle sequenze nucleotidiche e proteiche, scambiate giornalmente tra i centri primari. Storia essenziale:  1960–70s: raccolta sequenze proteiche (Dayhoff, PIR).  1982: database di sequenze nucleotidiche EMBL e GenBank.  GenBank, EMBL, DDBJ formano la International Nucleotide Sequence Database Collaboration. Strumenti di submission:  WebIn (EMBL) e BankIt (GenBank) per l’invio via web.

Che cos’è un database biologico? 🧬

Definizione e caratteristiche:  Collezione strutturata e cercabile di informazioni ( records/entries ).  Ogni entry è composta da campi (fields) predefiniti: nome, lunghezza, sequenza, origine tassonomica, ecc.  È indicizzato (ricerche), aggiornato periodicamente (release) e cross-referenziato (link ad altri DB).  Lo scopo principale è permettere retrieval avanzati tramite query su campi specifici (es.: trovare tutte le proteine umane enzimi di 1000–1200 aa).

Tipi di database 🧬

Primary databases : contengono dati sperimentali inviati direttamente dai ricercatori (sequenze nucleotidiche, proteiche, strutture). I dati sono archiviali e non vengono modificati una volta assegnato l’ accession number (identificatore permanente).  Secondary databases (curated) : derivano dall’analisi dei dati primari, integrano informazioni da più fonti (letteratura, vocabolari controllati) e sono altamente curate tramite algoritmi e intervento manuale.  Hybrid databases : combinano caratteristiche primarie e secondarie (es.: UniProt accetta sequenze sperimentali ma fornisce anche annotazioni automatiche e manuali — TrEMBL vs Swiss-Prot). Esempi di grandi centri: NCBI , EBI.

Organizzazione delle entries e formati ✳️

Oggetto principale: ENTRY — unità con identificatore univoco e descrizione organizzata in campi standard (HEADERS). Versioni di una entry:

Flat-file : testo semplice formattato, non interattivo (facile da scambiare).  HTML/XML : visualizzazione interattiva e più fruibile via web. Struttura generale di un flatfile: Parte Descrizione Header Informazioni specifiche della banca dati: nome, lunghezza, tipo di molecola, divisione, data di immissione/aggiornamento, definition line, accession Feature table Annotazioni biologiche (gene, CDS, mRNA, note, cross-references, qualifiers) Sequence La sequenza nucleotidica o amminoacidica vera e propria (termina con // nei formati DDBJ/GenBank/EMBL) Formato comune di scambio: FASTA (linea di definizione preceduta da >, seguita dalla sequenza).

Header: campi chiave

Definition line : descrizione sintetica dell’entry.  Accession number : identificatore permanente da citare nelle pubblicazioni.  Date : immissione e ultima modifica (in alcuni DB).  Source / Organism e informazioni tassonomiche (EMBL usa OS/OC; GenBank usa Source/Organism).  Reference : almeno una citazione bibliografica; spesso include link a PubMed/DOI.

Tipologie di accession numbers (esempi)

Tipo di record Esempio formato GenBank/EMBL/DDBJ nucleotide U12345 (1 lettera + 5 cifre) o AY123456 (2 lettere + 6 cifre) GenPept (proteine da nucleotide) AAA12345 (3 lettere + 5 cifre) Swiss-Prot (protein) P12345, Q9JJS7 (6 caratteri con formato specifico) RefSeq nucleotide NM_000492 (2 lettere + underscore + 6 cifre) RefSeq protein NP_ PDB (strutture) 1TUP (1 cifra + 3 lettere)

La Feature Table: annotazioni biologiche 🧬

La Feature Table rappresenta l’informazione biologica in modo strutturato; esempi di chiavi e qualifiers:  source : organism, mol_type, chromosome, map, db_xref (collegamento alla banca tassonomica).  gene : nome, location.  mRNA / CDS : coordinate (join per esoni), product, codon_start, protein_id, translation (sequenza amminoacidica), note su metodo di determinazione.  Cross-references a DB esterni (FLYBASE, GOA, UniProtKB, InterPro, GI, TAXON). Esempio di uso: una CDS può apparire con /product, /protein_id, /db_xref e la sequenza tradotta sotto /translation.

 Integrare informazioni da database primari e secondari per generare ipotesi testabili sperimentalmente.

Sequenza nucleotidica (esempio) 🧬

acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata catttcgata catcgaaatc atggtagtgt tggagacgga gaaggtaaga cgatgataga cggcgagccg catgggttcg atttgcgctg agccgtggca gggaacaaca aaaacagggt tgttgcacaa gaggggaggc gatagtcgag cggaaaagag tgcagttggc gtggctacat catcattgtg ttcaccgatt attttttgca caattgctta atattaattg tacttgcacg ctattgtcta cgtcatagct atcgctcatc tctgtctgtc tctatcaagc tatctctctt (La sequenza di lettere a, c, g, t rimane invariata in quanto codice biochimico). Questo tipo di frammento nucleotidico è un punto di partenza tipico per le ricerche nei database e le analisi successive.

Ricerca di sequenze nei database 🧬

Identificatore chiave necessario: ogni interrogazione (query) di un database richiede almeno un elemento identificativo per il bersaglio. Chiavi tipiche: o Nome del gene — utile quando esiste un'annotazione. o Sequenza del gene — sequenza grezza di nucleotidi o aminoacidi per ricerche di somiglianza. o Altri metadati — organismo, numeri di accesso, parole chiave funzionali. Tipo di sequenza in input Descrizione Nucleotidica DNA genomico, frammenti di mRNA/cDNA — possono essere regioni genomiche grezze o trascritti. Aminoacidica Sequenze proteiche derivate dalla traduzione o dalla proteomica sperimentale. Genomica vs mRNA/cDNA vs proteina La genomica contiene introni/regioni regolatorie; l'mRNA/cDNA rappresenta il trascritto sottoposto a splicing; la proteina è il prodotto funzionale. Completa o frammentaria Le sequenze complete offrono un contesto più ricco; i frammenti sono comunque utili per ricerche di somiglianza ma richiedono un'interpretazione attenta. Cosa si vuole comunemente imparare da una sequenza:Somiglianza con geni noti: trovare omologhi, misurare la vicinanza e la significatività statistica.  Informazioni genomiche: posizione cromosomica, alleli, regioni regolatorie.  Informazioni strutturali: strutture 3D note, domini proteici, motivi.  Annotazione funzionale: funzione molecolare, ruolo cellulare, associazioni con malattie.  Contesto evolutivo: presenza in altri organismi, distribuzione filogenetica, ortologhi/paraloghi.

Nota: le corrispondenze esatte sono rare; l'obiettivo tipico è recuperare un insieme di sequenze simili , dove differenze sia piccole (SNP) che grandi (cambiamenti di dominio) possono essere biologicamente significative.

La bioinformatica come scienza sperimentale 🧬

L'uso dei risultati dei database per trarre conclusioni biologiche è un esperimento e deve seguire il rigore scientifico.

Perché allineare due sequenze? 🧬

Determinare omologia : stabilire se discendono da un antenato comune.  Inferire funzione comune : sequenze omologhe spesso condividono funzione.  Localizzare elementi funzionali : motivi, domini conservati.  Inferire struttura proteica : se è nota per una delle sequenze, l’allineamento può guidare il modello strutturale. Un allineamento è una disposizione reciproca di due sequenze che mostra corrispondenze e differenze; un allineamento ottimale è quello con punteggio massimo (massime corrispondenze, minori differenze), ma può non essere biologicamente significativo.

Similarità vs Omologia 🧬

Similarità : quantità misurabile (es. % identità).  Omologia : proprietà qualitativa — discendenza da un gene ancestrale comune. La similarità può essere alta o bassa; l’omologia è una conclusione evolutiva. Termine Definizione Paralogo Gene duplicato all'interno dello stesso genoma (es. α- e β-globine umane). Ortologo Gene in specie diverse derivante da speciazione (es. α-globina uomo vs topo). Perché cambiano le proteine?  Mutazioni neutrali che non alterano struttura/funzione.  Ridondanza funzionale (più copie con stessa funzione) permette variazione mantenendo la funzione.

Tipi di modifiche alle sequenze (mutazioni) 🧬

Tipo Descrizione Esempio Inserzione Aggiunta di uno o più caratteri AAGA → AAGTA Delezione Perdita di caratteri AAGA → AGA Sostituzione Sostituzione di un carattere AAGA → AACA Indel (^) Termine generico per inserzione o delezione — Le indel derivano da eventi evolutivi e influenzano come si inseriscono gap negli allineamenti.

Lineare : ogni posizione di gap costa d (totale = d × lunghezza_gap). Esempio: d = -4.  Affine : apertura del gap costa d, ogni estensione costa e (di solito e > d in valore assoluto). Esempio: d = -4, e = -1 → costo gap di lunghezza L = d + e*(L-1). Affinare il costo gap riflette meglio la biologia (un singolo evento indel lungo è spesso più plausibile di molte aperture di gap separate).

Matrici di sostituzione (scoring matrices) 🧬

Permettono “pesature” per ogni coppia di caratteri, andando oltre identità vs non-identità; catturano informazioni evolutive/statistiche.

Matrici per DNA

Esempio semplice (valori esemplificativi): A G C T A +2 -6 -6 - G -6 +2 -6 - C -6 -6 +2 - T (^) -6 -6 -6 + Concetti chiave:  Transitions (purina↔purina, pirimidina↔pirimidina) avvengono più spesso e spesso ricevono punteggi meno negativi rispetto alle transversions (purina↔pirimidina).  Pertinenza del “wobble” e delle substitution silent: molte transitions sono silenti e quindi più frequenti e più tollerate.

Matrici per proteine

Criteri per valutare una sostituzione aminoacidica:  Identità : stesso residuo.  Somiglianza biochimica : es. S↔T più simile di S↔W.  Conservazione evolutiva : alcuni residui sono più “immutabili”. Classificazione gruppi aminoacidici:  Aromatici : W Y F  Idrofobici : V I L M A  Polari carichi : K R D E  Polari non carichi : H C S T Q N P G Una matrice di sostituzione 20×20 assegna punteggi a tutte le 210 coppie possibili (20 diagonali + 190 sostituzioni). Esempio estremamente semplice: matrice identità (utile solo per sequenze molto simili), diagonale positiva, zeri altrove.

Matrici PAM (Point Accepted Mutation) 🧬

 Sviluppate da Dayhoff (1978).  Metodo evolutivo: partire da allineamenti globali di famiglie di proteine correlate, calcolare la probabilità che un amminoacido cambi in un altro attraverso tempi evolutivi brevi.  PAM1 : definito come il tempo durante il quale ogni 100 residui subisce in media 1 mutazione accettata. Da PAM1 si ottengono PAMn moltiplicando matrici (PAMn = PAM1^n), rappresentando più passi evolutivi.  Più alto l’indice PAM, più permissiva è la matrice (si allontana dalla identità).  Scegliere PAM basso per proteine vicine; PAM alto per proteine distanti.

Conversione in score (matrice di punteggi)

Dalla matrice di probabilità Mij e dalla frequenza casuale Cij:  Sij = 10 × log10( Mij / Cij ) (valori log-odds scalati, usati nei programmi di allineamento) Questi punteggi sono sommabili per ottenere il punteggio dell’allineamento.

BLOSUM (breve nota) 🧬

 Basate su allineamenti locali (blocchi conservati).  Derivate statisticamente osservando sostituzioni in blocchi non ridondanti a varie soglie di identità (es. BLOSUM62). (Non sono sviluppate nel dettaglio nel testo, ma sono usate in pratica per allineamenti locali.)

Linee guida pratiche e osservazioni finali 🧬

 Diversi sistemi di punteggio possono produrre allineamenti diversi: scelta di matrice e penalità per gap influenza fortemente il risultato.  Gap ben calibrati (apertura vs estensione) riflettono eventi biologici reali: un lungo indel è spesso meno penalizzante di più aperture multiple.  Per proteine poco divergenti usare matrici permissive a basso indice (es. PAM30 o BLOSUM80); per proteine molto divergenti usare matrici più permissive (es. PAM250, BLOSUM45).

Matrici PAM 🧬🧬

Definizione e costruzione

PAM (Point Accepted Mutation) : serie di matrici ottenute partendo da PAM1 (una matrice di probabilità di sostituzione per 1 passo evolutivo) e moltiplicandola per se stessa per ottenere PAMn (es. PAM250 = PAM1^250).  Le matrici originali di probabilità indicano la probabilità che un amminoacido i diventi j in un dato numero di passi evolutivi.

Interpretazione dell’indice PAM

BLOSUM (Blocks Substitution Matrix) : introdotte da Henikoff & Henikoff (1992), derivate da allineamenti multipli senza gap di brevi sequenze conservate (database BLOCKS).  Metodo: o Si raccolgono blocchi conservati (3–60 aa) da famiglie di proteine correlate. o Le sequenze simili vengono raggruppate secondo una soglia di identità prefissata; all’interno dei gruppi le sequenze contano come un’unica sequenza per evitare sovrarappresentazione. o Si calcolano le frequenze di sostituzione osservate tra amminoacidi.  L’ indice BLOSUM indica il livello minimo di identità usato per raggruppare sequenze: Esempio: BLOSUM80 richiede almeno l’80% di identità fra le sequenze del blocco.

Caratteristiche pratiche

 Non si basano su modelli evolutivi di accumulo di mutazioni successive (a differenza delle PAM), ma su osservazioni empiriche di sostituzioni reali in blocchi conservati.  L’uso del raggruppamento riduce il bias dovuto a sequenze molto simili nella stessa famiglia.

Differenze principali: PAM vs BLOSUM 🧬

Aspetto PAM BLOSUM Base concettuale Modello evolutivo (mutazioni successive, somma di passi) Osservazione empirica di allineamenti senza gap Significato dell’indice Indica distanza evolutiva crescente (PAM250 = più distante) Indica soglia di identità minima: indice maggiore = proteine più simili (BLOSUM80 più stringente) Trattamento delle sequenze simili Non raggruppa per evitare sovrarappresentazione Raggruppa sequenze molto simili nel calcolo per ridurre bias Tipologia di sostituzioni favorite Tende a premiare sostituzioni probabilmente dovute a singole mutazioni di base Tiene maggiormente conto di motivi strutturali/physico-chimici degli aa Applicazione tipica Allineamento globale (es. algoritmi tipo FASTA) Allineamento locale / ricerca di similarità (es. BLAST)

Uso nei programmi e note pratiche 🧬🧬

 Le BLOSUM sono generalmente preferite per ricerche di similarità locale (BLAST); le PAM erano storicamente usate più per allineamenti globali (FASTA), anche se oggi la scelta dipende dal caso d’uso e dalla matrice che meglio riflette la divergenza attesa.  L’efficacia di una matrice è strettamente legata alla valutazione dei gap : gap penalties e matrice di sostituzione vanno ottimizzati insieme per ottenere i migliori risultati di allineamento.